본문 바로가기

DATA SCIENCE

(40)
윈도우11 WSL2 default setting - 1(linux 버전 확인) 최근 윈도우11 환경 하에서 WSL2를 이용해 여러 작업을 진행하고 있습니다. 다만 아무래도 Linux나 Ubuntu 등을 사용해오지 않아 여러모로 어색한 점이 많고, 윈도우11 환경과 WSL2라는 툴이 최근에 나와서인지 구글링 등으로도 답을 찾기 쉽지 않아 차차 작성해나갈 생각입니다. 오늘은 윈도우11과 WSL2, 그리고 Microsoft Store에서 Ubuntu 등을 설치해서 진행했다는 가정 하에 기본적인 WSL2 조작법을 배워보고자 합니다. 배워볼 것은 다음과 같습니다. 1. WSL2에 설치된 linux 버전 등 확인 2. WSL2에 설치된 linux default setting 변경(기본값 변경) 3. WSL2에 설치되 linux 버전 해제 4. WSL2 단축키 5. WSL2 완전종료(중요!) ..
자체 Study RoadMap # 배경 최근의 이직과 관련해 추가적인 학습 등이 필요하다는 것을 파악하였음. 구체적으로 컴퓨터 공학적인 부분, 수학통계적 능력, 알고리즘 이해도가 있었음. 비전공자이기에 최대한 많은 것들을 접하고, 얕게라도 건드려 보고자 하였던 기존의 전략은 나쁘지 않았으나, 이제는 좀 더 하나씩 주제를 바꿔가며 깊이를 더해갈때라고 판단. # 기존의 노력(주 평균 15h 이상) 1. 매달 최소 1~2권의 관련 도서를 읽고, 소화해내고자 하였고 2. 알고리즘 스터디를 위해 매주 월요일 코딩 테스트 문제를 풀었으며 3. 페이퍼 소화 능력을 위해 자체적인 프로젝트를 기획, 구현하거나 관련 강의를 수강(Yolo 모델 구현) 4. 연 최소 한 개 이상의 관련 자격증 취득 및 공부 5. 반기별 한 개 이상의 공모전 취득
Monthly Book Review 03 : 혼자 공부하는 SQL #한빛미디어의 신간 서평 이벤트에 당첨되어 책을 제공받아 작성한 리뷰입니다. https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=282031508 혼자 공부하는 SQL 아무런 사전 지식 없는 입문자가 ‘꼭 필요한 내용을 제대로’ 학습할 수 있도록 구성했다. ‘무엇을’, ‘어떻게’ 학습해야 할지조차 모르는 입문자의 막연한 마음을 살펴, 과외 선생님이 알 www.aladin.co.kr 00. 리뷰 요약 1. 책의 내용은 SQL 전반에 걸친 내용이 빠짐없이 잘 정리되어 있어, 여러 차례의 반복학습을 통해 역량을 키우기 적합하다. 2. 다만 모든 내용을 다 담으려 하다보니 책의 구성적 측면에서 아쉬움이 많고, 자칫 환경설정 등의 작업 과정에서 흥미를 잃거나 독자의 목적과 ..
Monthly Book Review 02 : 이토록 쉬운 머신러닝&딥러닝 입문 with 사이킷런+파이토치 00. 리뷰 요약 - 이 책은 굉장히 친절하다, 적어도 머신러닝&딥러닝과 관련해 유명하다 싶은 책을 지난 1년의 시간 동안 20권은 샀고, 그 중 5권 이상을 5번 이상 정독하며 코드를 따라치는 등의 학습을 했음에도 불구하고도 부족해 블로그 등을 통해 익혀야 했던 내용들까지도 포함하여 적어도 딥러닝에 대해 어느정도 경험이 있는(함수형으로 딥러닝 모델을 작성해 프로젝트를 진행해봤거나, 이를 기반으로 간단한 공모전에 제출해보며 고민해본 사람) 사람이라면 적극 추천할만한 책. - 다만 이 책의 난이도는 생각보다 일관적이진 않다. 다소 학술적 목적에서 접근한 부분이 이 책의 가장 큰 장점임과 동시에 딥러닝을 처음 접하는 사람이라면 이 책에 담겨있는 전문가용*으로 짜여진 코드 방식이 다소 어렵게 느껴질 수 있다...
강의 리뷰 01 : The Red - The RED : Hadoop & Spark 아키텍처 딥다이브 by Brandon Lee 1. 강의 소개 빅데이터, 분산처리, spark 등에 대해 관심을 가지고 있다면 한 번쯤은 instagram이나 여러 사이트 추천 알고리즘을 통해 접할 수 있는 강의였고, 강사로 등장하시는 Brandon Lee라는 분의 이력과 강의 설명에 홀린 듯 신청하게 되는 강의. 꾸준히 강의가 진행되는 식이 아닌 녹화된 강의 영상을 일정 주기로 푸는 방식으로 강의가 진행되며, 현재 전체 6개 파트 중 3개의 파트가 업로드된 상태. 다루는 주제는 하둡, Hive, Hbase, Kafka, Spark & Livy, Delta Lake. 주요 대상은 소개 사이트에 의하면 다음과 같다. 2. 강의 평가 우선 첫 번째로 해당 강의의 내용은 생각보다 그리 유익하지는 않다. 기대감이 커서일 수도 있지만, 해당 강의를 진행하시는..
Monthly Book Review 01 : 데이터 분석가의 숫자유감 골든래빗 출판사로부터 책을 제공받아 작성했습니다. https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=276662690 데이터 분석가의 숫자유감 직장에서 흔히 발생하는, 데이터를 오해하면서 일어나는 에피소드를 만화와 글로 담았다. 그래서 재미도 있고 지식도 있다. 인과관계와 상관관계, A / B 테스트, 평균값 등 데이터 시대에 직장인 www.aladin.co.kr 00. 리뷰 요약 - 디지털 마케팅 or 데이터 분석가의 역할과 업무에 대해 궁금한 사람에게 추천, 만화의 형태로 아주 쉽게 이해가능하다. - 아래에서 볼 수 있듯 실제 책 소개에서도 2시간만에 300페이지에 해당하는 내용을 파악할 수 있다고 하는데, 나는 출퇴근 시간에 지하철에서 읽다보니 약 4~5일 ..
Apache Spark 시작하기 01. 배경 : 데이터를 수집해서 처리하는 과정에서 수십만 단위 이상의 작업을 반복적으로 처리하는 과정에서 기존의 로컬 환경 하에서 작업 속도가 지연되거나, 아예 실행되지 않는 문제 발생. 또한 데이터 사이언티스트로서의 장기적인 성장을 위해 클라우드 환경 및 Hadoop, Spark를 이용한 데이터 작업이 필수적이라 판단. 02. 과정 1. 처음부터 환경설정 및 세팅에 시간이 소요되면, 무언가를 배우는데 가장 필수적인 '재미' 요소를 쉽게 잃을 수 있기에 기본적인 환경설정이 되어있는 colab 환경과 무료 강의를 통해 시작. 강의는 바로 이것. 2. 이후에는 신간 중 가장 목적에 부합해보이는 '스파크를 이용한 자연어처리' 책을 구입해 따라해보기 시작. 하지만 굳이 책을 사지 않더라도 해당 역자의 깃허브(..
빅분기 실기 시험 리뷰 [ 요약 ] 1. 어렵진 않았음 2. 알든 모르든 그리 오래 걸리진 않을듯 3. 작업유형1은 실질적으로 pandas 이용한 데이터 조작 및 통계 문제 4. 작업유형2(머신러닝 문제)는 Random forest랑 xgb만 알고 앙상블 충분할듯 - 요청시 관련 코드 업로드 [주관식 답] (순서 무관, 정답 아닐 수 있음, 제가 쓴 답) 1. 이상치 2. 부스팅 3. ROC 곡선 4. GBM(GRADIENT BOOSTING MACHINE) 5. 하이퍼파라미터 6. 후진제거법 7. 단순대치법 8. 비지도학습 9. 과적합(과대적합) 10. 인공신경망 해석 문제로 최종 노드값과 가중치, 편향을 수치로 주어주고 푸는 문제 -1이라고 쓴 거 같음. 네이버 카페에서 리뷰 이벤트로 받은 예문사 2021 빅데이터 분석기사 ..
머신러닝 관련 기초지식 : epoch / batch_size / iteration / dataset # 머신러닝 관련 batch_size/iteration/epoch와의 관계 1,000개의 데이터로 이루어진 데이터셋이 있다고 했을 때 이를 100개의 batch_size로 묶는다면 10번의 iteration이 일어나야 한 번의 epoch가 가능. 사전적으로 epoch는 모든 데이터셋이 학습에 사용되었는지를 따지는 것이고, iteration은 하나의 epoch 안에서 지정된 batch_size별로 한 번의 데이터셋이 몇 번의 사이클을 통해 완성되었는지를 따지게 된다. 따라서 1 epoch : iteration * batch_size = Amounts of Data 라고 할 수 있으며, 만약 배치 사이즈를 1,000개의 데이터와 같은 숫자인 1,000으로 지정한다면, iteration과 epoch는 같아지게..
빅데이터 분석기사 준비과정과 커리큘럼 추천 # 필기 준비 빅데이터 분석기사 필기 과정은 그리 오랜 기간을 공부하지는 못했습니다. 다만 제가 IT 스타트업에서 관련 일을 직접 하고 있다보니 제 3과목, 제 4과목을 공부하거나, 실제 문제를 푸는데 유리했고 다른 과목들도 비교적 쉽게 익히고 풀 수 있었던 것 같습니다. 준비한 기간은 약 2주, 풀었던 문제집은 다음과 같습니다. 더보기 https://www.coupang.com/vp/products/5263323856?itemId=7483049124&vendorItemId=74773860201&q=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC+%ED%95%84%EA%B8%B0&itemsCount=36&searchId=9..