본문 바로가기

전체 글

(84)
강의 리뷰 01 : The Red - The RED : Hadoop & Spark 아키텍처 딥다이브 by Brandon Lee 1. 강의 소개 빅데이터, 분산처리, spark 등에 대해 관심을 가지고 있다면 한 번쯤은 instagram이나 여러 사이트 추천 알고리즘을 통해 접할 수 있는 강의였고, 강사로 등장하시는 Brandon Lee라는 분의 이력과 강의 설명에 홀린 듯 신청하게 되는 강의. 꾸준히 강의가 진행되는 식이 아닌 녹화된 강의 영상을 일정 주기로 푸는 방식으로 강의가 진행되며, 현재 전체 6개 파트 중 3개의 파트가 업로드된 상태. 다루는 주제는 하둡, Hive, Hbase, Kafka, Spark & Livy, Delta Lake. 주요 대상은 소개 사이트에 의하면 다음과 같다. 2. 강의 평가 우선 첫 번째로 해당 강의의 내용은 생각보다 그리 유익하지는 않다. 기대감이 커서일 수도 있지만, 해당 강의를 진행하시는..
Monthly Book Review 01 : 데이터 분석가의 숫자유감 골든래빗 출판사로부터 책을 제공받아 작성했습니다. https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=276662690 데이터 분석가의 숫자유감 직장에서 흔히 발생하는, 데이터를 오해하면서 일어나는 에피소드를 만화와 글로 담았다. 그래서 재미도 있고 지식도 있다. 인과관계와 상관관계, A / B 테스트, 평균값 등 데이터 시대에 직장인 www.aladin.co.kr 00. 리뷰 요약 - 디지털 마케팅 or 데이터 분석가의 역할과 업무에 대해 궁금한 사람에게 추천, 만화의 형태로 아주 쉽게 이해가능하다. - 아래에서 볼 수 있듯 실제 책 소개에서도 2시간만에 300페이지에 해당하는 내용을 파악할 수 있다고 하는데, 나는 출퇴근 시간에 지하철에서 읽다보니 약 4~5일 ..
Apache Spark 시작하기 01. 배경 : 데이터를 수집해서 처리하는 과정에서 수십만 단위 이상의 작업을 반복적으로 처리하는 과정에서 기존의 로컬 환경 하에서 작업 속도가 지연되거나, 아예 실행되지 않는 문제 발생. 또한 데이터 사이언티스트로서의 장기적인 성장을 위해 클라우드 환경 및 Hadoop, Spark를 이용한 데이터 작업이 필수적이라 판단. 02. 과정 1. 처음부터 환경설정 및 세팅에 시간이 소요되면, 무언가를 배우는데 가장 필수적인 '재미' 요소를 쉽게 잃을 수 있기에 기본적인 환경설정이 되어있는 colab 환경과 무료 강의를 통해 시작. 강의는 바로 이것. 2. 이후에는 신간 중 가장 목적에 부합해보이는 '스파크를 이용한 자연어처리' 책을 구입해 따라해보기 시작. 하지만 굳이 책을 사지 않더라도 해당 역자의 깃허브(..
빅분기 실기 시험 리뷰 [ 요약 ] 1. 어렵진 않았음 2. 알든 모르든 그리 오래 걸리진 않을듯 3. 작업유형1은 실질적으로 pandas 이용한 데이터 조작 및 통계 문제 4. 작업유형2(머신러닝 문제)는 Random forest랑 xgb만 알고 앙상블 충분할듯 - 요청시 관련 코드 업로드 [주관식 답] (순서 무관, 정답 아닐 수 있음, 제가 쓴 답) 1. 이상치 2. 부스팅 3. ROC 곡선 4. GBM(GRADIENT BOOSTING MACHINE) 5. 하이퍼파라미터 6. 후진제거법 7. 단순대치법 8. 비지도학습 9. 과적합(과대적합) 10. 인공신경망 해석 문제로 최종 노드값과 가중치, 편향을 수치로 주어주고 푸는 문제 -1이라고 쓴 거 같음. 네이버 카페에서 리뷰 이벤트로 받은 예문사 2021 빅데이터 분석기사 ..
머신러닝 관련 기초지식 : epoch / batch_size / iteration / dataset # 머신러닝 관련 batch_size/iteration/epoch와의 관계 1,000개의 데이터로 이루어진 데이터셋이 있다고 했을 때 이를 100개의 batch_size로 묶는다면 10번의 iteration이 일어나야 한 번의 epoch가 가능. 사전적으로 epoch는 모든 데이터셋이 학습에 사용되었는지를 따지는 것이고, iteration은 하나의 epoch 안에서 지정된 batch_size별로 한 번의 데이터셋이 몇 번의 사이클을 통해 완성되었는지를 따지게 된다. 따라서 1 epoch : iteration * batch_size = Amounts of Data 라고 할 수 있으며, 만약 배치 사이즈를 1,000개의 데이터와 같은 숫자인 1,000으로 지정한다면, iteration과 epoch는 같아지게..
빅데이터 분석기사 준비과정과 커리큘럼 추천 # 필기 준비 빅데이터 분석기사 필기 과정은 그리 오랜 기간을 공부하지는 못했습니다. 다만 제가 IT 스타트업에서 관련 일을 직접 하고 있다보니 제 3과목, 제 4과목을 공부하거나, 실제 문제를 푸는데 유리했고 다른 과목들도 비교적 쉽게 익히고 풀 수 있었던 것 같습니다. 준비한 기간은 약 2주, 풀었던 문제집은 다음과 같습니다. 더보기 https://www.coupang.com/vp/products/5263323856?itemId=7483049124&vendorItemId=74773860201&q=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC+%ED%95%84%EA%B8%B0&itemsCount=36&searchId=9..
02. 데이터 관련 취업준비 1-1. 사전 학습 - 국비지원 과정 - 데이터 사이언스 - 원했던 직군은 data를 이용한 consulting을 하는 것이었고, 쉽게 말하면 data로 쓸만한 사람이 되고 싶었음. - 우선 이러한 모든 베이스에는 기본적으로 데이터를 다루고, 분석할 수 있어야 한다고 생각했고, 혼자 공부하기보다 학원이나 아카데미 같은 곳을 찾아봄. - 데이터 사이언스와 관련된 것을 배우기 위해 사전 조사를 했고, python이라는 언어가 각광받고 있으며 더더욱 필요해질 것이라는 정보를 입수, 이와 관련된 내용을 가르쳐주는 학원이나 아카데미를 찾아봄. - 당연히 그 비용이 만만치 않았기에 국비지원 과정으로 알아봤고, 사전에 꽤나 번거로운 과정이 있었던 것으로 기억함. - 여튼 최소 10개 정도 되는 학원을 찾아다니며 면접..
01. 데이터 사이언스를 선택 이유 - 남을 돕는 일을 하고 싶었음 - 경영학부를 지원하였고, 대학교에선 분야 가리지 않고 배우되 주 전공은 마케팅 - 회계사가 되고자 CPA 준비를 1년씩 두 번에 걸쳐 도전했었으나 실패, 복학 - 뒤늦게 군대에 갔다 전역하고 나니 대학에 데이터에 관련된 수업이 개설돼있었고, 재밌어보여서 들음 - 근거를 제시할 수 있고, 경력자가 뛰어난 이유를 경력이 아닌 실력에서 찾을 수 있으며, 끊임없이 공부해서 실력을 증명해야 하고, 흔한 의사결정 실패조차 데이터로 누적되어 큰 흐름에서 이득이 될 수 있다는 부분이 매력적으로 느껴짐 - 데이터 언어 하나 모르는 상태로 구글에서 데이터 공모전을 검색 후, 화성시 대중교통 개선 방안에 관한 공모전에 도전 - 실제로 해결책을 마련한다기 보다는 제시된 데이터와 소스 코드로,..
구독 서비스 : 생활 필수품 등 생활 필수품의 경우 사람들의 피부 타입과 같은 다양한 유형에 영향을 받게 되며, 브랜드 인지도를 외면하기 어려운 경향이 있음. 이에 따라 정기 구독(ex. 3개월 이상)을 한 경우에 한해 첫 달에는 후보군으로 제시된 세 개의 제품을 1/3달치씩 보내 가장 적합한 상품을 선택하게 하고, 그 뒤부턴 선택한 것을 계속적으로 이용하도록 함. 이후 3개월마다 이러한 서비스를 반복해 지루해지지 않게 다양한 상품을 사용해볼 수 있는 기회를 제공하는 식으로 발전.
소비자 프로파일링 1 : 차량 구매 1. 라벨링 : 차량 구매를 하는 사람들의 소비 데이터를 근 일 년 간의 데이터를 수집 2. 패턴 : 소비 패턴들을 기반으로 프로파일링. 단, 이 때 단순히 소비 데이터 이외에 네이버 카페와 같은 커뮤니티 활동부터 관련 유튜브 영상 시청과 같은 방식의 활동이 추가적으로 고려될 수 있음. 3. 데이터 수집 : 어느 정도 패턴을 파악했다면 이를 기반으로 유사한 패턴을 보이는 그룹과 비슷한 그루핑(성별, 소득, 연령 등)할 수 있는 그룹들을 수집해서 비교 분석하며 구체화 4. 결과 : 결과적으로 각 프로파일링에 따른 선호 차량 종과 브랜드 등을 평균 소비 금액, 소비 종류 등에 따라 프로파일링함으로써 선제적으로 제시