Apache Spark 시작하기

01. 배경

: 데이터를 수집해서 처리하는 과정에서 수십만 단위 이상의 작업을 반복적으로 처리하는 과정에서 기존의 로컬 환경 하에서 작업 속도가 지연되거나, 아예 실행되지 않는 문제 발생. 또한 데이터 사이언티스트로서의 장기적인 성장을 위해 클라우드 환경 및 Hadoop, Spark를 이용한 데이터 작업이 필수적이라 판단.

02. 과정

1. 처음부터 환경설정 및 세팅에 시간이 소요되면, 무언가를 배우는데 가장 필수적인 '재미' 요소를 쉽게 잃을 수 있기에 기본적인 환경설정이 되어있는 colab 환경과 무료 강의를 통해 시작. 강의는 바로 이것.

2. 이후에는 신간 중 가장 목적에 부합해보이는 '스파크를 이용한 자연어처리' 책을 구입해 따라해보기 시작. 하지만 굳이 책을 사지 않더라도 해당 역자의 깃허브(https://github.com/jamsuham75/spark-nlp-book/tree/master/colab)에 들어가보니 코랩과 로컬 환경에서의 작업 코드 및 교과서 내용이 동일하게 존재한다.

3. 다만 로컬 환경 등에서 작업하거나 개인적인 작업을 위해선 꽤나 여러가지 작업이 동반되어야 하는데, 다음 사이트를 참고하면 좋을듯하다.

- 환경설정 관련(윈도우) : http://daddynkidsmakers.blogspot.com/2020/02/hadoop-spark.html

p.s. 실제 스터디 내용은 코드로 간단히 정리할 수 있는 것들은 github를 통해 업로드하고, 그 외의 것들은 노션/블로그를 통해 정리할 예정

'DATA SCIENCE > Study' 카테고리의 다른 글

윈도우11 WSL2 default setting - 1(linux 버전 확인) (0)	2021.12.29
자체 Study RoadMap (0)	2021.11.29
빅분기 실기 시험 리뷰 (0)	2021.06.19
머신러닝 관련 기초지식 : epoch / batch_size / iteration / dataset (0)	2021.05.25
빅데이터 분석기사 준비과정과 커리큘럼 추천 (0)	2021.05.22

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Qscar KIM

Apache Spark 시작하기

01. 배경

02. 과정

'DATA SCIENCE > Study' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Apache Spark 시작하기

01. 배경

02. 과정

'DATA SCIENCE > Study' 카테고리의 다른 글

'DATA SCIENCE/Study' Related Articles

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역