본문 바로가기

DATA SCIENCE/Study

Apache Spark 시작하기

01. 배경

: 데이터를 수집해서 처리하는 과정에서 수십만 단위 이상의 작업을 반복적으로 처리하는 과정에서 기존의 로컬 환경 하에서 작업 속도가 지연되거나, 아예 실행되지 않는 문제 발생. 또한 데이터 사이언티스트로서의 장기적인 성장을 위해 클라우드 환경 및 Hadoop, Spark를 이용한 데이터 작업이 필수적이라 판단.

 

02. 과정

1. 처음부터 환경설정 및 세팅에 시간이 소요되면, 무언가를 배우는데 가장 필수적인 '재미' 요소를 쉽게 잃을 수 있기에 기본적인 환경설정이 되어있는 colab 환경과 무료 강의를 통해 시작. 강의는 바로 이것.

 

 

2.  이후에는 신간 중 가장 목적에 부합해보이는 '스파크를 이용한 자연어처리' 책을 구입해 따라해보기 시작. 하지만 굳이 책을 사지 않더라도 해당 역자의 깃허브(https://github.com/jamsuham75/spark-nlp-book/tree/master/colab)에 들어가보니 코랩과 로컬 환경에서의 작업 코드 및 교과서 내용이 동일하게 존재한다. 

 

3. 다만 로컬 환경 등에서 작업하거나 개인적인 작업을 위해선 꽤나 여러가지 작업이 동반되어야 하는데, 다음 사이트를 참고하면 좋을듯하다.

    - 환경설정 관련(윈도우) : http://daddynkidsmakers.blogspot.com/2020/02/hadoop-spark.html

    

 

 

p.s. 실제 스터디 내용은 코드로 간단히 정리할 수 있는 것들은 github를 통해 업로드하고, 그 외의 것들은 노션/블로그를 통해 정리할 예정