데이터 사이언티스트의 주요 업무라고 볼 수 있는 데이터 분석을 통한 범주 분류, 회귀식 도출로 미래를 예측하는 과정에서 많이 사용되고 있으면 각광받고 있는 것이 Machine Learning과 Deep Learning입니다.
특히 이 분야는 아직도 해당 전문가들의 영역인 경우가 많아 제대로 배우거나 하기도 쉽지 않은데요, 여기서 말하는 초보자조차 머신러닝과 AI 분야에서의 초보자를 말하는 것이지, 데이터 사이언스를 전혀 배우지 못한 사람을 의미하는 것은 아닙니다.
즉, 기본적인 코딩과 다른 사람의 코드를 해석하고 데이터를 어느정도 만질 수 있다는 가정을 하고 있습니다.
1. 학습 방법
석사 이상의 과정이나 특정 전문 기관을 통해 배운 것이 아니라면 배운 것을 어느정도 변형해서 사용할 수는 있어도 그것들을 활용하는 능력은 떨어져 실무에 적용할 수 있다고 확신할 수는 없는 상황인데요.
실제로 머신러닝과 AI의 경우 데이터 사이언스의 꽃이라 불릴만큼 데이터를 수집하고, 정제하고, 분석하고, 조정하는 등의 모든 과정에 대해 능력이 필요합니다. 이에 더해 그 분석 대상에 대한 도메인 지식까지도요. 실질적으로 혼자 이 모든 것을 하기 어렵기에 협업 능력이 필요하지만, 동시에 그 모든 업무에 대한 이해가 동반되어야 하는 것도 사실입니다.
본론으로 돌아와서 배운 것들을 기반으로 자신의 능력을 키우는 방법에 대해 소개하겠습니다.
크게 두 가지 방법이 있습니다.
첫 번째,
이전에 했던 것과 마찬가지로 강의를 듣는 것입니다.
새로운 것을 배우는 과정에서는 다른 사람이 한 것을 그대로 따라하는 것 이상으로 빠르게 성장하는 방법이 없습니다.
그렇기에 그전의 과정과 조금 다른 분야에 대해 배워보고, 프로젝트를 진행해보는 식으로 하나씩 쌓아가는 과정을 반복하는 것입니다.
처음에는 숫자 데이터를 기준으로 학습과 예측을 했다면,
그 다음에는 문자형, 범주형, 지도학습과 비지도학습, 이미지와 영상 분석까지 범위를 넓혀가며 유연성을 높이는 방식입니다.
개인적으로 추천드리는 사이트입니다.
두 번째,
공모전에 참여하는 것입니다.
공모전이라 하여 반드시 결과를 만들어내라는 것이 아니라 공모전을 통해 제공된 양질의 데이터를 통해 분석을 해보는 과정을 반복하는 것입니다. 특히 대부분의 데이터 공모전의 경우 데이터 내용에 대한 설명과 더불어 어떤 식으로 코드를 짜면 되는지 베이직 라인을 제시하는 경우가 많습니다.
때문에 데이터를 수집하고, 이를 양질의 데이터로 전처리하는 실제로 분석 과정 중 대부분의 시간을 잡아먹는 시간을 건너뛰고 바로 데이터를 업로드해서 분석하고, 정확도를 높이기 위해 가공하고 다시 분석하고 예측할 수 있어 순수하게 분석하고 예측하는 역량을 키워낼 수 있습니다.
추천하는 사이트입니다.
위 사이트에서는 많은 빅데이터 관련 공모전이 열리고 있고, 활발한 코드 공유를 통해 직접 해당 코드를 돌려볼 수 있는 기회 또한 제공하고 있습니다. 이미 끝난 과거 공모전의 데이터와 코드들도 잘 보존되어 있고, 우수한 성적을 거둔 코드들을 살펴봄으로써 실력 향상의 기회를 제공할 것입니다.
다음 편부터는 해당 공모전 중 현재 진행 중인 공모전을 하나 선택해 직접 데이터를 분석하고, 가공하고, 예측해보는 시간을 가져보겠습니다.