본문 바로가기

DATA SCIENCE/Review

Monthly Book Review 07 : XGBoost와 사이킷런을 활용한 그레이디언트 부스팅

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=292185214 

 

XGBoost와 사이킷런을 활용한 그레이디언트 부스팅

기본적인 머신러닝과 판다스부터 사용자 정의 변환기, 파이프라인과 희소 행렬로 새로운 데이터의 예측을 만드는 강력한 XGBoost 모델 튜닝까지 모두 다룬다. 또한 XGBoost의 탄생 배경과 XGBoost를

www.aladin.co.kr

 

01. 이 책을 고른 이유

최근에는 딥러닝이 아닌 머신러닝에 대한 필요성이 생겼지만, 더이상 단순히 초급자용 책으로 이런저런 책에서 반복적으로 제시하는 내용 외 진짜 도움이 되는 책이 읽고 싶어졌다.

Xgboost는 그 중에서 빼놓을 수 없는 방법론이고, 가장 즐겨 사용하는 라이브러리이기에 좀 더 세부적으로 익히고 싶다는 마음에 선택.

 

02. 간단소개

드디어 나왔다!
우리가 원하던 그것!

그렇다, 나왔다.

우리가 원하던 그것.

언제까지나 초심자, 초급자용 입문 도서만 주구장창 읽어대던 우리가 바라던 중급자 이상의, 실무에도 적용할 수 있는 책이다!

이제는 누구나 다 알 것 같은 기본적인 설치와 머신러닝 소개는 최소화하고, 바로 트리 / 앙상블 / 그래디언트 / 부스팅 으로 넘어간다.

또한 공식 문서를 봐도 이게 무슨 의미인지 파악하기 어려웠던 하이퍼 파라미터에 대한 설명 / 비교뿐 아니라 다르게 구현할 수 있는 방법까지도 소개한다!

 

03. 이 책의 장/단점

내용, 구성, 심지어 한국어판 부록까지도 훌륭하다!

물론 제대로 xgboost를 사용하기 위해선 공식 문서를 참조해야 하며,

영문으로 적힌 파라미터를 이해해야하는 것은 동일하다.

또한 수많은 xgboost의 하이퍼 파라미터를 전부 설명하고 있지는 않으며, 

각 파라미터의 상관관계라거나, 조합에 대해서 다루지는 않는다.

이는 결국 실무의 영역에서 필요한 일이나, 이게 곧 이 책의 단점이 되지는 않는다.

적어도 xgboost를 수차례 써본 사람이라도 보다 잘 xgboost의 개념을 이해하고,

이를 기반으로 라이브러리를 구현하는 것에 큰 도움이 될 것이 분명하기 때문.

만약 이 이상의 내용을 책으로 담거나 배우기란 어려울 것으로 보일 정도.

 

04. 이 책의 구성 & 특징

기본적인 구성은 트리 / 앙상블 / 그래디언트 / 부스팅과 관련된 라이브러리에 대해 소개하고, 그에 대한 기본 개념을 설명하며, 각 모델별 성능을 비교해가며 튜닝한다.

이 과정에서 각 하이퍼 파라미터가 수행하는 기능을 통해 성능이 오르고 내리는 것, 그리고 다른 파라미터 혹은 모델과의 비교를 통해 보다 쉽게 각 방법론, 파라미터 조정의 효과에 대해 설명한다.

최종적으로 본래라면 다루지 않았을 LightGBM이나, Catboost에 대해서도 한국어판 부록에서 소개하며, 이를 Xgboost 라이브러리를 통해 구현하는 방법을 같이 소개하며 유종의 미를 거둔다.

위의 이유로 '머신러닝을 공부하는 사람', '초심자만을 위한 책에 지친 사람', 'XGBoost 라이브러리를 더 잘 활용하고 싶은 사람'이라면 이 책을 강력 추천한다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."