본문 바로가기

XGBoost

(3)
Gradient Boost 이 글은 StatQuest with Josh Starmer 의 StatQuest: Gradient Boost Part1 영상을 보고 정리한 글이다. 모든 사진과 설명에 대한 출처는 여기에 있다. 이번 글에서는, Boosting 중, 비교적 최근에 많이 쓰이는 Gradient Boost 에 대해 정리해보려고 한다. Kaggle 에서 많이보이는 XGboost 와 Light GBM 이 Gradient Boost 를 바탕으로 나온 모델이다. 사실상 현재 제일 많이쓰이는 Tree 계열의 모델을 이해하는데 기초적인 지식을 쌓는다고 볼 수 있다. 1. AdaBoost 다시 상기해보기. Gradient Boosting 은 이전에 포스팅한 AdaBoost 와 비슷한 부분이 있기 때문에, 먼저 AdaBoost 를 빠르게 ..
[Predict Future Sales] xgboost 커널 리뷰 이번에 살펴볼 커널은 Feature engineering, xgboost 입니다. Voting 수 2위에다가, RMSE public score 도 0.90684 로, 저번에 리뷰한 커널보다 점수가 높습니다. 전반적인 흐름은 저번과 비슷합니다. 먼저, Feature 를 만드는데 중점을 두고, 모델을 통해 학습하여 예측합니다. 다만 이번에는 저번에 리뷰한 커널보다 Feature 수가 훨씬 많고, 모델도 xgboost 를 사용합니다. 서론 대회 소개 및 목표 한 마디로 말해, 기존의 Sales 데이터를 가지고, 미래의 Sales 량을 예측하는 대회입니다. 정확히는, 2013년 1월~2015년 10월의 모든 shop 내 item들의 하루 단위의 세일즈량이 주어지고, 이후 다음 달(2015년 11월)의 각 sho..
[All about 따릉이 EDA, 6편] 대여소별 따릉이 대여건수 예측 이번 편에서는, 이전에 해볼만하다고 느꼈던 시간에 따른 따릉이 대여건수 예측을 해본다. 어떻게 따릉이 대여건수를 예측할 것이냐. 기본 아이디어는 Kaggle의 유명한 Competition 이었던, Bike sharing demand 문제해결과 동일하다. 즉, 한마디로 말해, 기본 자전거 이용량 데이터 + 날씨 데이터 로 대여건수를 예측한다. 한 시간뒤의 대여건수를 명확히 알 수는 없으나, 한 시간뒤의 날씨 데이터는 비교적 명확히 알 수 있고, 기상청에서 미리 공개된다. 따라서, 미래의 대여건수를 날씨예보를 활용하여 어느정도 예측이 가능할 거란 이야기다. 이는 Bike sharing demand 문제에서도 해결한 방식이다. 우리가 풀어야하는 문제는 회귀(Regression) 문제이다. 빠르게 만드는게 목적..