본문 바로가기

prediction

(2)
[Predict Future Sales] xgboost 커널 리뷰 이번에 살펴볼 커널은 Feature engineering, xgboost 입니다. Voting 수 2위에다가, RMSE public score 도 0.90684 로, 저번에 리뷰한 커널보다 점수가 높습니다. 전반적인 흐름은 저번과 비슷합니다. 먼저, Feature 를 만드는데 중점을 두고, 모델을 통해 학습하여 예측합니다. 다만 이번에는 저번에 리뷰한 커널보다 Feature 수가 훨씬 많고, 모델도 xgboost 를 사용합니다. 서론 대회 소개 및 목표 한 마디로 말해, 기존의 Sales 데이터를 가지고, 미래의 Sales 량을 예측하는 대회입니다. 정확히는, 2013년 1월~2015년 10월의 모든 shop 내 item들의 하루 단위의 세일즈량이 주어지고, 이후 다음 달(2015년 11월)의 각 sho..
[Predict Future Sales] playground 커널 리뷰 2 이 글은Future Sales Prediction: playground커널의 리뷰입니다. 코드 및 아이디어는 모두 커널의 원 제작자에게 있으며, 이 글은 해당 커널을 좀 더 이해하기 쉽게하기 위한 리뷰입니다. 5. Data Preparation Feature Creation 도 끝났고, 이제 본격적으로 모델을 만들어보려고 합니다. 그 전에, train dataset 을 모델에 들어갈 모양으로 만들어보겠습니다. 최종적으로는 지금까지 만든 모든 feature 들을 모두 합친 데이터프레임을 만들건데, 이 과정 중에 메모리가 매우 많이 사용될 수 있습니다. 따라서, 먼저 데이터프레임을 최대한 메모리 최적화 시켜놔야 합니다. 예를 들면, category feature는 데이터 타입을 category 화 시켜줘야하..