본문 바로가기

Kaggle

(4)
[Predict Future Sales] xgboost 커널 리뷰 이번에 살펴볼 커널은 Feature engineering, xgboost 입니다. Voting 수 2위에다가, RMSE public score 도 0.90684 로, 저번에 리뷰한 커널보다 점수가 높습니다. 전반적인 흐름은 저번과 비슷합니다. 먼저, Feature 를 만드는데 중점을 두고, 모델을 통해 학습하여 예측합니다. 다만 이번에는 저번에 리뷰한 커널보다 Feature 수가 훨씬 많고, 모델도 xgboost 를 사용합니다. 서론 대회 소개 및 목표 한 마디로 말해, 기존의 Sales 데이터를 가지고, 미래의 Sales 량을 예측하는 대회입니다. 정확히는, 2013년 1월~2015년 10월의 모든 shop 내 item들의 하루 단위의 세일즈량이 주어지고, 이후 다음 달(2015년 11월)의 각 sho..
[Predict Future Sales] playground 커널 리뷰 2 이 글은Future Sales Prediction: playground커널의 리뷰입니다. 코드 및 아이디어는 모두 커널의 원 제작자에게 있으며, 이 글은 해당 커널을 좀 더 이해하기 쉽게하기 위한 리뷰입니다. 5. Data Preparation Feature Creation 도 끝났고, 이제 본격적으로 모델을 만들어보려고 합니다. 그 전에, train dataset 을 모델에 들어갈 모양으로 만들어보겠습니다. 최종적으로는 지금까지 만든 모든 feature 들을 모두 합친 데이터프레임을 만들건데, 이 과정 중에 메모리가 매우 많이 사용될 수 있습니다. 따라서, 먼저 데이터프레임을 최대한 메모리 최적화 시켜놔야 합니다. 예를 들면, category feature는 데이터 타입을 category 화 시켜줘야하..
[Predict Future Sales] playground 커널 리뷰 1 이 글은 Future Sales Prediction: playground 커널의 리뷰입니다. 코드 및 아이디어는 모두 커널의 원 제작자에게 있으며, 이 글은 해당 커널을 좀 더 이해하기 쉽게하기 위한 리뷰입니다. 1. Load data and library 가장 먼저 해야할 일은 당연히, 라이브러리들과 데이터를 가져오는 것입니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn import ensemble, metrics sns.set_style('darkgrid') pd.options.display.float_format = '{:,.3f}'.format 기본적인..
[Predict Future Sales] playground 커널 리뷰 0 커널 개요 첫 번째로 리뷰해볼 커널은 Future Sales Prediction: playground 입니다. 대회 커널 중, voting 수도 많고, Public score 도 1.19747 (RMSE 기준) 로, 매우 높은 편입니다. 무엇보다, 다른 커널들보다, 내용이 간결하고 (물론 상대적입니다...) 직관적이라 리뷰해도 괜찮겠다 싶어 골라왔습니다. 각설하고, 핵심만 먼저 소개하면 다음과 같습니다. 모델은 lightgbm 을 사용합니다. 핵심은 Model Features 입니다. 즉 어떤 Feature들을 생성했는지가 관건입니다. 다 떠나서, 그럼 최종적으로 Model 에 들어간 Features만 살펴보면 다음과 같습니다. 기존에 데이터에 존재했던 Features - 'date_block_num' ..