본문 바로가기

데이터와 함께 탱고를/커널 공부하기

[Predict Future Sales] 대회 및 데이터 소개

1. 대회 개요

한 마디로 말해, 기존의 Sales 데이터를 가지고, 미래의 Sales 량을 예측하는 대회입니다.
정확히는, 2013년 1월~2015년 10월의 모든 shop 내 item들의 하루 단위의 세일즈량이 주어지고,
이후 다음 달(2015년 11월)의 각 shop의 각각의 item 세일즈량의 총 합을 예측해야 합니다.
"How to win a data science competition" Coursera course 의 마지막 프로젝트라고도 하는군요.

2. 데이터

데이터들은 다음과 같이 제공됩니다.

sales_train.csv  - the training set. Daily historical data from January 2013 to October 2015.
test.csv  - the test set. You need to forecast the sales for these shops and products for November 2015.
sample_submission.csv  - a sample submission file in the correct format.
items.csv  - supplemental information about the items/products.
item_categories.csv  - supplemental information about the items categories.
shops.csv  - supplemental information about the shops.

조금 더 구체적으로 살펴보면, 다음과 같습니다.

1) sales_train.csv

  • date : 말 그대로 날짜입니다. 하루 단위로 되어있습니다.
  • date_block_num : 월을 0부터 연속된 수로 변환한 수입니다. 예를들어, 13년 1월을 0으로 두고, 13년 12월은 11로, 그리고 14년 1월은 12로.. 이런식입니다.
  • shop_id : 말 그대로 shop의 id 입니다.
  • item_id : 말 그대로 item의 id 입니다.
  • item_price : 해당 날짜의 item_id 에 해당하는 item의 가격입니다.
  • item_cnt_day : 해당 날짜에 item_id 에 해당하는 item이 팔린 갯수입니다. 우리가 예측해야하는 변수이기도 합니다.

2) test.csv

test.csv

2015년의 11월의 각 shop 내 item들의 item_cnt_day 을 예측해야 한다고 했습니다. 이에 대한 기본 틀을 제공해주는 파일입니다.
위 데이터로 테스트한 뒤, 최종적으로 아래와 같은 꼴로 바꾸어 제출해야 합니다.

sample_submission.csv

3) items.csv

items.csv

  • item_name : 말 그대로 item 이름입니다. 저도 처음보는 문자네요.
  • item_category_id : 말 그대로 item 이 속해있는 카테고리 id 입니다.

4) item_categories.csv

item_categories.csv

 

item_category_id의 이름을 담고있는 파일입니다.
0번을 행을보니, id 0 번은 PC 와 관련된 카테고리인 것 같군요.

5) shops.csv

shops.csv

shop_id의 이름을 담고있는 파일입니다.

3. 모델 평가

이 대회에서 모델 평가는 RMSE(root mean squared error)를 사용합니다.

 

이 후 포스팅 부터는, 이 대회에서 보팅이 높았던 커널 중, 쉬운 것 부터 하나씩 보겠습니다.