본문 바로가기

데이터와 함께 탱고를/머신러닝

(11)
Random Forest 이 글은 StatQuest with Josh Starmer 의 StatQuest: Random Forest 영상을 보고 정리한 글이다. 모든 사진과 설명에 대한 출처는 여기에 있다. Bagging 기법의 대표적인 모델인 Random Forest 을 이번 글에 정리해보고자 한다. Decison Tree 다음에 항상 등장하는 모델로, 일반적으로 DT 보다 더 좋다. 1. 개념 한 마디로 표현하면 다음과 같다. 여러 개의 Boostrapped Dataset 으로 여러 개의 Decison Tree 를 만든 후, Voting 을 통해 최종 예측값을 출력하는 방법이다. 2. 과정 실제 예를 통해 그 과정을 하나씩 살펴보자. 2.1. Bootstrapped Dataset 만들기 먼저, 다음과 같은 Dataset 이 ..
ML Model Ensemble 과 Bagging, Boosting 개념 1. Model Ensemble Model ensemble 은, 말 그대로 모델들의 앙상블. 즉 여러 모델들을 함께 사용하여 기존보다 성능을 더 올리는 방법을 말한다. 이게 ML(Machine Learing) 모델이면 ML Model Ensemble 이 된다. 2. Ensemble 종류 그럼 구체적으로 어떤 식으로 모델들을 Ensemble 하는지 살펴보자. 2.1. Bagging Bagging은 입력 데이터를 모델 수 만큼 나눈 뒤, 각각 학습시킨다. 이후, Test dataset 을 각 모델에 넣어 예측할 때, 출력되어 나온 예측 값들을 voting 하여, 보다 더 투표를 받은 예측 값이 최종 예측값이 된다. 뭔가 민주주의 공화국 느낌이다. Bagging 의 가장 대표적인 모델이 바로 Random Fo..
Decision Tree 1. 서론 최근, Light Gradient Boosting 을 써보다가, 이 모델이 정확히 뭔지를 이해하고 싶어졌다. 그래도 최소한 내가 쓰는 모델이 어떤 방식으로 동작하는지는 알고있어야하지 않을까 싶어서... 이전에, xgboost 도 혼자 공부하다가 포기했었는데, 이번에 light gbm 까지 리뷰하는 김에 다 공부해봐야겠다. 대충 공부? 리뷰? 해보려는 것들은 다음 순으로 할 예정이다. Decision Tree Ensemble 개념 (Bagging, Boosting) Bagging Random Forest Boosting Adaptive Boosting Gradient Boosting Light GBM XG boost 보면, 모두 Tree 모델 기반으로 고도화 시킨 모델들이다. 그리고 그 첫 번째..