이 글은 "RANDOM FOREST TUTORIAL: PREDICTING GOALS IN SOCCER"를 읽고 작성한 글입니다.
축구에서 골이 나올 확률을 계산하고자 할때, 유용한 방법으로 Random Forest가 있다.
Random Forest를 말하기 전에, 주어지는 데이터를 살펴보면 다음과 같다.
1. 슈팅한 위치와 골대와의 거리
2. 슈팅한 위치와 골대와의 각도
3. 공격팀의 수준
4. 수비팀의 수준
5. 슈팅하는 선수의 포지션(미드필더, 수비수, 공격수, 골키퍼 등..)
우리의 예측 모델은 위의 정보가 주어졌을 때 슈팅이 골로 연결되는지 안되는지 예측한다.
Random Forest는 위에서 주어진 정보와 실제 골 여부를 바탕으로 여러 개의 Decision Tree를 실행한다.
각 Decision Tree는 저마다 예측치를 내놓게 된다.
Random Forest는 이 Decision Tree들이 내놓은 결과를 보고 다수결의 원칙에 따라 예측을 확정한다.
즉, 다섯 개의 Decision Tree가 있고
이 중 3개의 Decision Tree가 Goal, 나머지 두 개가 Not Goal을 예측했다면
Random Forest는 Goal을 예측한다.
위의 그림을 보면 맨 아래 모델은 Model 1,2,3의 예측치를 가지고 다수결의 원칙을 통해 자신의 예측치를 확정한다.
그리고 이 과정을 앙상블(Ensemble)이라고 표현한다.
앙상블을 통한 최종 예측치가 다른 모델들에 비해 더 높은 정확도를 가지는 것을 볼 수 있다.
Random Forest의 한계는
첫째, 내부가 Decision Tree들의 다수결을 따르기 때문에 사람이 이해할 수 없는 Black Box라는 점이다.
둘째, Random Forest는 아직 발생하지 않은 일에 대한 예측은 할 수 없다.
펜 1개에 1000원, 2개에 2000원, 3개에 3000원일 때 Linear Model은 4개에 4000원을 예측할 수 있지만
Random Forest는 4개에 대한 상황이 훈련 상황에 없었기 때문에 예측을 하지 못한다.
'Data Analysis > Data' 카테고리의 다른 글
단어에 사칙 연산을 할 수 있다면..? (feat. Word Embedding Model) (0) | 2022.03.28 |
---|---|
예측을 위한 Decision Tree (0) | 2022.03.10 |
시간의 흐름에 따른 분석, 시계열(Time Series) 분석 (feat. Prophet) (0) | 2022.03.08 |
3차 세계대전이 나면 구도가 어떻게 될까? (0) | 2022.03.07 |
Unsupervised Networks로 데이터 카테고리 나누기 (feat. SOM) (0) | 2022.03.03 |