본문 바로가기

Data Analysis/Data

예측을 위한 Decision Tree

이 글은 DECISION TREES TUTORIAL을 읽고 작성한 글입니다.

 

 

타이타닉과 같은 재앙이 우리를 덮쳤을 때 살아남을 확률은 얼마나 될까?

우리가 만일 어린 아이이거나 여성일 경우 사회적인 통념 상 구원의 손길을 받아 살아남을 확률이 더 높을 것이다.

위급 상황에서는 여성과 아이들의 보호가 우선적으로 중요하기 때문이다.

 

우리가 살아남을 확률을 알아볼 때 Decision Tree를 사용하는 것이 좋은 선택이 될 수 있다.

Decision Tree는 Yes, No와 같이 이분법적으로 대답할 수 있는 질문들로 구성된다.

 

당신은 남성인가? 여성인가?

당신은 성인인가? 미성년자인가?

와 같이 질문을 하고 그 대답에 따라 전체 데이터 집합을 여러개의 작은 집합들로 나눈다.

그리고 이 질문들을 하면 할수록 Root Node에서 시작한 나무는 계속 성장한다.

 

Decision Tree (출처: https://algobeans.com/2016/07/27/decision-trees-tutorial/)

 

 

Decision Tree는 유용한 툴이지만 완벽한 것은 아니다.

처음의 질문이 너무 좋은 질문이어도 예측 성능이 최고라는 보장은 없다.

때론 처음에 적당한 질문으로 시작한 경우가 더 예측 성능이 높은 경우도 있다.

 

이런 현상을 해결하기 위해 많이 사용하는 방법이

여러개의 질문을 랜덤으로 조합하여 여러개의 Decision Tree를 만들고 이를 토대로 예측하는 Random Forest 방식이다.

혹은 직접 질문들을 선택하여 점진적으로 예측 성능을 높이는 Gradient Boosting 방식도 있다.

 

Random Forest나 Gradient Boosting이 더 나은 예측 결과를 내는 경향이 많지만

이들은 Black Box, 즉 내부가 어떻게 되어있는지 모르는 상태이기 때문에 연구자 입장에서는 답답한 요인이 있다.

반면 Decision Tree는 내부가 명확히 트리 구조로 드러나 있기 때문에 연구자가 예측의 과정을 훨씬 쉽게 파악할 수 있다.

 

 

반응형