Decision Tree & Random Forest

이때, Attribute는 (indepedent Variables)과 같은 입력 데이터라고 생각하면 된다.

Decision Tree (CART, Classification And Regression Tree)

가정1) Binary Tree 구성 (Binary Tree란 각각의 Node가 최대 2명의 Children을 가지는 경우) → 하나의 노드가 두 개의 Child 노드를 가짐
가정2) 각 leaf에서, 가장 최소화된 error를 가지자 → 최대한 낮은 Error로 분류를 진행함

가장 Error가 최소화되게끔 기준을 나눠 Boundary를 정하는 것

그래서 이렇게 만들어진 Boundary에서 새로운 데이터들이 입력이 되었을 때

새로운 데이터가 놓여진 위치에서 Major Voting (다수결)을 이용해서 그 영역에 0이 많다고 하면 그 새로운 데이터는 0이 되도록 귀결한다.

이것이 Decision Tree의 Classification알고리즘

그렇다면 반대로 Decision Tree의 Regression 알고리즘도 존재하지만 그렇게 큰 개념을 벗어 나진 않는다.

Regression Decision Tree도 영역을 나누어서 해당하는 영역의 평균값을 내보내어 Error를 낮추도록 한다.

즉 $\hat{y}$를 해당 영역의 $\bar{y}$로 내보내어 출력 ($\hat{y} = \bar{y}$)

하지만, Decision Tree의 단점은 Labeling이 잘 못되거나 그러면 Boundary가 휙휙 바뀜.