image.png

이때, Attribute는 (indepedent Variables)과 같은 입력 데이터라고 생각하면 된다.

Decision Tree (CART, Classification And Regression Tree)

image.png

가장 Error가 최소화되게끔 기준을 나눠 Boundary를 정하는 것

그래서 이렇게 만들어진 Boundary에서 새로운 데이터들이 입력이 되었을 때

새로운 데이터가 놓여진 위치에서 Major Voting (다수결)을 이용해서 그 영역에 0이 많다고 하면 그 새로운 데이터는 0이 되도록 귀결한다.

이것이 Decision Tree의 Classification알고리즘

그렇다면 반대로 Decision Tree의 Regression 알고리즘도 존재하지만 그렇게 큰 개념을 벗어 나진 않는다.

image.png

Regression Decision Tree도 영역을 나누어서 해당하는 영역의 평균값을 내보내어 Error를 낮추도록 한다.

즉 $\hat{y}$를 해당 영역의 $\bar{y}$로 내보내어 출력 ($\hat{y} = \bar{y}$)

하지만, Decision Tree의 단점은 Labeling이 잘 못되거나 그러면 Boundary가 휙휙 바뀜.