AI 스무고개로 찾아내는 데이터의 정답: 집단 지성을 활용한 '의사결정 나무와 앙상블'
어린 시절 즐겨 하던 '스무고개' 게임을 떠올려 보자. "동물입니까?", "다리가 네 개입니까?"와 같은 질문을 거듭하며 정답의 범위를 좁혀나가는 이 영리한 놀이는 머신러닝의 '의사결정 나무(Decision Tree)' 알고리즘과 완벽하게 닿아 있다. 복잡하게 얽혀 있는 원시 데이터 속에서 컴퓨터는 "나이가 30대 이상인가요?", "과거 구매 이력이 있나요?"라는 통계적 기준을 세우고, '예/아니오'의 갈래를 치며 데이터를 분류해 나간다. 그 과정이 직관적이고 최종 결과를 인간이 해석하기 쉬워 데이터 분류의 기초로 널리 쓰인다. 하지만 의사결정 나무라는 단일 모델에는 치명적인 약점이 존재한다. 주어진 학습 데이터에만 맞추어 너무 깊고 뾰족하게 질문을 파고들다 보니, 융통성 없이 데이터를 통째로 외워버리는 '과적합(Overfitting)'의 함정에 빠지기 쉽다는 것이다. 즉, 실험실의 연습 문제에서는 백 점을 맞지만, 막상 변수가 많은 새로운 실전 데이터가 입력되면 엉뚱한 오답을 내놓고 마는 한계를 지닌다. 데이터 과학자들은 이 문제를 극복하기 위해 인간 사회의 '집단 지성' 원리를 데이터 가공에 도입했다. 바로 나무 한 그루에 의존하는 대신 수백, 수천 그루