수많은 사람들이 오가는 대형 백화점이나 온라인 쇼핑몰에는 이름표가 붙어 있지 않은 방대한 고객 데이터가 쌓인다. 누가 어떤 취향을 가졌는지 명확한 정답이 없는 상태에서, 기업들은 어떻게 비슷한 성향의 사람들을 찾아내어 맞춤형 서비스를 제공할 수 있을까.
그 해답은 머신러닝의 한 분야인 비지도 학습, 특히 군집 분석이라는 데이터 가공 기술에 숨어 있다.

군집 분석은 정답을 가르쳐주지 않아도 인공지능이 알아서 데이터의 특징을 파악해 비슷한 것들끼리 무리를 지어주는 알고리즘이다. 가장 널리 쓰이는 방법 중 하나인 케이 평균 알고리즘을 예로 들면 그 원리는 생각보다 단순하다. 컴퓨터는 먼저 데이터를 가상의 공간에 점으로 흩뿌린 뒤, 임의의 중심점들을 몇 개 잡는다.
그리고 각 데이터가 어느 중심점과 통계적으로 가장 가까운지 거리를 계산하여 무리를 짓는 과정을 반복한다.
이러한 거리 계산이 정확하게 이루어지기 위해서는 데이터 전처리가 필수적이다. 나이, 구매 금액, 방문 횟수 등 단위와 크기가 전혀 다른 데이터들을 그대로 사용하면 왜곡이 발생하기 때문이다. 따라서 모든 수치를 일정한 기준으로 맞추는 정규화 작업을 거쳐야만 인공지능이 거리를 공평하게 측정할 수 있다. 이렇게 가공된 숫자들은 다차원의 공간에서 서로 끌어당기고 밀어내며 서서히 자신만의 군집을 형성하게 된다.
복잡한 계산 끝에 완성된 군집들은 시각화 과정을 통해 직관적인 고객 지도로 탄생한다. 2차원이나 3차원의 그래프 위에 서로 다른 색상으로 뭉쳐 있는 데이터 무리들을 보면, 20대 실속파 고객이나 40대 프리미엄 고객과 같은 숨겨진 패턴이 한눈에 들어온다. 결국 머신러닝의 군집 분석은 형태가 없는 숫자 더미 속에서 인간의 행동 양식과 취향이라는 지형도를 그려내는 현대판 탐험 기술인 셈이다.
[※ 칼럼의 그림 및 도표는 AI 활용하여 작성됨]










