AI 비슷한 사람들끼리 모아드립니다: 머신러닝의 군집 분석과 고객 지도
수많은 사람들이 오가는 대형 백화점이나 온라인 쇼핑몰에는 이름표가 붙어 있지 않은 방대한 고객 데이터가 쌓인다. 누가 어떤 취향을 가졌는지 명확한 정답이 없는 상태에서, 기업들은 어떻게 비슷한 성향의 사람들을 찾아내어 맞춤형 서비스를 제공할 수 있을까. 그 해답은 머신러닝의 한 분야인 비지도 학습, 특히 군집 분석이라는 데이터 가공 기술에 숨어 있다. 군집 분석은 정답을 가르쳐주지 않아도 인공지능이 알아서 데이터의 특징을 파악해 비슷한 것들끼리 무리를 지어주는 알고리즘이다. 가장 널리 쓰이는 방법 중 하나인 케이 평균 알고리즘을 예로 들면 그 원리는 생각보다 단순하다. 컴퓨터는 먼저 데이터를 가상의 공간에 점으로 흩뿌린 뒤, 임의의 중심점들을 몇 개 잡는다. 그리고 각 데이터가 어느 중심점과 통계적으로 가장 가까운지 거리를 계산하여 무리를 짓는 과정을 반복한다. 이러한 거리 계산이 정확하게 이루어지기 위해서는 데이터 전처리가 필수적이다. 나이, 구매 금액, 방문 횟수 등 단위와 크기가 전혀 다른 데이터들을 그대로 사용하면 왜곡이 발생하기 때문이다. 따라서 모든 수치를 일정한 기준으로 맞추는 정규화 작업을 거쳐야만 인공지능이 거리를 공평하게 측정할 수 있다.