AI 쇼핑몰의 독심술: 장바구니 분석과 연관 규칙 학습의 통계학
대형 마트나 온라인 쇼핑몰에 접속하면 우리가 평소 필요로 하던 물건들이 약속이라도 한 듯 나란히 추천되는 것을 볼 수 있다. 이는 단순한 우연이 아니라 방대한 결제 데이터를 가공하고 분석하여 소비자도 모르는 구매 패턴을 찾아낸 결과이다. 데이터 사이언스 분야에서는 이를 장바구니 분석이라 부르며 그 핵심에는 연관 규칙 학습이라는 통계적 방법이 자리 잡고 있다. 장바구니 분석의 가장 유명한 사례는 기저귀와 맥주의 상관관계이다. 데이터를 분석해 보니 퇴근길에 아내의 부탁으로 기저귀를 사러 온 남편들이 보상 심리로 맥주를 함께 구매하는 경향이 뚜렷하게 나타난 것이다. 이러한 유의미한 규칙을 찾아내기 위해 분석가들은 세 가지 주요 지표를 활용한다. 얼마나 자주 같이 팔리는지를 나타내는 지지도, A를 샀을 때 B를 살 확률인 신뢰도, 그리고 두 상품의 연관성이 우연인지 실제 관계인지를 측정하는 향상도가 그것이다. 이 과정에서 데이터 전처리는 필수적인 단계이다. 수백만 건의 영수증 데이터에는 개별 상품명부터 결제 시간, 매장 위치 등 복잡한 정보가 섞여 있다. 분석 모델이 학습하기 좋게 상품들을 카테고리로 묶거나 중복 데이터를 제거하는 가공 과정을 거쳐야만 비로소 정확한