대형 마트나 온라인 쇼핑몰에 접속하면 우리가 평소 필요로 하던 물건들이 약속이라도 한 듯 나란히 추천되는 것을 볼 수 있다. 이는 단순한 우연이 아니라 방대한 결제 데이터를 가공하고 분석하여 소비자도 모르는 구매 패턴을 찾아낸 결과이다. 데이터 사이언스 분야에서는 이를 장바구니 분석이라 부르며 그 핵심에는 연관 규칙 학습이라는 통계적 방법이 자리 잡고 있다. 장바구니 분석의 가장 유명한 사례는 기저귀와 맥주의 상관관계이다. 데이터를 분석해 보니 퇴근길에 아내의 부탁으로 기저귀를 사러 온 남편들이 보상 심리로 맥주를 함께 구매하는 경향이 뚜렷하게 나타난 것이다. 이러한 유의미한 규칙을 찾아내기 위해 분석가들은 세 가지 주요 지표를 활용한다. 얼마나 자주 같이 팔리는지를 나타내는 지지도, A를 샀을 때 B를 살 확률인 신뢰도, 그리고 두 상품의 연관성이 우연인지 실제 관계인지를 측정하는 향상도가 그것이다. 이 과정에서 데이터 전처리는 필수적인 단계이다. 수백만 건의 영수증 데이터에는 개별 상품명부터 결제 시간, 매장 위치 등 복잡한 정보가 섞여 있다. 분석 모델이 학습하기 좋게 상품들을 카테고리로 묶거나 중복 데이터를 제거하는 가공 과정을 거쳐야만 비로소 정확한
우리는 매일 일기예보를 확인하고 주식 시장의 흐름을 살피며 내일을 준비한다. 이처럼 시간의 흐름에 따라 기록된 데이터를 시계열 데이터라고 부른다. 단순히 나열된 숫자 더미처럼 보이지만, 그 속에는 일정한 규칙과 반복되는 패턴이 숨어 있다. 데이터 사이언티스트들은 이 복잡한 숫자들 사이에서 의미 있는 신호를 찾아내 미래를 예측하는 지도를 그려낸다. 시계열 분석의 핵심은 먼저 데이터를 깨끗하게 가공하는 전처리 과정에 있다. 수집된 원본 데이터에는 측정 오류나 일시적인 소음과 같은 노이즈가 섞여 있기 마련이다. 이동평균법과 같은 통계적 방법을 활용해 들쭉날쭉한 수치를 매끄럽게 다듬으면 데이터가 가진 본래의 흐름이 드러난다. 여기에 계절성 수치를 고려하면 명절에 교통량이 급증하거나 여름에 빙과류 판매량이 늘어나는 것과 같은 주기적인 특성까지 파악할 수 있게 된다. 이렇게 가공된 데이터는 머신러닝 알고리즘을 만나 더욱 강력해진다. 과거의 수많은 패턴을 학습한 모델은 현재의 위치를 파악하고 앞으로 일어날 변화를 확률적으로 제시한다. 하지만 아무리 정교한 수식과 알고리즘이 동원되어도 그 결과를 숫자로만 나열한다면 대중이 이해하기 어렵다. 여기서 데이터 시각화의 진가가 발
웹사이트나 모바일 앱을 사용할 때 우리는 수많은 화면과 마주친다. 구매하기 버튼의 색상을 파란색으로 할지 빨간색으로 할지, 팝업창의 위치를 어디에 둘지 결정하는 것은 기업의 매출과 직결되는 매우 중요한 문제이다. 과거에는 이러한 디자인이나 기능의 변화를 기획자의 직감이나 책임자의 취향에 따라 결정하는 경우가 많았다. 하지만 지금은 데이터를 수집하고 시각화하여 가장 객관적인 정답을 찾아내는 방식을 사용한다. 이를 에이비 테스트라고 부른다. 에이비 테스트의 원리는 매우 단순하면서도 과학적이다. 기존의 디자인을 A안으로 두고, 새롭게 바꾼 디자인을 B안으로 설정한다. 그리고 웹사이트에 방문하는 사람들을 무작위로 절반씩 나누어 각각 A안과 B안을 보여준다. 일정 시간이 흐른 뒤 어느 쪽 디자인에서 사람들이 버튼을 더 많이 클릭했는지 데이터를 수집하여 비교 분석한다. 수집된 방대한 사용자의 행동 데이터는 가공 과정을 거쳐 막대그래프나 파이 차트 같은 시각화 자료로 변환된다. 수만 명의 방문자가 남긴 복잡한 로그 데이터들이 단순한 두 개의 막대그래프로 요약되면 어느 안이 더 우수한 성과를 냈는지 누구나 직관적으로 파악할 수 있다. 만약 빨간색 버튼인 B안의 막대그래프가
온라인 쇼핑몰에 접속한 100명의 사람 중 실제로 물건을 사는 사람은 몇 명이나 될까. 처음에는 많은 사람이 호기심에 사이트를 방문하지만 상품을 검색하고 장바구니에 담고 결제 버튼을 누르는 각 단계를 거칠 때마다 사람들의 수는 점점 줄어든다. 이렇게 사용자가 특정 목표를 향해 나아가는 과정을 단계별로 나누어 시각화한 것을 퍼널 차트 즉 깔때기 차트라고 부른다. 퍼널 차트는 위쪽이 넓고 아래쪽으로 갈수록 좁아지는 깔때기 모양을 하고 있다. 각 단계의 너비는 해당 단계에 머물러 있는 사람의 수를 나타낸다. 데이터를 가공하여 이 차트를 그리는 가장 큰 목적은 사람들이 어느 단계에서 가장 많이 이탈하는지 즉 서비스의 새는 구멍을 시각적으로 찾아내는 데 있다. 예를 들어 모바일 게임에서 튜토리얼을 끝낸 사람은 많은데 첫 번째 스테이지를 깨는 사람의 수가 확연히 줄어들었다고 가정해 보자. 퍼널 차트에서는 이 구간의 깔때기 너비가 급격하게 좁아지는 형태로 나타난다. 이를 통해 개발자는 첫 번째 스테이지의 난이도가 너무 높거나 조작법이 불편하다는 문제점을 직관적으로 파악할 수 있다. 데이터 가공과 시각화는 단순히 숫자를 나열하는 것을 넘어 문제의 원인을 진단하고 해결책을
현대 사회에서 데이터는 멈춰 있는 정물이 아니라 끊임없이 흘러가는 강물과 같다. 주식 시장의 주가 변동, 도로 위의 교통 상황, 날씨의 변화, 심지어 전 세계의 소셜 미디어 트렌드까지 모든 정보는 1초가 다르게 변한다. 이렇게 시시각각 쏟아지는 방대한 데이터를 수집하고 가공하여 한 화면에 직관적으로 보여주는 시스템을 실시간 대시보드라고 부른다. 대시보드라는 단어는 원래 자동차나 비행기의 조종석 앞부분에 있는 계기판을 의미한다. 운전자가 속도, 연료량, 엔진 상태 등을 한눈에 확인하고 안전하게 운전할 수 있도록 돕는 장치이다. 데이터 과학에서 말하는 대시보드 역시 이와 같은 역할을 한다. 수많은 데이터의 현재 상태와 변화 흐름을 꺾은선 그래프, 파이 차트, 신호등 색상 등 다양한 시각화 도구를 활용해 요약해서 보여주는 상황판인 것이다. 실시간 대시보드는 단순히 데이터를 예쁘게 꾸미는 것을 넘어 신속한 의사결정을 돕는 데 핵심적인 목적이 있다. 예를 들어 전염병 통제 센터의 대시보드는 지역별 확진자 수와 병상 가동률을 실시간으로 보여주어 위기 상황에 즉각적으로 대처할 수 있게 한다. 또한 쇼핑몰 운영자는 현재 어느 상품이 가장 많이 팔리고 있는지, 웹사이트 접속
현대인은 스마트폰과 컴퓨터를 통해 매일 엄청난 양의 데이터를 생성한다. 이 데이터는 일상생활부터 기업 경영, 국가 정책 결정에 이르기까지 핵심적인 역할을 수행한다. 하지만 수집된 기초 데이터가 처음부터 완벽하게 유용할 것이라는 생각은 오해이다. 실제 세계의 데이터는 예상보다 훨씬 지저분하고 오류가 많으며 누락된 정보도 포함한다. 이는 쓰레기 더미 속에 숨겨진 보물을 찾는 과정과 유사하다. 엉망인 데이터를 깨끗하고 분석하기 쉬운 형태로 만드는 과정을 데이터 클렌징(Data Cleansing) 또는 데이터 정제라고 부른다. 이는 데이터 분석의 첫 단계이자 가장 중요한 과정이다. 아무리 좋은 분석 도구를 사용해도 입력되는 데이터가 쓰레기라면 결과물도 쓰레기일 수밖에 없다는 가비지 인, 가비지 아웃(Garbage In, Garbage Out)의 원리가 여기에 적용된다. 데이터 클렌징은 크게 세 가지 유형의 문제를 해결하는 데 집중한다. 첫째는 결측치(Missing Value) 처리이다. 설문조사 응답 누락이나 기기 오작동으로 인해 비어 있는 값을 평균값으로 채우거나 제외하는 과정이다. 둘째는 오류 데이터(Error Data) 수정이다. 나이가 200살로 입력되는 등