우리는 매일 일기예보를 확인하고 주식 시장의 흐름을 살피며 내일을 준비한다. 이처럼 시간의 흐름에 따라 기록된 데이터를 시계열 데이터라고 부른다. 단순히 나열된 숫자 더미처럼 보이지만, 그 속에는 일정한 규칙과 반복되는 패턴이 숨어 있다. 데이터 사이언티스트들은 이 복잡한 숫자들 사이에서 의미 있는 신호를 찾아내 미래를 예측하는 지도를 그려낸다. 시계열 분석의 핵심은 먼저 데이터를 깨끗하게 가공하는 전처리 과정에 있다. 수집된 원본 데이터에는 측정 오류나 일시적인 소음과 같은 노이즈가 섞여 있기 마련이다. 이동평균법과 같은 통계적 방법을 활용해 들쭉날쭉한 수치를 매끄럽게 다듬으면 데이터가 가진 본래의 흐름이 드러난다. 여기에 계절성 수치를 고려하면 명절에 교통량이 급증하거나 여름에 빙과류 판매량이 늘어나는 것과 같은 주기적인 특성까지 파악할 수 있게 된다. 이렇게 가공된 데이터는 머신러닝 알고리즘을 만나 더욱 강력해진다. 과거의 수많은 패턴을 학습한 모델은 현재의 위치를 파악하고 앞으로 일어날 변화를 확률적으로 제시한다. 하지만 아무리 정교한 수식과 알고리즘이 동원되어도 그 결과를 숫자로만 나열한다면 대중이 이해하기 어렵다. 여기서 데이터 시각화의 진가가 발
데이터를 다루다 보면 두 개의 숫자가 마치 친구처럼 함께 움직이는 것을 자주 보게 된다. 하나가 늘면 다른 하나도 늘고, 하나가 줄면 다른 하나도 줄어드는 현상이다. 우리는 이것을 '상관관계'가 있다고 말한다. 예를 들어, 여름철 아이스크림 판매량이 늘어나면 수영장에서의 익사 사고도 늘어나는 경향을 보인다. 그렇다면 아이스크림이 익사 사고의 원인일까? 물론 아니다. 여기서 우리가 주의해야 할 중요한 개념이 바로 '인과관계'이다. 인과관계는 한 사건이 다른 사건의 직접적인 원인이 될 때 성립한다. 아이스크림 판매량과 익사 사고의 상관관계는 '더위'라는 제3의 요인 때문에 발생한다. 날씨가 더워지면 사람들이 아이스크림을 더 많이 먹고, 동시에 물놀이도 더 많이 하게 되므로 익사 사고의 위험도 자연스레 증가하는 것이다. 아이스크림이 직접적으로 익사 사고를 유발하는 것이 아니며, 이 둘은 단지 '상관'만 있을 뿐 '인과' 관계는 없는 것이다. 데이터 분석에서 이러한 상관관계와 인과관계를 명확히 구분하는 것은 매우 중요하다. 만약 상관관계만을 보고 인과관계로 오해한다면, 잘못된 정책이나 사업 결정을 내릴 수 있다. 기업이 아이스크림 판매를 줄여 익사 사고를 막으려 한
우리는 흔히 평균이나 표준편차 같은 통계 수치만 확인하면 데이터를 완벽하게 이해했다고 착각하기 쉽다. 하지만 숫자가 보여주는 요약 정보 뒤에는 전혀 예상하지 못한 반전이 숨어 있기도 한다. 이를 가장 명확하게 보여주는 사례가 바로 앤스컴의 4인조 데이터이다. 통계학자 프랜시스 앤스컴이 고안한 이 자료는 네 가지의 서로 다른 데이터 집합으로 구성되어 있다. 놀라운 점은 네 집합의 평균, 분산, 상관계수 등 모든 통계 수치가 소수점 아래 자리까지 거의 일치한다는 사실이다. 만약 우리가 그래프를 그려보지 않고 숫자만 보고 받았다면, 이 네 가지 데이터가 모두 비슷한 성질을 가졌을 것이라고 판단했을 것이다. 그러나 막상 이 데이터들을 평면 위에 점으로 찍어 시각화해보면 완전히 다른 모습이 나타난다. 첫 번째 집합은 평범한 선형 관계를 보이지만, 다른 집합들은 곡선 형태를 띠거나 특정 지점에만 데이터가 몰려 있는 등 전혀 다른 패턴을 가진다. 심지어 한두 개의 튀는 데이터 때문에 전체 통계치가 왜곡된 경우도 발견된다. 이는 시각화 과정 없이 숫자만으로 의사결정을 내리는 것이 얼마나 위험한지를 단적으로 보여주는 예시이다. 데이터 시각화는 단순히 정보를 예쁘게 꾸미는 작