우리는 매일 뉴스, SNS, 광고를 통해 수많은 그래프를 접한다. 그래프는 복잡한 수치를 한눈에 보여주는 강력한 도구이지만, 때로는 설계자의 의도에 따라 진실을 교묘하게 가리기도 한다. 데이터 시각화 과정에서 발생하는 함정을 이해하는 것은 현대 사회에서 정보를 올바르게 수용하기 위한 필수 역량이다. 가장 흔한 왜곡 기법은 그래프의 세로축인 Y축을 조작하는 것이다. 특정 수치의 변화를 극적으로 보여주고 싶을 때, 작성자는 0부터 시작해야 할 Y축의 하단을 잘라내고 변화가 일어나는 구간만 확대한다. 이렇게 하면 실제로는 1%의 미미한 차이임에도 불구하고, 시각적으로는 몇 배나 급격하게 상승하거나 하락한 것처럼 보이게 된다. 이는 데이터 전처리 과정에서 고의로 특정 범위를 강조할 때 나타나는 대표적인 시왜곡 사례이다. 그래프의 형태를 부적절하게 선택하는 경우도 빈번하다. 시간에 따른 추세를 보여줄 때는 꺾은선그래프가 적합하고, 항목 간의 비중을 비교할 때는 원그래프나 막대그래프가 유리하다. 하지만 항목 간의 단순 비교를 위해 면적이나 부피를 사용하는 3D 그래프를 사용하면, 원근감 때문에 앞쪽에 위치한 데이터가 실제보다 훨씬 커 보이는 착시를 일으킨다. 이는 시각
데이터를 다루다 보면 두 개의 숫자가 마치 친구처럼 함께 움직이는 것을 자주 보게 된다. 하나가 늘면 다른 하나도 늘고, 하나가 줄면 다른 하나도 줄어드는 현상이다. 우리는 이것을 '상관관계'가 있다고 말한다. 예를 들어, 여름철 아이스크림 판매량이 늘어나면 수영장에서의 익사 사고도 늘어나는 경향을 보인다. 그렇다면 아이스크림이 익사 사고의 원인일까? 물론 아니다. 여기서 우리가 주의해야 할 중요한 개념이 바로 '인과관계'이다. 인과관계는 한 사건이 다른 사건의 직접적인 원인이 될 때 성립한다. 아이스크림 판매량과 익사 사고의 상관관계는 '더위'라는 제3의 요인 때문에 발생한다. 날씨가 더워지면 사람들이 아이스크림을 더 많이 먹고, 동시에 물놀이도 더 많이 하게 되므로 익사 사고의 위험도 자연스레 증가하는 것이다. 아이스크림이 직접적으로 익사 사고를 유발하는 것이 아니며, 이 둘은 단지 '상관'만 있을 뿐 '인과' 관계는 없는 것이다. 데이터 분석에서 이러한 상관관계와 인과관계를 명확히 구분하는 것은 매우 중요하다. 만약 상관관계만을 보고 인과관계로 오해한다면, 잘못된 정책이나 사업 결정을 내릴 수 있다. 기업이 아이스크림 판매를 줄여 익사 사고를 막으려 한
우리는 흔히 평균이나 표준편차 같은 통계 수치만 확인하면 데이터를 완벽하게 이해했다고 착각하기 쉽다. 하지만 숫자가 보여주는 요약 정보 뒤에는 전혀 예상하지 못한 반전이 숨어 있기도 한다. 이를 가장 명확하게 보여주는 사례가 바로 앤스컴의 4인조 데이터이다. 통계학자 프랜시스 앤스컴이 고안한 이 자료는 네 가지의 서로 다른 데이터 집합으로 구성되어 있다. 놀라운 점은 네 집합의 평균, 분산, 상관계수 등 모든 통계 수치가 소수점 아래 자리까지 거의 일치한다는 사실이다. 만약 우리가 그래프를 그려보지 않고 숫자만 보고 받았다면, 이 네 가지 데이터가 모두 비슷한 성질을 가졌을 것이라고 판단했을 것이다. 그러나 막상 이 데이터들을 평면 위에 점으로 찍어 시각화해보면 완전히 다른 모습이 나타난다. 첫 번째 집합은 평범한 선형 관계를 보이지만, 다른 집합들은 곡선 형태를 띠거나 특정 지점에만 데이터가 몰려 있는 등 전혀 다른 패턴을 가진다. 심지어 한두 개의 튀는 데이터 때문에 전체 통계치가 왜곡된 경우도 발견된다. 이는 시각화 과정 없이 숫자만으로 의사결정을 내리는 것이 얼마나 위험한지를 단적으로 보여주는 예시이다. 데이터 시각화는 단순히 정보를 예쁘게 꾸미는 작
우리는 매일 뉴스나 인터넷 기사를 통해 수많은 그래프를 접한다. 복잡한 숫자 더미보다 한 장의 그래프가 정보를 훨씬 빠르고 명확하게 전달하기 때문이다. 하지만 시각화된 자료가 언제나 진실만을 말하는 것은 아니다. 때로는 제작자의 의도에 따라 데이터가 실제보다 과장되거나 축소되어 전달되기도 한다. 이것을 이른바 나쁜 시각화라고 부른다. 가장 대표적인 왜곡 수법은 그래프의 세로축을 조작하는 것이다. 보통 막대그래프는 수치의 바닥인 0에서부터 시작해야 한다. 그러나 특정 수치를 강조하고 싶은 제작자가 축의 시작점을 0이 아닌 높은 숫자로 설정하면, 아주 작은 차이도 마치 엄청난 격차가 벌어진 것처럼 보이게 된다. 반대로 수치의 변화를 숨기고 싶을 때는 축의 간격을 매우 넓게 설정하여 완만한 직선처럼 보이게 만들기도 한다. 또한 3차원 입체 그래프를 사용하는 경우에도 착시 현상이 발생한다. 원형 그래프를 비스듬하게 눕히면 앞쪽에 위치한 조각이 실제 비율보다 훨씬 크게 느껴지는 효과가 나타난다. 이는 독자가 데이터의 실제 크기를 비교하는 데 혼란을 준다. 단순히 멋을 내기 위해 선택한 디자인 요소가 정보의 본질을 가리는 셈이다. 착한 시각화란 단순히 화려한 그림을 그