"우리 반 학생들의 평균 용돈은 얼마일까?"라는 질문을 받으면 우리는 자연스럽게 모든 학생의 용돈을 더한 뒤 학생 수로 나누는 '평균'을 떠올린다. 이처럼 평균은 대푯값으로 가장 널리 쓰이지만, 때로는 현실을 완전히 왜곡하는 거짓말쟁이가 될 수도 있다. 상상을 한 번 해보자. 평범한 우리 교실에 갑자기 세계적인 부자인 빌 게이츠가 전학을 왔다. 그리고 우리 반 학생들의 '평균 재산'을 다시 계산해 본다. 아마도 우리 반 학생 모두가 억만장자인 것처럼 평균값이 치솟을 것이다. 하지만 실제로 내 주머니 사정이 나아진 것은 아니다. 빌 게이츠라는 극단적으로 큰 값(이상치) 하나가 전체 평균을 엉뚱한 방향으로 끌고 갔기 때문이다. 이럴 때 필요한 것이 바로 '중앙값'이다. 학생들을 재산 순서대로 줄 세웠을 때, 정확히 한가운데에 있는 학생의 재산이 바로 중앙값이다. 빌 게이츠가 아무리 부자여도 그는 맨 끝에 줄을 서게 될 뿐, 가운데에 있는 평범한 학생의 값은 변하지 않는다. 따라서 소득이나 집값처럼 격차가 큰 데이터를 다룰 때는 평균보다 중앙값이 훨씬 더 정확한 현실을 보여준다. 데이터 분석에서는 어떤 값을 대푯값으로 쓸지 결정하는 것이 매우 중요하다. 뉴스에서
데이터를 다루다 보면 두 개의 숫자가 마치 친구처럼 함께 움직이는 것을 자주 보게 된다. 하나가 늘면 다른 하나도 늘고, 하나가 줄면 다른 하나도 줄어드는 현상이다. 우리는 이것을 '상관관계'가 있다고 말한다. 예를 들어, 여름철 아이스크림 판매량이 늘어나면 수영장에서의 익사 사고도 늘어나는 경향을 보인다. 그렇다면 아이스크림이 익사 사고의 원인일까? 물론 아니다. 여기서 우리가 주의해야 할 중요한 개념이 바로 '인과관계'이다. 인과관계는 한 사건이 다른 사건의 직접적인 원인이 될 때 성립한다. 아이스크림 판매량과 익사 사고의 상관관계는 '더위'라는 제3의 요인 때문에 발생한다. 날씨가 더워지면 사람들이 아이스크림을 더 많이 먹고, 동시에 물놀이도 더 많이 하게 되므로 익사 사고의 위험도 자연스레 증가하는 것이다. 아이스크림이 직접적으로 익사 사고를 유발하는 것이 아니며, 이 둘은 단지 '상관'만 있을 뿐 '인과' 관계는 없는 것이다. 데이터 분석에서 이러한 상관관계와 인과관계를 명확히 구분하는 것은 매우 중요하다. 만약 상관관계만을 보고 인과관계로 오해한다면, 잘못된 정책이나 사업 결정을 내릴 수 있다. 기업이 아이스크림 판매를 줄여 익사 사고를 막으려 한
우리는 매일 뉴스나 인터넷 기사를 통해 수많은 그래프를 접한다. 복잡한 숫자 더미보다 한 장의 그래프가 정보를 훨씬 빠르고 명확하게 전달하기 때문이다. 하지만 시각화된 자료가 언제나 진실만을 말하는 것은 아니다. 때로는 제작자의 의도에 따라 데이터가 실제보다 과장되거나 축소되어 전달되기도 한다. 이것을 이른바 나쁜 시각화라고 부른다. 가장 대표적인 왜곡 수법은 그래프의 세로축을 조작하는 것이다. 보통 막대그래프는 수치의 바닥인 0에서부터 시작해야 한다. 그러나 특정 수치를 강조하고 싶은 제작자가 축의 시작점을 0이 아닌 높은 숫자로 설정하면, 아주 작은 차이도 마치 엄청난 격차가 벌어진 것처럼 보이게 된다. 반대로 수치의 변화를 숨기고 싶을 때는 축의 간격을 매우 넓게 설정하여 완만한 직선처럼 보이게 만들기도 한다. 또한 3차원 입체 그래프를 사용하는 경우에도 착시 현상이 발생한다. 원형 그래프를 비스듬하게 눕히면 앞쪽에 위치한 조각이 실제 비율보다 훨씬 크게 느껴지는 효과가 나타난다. 이는 독자가 데이터의 실제 크기를 비교하는 데 혼란을 준다. 단순히 멋을 내기 위해 선택한 디자인 요소가 정보의 본질을 가리는 셈이다. 착한 시각화란 단순히 화려한 그림을 그