AI 평균의 함정: 빌 게이츠가 우리 교실에 들어온다면?
"우리 반 학생들의 평균 용돈은 얼마일까?"라는 질문을 받으면 우리는 자연스럽게 모든 학생의 용돈을 더한 뒤 학생 수로 나누는 '평균'을 떠올린다. 이처럼 평균은 대푯값으로 가장 널리 쓰이지만, 때로는 현실을 완전히 왜곡하는 거짓말쟁이가 될 수도 있다. 상상을 한 번 해보자. 평범한 우리 교실에 갑자기 세계적인 부자인 빌 게이츠가 전학을 왔다. 그리고 우리 반 학생들의 '평균 재산'을 다시 계산해 본다. 아마도 우리 반 학생 모두가 억만장자인 것처럼 평균값이 치솟을 것이다. 하지만 실제로 내 주머니 사정이 나아진 것은 아니다. 빌 게이츠라는 극단적으로 큰 값(이상치) 하나가 전체 평균을 엉뚱한 방향으로 끌고 갔기 때문이다. 이럴 때 필요한 것이 바로 '중앙값'이다. 학생들을 재산 순서대로 줄 세웠을 때, 정확히 한가운데에 있는 학생의 재산이 바로 중앙값이다. 빌 게이츠가 아무리 부자여도 그는 맨 끝에 줄을 서게 될 뿐, 가운데에 있는 평범한 학생의 값은 변하지 않는다. 따라서 소득이나 집값처럼 격차가 큰 데이터를 다룰 때는 평균보다 중앙값이 훨씬 더 정확한 현실을 보여준다. 데이터 분석에서는 어떤 값을 대푯값으로 쓸지 결정하는 것이 매우 중요하다. 뉴스에서