컴퓨터 과학과 데이터 분석 분야에는 가비지 인, 가비지 아웃(Garbage In, Garbage Out)이라는 유명한 격언이 있다. 쓰레기가 들어가면 쓰레기가 나온다는 뜻으로, 아무리 성능이 뛰어난 인공지능이나 통계 모델을 사용하더라도 분석의 재료가 되는 데이터 자체가 오염되어 있다면 그 결과물 역시 가치가 없다는 의미이다. 데이터를 수집하고 나서 분석에 들어가기 전, 이를 깨끗하게 닦고 조이는 전처리 과정이 중요한 이유가 바로 여기에 있다. 실제 세상에서 수집되는 데이터는 결코 완벽하지 않다. 설문조사에서 응답자가 답변을 빠뜨려 비어 있는 칸이 생기기도 하고, 센서 오작동으로 인해 말도 안 되게 높거나 낮은 수치가 기록되기도 한다. 예를 들어 학생들의 평균 키를 조사하는데 실수로 3미터라는 수치가 섞여 들어간다면 전체 평균은 크게 왜곡된다. 데이터 사이언티스트는 이런 이상치와 결측치를 찾아내어 제거하거나 적절한 값으로 대체하는 전처리 작업을 거친다. 또한 데이터의 형식을 통일하는 과정도 필수적이다. 어떤 데이터는 미터 단위로 기록되고 어떤 데이터는 센티미터 단위로 기록되어 있다면 이를 하나로 맞추지 않고서는 올바른 비교 분석이 불가능하다. 단순히 데이터를
요즘 우리는 '빅데이터'라는 말을 매일 듣는다. 수천만 명의 구매 기록이나 검색어 순위 같은 방대한 데이터가 세상을 바꾼다고 한다. 하지만 거대한 데이터의 파도 속에서 정작 중요한 단서를 놓치는 경우가 있다. 이때 필요한 것이 바로 '스몰 데이터'이다. 빅데이터가 '거대한 숲'을 보여준다면, 스몰 데이터는 '나무 한 그루'의 상태를 자세히 보여주는 돋보기와 같다. 빅데이터는 우리에게 '무엇'이 일어났는지 알려준다. 예를 들어 특정 운동화의 판매량이 갑자기 줄었다는 사실을 알려주는 식이다. 하지만 '왜' 줄었는지는 명확히 말해주지 않는다. 이때 데이터 분석가는 고객의 일상을 직접 관찰하는 스몰 데이터를 수집한다. 관찰 결과, 운동화 끈이 너무 잘 풀려서 불편해하는 고객의 사소한 행동을 발견할 수 있다. 이 작은 단서 하나가 디자인을 수정하고 다시 판매량을 올리는 핵심 열쇠가 된다. 실제로 유명한 레고(LEGO) 사도 한때 위기를 겪었으나, 아이들이 낡은 운동화를 자랑스러워하는 모습이라는 스몰 데이터에서 힌트를 얻었다. 아이들은 어려운 도전을 극복하고 성취감을 느끼길 원한다는 사실을 깨닫고, 더 복잡하고 정교한 블록을 만들어 재기에 성공했다. 이처럼 숫자의 양이
데이터를 다루다 보면 두 개의 숫자가 마치 친구처럼 함께 움직이는 것을 자주 보게 된다. 하나가 늘면 다른 하나도 늘고, 하나가 줄면 다른 하나도 줄어드는 현상이다. 우리는 이것을 '상관관계'가 있다고 말한다. 예를 들어, 여름철 아이스크림 판매량이 늘어나면 수영장에서의 익사 사고도 늘어나는 경향을 보인다. 그렇다면 아이스크림이 익사 사고의 원인일까? 물론 아니다. 여기서 우리가 주의해야 할 중요한 개념이 바로 '인과관계'이다. 인과관계는 한 사건이 다른 사건의 직접적인 원인이 될 때 성립한다. 아이스크림 판매량과 익사 사고의 상관관계는 '더위'라는 제3의 요인 때문에 발생한다. 날씨가 더워지면 사람들이 아이스크림을 더 많이 먹고, 동시에 물놀이도 더 많이 하게 되므로 익사 사고의 위험도 자연스레 증가하는 것이다. 아이스크림이 직접적으로 익사 사고를 유발하는 것이 아니며, 이 둘은 단지 '상관'만 있을 뿐 '인과' 관계는 없는 것이다. 데이터 분석에서 이러한 상관관계와 인과관계를 명확히 구분하는 것은 매우 중요하다. 만약 상관관계만을 보고 인과관계로 오해한다면, 잘못된 정책이나 사업 결정을 내릴 수 있다. 기업이 아이스크림 판매를 줄여 익사 사고를 막으려 한