컴퓨터 과학과 데이터 분석 분야에는 가비지 인, 가비지 아웃(Garbage In, Garbage Out)이라는 유명한 격언이 있다. 쓰레기가 들어가면 쓰레기가 나온다는 뜻으로, 아무리 성능이 뛰어난 인공지능이나 통계 모델을 사용하더라도 분석의 재료가 되는 데이터 자체가 오염되어 있다면 그 결과물 역시 가치가 없다는 의미이다.
데이터를 수집하고 나서 분석에 들어가기 전, 이를 깨끗하게 닦고 조이는 전처리 과정이 중요한 이유가 바로 여기에 있다.

실제 세상에서 수집되는 데이터는 결코 완벽하지 않다. 설문조사에서 응답자가 답변을 빠뜨려 비어 있는 칸이 생기기도 하고, 센서 오작동으로 인해 말도 안 되게 높거나 낮은 수치가 기록되기도 한다.
예를 들어 학생들의 평균 키를 조사하는데 실수로 3미터라는 수치가 섞여 들어간다면 전체 평균은 크게 왜곡된다. 데이터 사이언티스트는 이런 이상치와 결측치를 찾아내어 제거하거나 적절한 값으로 대체하는 전처리 작업을 거친다.
또한 데이터의 형식을 통일하는 과정도 필수적이다. 어떤 데이터는 미터 단위로 기록되고 어떤 데이터는 센티미터 단위로 기록되어 있다면 이를 하나로 맞추지 않고서는 올바른 비교 분석이 불가능하다. 단순히 데이터를 모으는 것보다 더 중요한 것은 분석 목적에 맞게 데이터를 변환하고 정규화하는 정교한 가공 기술이다. 실제로 전체 데이터 분석 시간의 80% 이상이 이러한 전처리 단계에 소요될 정도로 비중이 매우 높다.
결국 데이터 전처리는 요리를 하기 전 식재료를 손질하는 과정과 같다. 신선하지 않은 재료를 그대로 냄비에 넣으면 아무리 일류 요리사라도 좋은 맛을 낼 수 없다. 데이터 분석 역시 마찬가지이다. 겉으로 보기에는 화려해 보이지 않는 지루한 전처리 과정이 뒷받침될 때 비로소 우리는 데이터 속에 숨겨진 진정한 의미와 정확한 예측 결과를 얻어낼 수 있다.
[※ 칼럼의 그림 및 도표는 AI 활용하여 작성됨]










