현대인은 스마트폰과 컴퓨터를 통해 매일 엄청난 양의 데이터를 생성한다. 이 데이터는 일상생활부터 기업 경영, 국가 정책 결정에 이르기까지 핵심적인 역할을 수행한다. 하지만 수집된 기초 데이터가 처음부터 완벽하게 유용할 것이라는 생각은 오해이다. 실제 세계의 데이터는 예상보다 훨씬 지저분하고 오류가 많으며 누락된 정보도 포함한다. 이는 쓰레기 더미 속에 숨겨진 보물을 찾는 과정과 유사하다. 엉망인 데이터를 깨끗하고 분석하기 쉬운 형태로 만드는 과정을 데이터 클렌징(Data Cleansing) 또는 데이터 정제라고 부른다. 이는 데이터 분석의 첫 단계이자 가장 중요한 과정이다. 아무리 좋은 분석 도구를 사용해도 입력되는 데이터가 쓰레기라면 결과물도 쓰레기일 수밖에 없다는 가비지 인, 가비지 아웃(Garbage In, Garbage Out)의 원리가 여기에 적용된다. 데이터 클렌징은 크게 세 가지 유형의 문제를 해결하는 데 집중한다. 첫째는 결측치(Missing Value) 처리이다. 설문조사 응답 누락이나 기기 오작동으로 인해 비어 있는 값을 평균값으로 채우거나 제외하는 과정이다. 둘째는 오류 데이터(Error Data) 수정이다. 나이가 200살로 입력되는 등
우리가 맛있는 라면을 끓이려고 할 때 가장 먼저 필요한 것은 무엇일까. 바로 라면, 물, 파, 계란 같은 재료들이다. 이 재료들 중 하나라도 빠지면 우리가 원하는 맛을 낼 수 없다. 공장에서 물건을 만들 때도 마찬가지다. 자동차나 스마트폰 같은 복잡한 제품을 만들기 위해 필요한 모든 부품과 원재료의 목록을 정리한 것을 자재 명세서, 즉 BOM(Bill of Materials)이라고 부른다. 쉽게 말해 제품을 만들기 위한 정확한 요리 레시피와 같다. 스마트폰을 예로 들어보자. 겉으로 보기에는 하나의 기계처럼 보이지만, 그 안에는 액정, 배터리, 카메라 모듈, 그리고 아주 작은 나사까지 수백 개의 부품이 들어 있다. BOM은 이 모든 부품의 품번, 이름, 필요한 개수, 규격 등을 상세하게 기록한 문서다. 만약 BOM에 나사가 4개 필요한데 3개만 적혀 있다면 어떻게 될까. 조립 라인에서는 마지막 나사 하나가 부족해 제품을 완성하지 못하고 공장 전체가 멈춰버리는 끔찍한 일이 벌어질 것이다. 또한 BOM은 단순히 부품 리스트를 넘어 돈과 직결된다. 제품 하나를 만드는 데 들어가는 재료비를 계산하는 기준이 되기 때문이다. BOM이 정확해야 제품의 원가를 알 수 있고,