한국e마케팅저널

주메뉴 바로가기
본문 바로가기

닫기

지원사업뉴스
- 금융
- 기술
- 인력
- 수출
- 내수
- 창업
- 경영
- 기타
정책뉴스
행사소식
- 수도권
- 충청권
- 전라권
- 경상권
- 강원권
- 제주
전문가칼럼
- 마케팅
- 유통
- AI
- 재무
- HR
- 생산관리
- 기술
뉴스
- 경제
- 유통
- 마케팅
- 취업
미디어
- 인터넷
- 방송
문화연예
- 공연
- 전시
- 영화
- 문화재
생활
- 식품
- 생활용품
- 결혼
- 육아
- 화장품
- 반려동물
건강과학

#결측치

홈
#결측치

AI 쓰레기 데이터가 들어오면 쓰레기가 나온다, 데이터 전처리의 마법

컴퓨터 과학과 데이터 분석 분야에는 가비지 인, 가비지 아웃(Garbage In, Garbage Out)이라는 유명한 격언이 있다. 쓰레기가 들어가면 쓰레기가 나온다는 뜻으로, 아무리 성능이 뛰어난 인공지능이나 통계 모델을 사용하더라도 분석의 재료가 되는 데이터 자체가 오염되어 있다면 그 결과물 역시 가치가 없다는 의미이다. 데이터를 수집하고 나서 분석에 들어가기 전, 이를 깨끗하게 닦고 조이는 전처리 과정이 중요한 이유가 바로 여기에 있다. 실제 세상에서 수집되는 데이터는 결코 완벽하지 않다. 설문조사에서 응답자가 답변을 빠뜨려 비어 있는 칸이 생기기도 하고, 센서 오작동으로 인해 말도 안 되게 높거나 낮은 수치가 기록되기도 한다. 예를 들어 학생들의 평균 키를 조사하는데 실수로 3미터라는 수치가 섞여 들어간다면 전체 평균은 크게 왜곡된다. 데이터 사이언티스트는 이런 이상치와 결측치를 찾아내어 제거하거나 적절한 값으로 대체하는 전처리 작업을 거친다. 또한 데이터의 형식을 통일하는 과정도 필수적이다. 어떤 데이터는 미터 단위로 기록되고 어떤 데이터는 센티미터 단위로 기록되어 있다면 이를 하나로 맞추지 않고서는 올바른 비교 분석이 불가능하다. 단순히 데이터를
- 주택규 기자
- 2026-03-20 09:08
AI 쓰레기 데이터의 변신: 데이터 클렌징(Data Cleansing)의 마법

현대인은 스마트폰과 컴퓨터를 통해 매일 엄청난 양의 데이터를 생성한다. 이 데이터는 일상생활부터 기업 경영, 국가 정책 결정에 이르기까지 핵심적인 역할을 수행한다. 하지만 수집된 기초 데이터가 처음부터 완벽하게 유용할 것이라는 생각은 오해이다. 실제 세계의 데이터는 예상보다 훨씬 지저분하고 오류가 많으며 누락된 정보도 포함한다. 이는 쓰레기 더미 속에 숨겨진 보물을 찾는 과정과 유사하다. 엉망인 데이터를 깨끗하고 분석하기 쉬운 형태로 만드는 과정을 데이터 클렌징(Data Cleansing) 또는 데이터 정제라고 부른다. 이는 데이터 분석의 첫 단계이자 가장 중요한 과정이다. 아무리 좋은 분석 도구를 사용해도 입력되는 데이터가 쓰레기라면 결과물도 쓰레기일 수밖에 없다는 가비지 인, 가비지 아웃(Garbage In, Garbage Out)의 원리가 여기에 적용된다. 데이터 클렌징은 크게 세 가지 유형의 문제를 해결하는 데 집중한다. 첫째는 결측치(Missing Value) 처리이다. 설문조사 응답 누락이나 기기 오작동으로 인해 비어 있는 값을 평균값으로 채우거나 제외하는 과정이다. 둘째는 오류 데이터(Error Data) 수정이다. 나이가 200살로 입력되는 등
- 주택규 기자
- 2026-02-19 09:42

1

MZ가 이끄는 ‘필코노미’…감정이 소비를 결정한다
2

[e커머스] 2025 온라인 식료품 시장 트렌드와 중소 셀러 생존 전략
3

인산테라, ‘풀케어(Full Care)’ 출시… 병해충 관리와 친환경 농업의 새 전환점
4

인산테라 ‘풀케어’로 충남 아산 시범농장 고추 재배 성공… 친환경 농법 새 모델 제시
5

경영지도사 시험 제40회 합격률 33.1%…“중장년층 진입·컨설팅 수요 반영”
6

제40회 경영지도사·기술지도사 2차 시험, 총 363명 최종 합격
7

미국 ‘말차’ 열풍…국산 녹차에 새로운 기회 열린다
8

개 식용 종식 1년, 농장 70% 폐업…‘남겨진 개들’ 보호는 숙제

실시간뉴스

2026-04-06 17:07
반려동물 동반 음식점, 시행 한 달 만에 전국 1340곳 확산
2026-04-06 16:56
폴센트, 설립 3년 만에 MAU 100만 돌파…200억 원 투자 유치
2026-04-06 14:08
개당 99원대 ‘저가 생리대’ 불티… 유통업계 가격 경쟁 본격화
2026-04-06 10:51
배달대행 ‘부릉’, 국내 최초 AI 전면 자동배차 시대 연다… ‘부릉플러스’ 도입
2026-04-06 09:22
알파고와 자율주행의 비밀: 실패를 넘어 정답을 찾아가는 강화학습의 통계학
2026-04-06 09:18
범정부 원팀으로 K-뷰티 글로벌 거점 만든다… 지방 2곳 선정 추진

신문사소개
찾아오시는 길
개인정보처리방침
청소년보호정책 (책임자 : 임진우)
이메일 무단수집거부
기사제보
문의하기

UPDATE: 2026년 04월 06일 17시 07분

인기기사

#결측치

AI 쓰레기 데이터가 들어오면 쓰레기가 나온다, 데이터 전처리의 마법

AI 쓰레기 데이터의 변신: 데이터 클렌징(Data Cleansing)의 마법

랭킹뉴스

MZ가 이끄는 ‘필코노미’…감정이 소비를 결정한다

[e커머스] 2025 온라인 식료품 시장 트렌드와 중소 셀러 생존 전략

인산테라, ‘풀케어(Full Care)’ 출시… 병해충 관리와 친환경 농업의 새 전환점

인산테라 ‘풀케어’로 충남 아산 시범농장 고추 재배 성공… 친환경 농법 새 모델 제시

경영지도사 시험 제40회 합격률 33.1%…“중장년층 진입·컨설팅 수요 반영”

제40회 경영지도사·기술지도사 2차 시험, 총 363명 최종 합격

미국 ‘말차’ 열풍…국산 녹차에 새로운 기회 열린다

개 식용 종식 1년, 농장 70% 폐업…‘남겨진 개들’ 보호는 숙제

실시간뉴스

반려동물 동반 음식점, 시행 한 달 만에 전국 1340곳 확산

폴센트, 설립 3년 만에 MAU 100만 돌파…200억 원 투자 유치

개당 99원대 ‘저가 생리대’ 불티… 유통업계 가격 경쟁 본격화

배달대행 ‘부릉’, 국내 최초 AI 전면 자동배차 시대 연다… ‘부릉플러스’ 도입

알파고와 자율주행의 비밀: 실패를 넘어 정답을 찾아가는 강화학습의 통계학

범정부 원팀으로 K-뷰티 글로벌 거점 만든다… 지방 2곳 선정 추진