수많은 사람들이 오가는 대형 백화점이나 온라인 쇼핑몰에는 이름표가 붙어 있지 않은 방대한 고객 데이터가 쌓인다. 누가 어떤 취향을 가졌는지 명확한 정답이 없는 상태에서, 기업들은 어떻게 비슷한 성향의 사람들을 찾아내어 맞춤형 서비스를 제공할 수 있을까. 그 해답은 머신러닝의 한 분야인 비지도 학습, 특히 군집 분석이라는 데이터 가공 기술에 숨어 있다. 군집 분석은 정답을 가르쳐주지 않아도 인공지능이 알아서 데이터의 특징을 파악해 비슷한 것들끼리 무리를 지어주는 알고리즘이다. 가장 널리 쓰이는 방법 중 하나인 케이 평균 알고리즘을 예로 들면 그 원리는 생각보다 단순하다. 컴퓨터는 먼저 데이터를 가상의 공간에 점으로 흩뿌린 뒤, 임의의 중심점들을 몇 개 잡는다. 그리고 각 데이터가 어느 중심점과 통계적으로 가장 가까운지 거리를 계산하여 무리를 짓는 과정을 반복한다. 이러한 거리 계산이 정확하게 이루어지기 위해서는 데이터 전처리가 필수적이다. 나이, 구매 금액, 방문 횟수 등 단위와 크기가 전혀 다른 데이터들을 그대로 사용하면 왜곡이 발생하기 때문이다. 따라서 모든 수치를 일정한 기준으로 맞추는 정규화 작업을 거쳐야만 인공지능이 거리를 공평하게 측정할 수 있다.
우리의 손목 위에서 쉼 없이 움직이는 스마트워치는 단순한 시계 이상의 역할을 수행한다. 심박수, 혈중 산소포도, 수면 단계와 같은 미세한 생체 정보들이 초 단위로 수집되어 데이터의 바다를 이룬다. 이렇게 수집된 원시 데이터는 그 자체로는 불규칙한 숫자의 나열에 불과하지만, 정교한 가공 과정을 거치면 우리의 건강 상태를 알려주는 소중한 지표로 탈바꿈한다. 헬스케어 데이터 가공의 핵심은 실시간으로 유입되는 방대한 정보 속에서 노이즈를 제거하는 전처리 기술에 있다. 운동 중의 급격한 움직임이나 기기 착용 상태에 따라 발생하는 오차를 통계적 방법으로 걸러내야만 정확한 분석이 가능하다. 이렇게 정제된 데이터는 머신러닝 알고리즘을 통해 개인의 평소 건강 패턴을 학습한다. 인공지능은 사용자의 과거 기록과 대조하여 평소보다 심박수가 비정상적으로 높거나 수면의 질이 급격히 떨어지는 순간을 이상 징후로 포착한다. 데이터 사이언스는 단순히 질병을 사후에 진단하는 것을 넘어 미리 예측하고 예방하는 단계로 나아가고 있다. 수만 명의 유사한 건강 데이터를 비교 분석하여 특정 질환이 발생하기 전의 공통적인 데이터 변화를 찾아내는 것이다. 이러한 복잡한 분석 결과는 직관적인 시각화 도구
컴퓨터는 태생적으로 숫자만을 이해하는 기계이다. 하지만 오늘날의 인공지능은 우리가 일상적으로 사용하는 언어인 자연어를 능숙하게 주고받으며 질문에 답하고 글을 쓴다. 딱딱한 기계가 어떻게 인간의 복잡 미묘한 문장을 이해하는 것일까. 그 비밀은 문자를 정교한 수치 데이터로 변환하고 가공하는 자연어 처리 기술에 숨어 있다. 단순히 글자를 입력받는 것을 넘어 의미를 파악하기 위해서는 먼저 텍스트를 정제하는 전처리 과정이 필요하다. 문장에서 의미 없는 조사나 구두점을 제거하고 단어의 뿌리가 되는 어근만을 남기는 토큰화 작업을 거친다. 이렇게 쪼개진 단어들은 숫자로 치환되는데, 과거에는 단순히 순서대로 번호를 매겼다면 현대의 인공지능은 단어를 벡터라고 불리는 수천 차원의 공간상 좌표로 변환한다. 이 가공 방식의 핵심은 비슷한 의미를 가진 단어들을 공간상에서 가깝게 배치하는 통계적 학습에 있다. 예를 들어 왕과 여왕이라는 단어는 공간상에서 비슷한 위치에 놓이게 되며, 이들 사이의 거리와 방향을 계산하면 단어 간의 관계를 수치로 파악할 수 있다. 컴퓨터는 문장을 읽는 것이 아니라 수많은 숫자 좌표들 사이의 거리를 측정하며 문맥을 이해하는 셈이다. 잘 가공된 단어의 좌표값들
우리가 스마트폰으로 사진을 찍을 때 인공지능이 자동으로 사람의 얼굴이나 풍경을 인식하는 것은 이제 일상이 되었다. 컴퓨터는 인간처럼 눈으로 세상을 보는 것이 아니라 사진을 수많은 숫자의 집합으로 받아들인다. 이러한 이미지 데이터를 효과적으로 가공하고 분석하여 사물을 식별해내는 핵심 기술이 바로 합성곱 신경망, 즉 CNN이다. 이미지는 수천, 수만 개의 작은 점인 픽셀로 이루어져 있으며 각 픽셀은 색상 정보를 담은 숫자로 표현된다. CNN의 첫 번째 단계는 이 거대한 숫자 판에서 유의미한 특징을 찾아내는 전처리 과정이다. 필터라고 불리는 작은 격자가 이미지를 훑으며 선, 면, 대각선과 같은 기초적인 시각 정보를 추출한다. 이 과정에서 복잡한 원본 데이터는 사물의 특징만 강조된 정제된 데이터로 변환된다. 추출된 특징들은 여러 층의 신경망을 거치며 더욱 구체화된다. 처음에는 단순한 직선이나 곡선을 구분하던 데이터가 층을 깊게 통과할수록 눈, 코, 입과 같은 구체적인 형태를 형성하게 된다. 이는 마치 화가가 밑그림을 그리고 점차 세부 묘사를 더해가는 과정과 유사하다. 데이터 사이언티스트들은 이 과정에서 데이터의 크기를 줄여 핵심 정보만 남기는 풀링 작업을 통해 분석
우리는 매일 일기예보를 확인하고 주식 시장의 흐름을 살피며 내일을 준비한다. 이처럼 시간의 흐름에 따라 기록된 데이터를 시계열 데이터라고 부른다. 단순히 나열된 숫자 더미처럼 보이지만, 그 속에는 일정한 규칙과 반복되는 패턴이 숨어 있다. 데이터 사이언티스트들은 이 복잡한 숫자들 사이에서 의미 있는 신호를 찾아내 미래를 예측하는 지도를 그려낸다. 시계열 분석의 핵심은 먼저 데이터를 깨끗하게 가공하는 전처리 과정에 있다. 수집된 원본 데이터에는 측정 오류나 일시적인 소음과 같은 노이즈가 섞여 있기 마련이다. 이동평균법과 같은 통계적 방법을 활용해 들쭉날쭉한 수치를 매끄럽게 다듬으면 데이터가 가진 본래의 흐름이 드러난다. 여기에 계절성 수치를 고려하면 명절에 교통량이 급증하거나 여름에 빙과류 판매량이 늘어나는 것과 같은 주기적인 특성까지 파악할 수 있게 된다. 이렇게 가공된 데이터는 머신러닝 알고리즘을 만나 더욱 강력해진다. 과거의 수많은 패턴을 학습한 모델은 현재의 위치를 파악하고 앞으로 일어날 변화를 확률적으로 제시한다. 하지만 아무리 정교한 수식과 알고리즘이 동원되어도 그 결과를 숫자로만 나열한다면 대중이 이해하기 어렵다. 여기서 데이터 시각화의 진가가 발
웹사이트나 모바일 앱을 사용할 때 우리는 수많은 화면과 마주친다. 구매하기 버튼의 색상을 파란색으로 할지 빨간색으로 할지, 팝업창의 위치를 어디에 둘지 결정하는 것은 기업의 매출과 직결되는 매우 중요한 문제이다. 과거에는 이러한 디자인이나 기능의 변화를 기획자의 직감이나 책임자의 취향에 따라 결정하는 경우가 많았다. 하지만 지금은 데이터를 수집하고 시각화하여 가장 객관적인 정답을 찾아내는 방식을 사용한다. 이를 에이비 테스트라고 부른다. 에이비 테스트의 원리는 매우 단순하면서도 과학적이다. 기존의 디자인을 A안으로 두고, 새롭게 바꾼 디자인을 B안으로 설정한다. 그리고 웹사이트에 방문하는 사람들을 무작위로 절반씩 나누어 각각 A안과 B안을 보여준다. 일정 시간이 흐른 뒤 어느 쪽 디자인에서 사람들이 버튼을 더 많이 클릭했는지 데이터를 수집하여 비교 분석한다. 수집된 방대한 사용자의 행동 데이터는 가공 과정을 거쳐 막대그래프나 파이 차트 같은 시각화 자료로 변환된다. 수만 명의 방문자가 남긴 복잡한 로그 데이터들이 단순한 두 개의 막대그래프로 요약되면 어느 안이 더 우수한 성과를 냈는지 누구나 직관적으로 파악할 수 있다. 만약 빨간색 버튼인 B안의 막대그래프가
온라인 쇼핑몰에 접속한 100명의 사람 중 실제로 물건을 사는 사람은 몇 명이나 될까. 처음에는 많은 사람이 호기심에 사이트를 방문하지만 상품을 검색하고 장바구니에 담고 결제 버튼을 누르는 각 단계를 거칠 때마다 사람들의 수는 점점 줄어든다. 이렇게 사용자가 특정 목표를 향해 나아가는 과정을 단계별로 나누어 시각화한 것을 퍼널 차트 즉 깔때기 차트라고 부른다. 퍼널 차트는 위쪽이 넓고 아래쪽으로 갈수록 좁아지는 깔때기 모양을 하고 있다. 각 단계의 너비는 해당 단계에 머물러 있는 사람의 수를 나타낸다. 데이터를 가공하여 이 차트를 그리는 가장 큰 목적은 사람들이 어느 단계에서 가장 많이 이탈하는지 즉 서비스의 새는 구멍을 시각적으로 찾아내는 데 있다. 예를 들어 모바일 게임에서 튜토리얼을 끝낸 사람은 많은데 첫 번째 스테이지를 깨는 사람의 수가 확연히 줄어들었다고 가정해 보자. 퍼널 차트에서는 이 구간의 깔때기 너비가 급격하게 좁아지는 형태로 나타난다. 이를 통해 개발자는 첫 번째 스테이지의 난이도가 너무 높거나 조작법이 불편하다는 문제점을 직관적으로 파악할 수 있다. 데이터 가공과 시각화는 단순히 숫자를 나열하는 것을 넘어 문제의 원인을 진단하고 해결책을
현대 사회에서 데이터는 멈춰 있는 정물이 아니라 끊임없이 흘러가는 강물과 같다. 주식 시장의 주가 변동, 도로 위의 교통 상황, 날씨의 변화, 심지어 전 세계의 소셜 미디어 트렌드까지 모든 정보는 1초가 다르게 변한다. 이렇게 시시각각 쏟아지는 방대한 데이터를 수집하고 가공하여 한 화면에 직관적으로 보여주는 시스템을 실시간 대시보드라고 부른다. 대시보드라는 단어는 원래 자동차나 비행기의 조종석 앞부분에 있는 계기판을 의미한다. 운전자가 속도, 연료량, 엔진 상태 등을 한눈에 확인하고 안전하게 운전할 수 있도록 돕는 장치이다. 데이터 과학에서 말하는 대시보드 역시 이와 같은 역할을 한다. 수많은 데이터의 현재 상태와 변화 흐름을 꺾은선 그래프, 파이 차트, 신호등 색상 등 다양한 시각화 도구를 활용해 요약해서 보여주는 상황판인 것이다. 실시간 대시보드는 단순히 데이터를 예쁘게 꾸미는 것을 넘어 신속한 의사결정을 돕는 데 핵심적인 목적이 있다. 예를 들어 전염병 통제 센터의 대시보드는 지역별 확진자 수와 병상 가동률을 실시간으로 보여주어 위기 상황에 즉각적으로 대처할 수 있게 한다. 또한 쇼핑몰 운영자는 현재 어느 상품이 가장 많이 팔리고 있는지, 웹사이트 접속
스포츠 경기를 관람하다 보면 중계 화면에 선수의 움직임을 빨간색과 파란색의 얼룩 같은 모양으로 나타낸 그림이 보인다. 이것이 바로 히트맵(Heat Map)이다. 히트맵은 특정 지역에 발생한 사건의 빈도를 온도를 나타내는 색상으로 시각화한 데이터 가공 방식이다. 열을 뜻하는 Heat와 지도를 뜻하는 Map이 합쳐진 이름처럼 사건이 많이 발생한 곳은 뜨거운 빨간색으로, 적게 발생한 곳은 차가운 파란색으로 표현한다. 축구 경기에서 히트맵은 선수가 경기장 어느 구역에서 가장 오래 머물렀고 어디서 공을 자주 찼는지 한눈에 보여준다. 단순히 선수가 열심히 뛰었다는 느낌을 넘어, 오른쪽 측면 공격에 집중했는지 아니면 중앙 수비에 치중했는지를 수치화된 색상으로 증명하는 것이다. 감독들은 이 데이터를 가공하여 상대 팀 선수의 이동 경로를 파악하고, 우리 팀의 수비 구멍을 찾아내어 다음 경기를 위한 맞춤형 전략을 세운다. 농구에서도 히트맵의 활약은 대단하다. 선수가 코트의 어느 지점에서 슛을 던졌을 때 성공 확률이 높은지 시각화하면, 그 선수의 핫 존(Hot Zone)이 드러난다. 공격 시에는 슛 성공률이 높은 빨간색 지점으로 공을 배달하고, 수비 시에는 상대 에이스가 선호하