자전거 타기를 처음 배울 때 넘어지면서 균형 잡는 법을 몸으로 익히듯, 인공지능도 무수한 실패를 통해 스스로 정답을 찾아가는 방법이 있다. 바로 알파고와 자율주행 자동차를 탄생시킨 핵심 기술인 강화학습이다. 기존의 머신러닝이 사람이 미리 다듬어놓은 정답 데이터를 외우는 방식이었다면, 강화학습은 인공지능이 스스로 가상 환경과 부딪치며 얻은 경험 데이터를 가공하여 최적의 행동 전략을 세우는 진일보한 기술이다. 강화학습의 핵심은 보상과 패널티라는 통계적 시스템에 있다. 자율주행 자동차를 예로 들면, 차선 안에 머물거나 목적지에 무사히 도착하면 더하기 점수를 받고, 장애물과 충돌하거나 차선을 벗어나면 빼기 점수를 받도록 알고리즘이 설계된다. 인공지능은 매 순간 카메라와 센서로 수집된 엄청난 양의 시각 데이터를 전처리하여 현재 상태를 수치화하고, 무작위로 행동을 취해본다. 그리고 그 결과로 얻어진 점수들을 수학적으로 계산하여, 미래에 가장 높은 보상을 받을 수 있는 확률적 경로를 스스로 업데이트한다. 이 과정에서 발생하는 수백만 번의 시행착오 데이터는 결코 의미 없는 실패의 기록이 아니다. 인공지능은 이 방대한 오답 데이터를 가공하여 어느 상황에서 어떤 행동이 유리한
컴퓨터 과학과 데이터 분석 분야에는 가비지 인, 가비지 아웃(Garbage In, Garbage Out)이라는 유명한 격언이 있다. 쓰레기가 들어가면 쓰레기가 나온다는 뜻으로, 아무리 성능이 뛰어난 인공지능이나 통계 모델을 사용하더라도 분석의 재료가 되는 데이터 자체가 오염되어 있다면 그 결과물 역시 가치가 없다는 의미이다. 데이터를 수집하고 나서 분석에 들어가기 전, 이를 깨끗하게 닦고 조이는 전처리 과정이 중요한 이유가 바로 여기에 있다. 실제 세상에서 수집되는 데이터는 결코 완벽하지 않다. 설문조사에서 응답자가 답변을 빠뜨려 비어 있는 칸이 생기기도 하고, 센서 오작동으로 인해 말도 안 되게 높거나 낮은 수치가 기록되기도 한다. 예를 들어 학생들의 평균 키를 조사하는데 실수로 3미터라는 수치가 섞여 들어간다면 전체 평균은 크게 왜곡된다. 데이터 사이언티스트는 이런 이상치와 결측치를 찾아내어 제거하거나 적절한 값으로 대체하는 전처리 작업을 거친다. 또한 데이터의 형식을 통일하는 과정도 필수적이다. 어떤 데이터는 미터 단위로 기록되고 어떤 데이터는 센티미터 단위로 기록되어 있다면 이를 하나로 맞추지 않고서는 올바른 비교 분석이 불가능하다. 단순히 데이터를
우리는 매일 뉴스, SNS, 광고를 통해 수많은 그래프를 접한다. 그래프는 복잡한 수치를 한눈에 보여주는 강력한 도구이지만, 때로는 설계자의 의도에 따라 진실을 교묘하게 가리기도 한다. 데이터 시각화 과정에서 발생하는 함정을 이해하는 것은 현대 사회에서 정보를 올바르게 수용하기 위한 필수 역량이다. 가장 흔한 왜곡 기법은 그래프의 세로축인 Y축을 조작하는 것이다. 특정 수치의 변화를 극적으로 보여주고 싶을 때, 작성자는 0부터 시작해야 할 Y축의 하단을 잘라내고 변화가 일어나는 구간만 확대한다. 이렇게 하면 실제로는 1%의 미미한 차이임에도 불구하고, 시각적으로는 몇 배나 급격하게 상승하거나 하락한 것처럼 보이게 된다. 이는 데이터 전처리 과정에서 고의로 특정 범위를 강조할 때 나타나는 대표적인 시왜곡 사례이다. 그래프의 형태를 부적절하게 선택하는 경우도 빈번하다. 시간에 따른 추세를 보여줄 때는 꺾은선그래프가 적합하고, 항목 간의 비중을 비교할 때는 원그래프나 막대그래프가 유리하다. 하지만 항목 간의 단순 비교를 위해 면적이나 부피를 사용하는 3D 그래프를 사용하면, 원근감 때문에 앞쪽에 위치한 데이터가 실제보다 훨씬 커 보이는 착시를 일으킨다. 이는 시각
손목에 찬 작은 스마트워치는 하루 종일 우리의 일상을 기록하는 충실한 서기이다. 우리가 몇 걸음을 걸었는지 심장 박동은 얼마나 고른지 밤에는 얼마나 깊이 잠들었는지 기기는 1분 1초를 놓치지 않고 수치로 저장한다. 하지만 이렇게 하루하루 쌓인 데이터는 1년이 지나면 수백만 줄의 방대한 엑셀 표로 변해버린다. 매일의 기록을 단순히 숫자로만 나열해서는 내 몸에 어떤 변화가 일어나고 있는지 전체적인 흐름을 파악하기가 매우 어렵다. 이러한 개인 건강 데이터를 가장 직관적으로 가공하고 보여주는 시각화 기법이 바로 캘린더 히트맵이다. 캘린더 히트맵은 1년 365일을 작은 네모 칸으로 쪼개어 우리가 흔히 보는 달력 모양의 격자로 배치한다. 그리고 매일의 데이터 수치에 따라 네모 칸의 색상을 다르게 칠한다. 예를 들어 목표 걸음 수를 달성한 날은 짙은 초록색으로 걷지 않은 날은 옅은 연두색이나 빈칸으로 남겨두는 식이다. 색상의 진하기만으로 그날의 활동량을 한눈에 알 수 있게 가공한 것이다. 이 시각화 화면을 띄워보면 숫자로 볼 때는 결코 알 수 없었던 내 삶의 패턴이 선명하게 드러난다. 특정 요일마다 수면 시간이 부족해져 색상이 옅어진다거나 겨울철에 유독 활동량이 줄어들어
우리가 매일 걷는 골목길이나 퇴근길은 과연 범죄로부터 얼마나 안전할까. 과거에는 경찰서의 캐비닛에 쌓인 종이 문서나 엑셀 표의 딱딱한 숫자들만으로는 우리 동네의 진짜 치안 상태를 직관적으로 파악하기 어려웠다. 하지만 언제, 어디서, 어떤 종류의 사건이 발생했는지에 대한 방대한 범죄 데이터를 지리 정보와 결합해 화면 위에 그려내는 공간 정보 시각화 기술이 도입되면서 치안의 패러다임이 바뀌고 있다. 범죄 데이터를 공간 정보로 가공할 때 가장 널리 쓰이는 시각화 기법은 핫스팟 지도이다. 수만 건의 범죄 발생 위치 데이터를 지도 시스템의 X와 Y 좌표로 변환한 뒤 범죄가 자주 일어나는 밀집 구역을 온도의 높낮이처럼 색상으로 표현하는 방식이다. 사건이 집중된 위험 지역은 붉은색으로 칠해지고 상대적으로 안전한 지역은 푸른색이나 녹색으로 칠해진다. 수천 장의 조서나 통계청 자료를 읽지 않아도 이 지도 한 장만 띄우면 어느 골목이 취약한지 단번에 눈으로 확인할 수 있다. 이렇게 가공된 범죄 시각화 지도는 단순히 과거의 기록을 보여주는 데 그치지 않고 미래의 범죄를 예방하는 강력한 무기가 된다. 한정된 경찰 인력을 붉게 표시된 핫스팟 구역에 집중적으로 배치하여 순찰의 효율성
선거철이 되면 뉴스 화면에는 붉은색과 푸른색으로 물든 전국 지도가 어김없이 등장한다. 하지만 우리가 흔히 보는 지리적 지도는 종종 민심을 읽는 데 착시 현상을 일으킨다. 인구 밀도가 낮고 면적이 넓은 산간 지역은 지도에서 엄청나게 큰 비중을 차지하는 반면 수백만 명의 유권자가 밀집한 대도시는 아주 작은 점처럼 보이기 때문이다. 면적이 넓은 정당이 마치 선거에서 압승을 거둔 것처럼 보이지만 실제 득표수는 전혀 다를 수 있다. 이러한 정보의 왜곡을 막기 위해 등장한 시각화 기법이 바로 카토그램이다. 카토그램은 지리적인 실제 면적이 아니라 인구수나 유권자 수 같은 특정 데이터의 크기에 비례하도록 지도의 크기를 인위적으로 왜곡하여 가공한 지도이다. 쉽게 말해 사람이 많이 사는 도시는 풍선처럼 크게 부풀리고 사람이 적게 사는 넓은 지역은 홀쭉하게 쪼그라뜨리는 방식이다. 이 지도를 보면 땅의 크기가 아니라 진짜 사람의 표심이 어디에 얼마나 모여 있는지 그 무게감을 직관적으로 파악할 수 있다. 이처럼 지도를 왜곡하기 위해서는 고도의 데이터 가공 과정이 필요하다. 각 행정구역의 지리적 좌표 데이터와 인구 통계 데이터를 결합한 뒤 이웃한 지역끼리의 경계선을 최대한 유지하면서
어젯밤에 주문한 물건이 오늘 아침 문 앞에 도착해 있는 마법 같은 일상은 이제 우리에게 익숙하다. 이토록 빠르고 정확한 배송의 이면에는 밤낮없이 달리는 택배 차량뿐만 아니라 전국 단위로 발생하는 거대한 물류 데이터를 수집하고 분석하는 치열한 과정이 숨어 있다. 수백만 개의 택배 상자가 바코드를 찍고 물류 센터를 통과할 때마다 방대한 위치 데이터와 시간 데이터가 생성되며 이를 가공하여 눈에 보이는 지도로 만든 것이 바로 흐름 맵이다. 흐름 맵은 지도 위에 물체의 이동 경로를 선으로 그려내는 시각화 기법이다. 택배가 출발하는 지역과 도착하는 지역을 선으로 연결하고 그 선의 굵기나 색상을 통해 이동하는 물동량의 규모를 직관적으로 나타낸다. 예를 들어 수도권의 거대한 메가 허브 터미널에서 각 지역의 소규모 터미널로 뻗어나가는 선은 아주 굵고 진하게 표시되며 반대로 물량이 적은 외곽 지역으로 향하는 선은 가늘게 그려진다. 물류 기업들은 매일같이 쏟아지는 원시 데이터를 가공하여 이 흐름 맵을 모니터링한다. 화면에 띄워진 지도를 보면 어느 노선에 택배 물량이 과도하게 집중되어 병목 현상이 발생할 위험이 있는지 단번에 파악할 수 있다. 만약 특정 고속도로 구간이나 터미널을
블록체인은 누구나 열람할 수 있는 투명한 디지털 장부이다. 은행 같은 중앙 기관 없이도 참여자 모두가 거래 내역을 공유하고 검증하기 때문에 데이터의 위조나 변조가 사실상 불가능하다. 하지만 이 투명한 장부를 직접 들여다보면 일반인은 도저히 이해하기 어려운 암호화된 문자와 숫자의 나열뿐이다. 데이터가 모두에게 공개되어 있다는 것과 그 데이터를 쉽게 이해할 수 있다는 것은 완전히 다른 문제이다. 수많은 암호화폐 지갑 사이에서 1초에도 수천 번씩 일어나는 거래 즉 트랜잭션 데이터를 의미 있는 정보로 바꾸기 위해서는 고도의 데이터 가공과 시각화 과정이 필요하다. 복잡하게 얽힌 블록체인 원장 데이터를 추출하고 분석하여 누가 누구에게 얼마를 보냈는지 그 흐름을 추적하는 것이다. 이때 가장 널리 사용되는 시각화 기법이 바로 점과 선으로 이루어진 네트워크 그래프이다. 네트워크 그래프에서 하나의 점은 개별 암호화폐 지갑 주소를 의미하고 점과 점을 연결하는 선은 거래의 흐름을 나타낸다. 선의 굵기를 통해 거래된 금액의 크기를 직관적으로 보여주고 색상을 다르게 하여 특정 거래소로 유입되는 자금인지 밖으로 빠져나가는 자금인지 구분할 수도 있다. 수만 줄의 암호화된 텍스트 데이터가
현대 산업과 도시 계획에서 데이터는 더 이상 평면적인 엑셀 표나 2차원 그래프에만 머물지 않는다. 눈에 보이는 현실 세계의 기계나 공간을 컴퓨터 속 가상 공간에 입체적으로 똑같이 만들어내는 기술이 등장했는데 이를 디지털 트윈이라고 부른다. 이름 그대로 현실을 복제한 디지털 쌍둥이를 의미하며 방대한 데이터를 3차원으로 시각화하는 기술의 결정체이다. 디지털 트윈을 만들기 위해서는 실제 사물이나 공간에 수많은 센서를 부착하여 온도, 압력, 속도 등 변화하는 데이터를 실시간으로 수집해야 한다. 수집된 거대한 데이터는 정교한 가공 과정을 거쳐 컴퓨터 속 3D 모델과 하나로 연결된다. 이렇게 완성된 디지털 쌍둥이는 현실에서 벌어지는 모든 물리적인 상황을 가상 공간에서 똑같이 반영하며 살아 움직인다. 이 기술의 가장 큰 장점은 현실에서는 엄청난 비용이나 위험성 때문에 직접 해보기 어려운 실험을 가상 공간에서 마음껏 해볼 수 있다는 것이다. 예를 들어 거대한 자동차 공장을 짓기 전에 가상 공간에 공장을 먼저 구축해보고, 로봇 팔의 동선이나 컨베이어 벨트의 속도를 이리저리 바꿔가며 시뮬레이션을 돌려본다. 이를 통해 작업이 지연되는 구간을 미리 찾아내고 효율을 극대화하는 최적
우리가 매일 걷는 거리, 탑승하는 버스, 가로등의 위치 등 도시의 모든 움직임은 데이터로 기록된다. 정부나 지방자치단체는 이러한 정보 중 개인정보를 제외하고 누구나 자유롭게 활용할 수 있도록 개방하는데 이를 공공 데이터라고 부른다. 공공 데이터는 단순한 엑셀 파일이나 숫자의 나열에 불과할 수 있지만 데이터 가공과 시각화 기술을 만나면 세상을 바꾸는 강력한 도구로 변신한다. 가장 대표적인 사례가 심야 버스 노선의 최적화이다. 늦은 밤 시민들이 어디서 택시를 가장 많이 탔는지, 휴대전화 통화량이 어느 지역에서 집중적으로 발생했는지 보여주는 통신사의 데이터와 시의 교통 데이터를 결합하여 가공한다. 이 복잡한 정보들을 지도 위에 시각화하면 밤늦게 유동 인구가 많지만 대중교통이 부족한 사각지대가 붉은색으로 선명하게 드러난다. 이를 바탕으로 시민들이 가장 필요로 하는 노선을 새롭게 설계할 수 있다. 또한 범죄 예방을 위해 가로등이나 CCTV가 부족한 어두운 골목길을 찾아내는 데에도 공공 데이터가 쓰인다. 지역별 범죄 발생률 데이터와 조명 설치 데이터를 겹쳐서 분석하면 어느 곳에 우선적으로 가로등을 설치해야 할지 객관적인 근거가 마련된다. 과거에는 민원이 들어와야만 수동
우리가 매일 인터넷에 남기는 댓글, 쇼핑몰의 상품 후기, 소셜 미디어의 짧은 글들은 모두 소중한 데이터이다. 하지만 이런 글들은 숫자로 딱 떨어지는 표와 달리 형태나 규칙이 정해져 있지 않다. 이처럼 일정한 규격이 없는 데이터를 비정형 데이터라고 부른다. 컴퓨터는 숫자는 계산하기 쉽지만 사람의 복잡한 언어는 바로 이해하지 못한다. 그래서 이 거친 비정형 데이터를 컴퓨터가 이해할 수 있는 형태로 다듬고 길들이는 과정이 필요한데 이를 텍스트 마이닝이라고 한다. 텍스트 마이닝의 대표적인 활용 방법 중 하나가 바로 감성 분석이다. 수만 개의 상품 리뷰를 사람이 일일이 읽고 좋은지 나쁜지 판단하려면 엄청난 시간이 걸릴 것이다. 하지만 감성 분석 기술을 활용하면 텍스트 속의 단어들을 분석해 사람들이 긍정적인지, 부정적인지, 혹은 중립적인 감정을 느끼는지 순식간에 분류할 수 있다. 예를 들어 최고, 추천, 만족 같은 단어가 많으면 긍정으로 분류하고 최악, 실망, 환불 같은 단어가 나오면 부정으로 파악하는 원리이다. 이렇게 가공된 감성 데이터는 파이 차트나 막대그래프 등 다양한 형태로 시각화되어 나타난다. 기업은 이 시각화된 자료를 보고 새롭게 출시한 상품에 대한 대중의