자전거 타기를 처음 배울 때 넘어지면서 균형 잡는 법을 몸으로 익히듯, 인공지능도 무수한 실패를 통해 스스로 정답을 찾아가는 방법이 있다. 바로 알파고와 자율주행 자동차를 탄생시킨 핵심 기술인 강화학습이다. 기존의 머신러닝이 사람이 미리 다듬어놓은 정답 데이터를 외우는 방식이었다면, 강화학습은 인공지능이 스스로 가상 환경과 부딪치며 얻은 경험 데이터를 가공하여 최적의 행동 전략을 세우는 진일보한 기술이다. 강화학습의 핵심은 보상과 패널티라는 통계적 시스템에 있다. 자율주행 자동차를 예로 들면, 차선 안에 머물거나 목적지에 무사히 도착하면 더하기 점수를 받고, 장애물과 충돌하거나 차선을 벗어나면 빼기 점수를 받도록 알고리즘이 설계된다. 인공지능은 매 순간 카메라와 센서로 수집된 엄청난 양의 시각 데이터를 전처리하여 현재 상태를 수치화하고, 무작위로 행동을 취해본다. 그리고 그 결과로 얻어진 점수들을 수학적으로 계산하여, 미래에 가장 높은 보상을 받을 수 있는 확률적 경로를 스스로 업데이트한다. 이 과정에서 발생하는 수백만 번의 시행착오 데이터는 결코 의미 없는 실패의 기록이 아니다. 인공지능은 이 방대한 오답 데이터를 가공하여 어느 상황에서 어떤 행동이 유리한
주말에 스마트폰으로 영상 하나를 클릭했을 뿐인데, 정신을 차려보니 서너 시간이 훌쩍 지나간 경험이 누구나 한 번쯤은 있을 것이다. 내가 좋아할 만한 영상을 귀신같이 찾아내 계속해서 보여주는 이 마법 같은 기술의 정체는 바로 '추천 알고리즘'이다. 도대체 컴퓨터 프로그램이 어떻게 나보다 내 취향을 더 잘 알고 있는 것일까. 가장 대표적인 원리는 '비슷한 취향을 가진 사람들을 연결하는 것'이다. 이를 데이터 과학 용어로 '협업 필터링'이라고 부른다. 원리는 간단하다. 만약 학생 A와 학생 B가 평소에 비슷한 게임 영상을 즐겨 봤다고 가정해 보자. 그런데 학생 B가 최근에 새로 나온 요리 예능 영상을 아주 재미있게 끝까지 시청했다. 그러면 알고리즘은 A와 B의 취향 패턴이 비슷하다는 것을 근거로, A에게도 그 요리 영상을 슬며시 추천 목록에 띄운다. 나와 비슷한 행동 패턴을 보인 수만 명의 데이터를 분석해, 내가 좋아할 확률이 높은 미지의 콘텐츠를 골라내는 방식이다. 하지만 단순히 어떤 영상을 클릭했는지만 보는 것은 아니다. 알고리즘은 훨씬 더 정교한 데이터를 수집한다. 영상을 클릭하고 나서 10초 만에 껐는지 아니면 끝까지 시청했는지, 영상을 보다가 잠시 멈췄는