우리가 매일 인터넷에 남기는 댓글, 쇼핑몰의 상품 후기, 소셜 미디어의 짧은 글들은 모두 소중한 데이터이다. 하지만 이런 글들은 숫자로 딱 떨어지는 표와 달리 형태나 규칙이 정해져 있지 않다.
이처럼 일정한 규격이 없는 데이터를 비정형 데이터라고 부른다. 컴퓨터는 숫자는 계산하기 쉽지만 사람의 복잡한 언어는 바로 이해하지 못한다. 그래서 이 거친 비정형 데이터를 컴퓨터가 이해할 수 있는 형태로 다듬고 길들이는 과정이 필요한데 이를 텍스트 마이닝이라고 한다.

텍스트 마이닝의 대표적인 활용 방법 중 하나가 바로 감성 분석이다. 수만 개의 상품 리뷰를 사람이 일일이 읽고 좋은지 나쁜지 판단하려면 엄청난 시간이 걸릴 것이다. 하지만 감성 분석 기술을 활용하면 텍스트 속의 단어들을 분석해 사람들이 긍정적인지, 부정적인지, 혹은 중립적인 감정을 느끼는지 순식간에 분류할 수 있다.
예를 들어 최고, 추천, 만족 같은 단어가 많으면 긍정으로 분류하고 최악, 실망, 환불 같은 단어가 나오면 부정으로 파악하는 원리이다.
이렇게 가공된 감성 데이터는 파이 차트나 막대그래프 등 다양한 형태로 시각화되어 나타난다. 기업은 이 시각화된 자료를 보고 새롭게 출시한 상품에 대한 대중의 반응이 어떤지, 어떤 기능을 가장 좋아하고 어떤 점을 불편해하는지 한눈에 파악한다. 이를 바탕으로 다음 제품을 개선하거나 새로운 전략을 세우게 된다.
결국 텍스트 마이닝과 감성 분석은 형태 없는 수많은 글자 더미 속에서 사람들의 진짜 마음을 찾아내는 기술이다. 무심코 적어 내려간 짧은 문장 하나하나가 모여 세상을 읽는 거대한 데이터의 지도가 되고 있다.
컴퓨터가 인간의 언어를 이해하고 감정을 읽어내는 이 기술은 우리가 데이터를 활용하는 방식을 훨씬 더 풍부하게 만들어준다.
[※ 칼럼의 그림 및 도표는 AI 활용하여 작성됨]










