고급 레스토랑으로 들어간다. 음식을 주문하고, 먹은 후에 계산하고 나온다. 외식은 이렇게 간단하고 편리하다. 그런데 뭔가 아쉽다. 만약 '요리사는 누구고, 어떻게 재료를 구입했는지, 어떤 요리 노하우가 있는지' 알 수 있다면 편리와 맛에 더해 신뢰, 재미가 곁들여진 외식이 될 것이다. 그리고 우리는 보다 자신 있게 그 요리를 SNS에서 추천할 수 있을 것이다.

2015년에 방송된 JTBC <냉장고를 부탁해>는 이런 점을 잘 활용해 인기를 얻은 프로그램이다.  내가 직접 사 냉장고에 채워둔 식재료를 가지고 요리 전문가가 내가 보는 앞에서 자신만의 노하우로 요리를 한다.  만약 이 프로그램이 이런 과정을 다 생략하고 요리만 평가를 했다면 <냉장고를 부탁해>는 그저 그런 요리 콘텐츠 중 하나로만 기억에 남았을 것이다. 요리 과정을 직접 보고 갖게되는  “확신”이 빠지기 때문이다. 재미에 더해 “신뢰”까지 맛보게 해준 <냉장고를 부탁해>는  JTBC가 경쟁력 있는 방송 채널로 자리 잡는 시발점의 역할을 했다고 해도 과언이 아니다.

△jtbc '냉장고를 부탁해'
△jtbc '냉장고를 부탁해'

로데이터(RAW DATA)를 체크하세요

한때 기업 사이에 유행한 조사 분야가 <온라인 여론분석>이다. <버즈분석>, , <댓글분석>, <평판분석> 이라고도 하고 조금 과장된 표현으로는 <빅데이터>분석이라 불리기도 한다. 각각 의미가 다르지만, 인터넷 네티즌의 만들어 낸 글과 댓글, SNS, 동영상 등 다양한 정보들을 분석한다는 점에서는 모두 동일하다.

많은 기업과 기관들은 네티즌의 의견을 확인하고 분석하고 싶어한다. 이는 전문적인 분석과 솔루션을 필요로 하는데 전문 외주 업체에게 의뢰하는 경우가 대부분이다. 내부에서 직접 처리하기에는 분석 데이터의 양이 방대하고 복잡하니 그냥 외식을 하듯 외주 업체를 이용한다. 

이때 유의할 점이 있는데 앞서 언급한 요리 과정에 비유할 수 있다. 재료(RAW DATA)와 요리방법(분석방법), 요리사(분석가)라는 세가지 요소에 따라 요리(분석결과)가 달라질 수 있다. 분석 결과에 확신을 갖고 이를 통해 나의 주장을 하려면 세가지 요소를 직접 확인하는 일이 필요하다.

△ 굿데이터코퍼레이션 제공
△ 굿데이터코퍼레이션 제공

마케터라면 화려한 인포그래픽과 분석가의 자신감 넘치는 데이터 리딩(READING)으로 채워진 분석 결과 보고서를 그냥 받아 보는데서 끝나면 안 된다. 우선 분석에 사용된 '데이터'라는 재료의 신선함을 확인해야 한다. “3억개의 글을 분석”했다는 것이 중요한 것이 아니다. 주제에 맞는 재료들을 사용했는지에 대한 검증이 필요하다. 모든 정량 분석은 결과가 “숫자”로 나타는데 그 안에 수많은 과정이 숨어 있고, 그 끝에는 로데이터(RAW DATA)가 있다. 만약 조사에 사용된 재료(데이터)들이 주제와 무관한 썩은 게 대부분이라면 분석 결과는 먹을 수 없는 요리나 마찬가지다.  

<리아>가 <SNL코리아>가 되어버린 해프닝

화제성 발표 초기인 2015년경 필자의 회사에서 범한 실수를 한 예로 들까 한다. 2015년 12주차 TV프로그램 온라인 여론 분석을 통해 토요일 예능 부문에서 <SNL코리아>의 순위가 5계단 상승했는데 “리아”라는 여자 출연자가 큰 역할을 한 것으로 조사되었다. 담당 연구원이 자세히 원인을 분석해봤더니 출연자의 몸매 관련 이슈가 있었던 것으로 파악했고, 이를 그대로 발표하였다. 

△SNL코리아(tvN 자료 화면) 
△SNL코리아(tvN 자료 화면) 

그런데 며칠 후 다시 분석해보니 <SNL코리아>의 화제성 상승 원인이 “리아”가 아니었다는 것을 알게 되었다. 프로그램 이름에 속한 "코리아"의 "리아"가 출연자 “리아”로 인식되었고 출연자 "리아"의 역할이 큰 것으로 잘못 반영됐던 것이다. 

관점에 따라서는 사소한 에피소드라고 볼 수 있지만 사실 한글로 구성된 정보를 대상으로 한 수집과 분석이 얼마나 어려운 것인지 알 수 있었던 헤프닝이었다.

이런 어려움은 최근까지도 이어지고 있다. 굿데이터코퍼레이션이 집계한 5월 1주차 굿데이터 TV-OTT 통합 드라마 화제성 1위는 JTBC ‘닥터 차정숙’으로 나타났다. 지난 주에는 첫 방송된 SBS ‘낭만닥터 김사부 3’에 밀려 2위를 차지했으나 이번에 전주 대비 27.0% 상승하면서 25.4%의 점유율로 1위를 탈환한 것이다. '닥터 차정숙은' 화제성 점수에서 3주 연속 상승세를 보이고 있다.  화제성 2위는 SBS ‘낭만닥터 김사부 3’로 전주 대비 -0.8% 하락했고 점유율은 20.6%를 기록했다. 이런 가운데 8위에 오른 tvN의 ‘패밀리’를 주목할 필요가 있다. 

△굿데이터코퍼레이션 제공 
△굿데이터코퍼레이션 제공 

패밀리, 판도라 그리고 오아시스

최근 시작된 tvN의 새드라마 ‘패밀리’의 경우 패밀리위크, 패밀리할인 등 드라마와 관련 없는 데이터들을 걸러내는 일이 필요하다.  만약 이러한 세심한 필터링 작업 없이 데이터를 집계, 발표하면 실제 온라인에서의 화제성 인기 정도를 왜곡하는 결과를 낳게 된다. 최근 유사 사례로 MBC 드라마 ‘내일’과 tvN의 ‘판도라: 조작된 낙원'이 있다. 특히 ‘판도라’의 경우 MBN이 방송하고 있는 시사 프로그램 ‘판도라’와도 겹치기 때문에 섬세한 데이터 정제 작업이 요구된다.

이렇듯 K-콘텐츠의 여론을 분석하여 공개 발표하는 것은 매우 민감한 일로 신중해야 한다. 

필자는 최근에 종영된 드라마 ‘오아시스’에 대한 조사 결과가 조사업체 별로 다르게 발표된 것을 발견했다. 굿데이터코퍼레이션에서 발표한 4월 3주차 TV드라마 분석 결과에서 ‘오아시스’는 6위를 기록한 반면 방송콘텐츠 가치 정보를 분석하여 제공하는 한 공공데이터 발표에서는 1위에 오른 것이다. 드라마 ‘패밀리’도 두 조사업체 결과는 큰 차이를 보였다. 

앞서 예를 든 드라마의 제목처럼 ‘오아시스’와 ‘패밀리’ 또한 조사 난이도가 높은 콘텐츠이다. 조사 업체에 따라 조사대상, 조사방법, 집계기준이 다르기 때문에 업체별 발표 결과에 차이가 있을 수 있는 것은 당연하다. 하지만 ‘오아시스’라는 키워드를 가지고 수집시스템 기계가 처리한 결과를 그대로 K-콘텐츠의 가치정보 순위로 공개한다는 것은 매우 위험하다. 어느 발표가 맞고 틀렸다 보다는 이런 경우가 있을 수 있다는 것을 방송업계 뿐만 아니라 K-콘텐츠에 관심이 있는 일반인도 아는 것이 필요하다고 생각한다.

우리가 세상을 뒤흔들 것처럼 떠받들고 있는 AI 역시 사람이 하나하나 손봐주지 않으면 K-콘텐츠 시장에 큰 혼돈을 줄 수 있다는 점을 강조하고 싶다. 화제성 등 K-콘텐츠의 경쟁력을 조사하는 모든 기관은 책임감을 가지고 결과를 발표해야 한다. 무책임한 조사 하나가 소중한 프로그램 한 편의 생사를 결정할 수도 있다. 

좋은 데이터, 훌륭한 빅데이터 전문가가 되기 위한 조건

며칠 전 한 온라인 대학 강의에서 빅데이터 전문가가 되고 싶은 학생에게 해주고 싶은 한마디를 해달라는 질문이 있었다. 필자는 이렇게 답했다. 

 “이미 누가 만들어 놓은 보기 좋은 인포그래픽의 의존하지 말고, 그 그래프의 바탕이 된 로(RAW) 데이터 하나하나에 관심을 가져야 합니다. 아마도 며칠이 걸릴 수도 있습니다. 하지만 그 과정을 거쳐야 자신있게 빅데이터 전문가로서 나설 수 있습니다. 어려운 방향을 선택하세요.” 

 

 

 

 

저작권자 © 반론보도닷컴 무단전재 및 재배포 금지