▲ 김병희 교수

2016년 5월, 한국언론진흥재단의 주도로 ‘뉴스트러스트위원회’가 출범했다. 선정적 뉴스의 과도한 생산과 이용에 따른 언론에 대한 신뢰가 저하되는 상황에서의 이러한 시도는 매우 긍정적으로 평가된다.

지난 12월 13일에는 ‘디지털 뉴스 유통과 알고리즘 세미나’를 열고, 저널리즘 가치에 기반한 알고리즘 개발, 알고리즘의 투명성 제고 등 뉴스트러스트가 그간의 성과를 공식적으로 드러내는 자리도 가졌다.

뉴스트러스트위원회는 세미나를 통해 ‘좋은 뉴스를 선별하는 알고리즘’의 작동 방식을 일부 공개했다. 알고리즘은 진실성, 유익성, 윤리성과 같은 3가지 요인과 11개의 항목을 복합적으로 판단해 좋은 기사를 선별할 계획을 밝혔다. 이런 노력을 바탕으로 요인 별 가중치를 시뮬레이션하고 기계 학습을 병행해 알고리즘을 개발하고 피드백함으로써 정확도를 높이겠다는 것이다. 구체적인 알고리즘은 3월경 발표 예정이라고 한다.

한편, ‘좋은 뉴스’를 골라주는 알고리즘을 시도하는 것 자체는 큰 의미가 있지만, 그 결과가 과연 얼마나 실효적 가치가 있을지 의문이 드는 것이 사실이다. 실제로 많은 전문가들도 알고리즘 도입 취지는 긍정적으로 받아들이고 있지만 실효성에 대해서는 우려를 나타내는 분위기다.

이런 맥락에서 필자는 알고리즘 개발에서 기사 평가요인에 ‘좋은 뉴스’ 기준을 제시하기보다 ‘나쁜 뉴스’의 기준을 적용함으로써 ‘나쁜 뉴스를 많이 내보내지 않는 언론이 좋은 언론이라는 논리를 적용하면 어땠을까’ 하는 아쉬움이 남는다. 이에 향후 뉴스트러스트위원회의 성공적인 운영과 보다 실효성이 있는 알고리즘 개발을 위해 다음과 같이 제시하고자 한다.

첫째, 뉴스트러스트 사업에서 현재까지의 기획만 보면 현재 공개된 알고리즘이 실용성과 단순성이라는 좋은 알고리즘의 요건을 충족하지 못할 가능성이 높다. 두루 알다시피 좋은 알고리즘이란 실용성(Practicality)과 단순성(Simplicity)이라는 두 가지 요건을 모두 충족해야 한다. 실용성이 뒷받침되지 않으면 널리 쓰이지 못하며 어렵고 복잡한 알고리즘은 현실에서 외면받기 때문이다. 현재 제시된 11가지 지표는 너무 많으니 4-5가지 항목으로 축소해 실용성과 단순성을 높여 나갈 필요가 있다.

둘째, 낚시성 제목의 남발횟수 평가다. 실시간 검색어로 올라오는 제목과 기사의 실제 내용이 60% 이상 불일치할 경우에는 ‘나쁜 뉴스’로 평가할 수 있는 기준을 알고리즘에 반영해야 한다. 알고리즘 개발 과정에서 낚시성 제목을 남발하지 못하게 하는 모듈을 적용하야 하는데, 기사 내용과 제목의 일치율을 검증하는 모듈을 적용하면 가능할 것으로 보인다.

셋째, 기사 내용끼리의 일치율 평가다. 유사한 기사를 비교하는 알고리즘을 적용해 유사한 2개 이상의 기사 내용이 50% 이상 다른 내용으로 작성된 기사가 아닐 경우에는 사실상 동일한 기사로 간주해 처음의 기사만 남기고 나머지는 필터링해 제거하는 모듈을 적용해야 한다. 업데이트 기사나 통신사 뉴스를 중복으로 게재하는 경우에도 마찬가지다. 이런 원칙을 알고리즘에 반영해 동일한 기사를 단어 한두 개 슬쩍 바꿔서 다른 기사로 내놓으며 노출을 늘리는 고질적인 어뷰징을 방지해야 한다.

마지막으로 기사의 길이 평가를 반영하는 알고리즘을 고려해야 한다. 구글에서도 두세 문장으로 구성된 속보 기사를 많이 생산할수록 부정적으로 평가한다는 사실을 참고해, 알고리즘 개발 과정에서 한 문장 기사의 게재 빈도가 지나치게 많으면 ‘나쁜 뉴스’로 평가할 방법을 고려해야 한다. 한 문장을 쓰고 ‘속보’라고 하거나 사진 한 장에 한 두 문장의 캡션을 붙여 쓴 기사들은 쉽게 반복 전송할 가능성이 높기 때문이다.

포털 상에서의 지나친 클릭 경쟁은 건강한 인터넷 뉴스 생태계를 파괴했다. 뉴스 수용자들은 증가했지만, 오히려 뉴스의 품질은 조악해졌다. 언론의 신뢰도 제고가 무엇보다 시급한 지금, 트러스트위원회의 노력이 실제로 적용 가능한 알고리즘 개발로 이어져 뉴스의 공익성과 공공성을 높이고, 나아가 언론의 신뢰 회복으로 이어지길 기대한다.

저작권자 © 반론보도닷컴 무단전재 및 재배포 금지