본문 바로가기
카테고리 없음

넷플릭스와 유튜브 추천 알고리즘

by 탱자메이 2020. 8. 31.
728x90



넷플릭스나 왓챠를 보다보면 무엇을 봐야하나 한참 고민하다 

문득 새롭게 뜬 추천 영상에서 생각치도 못하게 영상을 보는 적이 많아졌다.

그동안 내가 시도하고 정주행했던 리스트들을 참고한 인공지능의 능력이겠지.


특히 100개이상의 영화 리스트에 별점을 줬던 왓챠가 미묘하게 더 추천을 잘해주는 느낌이랄까?


​나의 관심을 끌기 위해 이 영상 플랫폼들은 어떤 알고리즘으로 추천작들을 보여주는지 궁금해졋다.


우선 앞서 얘기했던 왓챠의 경우, 원래 영화에 별점을 주는 커뮤니티로 시작한 플랫폼이었다.

평가하기를 좋아하고 경쟁심리 강한 한국인들에게 별점주기란 중독 같은 것... 

한 사람이 차곡차곡 쌓아올린 별들은 데이터화되어 사용자의 취향이 되었다.


넷플릭스 경우는 어떨까. 좀 더 자세하고 딥하게 들여다보겠다. 


넷플릭스 창업자인 리드 헤이스팅스와 마크 랜돌프는 창업 초기부터 영상을 추천하는 노하우를 축적해왔다. 

시작은 DVD 대여 서비스였으며 이때부터 개인화된 추천을 제공하기 위해 자체적으로 고객의 DVD 대여 정보를 기반으로 영화를 추천하는 알고리즘을 구축해냈다. 

알고리즘의 이름은 '시네매치(cinematch)'. 알고리즘의 궁극적인 목표는 사용자가 어떤 영화를 본 뒤 매기는 평점을 예측하는 것이었다. 기다릴 필요 없이 영상을 재생하면 바로 볼 수 있는 지금과 달리 DVD 타이틀을 주문해 집에서 받아보려면 며칠이 소요됐다. 

다음에 보고 싶은 DVD를 빨리 만나보고 싶다면 미리 주문해야 했다. 추천 알고리즘은 이용자가 다음 영상을 선택하는 데 도움을 줬다.

본격적으로 스트리밍 서비스가 시작된 시기는 넷플릭스가 문을 연 지 약 10년이 지나서였다. 

넷플릭스는 2007년 미국에서 영상 스트리밍 서비스에 첫발을 내디딘다. 이후 캐나다를 시작으로 서비스 지역을 전 세계로 확장했다. 현재 190개가 넘는 국가에서 넷플릭스가 서비스되고 있다.  가입자는 약 1억 9300만 명이다.



회사는 콘텐츠 확보를 위해 제작에 투자했고 독창적인 생태계를 구축해갔다. 한국에서 '킹덤'이 크게 히트를 쳤다.

보고 싶은 콘텐츠가 넷플릭스에만 있다면 사용자가 구독 결제를 할 확률은 올라간다. 이렇게 구독자를 확보했다면 플랫폼 안에서 지루할 틈 없이 영상을 소비하게 해야 한다. 이때 필요한 것이 영상 추천이다. 

다음 달, 다다음 달까지 구독을 이어가게 만드는 힘은 여기서 나온다. 이 연결고리가 약해진다면 나는 여전히 리스트들을 방황하다 플레이 버튼을 누르기도 전에 화면을 꺼버리게 될 것이다. 유튜브로 갈지도 모른다.





유튜브는? 


유튜브가 온라인 데이트 서비스로 출발했다는 사실은 유명하다. 유명했는데 왜 나는 몰랐지? ㅎㅎ


설립자들은 자신이 원하는 연애 상대에 대한 이야기를 찍어 올리고 이를 공유하는 공간을 만들려 했다. 처음 세웠던 기획은 무너졌지만 영상을 올리기 좋은 공간이라는 판단에 지금의 동영상 공유 플랫폼의 모습을 갖춰가기 시작했다. 다행히 반응이 좋았고 서비스 개시 6개월 만에 시청자수는 200만 명으로 크게 늘어났다. 서비스가 시작된 지 15년이 지난 지금, 전 세계 유튜브 월평균 이용자는 19억 명이다. 



유튜브 안에서 영상을 만나게 되는 방법은 크게 두 가지다. 검색해서 찾거나 아니면 플랫폼의 추천을 받는 것이다. 

검색은 어디까지나 사용자의 영역이다. 유튜브가 집중할 건 당연 영상 추천이었다. 


한동안 추천 영상을 제공할 때 가장 중요한 요소는 조회수였다. 역시나 조회수가 높은 영상을 추천하니 영상을 클릭하는 비율도 높았다. 그러나 알다시피 그것은 부작용을 일으켰다. 클릭을 유도하기 위한 자극적인 제목이나 섬네일로 만들어진 낚시성 영상이 우후죽순 늘어났다. 

클릭에는 성공했을지 몰라도 문제는 그 이후였다. 제목과 섬네일에 혹해서 영상을 재생한 이용자는 영상의 품질을 보고 실망했고 경험이 누적될수록 추천 영상에 대한 기대감은 하락했다. 이용자는 염증을 느끼기 시작했다. 7년간 이어진 조회수 중심 추천 방식은 생명력을 잃어갔다.




2012년 유튜브는 영상 추천 방식을 변경했다고 발표한다. 새롭게 핵심 요소로 삼은 것은 시청 시간. 

정확히는 영상을 클릭해 끝까지 시청하는 비율을 말한다. 시청 시간이 사용자의 참여를 가장 잘 나타내는 지표라는 판단에 시청 시간을 기준으로 영상 우선순위가 매겨졌다.
제목과 섬네일에만 공을 들인 영상이라면 사용자가 오랜 시간 영상을 시청할 이유는 없다.
덧붙여 의도적으로 영상을 짧게 제작해 시청 시간을 늘렸다고 우선순위가 높은 건 아니라고 못 박았다. 반대로 길게 제작된 영상이라고 불리하다고 생각하지 말고 그저 사용자가 좋아할 만한 영상 제작에 신경 쓰면 된다는 입장을 밝혔다.


지금과 같은 정밀한 추천 알고리즘이 구축된 건 2016년부터다. 유튜브는 기존 추천 알고리즘에 머신러닝을 도입하면서 개인화된 추천을 본격화한다. 수정할 사항도 생긴다. 유해 콘텐츠 검열을 강화한 것이다. 추천 알고리즘이 혹시라도 유해한 영상을 추천하면 곤란하다. 이를 방치했다가는 플랫폼이 이런 정보를 적극 퍼뜨린 꼴이 된다. 


유튜브에서 추천 시스템을 다뤘던 엔지니어 기욤 샬로는 가디언과의 인터뷰에서 유튜브 알고리즘이 영상 체류시간에 집중된 추천을 하다 보니 가짜뉴스와 확증편향을 발생시킨다고 폭로했다. 그는 추천 알고리즘이 민주주의의 질서를 유지하고 건강한 정보를 양산하는 데 최적화돼 있지 않다고 말해 한때 논란이 일기도 했다. 

최근 유튜브 최고제품책임자(CPO) 닐 모한의 인터뷰에 따르면 유튜브는 유해성을 가르는 경계에 있는 영상을 걸러내기 위해 지난해에만 알고리즘을 30차례 넘게 수정했다.
현재 유튜브가 중요시하는 것은 '이용자 만족도'다. 사용자가 만족할만한 영상을 추천하고 불쾌감을 느낄만한 영상은 배제한다.
추천 영상이 꼭 훌륭한 영상이 아닐 수도 있다. 그보다는 내가 흥미를 느끼고 볼만한 영상을 알려준다는 의미가 더 크다.


구글이 자체 추천 알고리즘에 대해 상세하게 밝힌 적은 없다. 하지만 유튜브 추천 알고리즘을 분석한 결과들을 종합해보면 공통된 부분은 있다.


유튜브가 영상의 우선순위를 매길 때는 △조회수 △조회수 증가 속도 △시청 시간 △좋아요, 싫어요, 댓글, 공유 등 사용자 참여 정도 △참신성 △채널 내 영상 업로드 빈도 △세션 시간 △지역 등이 고려되는 것으로 알려졌다. 

참고로 세션시간은 영상을 시청한 채널에서 다른 영상을 시청하거나 체류하는 시간을 말한다. 여기서 끝나면 부족하다. 보다 개인에게 맞춰진 추천을 위해 사용자가 시청하는 주제와 시청하지 않는 주제를 인지하고 과거 시청 데이터를 참고해 최종적인 추천 영상 목록이 완성된다.




한국언론진흥재단에서 발간한 연구보고서 '유튜브 추천 알고리즘과 저널리즘'에서는 

△방송사와 같은 전통 언론사에서 제작한 영상 △길고 인기 키워드가 포함된 제목 △생중계 콘텐츠 등이 높은 우선순위를 받는 경향이 있다고 분석했다. 

유튜브 이용자가 보는 영상 70%는 추천된 영상에서 발생했는데 유튜브 측에서도 이 사실은 인정했다.


같은 듯 다른 두 서비스인 유튜브와 넷플릭스는 추천 알고리즘을 개선에 신경 쓰고 있다. 추천 알고리즘이 플랫폼을 성장시키는 핵심 요소라는 것을 잘 알기 때문이다. 

너무 한 장르 혹은 나의 취향에서만이 아닌 이따금 다른 영상도 추천해주는 그런 인공지능 단계까지 오기를 바라며!


댓글