검색 포털을 찾는 이유는 원하는 정보를 찾기 위해서다. 같은 선상에서 특정 검색 사이트를 찾는 이유는 필요한 정보가 있기 때문이다. 필요한 정보가 있는 곳은 다수의 경험을 통해 직관적으로 알 수 있다. 예컨대 국내 뉴스검색이나 후기를 검색할 때는 네이버를 이용하지만 해외 학술지나 네이버가 제공하지 않는 정보를 얻고 싶을 땐 구글을 찾는다. 알고 싶은 정보, 정보에 대한 사람들의 반응을 검색하는 루트는 다르다는 말이다.
◇네이버가 웹사이트 검색을 선보인 이유=네이버도 이 점을 모르는 바가 아니다. 네이버는 방대한 양의 웹 문서에서 정제된 것을 골라내고 이용자가 원하는 문서를 제공하기까지 내부적 고민을 해왔다. 외부 양질의 문서를 이용자가 쉽고 편리하게 검색하고 이용할 수 있는 프로젝트도 꾸준히 실행해왔다. 2014년 웹문서 검색 개선 연구 타우린 프로젝트를 시작으로 올해는 인공지능 기반 기술을 적용해 더욱 고도화된 그리핀 프로젝트를 진행했다.
네이버는 사이트 내 웹문서와 사이트 검색 영역을 ‘웹사이트’로 통합한 것은 그리핀 프로젝트의 일환이다. 김상범 네이버 웹검색 리더는 “웹사이트는 좋은 웹문서를 판단하는 가치를 담은 것은 물론 이용자의 의도를 반영한 검색 결과를 제시한다”고 설명했다. 여러 곳에서 인용되고 이용자가 꾸준히 소비하는 웹문서, 공신력 있는 출처, 작성자와 게시물에 대한 다른 이용자의 평판 등이 반영된 검색랭킹을 적용했다는 설명이다. 더불어 이전 키워드를 검색하면 하단에서 볼 수 있었던 두 영역이 상단에 노출될 가능성도 생겼다.
◇네이버가 검색 랭킹을 조작한다?=네이버를 둘러싼 오해도 있었다. 블로그와 카페 등 내부 콘텐츠를 우선순위로 제공하거나 랭킹을 임의적으로 조작한다는 것이 예다. 김 리더는 ‘아니다’라고 선을 그었다. 다만 서비스 구조상 네이버 서비스 내 정보를 이용하기 좋은 환경이라는 점은 인정했다. 당연히 이용자가 원하는 양질의 정보가 있다면 외부콘텐츠라도 제공한다는 방침이다. 상단 노출 등 차이가 나는 건 콘텐츠를 바라보는 과점에서는 차이가 없으나 웹상 정보를 이해하고 분석하는 방식에서 차이가 나기 때문이라는 설명이다.
원하지 않는 정보가 상단에 위치한 경우도 조작 가능성을 의심한다. 하지만 김 리더는 검색 서비스 랭킹 또한 조작이 끼어들 여지가 없다고 강조한다. 랭킹은 검색평가 가이드라인에 따라 기계가 학습할 데이터를 구축하고 머신러닝 알고리즘을 활용해 랭킹 함수를 계산해내는 전형적인 컴퓨터과학이라는 설명이다.
물론 검색 결과에는 네이버가 지향하는 ‘좋은 검색’에 대한 철학은 담겨있다. 이를 담은 문서가 검색평가 가이드라인이다. 예컨대 사용자가 입력한 질의에 대해 중요한 내용을 포함하고 있다면 좋은 문서로 평가받는다. 반면 관련 내용 대신 이전 정보나 네티즌 반응 등을 주로 담고 있다면 낮은 평가를 받는다. 가이드라인에 따른 평가는 학습용 데이터 집합이 되고 알고리즘을 통해 랭킹 학습을 한다.
단, 검색 랭킹에 대한 의견이 분분하더라도 검색 랭킹을 결정하는 시그널은 공개하지 않는다는 방침이다. 랭킹 시그널을 공개하는 순간 해당 랭킹 시그널을 이용하려는 외부 시도에 의해 빠른 시일 내로 무력화되기 때문이다. 네이버 뿐 아니라 구글과 야후 등 검색 사업자도 검색 시그널을 비공개화 하고 있다.
김 리더는 “네이버 검색 서비스는 인공지능 기반 매칭 기술을 접목, 검색 단어와 문서상 단어가 불일치하는 경우에도 이용자 의도에 맞는 정보를 제공하기 위해 노력하고 있다”며 “이용자가 읽을 만한 정보와 방문할 사이트를 정확하게 찾아서 알려주고 지금까지 네이버 검색이 하지 못했던 역할을 제대로 수행하겠다”고 말했다.
한편 7일 네이버 파트너스퀘어에서 개최된 네이버 웹커넥트데이에서는 네이버의 웹사이트 검색 외에도 네이버의 개발자, 매니저 등 실무진이 ‘사이트 품질향상을 위한 웹마스터 도구 활용법’, ‘콘텐츠의 시대, 네이버가 알려주는 웹검색 공략’ 등 웹사이트 운영에 도움이 될 만한 유익한 정보를 공유했다. 웹커넥트데이에 대한 자세한 내용은 여기에서 확인할 수 있다.