구글과 네이버는 대중의 지혜로 무엇을 제공하고 있나?

지난 학기에 열심히 들었던 수업중에 Social Dynamics and Network 라는 수업이 있다. 엄청 열심히, 그리고 재미있게 들었던 수업이지만, 그 수업중에서 하루를 빼먹은 적이 있었다. 바로 내 아들이 태어난 날이었다. ^^

그런데 여름학기에 시카고 다운타운 캠퍼스에서 PJ Lamberson 교수가 같은 수업을 Part Time MBA 학생들을 대상으로 한다는 이야기를 들었다. 그래서 내가 빼먹었던 그 수업만 한시간을 청강하기로 했다. 그 수업은 다름아닌 google 에 관한 내용이었기 때문이었다.

Recap: 대중의 지혜 (wisdom of crowds)

위에 언급한 Social Dynamics and Network 라는 수업에 대해서 간략하게 설명하자면, 주로 소셜 네트워크에서의 정보의 Push 와 Pull에 대해서 다루고 있다.  즉, 1) 어떻게 하면 메시지가 잘 퍼지는지에 대한 소셜 네트워크에 대한 전반적 내용(즉, Push에 관한 내용)과, 2) 우리 개개인이 갖는 예측능력은 매우 부정확하지만 전체 대중(crowds)은 매우 정확한 예측을 갖는다는 내용, 그리고 이것을 어떻게 모아서 유용하게 사용할 것인가? (즉, Pull에 대한 내용)를 다루고 있다. 두번째 내용은 쉽게 말해서 crowd sourcing에 대한 내용이라고 볼 수도 있겠다.

예컨대 치타가 100m 를 뛰어가는 화면을 보여주고나서 치타가 과연 몇초에 100m를 주파했을까?를 물어보면, 개개인은 매우 예측하기 어렵지만, 많은 사람들의 예측치를 평균해보면 실제 값에 매우 가깝게 나온다. 비슷한예로 소 한마리를 보여주고 사람들에게 몇 kg 정도 나갈것 같냐고 물어보면, 개개인은 맞추기 어렵지만, 다수의 사람들의 응답을 평균해보면 신기하게도 실제 그 소의 몸무게와 굉장히 유사한 값이 나온다는 것이다. 이에 대해서 더 자세한 내용은 과거에 올린 아래 포스팅으로 대체한다. (개인적으로 잘 쓴 포스팅이라고 생각하는데, 조회수가 낮아서 아쉬웠던 포스팅이다)

대중의 지혜와 크라우드 시대의 리더십 – The Wisdom of Crowds

그리고 혹시 더 관심이 있으신 분들은 아래 책을 읽어보면, 어떻게 다수의 대중들이 모은 지혜가 정확한 미래 예측을 가능하게 하는지 알 수 있다.

사용자 삽입 이미지
검색어 트랜드로 독감 유행을 예측한다. Google Flu Trend

먼저 구글 Flu Trend를 살펴보자. 이 서비스는 Google.org 라는 주로 사회공헌 활동과 관련된 일을 하는 구글의 자회사격의 사이트에서 진행되고 있다. Google Flu Trend 는 경험적으로 독감(flu)이 유행하기 이전에 일정한 검색어들이 증가하는 것을 발견하고, 이러한 검색어의 트랜드를 통해서 독감 발병률을 사전에 예측해 주는 것이다. 아래 링크를 따라서 들어가보면, 어떻게 이러한 서비스가 가능한지를 알 수 있다.

Google Flu Trend, 어떻게 가능한가?

요컨대 미국의 질병관리국(CDC)와 같은 국가단체에서 발표하는 독감 주의에 대한 정보는 정기적으로 발표되기 때문에 일주일에 한번, 혹은 격주에 한번 발표될 수 있지만, 구글에 올라오는 검색어는 실시간으로 바뀌기 때문에 국가기관의 정보력보다도 더 앞서서 독감의 유행을 예측할 수 있게 된다. 그리고 아래 동영상에서 살펴볼 수 있듯이, 이러한 예측은 엄청 정확하다. 구체적으로 그 검색어가 무엇인지는 알 수 없다. 예컨대 독감, 고열, 감기약, 등등의 다양한 검색어의 조합일 수도 있다. 아무튼 구글은 이러한 매커니즘을 발견해서 사람들에게 어떤 지역에서 현재 독감의 유행 확률이 높은지를 알려준다. 이 모든게 위에서 말한 대중의 지혜(wisdom of crowds)를 정보기술의 발달로 정확하게 측정할 수 있기에 가능해 진 것이다.

구글 Flu Trend를 통한 독감 유행 예측에 대한 정확성 (미국 질병관리국 CDC의 발표와의 비교)

Google Insight 의 인사이트

이제 Google Insights를 보자. Google 인사이트라는 서비스는 특정 검색어를 입력했을 경우에 상대적으로 그 검색어가 언제 더 많이 검색되었는지, 그리고 그 시기에 관련된 뉴스는 무엇이 있었는지를 보여준다. 검색어는 물론 시기, 지역 등도 설정할 수 있다. 예컨대 미국의 공화당의 대선후보인 미트 롬니(Mitt Romney)를 넣고, 지난 90일간의 트랜드를 보면, 미국 아래와 같이 언제 롬니에 대한 검색이 많이 증가했는지, 그리고 그때 화제가 된 뉴스 헤드라인이 무엇인지를 보여준다.

사용자 삽입 이미지
Google Insights 에서 Mitt Romney로 지난 90일간의 트랜드를 미국지역에 한정해서 봤을 경우.
그 밖에도 두개 이상의 검색어를 넣고, 그 트랜드를 비교할 수도 있다. 예컨대 Harvard MBA, Kellogg MBA, MIT MBA 와 같이 세 개의 검색어를 넣고 보면, 아래와 같이 트랜드를 비교해 볼 수 있다. (과거 12개월, 미국지역만 비교) 여담이지만, 아쉽게도 Kellogg MBA가 Havard MBA에 비해서 평균적으로 약 1/3 정도의 검색어 볼륨을 보여주고 있다. 하지만 MIT MBA와는 비슷한 수준이거나 아직까지는 약간 높은 수준이다. (빨간색이 Kellogg, 오랜지색이 MIT)

사용자 삽입 이미지
물론 검색어의 볼륨 자체가 너무 낮으면 데이터를 볼 수 없다. 검색 볼륨이 작기 때문에 통계적으로 유의미한 트랜드를 볼 수 없기 때문이기도 하고, 개인의 프라이버시가 침해될 수도 있기 때문이다.

Google Insight와 유사한 서비스는 다음에서도 제공된다. (네이버에서 되는지는 잘 모르겠음) 예컨대 다음에서 ‘장동건 vs 고소영’이라고 검색창에 치면, 아래와 같이 두 검색어의 트랜드에 대한 비교를 제공한다. 성별/연령병/지역별 자료도 제공하는데, 이들을 조합해서 동시에 볼 수 없는 것은 아쉽다. 예컨대 2012년에 서울 지역에서는 어떠했는지를 따로 떼어서 볼 수는 없다.

사용자 삽입 이미지
다음에서 장동건 vs 고소영으로 검색하면, 두 검색어의 트랜드 비교를 볼 수 있다.
검색어간의 상관관계 분석 – Google Correlate

다음으로 Google Correlate를 보자.

구글 Correlate는 한마디로 time series 데이터 즉, 시간에 따라서 변화하는 값들을 넣고, 그 변화와 가장 correlation이 높은 검색어를 찾아주는 것이다. 기본적으로는 주간 데이터 (weekly data) 기반으로 검색어를 분석하여 보여주고, 그보다 더 잦거나 뜸한 데이터(less frequent or more frequent) 는 주간평균을 사용하여 보여준다.

Google Correlate에 대해서 좀 더 쉽게 설명하기 위해서 예를 들어보겠다.

예컨대, 애플의 주식 거래량을 증권 정보 사이트에서 다운받아서 한 칼럼에는 날짜, 다른 한 칼럼에는 거래량으로 정리해서 Google Correlate에 아래와 같이 붙여 넣었다. A 칼럼은 날짜이고, B  칼럼은 애플 주식의 거래량이다. 그리고 Search Correlation 라는 버튼을 누르면 아래와 같이 가장 correlation이 높은 다른 검색어를 찾아준다. (이 때 브라우져에 따라서 leave this page? 를 물어보는 창이 뜨는데, 그냥 yes 하면 된다)

사용자 삽입 이미지
Google Correlate에 데이터를 직접 넣은 모습. 혹은 엑셀 파일로 직접 업로드해도 된다. 단 A 칼럼은 날짜, B 칼럼은 값이기만 하면 된다.

0.7991 aapl stock quote
0.7806 aapl quote
0.7701 shot tv
0.7381 apple stock today
0.7344 aapl
0.7339 perl urlencode
0.7328 big sky brokers
0.7288 aapl yahoo
0.7271 byu cheer
0.7262 target grants

위와 같이 가장 correlation이 높은 검색어는 appl stock price 임을 알 수 있다. 주식 거래량과 주식 가격에 대한 검색어가 상관관계가 높다는 것은 당연해 보인다. 그러나 여기서 유용한 것은 correlate coefficient 인 0.7991이라는 숫자이다. 그 이유는 아래서 설명하겠다.

한편 correlation 계수가 무려 0.7701 이나 되는 shot TV 나 0.7271 이나 되는 byu cheer 라는 것은 무엇인지 잘 모르겠다. 이런 검색어는 우연의 일치로 애플과 상관관계가 높은 것일 뿐, 아무런 인과관계는 없다. 따라서 예측에는 아무런 도움이 되지 않는다.

위의 Correlate 와 Insight 를 결합하면 우리는 Google Flu Trend와 같이 미래의 일에 대한 예측성을 높여볼 수 있다. 예컨대 내가 현대차의 미국내 판매량을 알고 싶다고 가정하자. 특히 2012년 7월의 판매량을 알고 싶은데, 이런 데이터는 아직 시중에 나오지 않았다고 가정하자. 흔히 실무적으로는 시계열 데이터를 예측하는 식을 만들어서 회귀분석을 하는데, 이 때 구글 Correlate에 들어가서 역사적으로 현대차의 판매량과 가장 상관관계가 높았던 검색어를 찾아서 그 검색어의 7월의 트랜드를 본 다음에 식에 변수로 넣으면 정확성을 높일 수 있다. 이때 바로 위에서 언급한 correlation coefficient가 필요하다. (잘 이해가 안되면 통계를 조금 공부해보시길 권한다…)

어렵게 설명했지만, 위의 독감 유행을 예측하듯이 하는 것과 같다. 즉, 사람들은 (대중은) 독감이 돌 때면 몇몇 검색어를 찾는다. 하지만 우리는 그 검색어가 구체적으로 무엇일지는 알 수 없다. ‘병원’일지, ‘고열’일지, ‘독감약’ 일지, 아니면 ‘이빈인후과’일지 모른다. 어쨌든 이런 관련된 검색어들과 실제 독감 유행의 상관관계의 계수만 알 수 있다면 우리는 그러한 검색어들이 급격히 상승하는지 등을 보고, 그리고 그 상승이 어느 지역에서 일어나는지를 보고 독감을 실제로 예측할 수 있다는 것이다.

현대차의 판매량도 마찬가지. 미국 사람들이 현대차를 사기 전에 ‘hyundai’를 검색하는지, ‘sonata’를 검색하는지, ‘warranty’를 검색하는지, ‘hyundai dealer’를 검색하는지, 그리고 각각을 얼마나 검색하는지 알 수 없지만, 이들과 현대차의 판매량의 상관관계의 식을 만들어 볼 수 있다면, 더 정확한 예측이 가능해진다.

이 모든 것이 무수히 많은 대중이 ‘검색’이라는 서비스를 이용함에 따라서 우리가 미래를 예측할 수 있는 지혜를 갖게 되는 현상이다. 거꾸로 말하면, 검색을 잘 하지 않는 분야에서는 별로 효용이 없을 수 있다. 그러나 최근에는 사람들이 작은 일을 하기 전에도 일단 검색을 해보고, 스마트폰을 사용해서 지역별/상황별로도 검색을 많이 하고 있어서, 검색정보의 효용성은 점점 더 커지고 있다. 따라서 대중의 공헌, 즉 우리 모두의 공헌으로 인해서 우리는 우리 미래에 대해서 더 정확한 예측을 할 수 있게 되었다.

하지만 여기까지는 모두 “미쿡”의 이야기일 뿐이다.

결론 – 네이버는 대중의 지혜로 무엇을 하고 있나?

위에서 언급한 서비스들은 영어 이외에도 몇몇 언어를 지원하고 있지만, 한국어 서비스는 없다. 따라서 한국에서 영어로 검색한 경우의 트랜드를 볼 수는 있지만, 한국에서 한국어로 검색한 트랜드는 볼 수 없기에 우리에게 실용적인 의미는 없다.

우리나라에서 구글과 같은 역할을 해 주어야 할 당사자는 네이버다. 하루에도 수천만 건의 검색어가 등록이 될 텐데, 네이버는 이 검색어로 무엇을 하고 있는지 모르겠다.

최근에는 검색어 순위 조작에 대한 의혹마저 불궈저서, 과연 네이버가 우리나라의 대표 검색엔진으로서의 기능을 하고 있는지 심하게 의심된다.

과거같이 한 기업이 사리사욕을 채우기 위해서라면, 그냥 눈감아 줄 수도 있다. 하지만 위의 구글의 사례에서 보듯이 이미 세계는 대중의 지혜를 모아서 사회적으로 중요한 문제를 해결하거나, 소셜 네트워크 내에서 일어나는 알 수 없는 다이내믹스를 분석하는데 제공하고 있다. 그만큼 그들의 예측력은 정확해지고, 사회에 대한 대중의 지혜의 공헌이 늘어나고 있다.

네이버에게 변화를 기대하기란 이제는 힘들다는 것을 잘 안다. 하지만 네이버에 매일 올라오는 수천만에서 수억건에 달하는 검색 쿼리는 그들 자신만의 것이 아니라, 그 검색어를 입력해주는 우리 모두의 지혜라는 것을 알아주었으면 좋겠다. 개개인으로 볼 때는 아무런 의미 없는 검색어일지 모르지만, 그 수많은 검색어를 모으게 되면, 그 안에서 의미 있는 패턴과 트랜드를 찾아서 사회를 위해서 유용한 분석의 틀을 제공할 수 있다.

계속 상위 10개만 짤라서 인기검색어라고 보여주면, 자기 사이트 내부에서 뱅글뱅글 도는 트래픽이야 늘겠지만, 우리 사회 전체가 연예인 신변 잡기만 계속 늘어놓을 것이다. 그나마 그 10개도 투명하게 보여주지도 않으니, 참으로 답답하다.

국내 검색을 거의 독점하다시피 하는 네이버가 그러한 검색의 규모의 경제(size of economies)를 사회를 위해서 오픈한다면 더 없이 사랑받겠지만, 계속 폐쇄적인 행보를 계속하거나 더 나아가 최근에 불궈지는 의혹처럼 몇몇 사람에게만 이런 정보를 제공하는 것으로 드러난다면 대중으로부터 외면받는 것은 순식간일 것이다. 위에서 계속 살펴봤듯이 대중의 지혜는 생각보다 뛰어나기 때문이다.

글: MBA Blogger
출처: http://mbablogger.net/?p=4908