과학논문 검색에 인공지능 도입 ‘머지않아 2억 개 자료 축적’

과학논문 검색에 인공지능 도입

구글 스칼라 1억6천만개 자료 확보

screen-shot-2016-11-28-at-17-46-05

세계에서 가장 많이 사용되고 있는 검색 엔진이 ‘구글 검색(Google Search)’입니다. 다양한 경로를 통해 매일 수억 번의 질의어(query)에 대한 궁금증을 해소해주고 있는데 다양한 서비스 가운데 ‘구글 스칼라(Google Scholar)’를 빼놓을 수 없습니다.

이 서비스를 이용하면 다양한 분야 논문·학술지·간행물들을 매우 쉽고 빠르게 검색할 수 있습니다. 연구자들이 특정 논문과 관련된 몇 개의 단어를 입력하면 풀 텍스트(Full Text)는 물론 관련 자료들이 줄줄이 흘러나옵니다.

최근 들어서는 이 검색엔진에 인공지능(AI)을 도입한 후 이들 자료들의 말뭉치(corpus)를 키워나가고 있는 중 입니다. 11일 구글 관계자는 ‘네이처’ 지를 통해 컴퓨터과학과 뇌과학 분야에서만 약 1000만 개의 관련 연구논문을 축적하고 있다고 말했습니다.

구글 스칼라, 1억6000만개 자료 확보

‘구글 스칼라’가 등장한 것은 2004년 11월입니다. 당시 구글은 이 새로운 학술용 검색엔진에 이용요금을 부과하지 않는 것은 물론 광고도 넣지 않을 계획이라고 밝혔습니다. 그동안 도움을 받은 학계에 보은 차원에서 상업성을 배제하겠다는 의지를 보였습니다.

논문 등 학술자료 검색엔진에 인공지능(AI)이 도입되면서 열람할 수 있는 데이터 양이 기하급수적으로 늘어나고 있다. 사진은 ‘시맨틱 스칼라(Semantic Scholar)’를 운영 중인 알렌연구소
논문 등 학술자료 검색엔진에 인공지능(AI)이 도입되면서 열람할 수 있는 데이터 양이 기하급수적으로 늘어나고 있다. 사진은 ‘시맨틱 스칼라(Semantic Scholar)’를 운영 중인 알렌연구소

논문 등 학술자료 검색엔진에 인공지능(AI)이 도입되면서 열람할 수 있는 데이터 양이 기하급수적으로 늘어나고 있다. 사진은 ‘시맨틱 스칼라(Semantic Scholar)’를 운영 중인 알렌연구소. ⓒAllen Institute

그리고 약 10년이 지난 2014년 5월 이 검색엔진에 약 1억6000만 개의 자료를 축적했습니다. 지난해 인공지능이 도입된 후에는 또 다른 인공지능 기반의 학술용 검색엔진들과 결합하고 있습니다. 머지않아 2억 개의 자료를 축적할 것으로 예상되고 있습니다.

정보가 급속히 축적되면서 문제도 발생하고 있습니다. 논문과 같은 깊이 있는 내용을 취급할 경우 단순한 키워드(keyword)  시스템 때문에 깊이있는 검색을 하기 힘들다는 불만이 제기되고 있습니다. 이런 지적을 이해하기 위해서는 학술지를 취급하는 다른 검색엔진과의 비교가 필요합니다.

대표적인 경우가 ‘시맨틱 스칼라(Semantic Scholar)’입니다. 비영리기관인 인공지능 앨런 연구소(Allen Institute for Artificial Intelligence)에서 운영하고 있는 이 검색엔진은 300만 개가 넘는 과학논문을 보유하고 있습니다.

screen-shot-2016-11-28-at-17-47-39

최근 들어서는 인공지능을 통해 검색 서비스를 강화하고 있습니다. 오란 에치오니(Oren Etzioni) 소장은 “폭발적으로 늘어나고 있는 논문을 알기 쉽게 분류한 후 손쉬운 방법으로 검색할 수 있도록 하기 위해 인공지능 역할을 강화하고 있다”고 말했습니다.

주목받고 있는 것은 ‘시맨틱 스칼라’의 검색 과정인데요. 논문을 발간한 저자, 출판물, 주제, 날짜 별로 신속하게 필터링할 수 있습니다. 논문 속에 들어 있는 그림과 표 등 그래픽을 접속해 다운받을 수 있는 점 역시 강점 중의 하나입니다.

시맨틱, MS 등 학술검색 엔진 새 강자로

screen-shot-2016-11-28-at-17-48-07

인용된 논문과 참고 문헌도 검색이 가능합니다. 특정 논문의 인용 사례들을 분석해 그 영향력을 측정해볼 수 있습니다. 가능한 과학자들이 원하는 모든 내용을 검색할 수 있도록 검색엔진 시스템을 구축해가고 있습니다.

지난 2012년 학술지 검색엔지 서비스를 중단했던 MS도 지난 5월 사업을 다시 시작했습니다. 그리고 인공지능을 기반으로 다양한 학술단체와 연계해 최대 경쟁자인 ‘구글 스칼라’와 한판 승부를 준비하고 있습니다.

MS는 지난 2006년 ‘구글 스칼라’에 대항해 ‘아카데믹 서치(Academic Search)’를 선보였으며, 논문 검색 경쟁에 시동을 걸었습니다. 출판사, 각종 학술단체의 논문, 논문 요약, 기사 등을 검색할 수 있도록 검색망을 구축했으나 ‘구글 스칼라’와의 경쟁에서 밀리는 아픔을 맛봤습니다.

그러나 이번에는 인공지능을 기반으로 한 개방형 응용프로그램 인터페이스(API, application programming interface)를 도입한 후 여타 학술단체들과 협력해 이전에 시도하지 않았던 시맨틱 스타일의 대규모 ‘아카데믹 서치’를 구축하고 있는 중 입니다.

screen-shot-2016-11-28-at-17-48-45

이외에도 크고 작은 기업, 기관들이 인공지능을 활용한 검색 시스템을 개발 중입니다. 목표는 더 깊이 있는 콘텐츠를 온라인 상에서 검색할 수 있도록 하자는 것. 막스 플랑크 연구소는 건강과 생명과학을 위한 검색엔진 ‘딥라이프(DeepLife)’를 선보였습니다.

구글, MS 등 대기업들이 학술지 검색엔진 개발경쟁을 벌이면서 학자들은 인공지능이 추가된 검색 기능을 품평하느라 즐거운 비명을 지르고 있습니다. 영국 미들섹스 대학의 앤윌 하칭(Anne-Wil Harzing) 교수는 특히 MS의 노력을 높이 펑가했습니다.

학술검색을 위해 과학논문을 다수 확보할 수 있게된 것은 인공지능 덕분입니다. 복잡한 내용을 신속하고 정확하게 처리할 수 있어 거의 무한대로 논문을 축적해나갈 수 있습니다. 향후 논문 검색이 어떻게 발전해나갈지 과학자들의 관심이 쏠리고 있습니다.

글/ 미래창조과학부

원문