구글 포토 서비스가 선 보인지 두 해가 지났다. 국내는 한 해 늦은 작년에 첫선을 보였지만 이미 2년 만에 전세계 2억명 사용할 정도로 폭발적인 증가세를 보이고 있는 구글의 대표적인 서비스다.
구글 포토는 사실 디지털 카메라나 스마트폰을 위해 태어났다고 해도 과언이 아니다. 예전 필름 카메라 시절엔 한장, 한장 신중하게 촬영한 만큼 방대한 분량의 사진에 대한 걱정 자체가 생기지 않았으니까. 디지털 카메라의 등장으로 촬영 장수가 본격적으로 증가하면서 사용자는 외장하드를 통해 그들의 사진을 보관해 왔다.
문제는 이렇게 보관한 사진은 제아무리 폴더를 꼼꼼히 정리해 둔다 하더라도 검색을 통해 원하는 사진을 찾는데 한계가 생기기 마련이다. 구글 포트는 촬영한 사진을 손쉽게 검색하고 친구, 가족과 공유할 수 있는 일종의 ‘사진 허브’ 다.
그 중에서도 가장 핵심 기능인 ‘검색’은 구글이 개발한 인공지능 알고리즘을 통해 좀더 영리하게 발전 중이다. 단순히 사물을 구분해 검색하는 단계에서 벗어나 사진속 배경이나 위치, 일몰 같은 자연현상, 생일파티 같은 이벤트를 구글 포토 스스로가 알아서 인식하는 단계를 말한다.
구글 포토에 적용한 인공지능이 사용자가 원하는 사진을 찾기 위해서는 먼저 일단 구글에 업로드된 사진을 학습하는 단계에서 라벨(label) 작성 작업이 선행되야만 한다. 머신러닝 과정에서 사진을 인식해 사진속 사물이나 배경, 위치 등 다양한 정보를 추출하는 과정을 거쳐 검색이 가능하도록 일종의 검색 키워드를 생성하는 과정이 필요한데 이를 라벨이라 부른다. 보통 이미지당 10개 정도의 라벨이 생성되는데 이미지에 따라 생성되는 라벨의 종류가 다르다.
물론 아무리 똑똑한 알고리즘을 추가하더라도 빈틈은 존재하기 마련이다. 구글이 이미지 머신러닝을 위해 사용하는 공개 이미지 데이터(open image dataset)는 900만개가 넘는데 그 중에 10만개를 골라 사람이 직접 검토하고 그 결과를 수정하는 방식으로 정확도를 높이고 있다고. 게다가 이 데이터셋을 구글 뿐만 아니라 외부 학술 연구단체에도 보내 협업 연구중이다. 일반 사용자도 이 프로젝트 참여해 인공지능이 이미지 인식과 검색률을 높이는데 기여할 수 있다. 구글포토 앱에서 검색결과 삭제(remove result)를 눌러 정확한 라벨로 바꾸는 것 만으로 참여가 가능하다. 그 결과 현재 머신러닝의 이미지 인식에 필요한 라벨링 성능은 4년전 보다 무려 25배가 증가했다. 그만큼 많은 이미지를 인식할 수 있게 됐고 검색 성능도 덩달아 높아졌다는 뜻이다.
구글 포토의 궁극적인 목표는 초인간인식(Super-human-recognition) 단계다. 단순히 누워 있는 고양이 정도를 검색하는 것에서 끝나는 것이 아니라 그 고양이의 품종이 뭔지까지 인식해 검색 결과에 반영할 수 있는 단계를 말한다. 그리고 위치와 관계까지도 인식해 ‘산 앞에 초원에서 풀을 뜯어 먹고 있는 소’ 같은 검색어로 사진을 검색하거나 자동차 역시 브랜드, 모델은 물론이고 심지어 연식까지 인식 가능해 일반적인 사람의 능력을 뛰어넘는게 목표라고. 지금의 발전 속도라면 앞으로 수년안에 가능한 일이라고 한다.
동영상의 경우 확실한 장면을 먼저 찾고 프레임 별로 나타나는 특정 사물을 대조해 인식하는 방식을 쓴다. 동영상을 검색하기 위해서는 사진과 달리 시간이라는 요소가 추가로 적용되는 데 라벨에 해당되는 모든 프레임을 찾아가며 검색을 하는 점이 사진 검색과 다른점이다.
가장 흥미로운 부분은 이벤트 검색이다. 휴가나 아이들이 노는 모습, 밖에서 즐기는 스포츠 등을 검색어를 통해 사진으로 찾을 수 있다. 예를들어 ‘스키타는 사진’이라는 검색어로 지난 겨울 스키장에서 찍은 사진을 검색하는 일이 가능하단 얘기다. 이런 검색을 위해선 시간, 날짜, 지역 라벨 중에서 동일한 부분을 먼저 찾는다. 스키장이면 일단 국내의 경우 대부분 강원도 지역에 밀집돼 있고 시간과 날짜 역시 겨울일 확률이 높다. 이렇게 유추된 결과를 토대로 사진에서 또 다른 라벨을 찾게 되는데 바로 랜드마크, 로고, 사진에 포함된 문구 등이다. 아이들 생일을 예로 들어보자. 사진속에는 케익, 양초, 아이가 있다. 그리고 이미지에서 ‘IRTH DA’라는 텍스트를 찾아낸다. 인공지능은 이렇게 단편적인 문구를 통해 ‘BIRTH DAY’라는 단어를 유추하게 되고 비로소 이 사진이 생일파티 사진이라는 걸 인식하게 된다.
각각의 다른 사진이지만 같은 시간대에 촬영한 사진이라면 별도의 라벨을 통해 교차 검색하는 것도 가능하다. 앨범 안에 3장의 이미지가 있는데 사진에는 각각 고양이, 크리스마스 트리, 진저브레드 하우스가 촬영된 사진이다. 그리고 이 사진이 연말 무렵에 찍은 것을 라벨을 통해 인식하고 이 앨범이 크리스마스에 찍은 사진이란 결과를 추론하게 되는 것.