AI 튜터 솔루션 기업 뤼이드가 교육 분야 AI 학습 데이터베이스 에드넷(EdNet)을 구축하고 수년간 축적해온 1억 건 이상의 문제풀이 및 학습 데이터를 공개한다고 2일 밝혔다.
뤼이드 AI 연구진은 최근 글로벌 논문 공유사이트인 아카이브에 해당 내용을 담은 논문(EdNet: A Large-Scale Hierarchical Dataset in Education)을 공개했다. 에드넷은 불특정 다수 유저의 학습행동 데이터로 문제 데이터 정보와 각각의 정오답, 풀이 소요 시간, 각 유저의 목표 점수와 실제 점수, 강의 구매 시점 등의 다양한 정보가 포함된 데이터를 공개하는 개방형 학습 데이터베이스다.
뤼이드는 여기에 지난 2017년부터 자사 인공지능 학습 솔루션 산타토익을 통해 축적한 약 78만 학습자의 1억3천만 건 이상의 학습 행동 데이터를 공개한다. 이는 현재 공개되어 있는 글로벌 교육관련 데이터 세트 대비 큰 규모다. 데이터와 함께 수집 과정, 처리 방법 등을 함께 제공하여 데이터의 유효성을 입증하고 이해도를 높였다는 게 회사 측 설명이다. 이를 통해 누구든 에드넷을 통해 대량의 학습 데이터를 내려 받아 정·오답 예측 및 추천 등의 AI 모델을 개발하는데 활용할 수 있다.
딥러닝 모듈 아키텍처인 트랜스포머 기반 자사의 정오답 예측 모델 알고리즘도 오픈소스로 공개한다. 누구든 뤼이드 모델 프로그램 구성을 확인하고 정확도나 유효성을 실험해 볼 수 있다. 나아가 또 다른 모델을 개발하여 성능을 비교할 수도 있다.
뤼이드는 에드넷에 매년 지속적으로 추가 데이터를 공개하고 다양한 교육 인공지능 분야 과제에 대한 알고리즘 개발 콘테스트를 개최할 계획이다. 이를 통해 더 많은 우수 연구인력의 교육 인공지능 시장에 대한 관심과 진입을 유도하고 시장을 보다 활성화한다는 전략이다.
뤼이드가 발표한 자료에 따르면 실제 해외에서는 이미 오픈소스로 비즈니스 경쟁력을 강화하고 더 나아가 산업 및 기술의 비약적인 발전을 이끈 사례를 찾을 수 있다.
특히 2009년 미국 스탠포드와 프린스턴대학 연구진에 의해 구축, 공개된 이미지 데이터 베이스인 ‘이미지넷’은 AI의 이미지 식별능력 고도화 연구의 기폭제 역할을 했다. 특히 2010년 부터 시작된 ‘이미지넷 챌린지’는 누구나 참여할 수 있는 인공지능 이미지 식별대회로 참여자들의 인공지능 알고리즘이 100% 공개돼 관련 분야 연구 수준을 획기적으로 끌어올리는 주요 동인이 된 것으로 평가받는다.
장영준 뤼이드 대표는 “교육분야에서의 AI연구는 금융, 의료 등 다른 산업에 비해 여전히 진공상태”라며 “무한한 성장 잠재력에도 불구하고 보수적인 업계 특성상 디지털화된 데이터가 거의 없다는 것이 가장 큰 이유인데, 뤼이드가 이를 선제적으로 해결하여 교육 AI시장의 활성화를 통해 산업 전체의 AI 혁명을 주도하겠다”고 말했다. 또 “‘이미지넷’이 컴퓨터 비전 AI 기술 발전에 절대적인 역할을 한 것처럼 ‘에드넷’이 교육 AI 발전을 이끌고 궁극적으로 뤼이드의 더 큰 성장을 견인할 것이라 확신한다”고 덧붙였다.