IT 핫픽 - AI '시간 오류' 잡을까…해결 실마리 등장

“현재 대한의사협회 회장이 누구냐”는 질문에 챗GPT가 과거 인물을 답한다면 어떨까요?

시간 흐름을 제대로 반영하지 못하는 인공지능(AI)의 한계를 보여주는 대표적인 사례예요.

그럴듯한 답을 내놓지만, 현실은 바뀌었는데도 이전 정보를 그대로 말하는 경우가 여전히 있어요. 특히 계속 변하는 정보일수록 오류가 더 쉽게 발생해, 사용자가 잘못된 답인지 알아차리기 어려운 경우도 많아요.

이런 문제를 해결하기 위해, 시간 흐름을 반영한 AI의 이해 능력을 정밀하게 평가할 수 있는 새로운 기술이 개발됐어요. 변화하는 정보를 자동으로 반영하면서도, 겉보기에는 맞는 것처럼 보이는 '시간 오류'까지 잡아낼 수 있는 방식이에요.

연구이미지 (생성형 AI 이미지) / KAIST
연구이미지 (생성형 AI 이미지) / KAIST

AI가 놓치고 있는 문제

요즘 거대언어모델(LLM)은 문장을 만들어내는 수준을 넘어, 사용자의 질문 의도를 이해하고 필요한 정보를 찾아 설명하는 방향으로 빠르게 발전하고 있어요. 검색, 상담, 의료, 법률처럼 다양한 분야에서 활용 범위도 점점 넓어지고 있죠.

그런데 여기서 중요한 문제가 하나 있어요. 현실 세계의 정보는 시간이 지나면서 계속 바뀐다는 점이에요. 누가 어떤 직책을 맡고 있는지, 어떤 사건이 언제 일어났는지처럼 '언제 기준의 정보인지'를 함께 이해해야 정확한 답을 할 수 있어요.

기존의 AI 평가 방식은 이런 부분을 충분히 반영하지 못했어요. 대부분 정답이 맞는지만 확인하거나, 단순한 시간 순서를 묻는 수준에 그치는 경우가 많았거든요.

게다가 정보가 바뀔 때마다 사람이 직접 평가 문제와 정답을 수정해야 해 유지 부담도 컸어요. 시간도 많이 들고, 실제 다양한 상황을 반영하기도 어려웠죠.

또 하나의 한계는, 답변 과정에서 드러나는 오류를 잡아내기 어렵다는 점이에요. 예를 들어 결과는 맞지만, 그 과정에서 잘못된 날짜나 기간을 근거로 제시하는 경우가 있는데, 기존 방식으로는 이런 오류를 제대로 걸러내기 어려웠답니다.

이 시스템은 시간 데이터베이스(Temporal Database)를 기반으로 평가 데이터를 생성하는 '시간 민감 질의응답 데이터 자동 구축부(TSQA Construction)'와, 이를 활용해 모델을 정밀 진단하는 '모델 성능 평가 및 신뢰성 검증부(TSQA Evaluation)'로 구성된다. 데이터 구축부는 사용자 입력 데이터를 기반으로 평가 데이터셋을 자동으로 생성하며, 성능 평가부는 정답 기반 평가에 더해 답변 설명에 포함된 시간적 환각까지 추가로 검증한다. / KAIST
이 시스템은 시간 데이터베이스(Temporal Database)를 기반으로 평가 데이터를 생성하는 '시간 민감 질의응답 데이터 자동 구축부(TSQA Construction)'와, 이를 활용해 모델을 정밀 진단하는 '모델 성능 평가 및 신뢰성 검증부(TSQA Evaluation)'로 구성된다. 데이터 구축부는 사용자 입력 데이터를 기반으로 평가 데이터셋을 자동으로 생성하며, 성능 평가부는 정답 기반 평가에 더해 답변 설명에 포함된 시간적 환각까지 추가로 검증한다. / KAIST

해결책은 '시간 데이터베이스'

이런 한계를 해결하기 위해 '시간 데이터베이스(Temporal Database)'라는 개념이 도입됐어요. 이 개념은 지난 40여 년간 데이터베이스 분야에서 검증된 이론으로, 데이터에 시간 흐름을 함께 기록해 변화 과정을 체계적으로 관리하는 방식이에요.

이를 바탕으로 LLM이 시간 흐름을 얼마나 잘 이해하는지를 자동으로 평가하고 진단하는 시스템이 함께 개발됐어요.

이 시스템을 AI 평가에 처음으로 적용한 결과, 사람이 일일이 문제를 만들지 않아도 데이터만으로 다양한 평가 문제가 자동으로 생성되는 구조가 가능해졌어요.

특히 시간 함수 종속성, 조인(Join) 같은 데이터베이스 설계 개념을 활용해, 기존에는 4~6가지 정도밖에 다루지 못했던 시간 관계를 무려 13가지 유형으로 확장했어요. 덕분에 더 복잡하고 현실적인 질문을 통해 AI의 시간 이해 능력을 훨씬 정밀하게 평가할 수 있게 됐어요.

결과부터 과정까지 자동 검증

이 기술의 또 다른 핵심은 '완전 자동화'에 가까운 평가 시스템이에요.

데이터베이스를 기준으로 문제 생성부터 정답 도출, 검증까지 전 과정이 자동으로 이뤄져요. 정보가 바뀌더라도 데이터베이스만 업데이트하면 평가 문제와 정답, 기준이 함께 반영돼 유지 관리 부담을 크게 줄일 수 있어요.

여기에 더해 새로운 평가 방식도 제안됐어요. 단순히 최종 답이 맞는지 틀리는지를 보는 데서 끝나는 것이 아니라, AI가 답을 설명하는 과정에서 제시한 날짜나 기간이 논리적으로 맞는지도 함께 검증하는 방식이에요.

이 덕분에 겉으로는 정답처럼 보이지만 실제로는 시간적 근거가 틀린 '시간 환각(Temporal Hallucination)' 현상까지 잡아낼 수 있게 됐어요. 실제로 위키피디아 데이터셋을 활용한 실험에서는 기존보다 시간 관련 오류를 평균 21.7% 더 정확하게 탐지한 것으로 나타났어요.

효율성 측면에서도 개선이 확인됐어요. 평가에 필요한 데이터 입력량은 평균 51% 줄었고, 문제를 유지·관리하는 비용도 크게 낮아졌어요.

미래의 AI 평가 시스템 (생성형 AI 이미지) / KAIST
미래의 AI 평가 시스템 (생성형 AI 이미지) / KAIST

AI 신뢰성을 높이는 새로운 기준

이번 기술은 한국과학기술원(KAIST) 전기및전자공학부 황의종 교수 연구팀이 마이크로소프트연구소(Microsoft Research)와 함께 개발했어요.

기존처럼 위키피디아나 위키데이터 같은 공개 데이터 중심 평가를 넘어, 의료나 법률처럼 전문성이 높은 분야의 데이터베이스까지 활용할 수 있는 기반을 마련했다는 점에서 의미가 커요. 앞으로는 실제 활용 환경에 더 가까운 방식으로 AI 성능을 검증할 수 있게 되는 거죠.

연구를 이끈 황의종 교수는 “오랫동안 발전해 온 데이터베이스 설계 이론이 최신 인공지능의 신뢰성 문제를 해결하는 데 중요한 역할을 할 수 있음을 보여준 사례”라고 설명했어요. 이어 “방대한 전문 데이터를 평가 자원으로 활용할 수 있게 되면서 다양한 분야에서 AI 성능을 검증하는 데 큰 도움이 될 것”이라고 밝혔어요.

AI는 아직도 할루시네이션 문제에서 완전히 벗어나지 못하고 있어요. 단순한 질문에서는 오류가 많이 줄었지만, 의료나 법률처럼 복잡한 영역에서는 여전히 적지 않은 오류가 발생하고 있죠.

이런 상황에서 이번 기술은 AI의 시간 이해 능력을 평가하고 개선하는 중요한 기준이 될 것으로 기대돼요.


최성훈 기자 csh87@etnews.com