
주요 인공지능(AI) 모델 중 가장 정확한 답을 내놓는 AI 검색 도구는 구글 'AI 모드'라는 테스트 결과가 나왔어요.
워싱턴포스트는 27일(현지시간), 미국 공공·대학 도서관들과 함께 진행한 AI 검색 도구 테스트에서 구글 AI 모드가 1위를 차지했다고 보도했어요.
이번 테스트는 구글 AI 모드와 AI 오버뷰, 챗GPT(오픈AI), 퍼플렉시티, 클로드(앤스로픽), 빙 코파일럿(마이크로소프트), 그록(xAI), 메타 AI 등 총 9개의 AI 도구를 대상으로 진행됐어요.
챗GPT는 GPT-5와 GPT-4 터보 두 모델을 포함했어요.
AI 모드와 AI 오버뷰는 구글의 검색 도구로, AI 모드는 웹을 깊이 검색해 여러 출처를 종합한 뒤 답변을 제공하고, AI 오버뷰는 검색 결과를 AI가 요약해줘요.
테스트는 까다로운 질문 30개를 던진 뒤 AI 도구가 내놓는 답변 900건을 점수화했어요.
모든 도구는 무료 기본 버전(7∼8월 기준)으로만 테스트했고, 질문은 퀴즈, 전문 자료 검색, 최신 사건, 내재된 편향(편견), 이미지 인식 등 5가지에 집중했어요.

테스트 결과 구글 AI 모드가 100점 만점 가운데 60.2점을 얻어 가장 높은 점수를 받았어요. GPT-5 기반의 챗GPT가 55.1점으로 2위를, 퍼플렉시티가 51.3점으로 3위를 차지했어요.
일론 머스크의 그록3는 40.1점을 얻어 8위를, 메타 AI는 33.7점으로 가장 낮은 순위를 기록했어요.
구글 AI 모드는 퀴즈와 최신 사건 부문에서 가장 정확한 답을 제시했고, 전문 출처 검색에서는 빙 코파일럿, 이미지 인식에서는 퍼플렉시티가 가장 높은 점수를 받았어요.
GPT-4 터보는 가장 치우치지 않는 답을 제공했어요.
GPT-5는 전체적으로 성능 개선을 보여 2위를 차지했지만, 일부 영역에서는 GPT-4보다 오히려 낮은 점수를 받았어요.
이번 테스트는 AI의 약점을 의도적으로 공략했는데, 일상적인 질문에서도 여전히 AI가 제대로 답하지 못하는 경우가 많다는 사실이 드러났다고 워싱턴포스트는 분석했어요.
최성훈 기자 csh87@etnews.com