
오는 2030년까지 1조 개 파라미터를 갖춘 대규모언어모델(LLM)의 추론 비용이 지난해보다 90% 이상 급감할 것이란 전망이 나왔습니다.
생성형 인공지능(AI) 모델이 처리하는 기본 데이터 단위인 'AI 토큰'의 단가가 낮아질 것이란 분석입니다.
글로벌 시장조사기관 가트너는 “2030년에는 LLM의 비용 효율성이 2022년 초기 동일 규모 모델 대비 최대 100배까지 개선될 것”이라며 이같이 내다봤습니다.
이 같은 변화의 배경으로는 반도체 및 인프라 효율 개선, 모델 설계 혁신, 추론 특화 반도체 확대, 엣지 디바이스 확산 등을 꼽았습니다.
다만 토큰 단가 하락이 곧바로 기업의 AI 비용 절감으로 이어지지는 않을 것이라고 지적했습니다. 고도화된 AI 기능일수록 더 많은 토큰을 요구하는 구조적 특성 때문입니다.
특히 AI 에이전트는 기존 챗봇보다 작업당 5배에서 최대 30배 더 많은 토큰이 필요해, 전체 추론 비용이 오히려 증가할 것으로 예상됩니다.
가트너의 윌 소머 시니어 디렉터 애널리스트는 “기본적인 AI 기능은 제로 비용에 가까워지고 있지만, 고급 추론을 뒷받침하는 컴퓨팅 자원은 여전히 희소하다”며 “범용 토큰 가격 하락을 고급 추론 역량의 대중화로 오해해서는 안 된다”고 설명했습니다.
현재 저렴한 단가에 의존해 아키텍처 비효율을 방치하는 기업은 향후 확장 단계에서 한계에 직면할 수 있다는 경고입니다.
이에 따라 가트너는 다양한 모델 포트폴리오 전반에서 워크로드를 효율적으로 관리하는 '오케스트레이션' 역량에 가치가 집중될 것으로 내다봤습니다.
반복적이고 빈도가 높은 업무는 소형 모델이나 도메인 특화 모델로 처리해 비용을 낮추고, 고가의 프론티어급 모델은 복잡한 고부가가치 추론 작업에만 선택적으로 활용해야 한다는 전략입니다.
최성훈 기자 csh87@etnews.com