
우리 연구진이 인공지능(AI) 소스코드를 자동으로 만들 때, 기능과 품질을 함께 보장하는 핵심기술을 선보였어요.
단순히 코드를 빠르게 만들어내는 수준을 넘어, 개발자 의도와 함께 안정성·보안성 등 품질 요소까지 반영한 높은 품질의 코드를 만들 수 있다는 점에서 주목돼요.
한국전자통신연구원(ETRI)은 대규모 언어모델(LLM)을 활용해 소스코드를 보다 정확·안전하게 생성할 핵심기술을 개발했다고 10일 밝혔어요. AI, 소프트웨어 엔지니어링(SE), 프로그래밍 언어(PL) 분야의 융합을 통해 개발한 것으로, AI 코드 생성능력을 한층 고도화한 거죠.
연구진은 기존 코드 생성기술이 기능 구현에만 집중했던 한계를 넘어, 시스템의 품질과 신뢰성 등 비기능 요구사항까지 반영할 수 있는 구조적 코드 생성기술을 개발했어요.
예를 들어 로그인 기능을 요청하면 단순 인증 로직뿐 아니라 입력 검증, 예외 처리, 계정 잠금 등 품질관리 요소가 함께 반영된 코드를 자동 생성해줘요. 파일처리 기능의 경우에도 대용량 데이터 처리효율과 메모리 관리 등 성능 요소를 고려해 코드가 구성되죠. 이번 연구에는 서울대 연구진도 함께 참여했어요.
ETRI는 기술 개발과 함께 C/C++ 언어에 특화된 대규모 학습 데이터셋을 자체 구축했어요. C/C++ 언어는 운용체계(OS), 반도체, 임베디드 시스템 등 산업 핵심분야에 널리 쓰이지만, AI 학습용 데이터가 부족해 코드생성 성능이 떨어지는 한계가 있었죠.
연구진은 코드 수집, 품질 평가, 명세 생성 전 과정을 자동화한 데이터 구축 시스템을 개발해, 약 4만건 고품질 C/C++ 특화 훈련 데이터셋을 확보했어요. 이 데이터를 최신 AI 모델 4종에 적용해, 모든 모델 코드 품질이 향상됐으며, 훈련 데이터 품질·양이 AI 코드 생성 핵심 요인임을 입증했다는군요.

ETRI는 최근 서울 엘타워에서 'PULSE 코드 자동화 오픈소스 기술 워크샵'을 개최하고, 주요 연구성과를 공개했어요.
이번 행사로 범용 소프트웨어(SW) 개발을 넘어 산업 도메인 특화 서비스로 기술을 확장하는 전략 방향을 제시했습니다. 또 로봇 제어, 차량용 SW 자동화 등 주요 산업 분야를 대상으로 실증·협력 프로젝트를 추진 중이라고 전했어요. 연구성과 확산·활용을 위해 관련 기술 일부를 깃허브를 통해 오픈소스로 공개하기도 했죠.
이 과제로 △SCI급 논문 5편 △세계 최고 수준 학회인 ACL을 포함한 국제 우수학술대회 논문 20편 △국내·외 특허 출원 11건 △기술이전 2건 등 우수한 성과를 달성했다고 해요. ETRI는 현재 국내 주요 기업들과 개념 검증(PoC)을 추진 중이며 3~4년 내 상용화가 목표예요.
정영준 ETRI 온디바이스AI연구본부장은 “향후 산업 현장에서 실제 검증을 거쳐 다양한 프로그래밍 언어와 산업 특화 영역으로 기술을 확대 적용할 계획”이라며 “국내 SW 개발 생태계 경쟁력 강화에 크게 기여할 것”이라고 말했어요.
최정훈 기자 jhchoi@etnews.com