
앤트로픽의 인공지능(AI) 모델 '클로드 오퍼스 4.6'이 30분 만에 탈옥 공격에 뚫린 것으로 알려졌습니다.
지난 10일 정보통신기술(ICT) 업계에 따르면 AI 보안 전문기업 에임인텔리전스는 클로드 오퍼스 4.6을 대상으로 탈옥 공격을 시도한 결과, 약 30분 만에 안전장치를 우회하는 데 성공했다고 밝혔습니다.
탈옥이란 AI 시스템에 설정된 보안이나 윤리적 제한을 우회해, 원래 허용되지 않은 행동을 하도록 유도하는 해킹 기법을 말합니다.
에임인텔리전스는 AI 서비스에 최적화된 공격으로 취약점을 찾아내는 레드팀 공격을 실험한 결과, “거부 장치를 우회해 클로드가 사린 가스, 천연두, 바이러스 등 생화학 무기를 만드는 방법을 제공하도록 하는 데 성공했다”라고 설명했습니다.
클로드는 생화학 무기 제조법뿐만 아니라 생물테러 시나리오까지 제공한 것으로 전해졌습니다.
앞서 에임인텔리전스는 구글의 '제미나이 3 프로'를 대상으로도 레드팀 공격을 진행했으며, 그 결과 5분 만에 안전장치를 우회해 필터링 기능을 무력화한 사례를 공개한 바 있습니다.
당시 연구팀은 제미나이에게 보안 실패 상황을 풍자하는 프레젠테이션(PT) 자료를 만들도록 지시했고, 제미나이는 '탈옥당한 바보 제미나이 3'이라는 제목의 자료를 생성하기도 했습니다.
보안업계에서는 이러한 사례를 두고 AI 성능이 빠르게 향상되는 속도를 방어 체계가 따라가지 못하고 있다고 진단하고 있습니다.
특히 클로드 오퍼스 4.6은 인간을 대신해 판단하고 행동까지 수행하는 '에이전틱 기능'이 강화된 모델인 만큼, 보안업계에서는 악용 가능성에 대한 우려의 목소리도 커지고 있습니다.
박하언 에임인텔리전스 최고기술책임자(CTO)는 “이번 탈옥 공격 성공은 클로드뿐만 아니라 최신 AI 모델이 보안에 취약하다는 문제점을 보여주는 사례다”라며 “AI를 향한 공격이 고도화되고 있는 만큼 각 모델의 취약점을 이해하고 방어하는 시스템이 중요해질 것”이라고 강조했습니다.
최성훈 기자 csh87@etnews.com