
KAIST, 거대언어모델 전문가 혼합 구조의 보안 취약성 규명
게시2025년 12월 26일 09:17
newming AI
AI가 1개의 뉴스를 요약했어요.
KAIST 연구진이 구글 Gemini 등 주요 거대언어모델(LLM)이 사용하는 전문가 혼합(MoE) 구조의 새로운 보안 위협을 세계 최초로 밝혔다. 신승원·손수엘 교수 공동연구팀은 이 연구로 정보보안 분야 최고 권위 국제 학회인 ACSAC 2025에서 최우수논문상을 수상했다.
연구팀은 공격자가 악의적으로 조작된 '전문가 모델' 하나만 유통할 경우, 전체 거대언어모델이 위험한 응답을 생성하도록 유도될 수 있음을 입증했다. 실험 결과 제안된 공격 기법은 유해 응답 발생률을 0%에서 최대 80%까지 증가시킬 수 있었으며, 모델 성능 저하가 거의 나타나지 않아 사전 발견이 어렵다는 점이 특히 위험한 요소로 지적됐다.
이번 연구는 오픈소스 기반 거대언어모델 개발 환경에서 발생할 수 있는 새로운 보안 위협을 최초로 제시했다. 앞으로 AI 모델 개발 과정에서 성능뿐 아니라 전문가 모델의 출처와 안전성 검증이 필수적임을 시사한다.

KAIST, 구글 Gemini구조 악용 AI 보안 위협 세계 첫 규명