KAIST, 거대언어모델 전문가 혼합 구조의 보안 취약성 규명

게시2025년 12월 26일 09:17

newming AI

AI가 1개의 뉴스를 요약했어요.

KAIST 연구진이 구글 Gemini 등 주요 거대언어모델(LLM)이 사용하는 전문가 혼합(MoE) 구조의 새로운 보안 위협을 세계 최초로 밝혔다. 신승원·손수엘 교수 공동연구팀은 이 연구로 정보보안 분야 최고 권위 국제 학회인 ACSAC 2025에서 최우수논문상을 수상했다.

연구팀은 공격자가 악의적으로 조작된 '전문가 모델' 하나만 유통할 경우, 전체 거대언어모델이 위험한 응답을 생성하도록 유도될 수 있음을 입증했다. 실험 결과 제안된 공격 기법은 유해 응답 발생률을 0%에서 최대 80%까지 증가시킬 수 있었으며, 모델 성능 저하가 거의 나타나지 않아 사전 발견이 어렵다는 점이 특히 위험한 요소로 지적됐다.

이번 연구는 오픈소스 기반 거대언어모델 개발 환경에서 발생할 수 있는 새로운 보안 위협을 최초로 제시했다. 앞으로 AI 모델 개발 과정에서 성능뿐 아니라 전문가 모델의 출처와 안전성 검증이 필수적임을 시사한다.

KAIST 연구팀의 연구 개념도(AI가 생성한 이미지). KAIST 제공

KAIST, 구글 Gemini구조 악용 AI 보안 위협 세계 첫 규명

뉴밍

KAIST, 거대언어모델 전문가 혼합 구조의 보안 취약성 규명

AI 뉴스 플랫폼, 흩어진 뉴스를 잇다