UNIST 연구팀, IEEE 국제학술대회 AI 백도어 방어 챌린지 2위

게시2026년 3월 31일 06:31

newming AI

AI가 1개의 뉴스를 요약했어요.

UNIST 산업공학과·인공지능대학원 박새롬 교수와 윤성환 교수 공동 연구팀이 독일 뮌헨에서 열린 IEEE 보안·신뢰 기계학습 학회(SaTML)의 '안티-배드(Anti-BAD) 챌린지'에서 2위를 차지했다.

백도어 공격은 특정 단어나 문장 같은 트리거가 입력되면 의도된 반응을 보이도록 인공지능 모델에 심는 조작 기법이다. 연구팀은 모델 양자화, 모델 병합, 이상치 매개변수 탐지, 과신뢰 방지를 결합한 범용 방어 기법을 제시해 생성·분류·다국어 등 서로 다른 과제에 두루 적용 가능함을 입증했다.

이번 성과는 복잡한 대규모 언어모델의 숨은 공격 신호를 탐지하고 완화하는 기술 개발에 기여할 것으로 예상된다.

UNIST 공동연구팀의 하승범·윤지은·권기완 연구원(왼쪽부터)이 기념촬영하고 있는 모습. UNIST 제공

'AI 결과 조작' 백도어 공격, 해법 찾았다

뉴밍

UNIST 연구팀, IEEE 국제학술대회 AI 백도어 방어 챌린지 2위