
UNIST 연구팀, IEEE 국제학술대회 AI 백도어 방어 챌린지 2위
게시2026년 3월 31일 06:31
newming AI
AI가 1개의 뉴스를 요약했어요.
UNIST 산업공학과·인공지능대학원 박새롬 교수와 윤성환 교수 공동 연구팀이 독일 뮌헨에서 열린 IEEE 보안·신뢰 기계학습 학회(SaTML)의 '안티-배드(Anti-BAD) 챌린지'에서 2위를 차지했다.
백도어 공격은 특정 단어나 문장 같은 트리거가 입력되면 의도된 반응을 보이도록 인공지능 모델에 심는 조작 기법이다. 연구팀은 모델 양자화, 모델 병합, 이상치 매개변수 탐지, 과신뢰 방지를 결합한 범용 방어 기법을 제시해 생성·분류·다국어 등 서로 다른 과제에 두루 적용 가능함을 입증했다.
이번 성과는 복잡한 대규모 언어모델의 숨은 공격 신호를 탐지하고 완화하는 기술 개발에 기여할 것으로 예상된다.

'AI 결과 조작' 백도어 공격, 해법 찾았다