뉴밍

AI 뉴스 플랫폼, 흩어진 뉴스를 잇다

앱으로 보기

KAIST, 저렴한 GPU로 AI 서비스 비용 67% 절감 기술 개발

게시2025년 12월 28일 12:02

AI가 1개의 뉴스를 요약했어요.

KAIST 연구진이 데이터센터 GPU와 개인 PC의 저렴한 GPU를 함께 활용해 대규모 언어모델(LLM) 추론 비용을 67.6% 절감할 수 있는 '스펙엣지(SpecEdge)' 기술을 개발했다.

한동수 교수 연구팀은 추측적 디코딩 방식을 활용해 엣지 GPU의 소형 언어모델이 토큰 시퀀스를 빠르게 생성하면 데이터센터의 대규모 언어모델이 검증하는 방식으로 설계했다. 기존 데이터센터 GPU만 사용하는 방식 대비 비용 효율성은 1.91배, 서버 처리량은 2.22배 향상됐으며, 일반 인터넷 속도에서도 문제없이 작동한다.

향후 스마트폰, 개인용 컴퓨터, NPU 등 다양한 엣지 기기로 확장될 경우 고품질 AI 서비스가 더 많은 사용자에게 제공될 수 있을 것으로 기대된다. 이 연구는 12월 2~7일 미국 샌디에이고에서 열린 신경정보처리시스템 학회(NeurIPS)에서 상위 3.2% 논문으로 발표됐다.

KAIST 전기및전자공학부 박진우 박사, 조승근 석사과정, 한동수 교수(외쪽부터). KAIST 제공

AI 뉴스 플랫폼, 흩어진 뉴스를 잇다

Newming
Google Play에서 다운로드App Store에서 다운로드