AI 에이전트 성능, 모델보다 '하네스 엔지니어링'이 좌우

게시2026년 3월 2일 14:04

newming AI

AI가 1개의 뉴스를 요약했어요.

AI 에이전트가 자율적으로 작업하고 소통하는 수준으로 발전하면서, 모델 자체보다 작업 환경을 관리하는 '하네스(harness)' 기술이 성능을 가르는 핵심 요소로 부상했다. 크래프톤은 구글 모델을 기반으로 오픈소스 하네스를 자체 개선한 '터미누스-키라(KIRA)'를 개발해 터미널벤치 2.0에서 74.8%의 정확도로 글로벌 2위를 기록했으며, 이는 1위 오픈AI(75.1%)와 0.3%포인트 차이다.

하네스는 AI 모델이 장시간 작업을 수행하도록 관리하는 인프라 기술로, 외부 도구 연결, 데이터 접근 관리, 에이전트 간 조율, 자동 점검 및 수정 등을 담당한다. 동일 모델을 사용해도 하네스 구성에 따라 정확도가 10%포인트 이상 차이나는 사례들이 나타나고 있으며, 에이전트 작업이 복잡해질수록 하네스의 역할이 더욱 중요해진다.

오픈AI, 앤스로픽, 구글 딥마인드 등 글로벌 빅테크들이 '하네스 엔지니어링'에 집중하고 있으며, 메타에 인수된 마누스는 동일 모델을 유지하면서 6개월간 하네스를 5번 재구성했다. 업계는 향후 모델 개발보다 하네스 설계 기술이 AI 에이전트의 경쟁력을 결정할 것으로 전망하고 있다.

지난해 11월 앤스로픽이 자사 기술 블로그에 게시한 하네스 기술 관련 보고서 [출처 = 앤스로픽 웹사이트]

“같은 모델인데 왜 이렇게 차이나지?”…‘이것’ 따라 AI 성능 확 갈린다는데

뉴밍

AI 에이전트 성능, 모델보다 '하네스 엔지니어링'이 좌우