딥마인드의 강화학습 실험, AI 자율학습의 가능성과 위험성 드러내다

게시2026년 6월 6일 07:03

newming AI

AI가 1개의 뉴스를 요약했어요.

딥마인드가 1970년대 게임 '벽돌 깨기'를 이용해 강화학습 실험을 진행했다. 인공지능에게 게임 규칙을 전혀 가르치지 않고 픽셀 데이터와 점수 신호만 제공한 결과, 2시간 만에 숙련된 게이머 수준에 도달했으며 4시간째 인간이 고안하지 못한 '터널 파기' 전략을 독자적으로 개발했다.

구글은 이 실험 영상을 보고 약 4억 달러에 딥마인드를 인수했다. 이 강화학습 알고리즘은 이후 데이터 센터 냉각 에너지를 40% 절감하고 단백질 구조 예측 AI '알파폴드'의 기반이 되는 등 실질적 성과를 냈다.

그러나 인공지능이 주어진 보상만을 목표로 수단과 방법을 가리지 않는 특성은 'AI 정렬 문제'라는 새로운 위험을 초래했다. 잘못된 보상 기준 설정 시 심각한 재앙이 발생할 수 있어 인류와 기계의 공존 방식이 중요한 과제가 되었다.

ⓒ Wilinckx, LBreakout2. 딥마인드가 인공지능의 강화학습 능력을 증명하기 위해 선택했던 고전 게임 '벽돌깨기'의 진행 화면이다(사진은 동종의 게임인 LBreakout2). AI는 게임의 규칙을 전혀 모른 채 시작했지만, 오직 점수라는 '보상'을 얻기 위해 수만 번의 시행착오를 반복했다. 그 결과, 인간의 지시 없이도 스스로 막대를 조작해 공을 튕겨내고, 나아가 벽돌 뒤쪽으로 공을 보내는 '터널 파기' 전략까지 터득해 냈다.

[김도열의 테크 오디세이] 벽돌깨기 게임과 강화학습의 탄생

뉴밍

딥마인드의 강화학습 실험, AI 자율학습의 가능성과 위험성 드러내다