SBS뉴스

로봇이 '좋은 행동'을 배우려면?…피지컬 AI 학습법의 진화

홍영재 기자

입력 : 2026.06.28 20:32|수정 : 2026.06.28 21:43

동영상

피지컬 AI 세상의 로봇은 사람의 말을 이해하고, 주변 상황에 맞게 직접 움직여야 합니다.

이때 중요한 건 어떤 행동이 좋은 행동인지 가르치는 일입니다.

상자를 드는 로봇입니다.

손을 뻗어 상자를 드는 데 실패하면 나쁜 사례, 균형을 잡고 한 번에 들어 올리면 좋은 사례입니다.

이 정답지를 작업 난이도에 따라 수만 개에서 수억 개를 만들어 로봇에 학습시켜야 하는데 문제는 어떤 게 좋고 나쁜지 사람이 일일이 채점을 해야 한다는 겁니다.

[유창동/카이스트 전기및전자공학부 교수 : 성공한 사례를 '우리가 선호한다'라고 알려줘야 하는 겁니다. 작업 복잡도에 따라서 그걸 일일이 사람이 다 라벨링(평가) 한다는 것은 시간과 비용이 엄청나게 드는 거죠.]

미국의 한 로봇 데이터 기관은 장비 값과 인건비를 고려해 500개 이상의 학습 데이터를 만들려면 최대 2억 7천만 원이 들 것으로 추산했습니다.

단순한 물건을 집는 영상 데이터 한 개를 만드는 데 드는 비용은 2만 원 안팎, 양손을 많이 쓰는 복잡한 작업은 5만 원 가까이 올라갑니다.

로봇 학습 데이터 확보가 전력, 컴퓨팅 자원만큼이나 AI 시대의 또 다른 병목이 된 겁니다.

이런 병목을 줄이기 위해 KAIST 연구팀은 AI가 스스로 채점하는 방식을 개발했습니다.

사람이 평가한 소수의 학습 데이터만 보고도 AI가 스스로 평가 기준을 배우고 수천, 수만 개의 영상을 스스로 채점하는 겁니다.

[유창동/카이스트 전기및전자공학부 교수 : 서랍 여는 실험에서는 한 10개의 사람이 평가한 데이터를 갖고 한 10,000개를 만들어낼 수 있습니다.]

테니스 라켓을 쥔 휴머노이드가 사람이 쳐서 넘긴 공을 쫓아가 받아칩니다.

빠른 반응과 정교한 움직임이 필요한 스포츠 동작은 학습 데이터 확보가 더 어렵습니다.

중국 칭화대 연구진은 완벽한 학습 데이터를 모으는 대신 불완전한 데이터로 출발하는 방식을 시도했습니다.

5시간 분량의 포핸드와 백핸드, 발 움직임 같은 기본 동작 영상을 AI가 학습해 기본적인 랠리가 가능해진 건데 연구진은 데이터 수집 부담을 낮춘 방식이라고 설명합니다.

시뮬레이션, 가상 공간 속 훈련도 점점 더 중요해지고 있습니다.

보스턴다이내믹스의 아틀라스가 냉장고를 들어 올린 뒤 옆에 있는 탁자로 옮깁니다.

현실에서 반복하기에는 위험하고 비용이 큰 동작을 가상 공간에서 먼저 훈련하면서 수많은 실패를 거친 뒤 현실에서 성공했습니다.

[셰인 로즌 레비/보스턴 다이내믹스 엔지니어 : 냉장고 옮기는 장면을 따라 할 참고 장면을 주고 수백만 시간에 걸쳐 시뮬레이션을 진행했습니다.]

로봇이 일터와 공장에 등장하려면 더 복잡한 행동을 효율적으로 배워야 합니다.

그 과제를 풀기 위해 피지컬 AI 학습법도 진화를 거듭하고 있습니다.

(영상취재 : 김학모, 영상편집 : 최혜영, 디자인 : 박태영)