아침 커피를 서빙하던 로봇이 실수로 컵을 놓쳐 당신의 키보드를 커피로 흠뻑 적셨다고 상상해 보십시오. 그리고는 아주 정중하고 적절한 ‘디지털적 후회’를 담아 “진심으로 사과드립니다"라고 말합니다. 사과는 세련됐지만, 당신의 키보드는 이미 돌이킬 수 없는 강을 건넜습니다.
우리는 이제 금속 재질의 동료들이 사회적 예의를 갖추도록 프로그래밍되는 시대에 진입하고 있습니다. 하지만 최근 발표된 한 흥미로운 연구는 아무리 로봇이 예의 바르게 행동하더라도, 근본적인 ‘무능함’을 메울 수는 없다는 사실을 시사합니다.
연구자들은 점차 ‘인간-로봇 상호작용(HRI, Human-Robot Interaction)‘이라는 유연한 과학 분야에 주목하고 있습니다. 로봇이 공장을 벗어나 가정과 사무실로 들어오면서, 단순히 물리적인 성능만으로는 부족하다는 것을 깨달았기 때문입니다. 로봇에게는 우리를 ‘이해’하는 능력이 필요합니다. IEEE Robotics and Automation Letters에 게재된 최신 연구는 이 과제에 정면으로 도전했습니다. 연구진은 협동 로봇이 단순히 얼굴 표정만이 아니라, 상황의 전체적인 맥락을 통해 인간의 감정을 읽도록 훈련시켰습니다. 그 결과는 공감하는 로봇이 기술의 종착역이라고 믿었던 이들에게 꽤나 뼈아픈, 그리고 솔직히 말해 웃픈(hilarious) 현실을 보여줍니다.
‘눈치’ 있는 봇을 만드는 법
멜버른 대학교(University of Melbourne)의 홍승찬(Seung Chan Hong) 연구원이 학부 과정 중 주도한 이 연구는 기존의 진부한 감정 감지 방식을 과감히 탈피했습니다. 단순히 정지된 얼굴 표정만 분석하는 방식(집중하느라 찌푸린 미간을 화난 것으로 오해하기 쉬운 방식) 대신, 연구팀은 **시각 언어 모델(VLM, Vision Language Model)**을 도입했습니다. 쉽게 말해 ‘눈이 달린 ChatGPT의 사촌’이라고 생각하면 됩니다.
연구진은 로봇과 인간이 물건을 주고받는 영상을 VLM에 보여주고, 실험 참가자들이 당시 느꼈던 감정을 라벨링하게 했습니다. 여기서 핵심은 참가자들이 전체 상황을 볼 수 있었다는 점입니다. 물건을 떨어뜨리는 순간, 미세하게 움찔하는 표정, 초조하게 손가락을 까딱이는 모습 등을 모두 포함해서 말이죠. 이러한 맥락 중심의 훈련은 효과가 있었습니다. 얼굴 분석만 사용하는 기존 AI 시스템과 대결했을 때, VLM은 인간 관찰자의 판단과 0.86의 유사도를 기록하며 구형 모델(0.77)을 압도했습니다.
홍승찬 연구원은 IEEE Spectrum과의 인터뷰에서 “VLM은 단순히 사람의 얼굴을 잠깐 보는 것이 아니라 전체 장면을 파악하기 때문에, 인간 관찰자가 보는 것과 훨씬 더 일치하는 결과를 낼 수 있었습니다"라고 설명했습니다.
완벽한 사과, 그러나 처참한 퍼포먼스
진짜 흥미로운 지점은 그다음입니다. 연구팀은 40명의 자원봉사자를 대상으로 실험을 설계했습니다. 참가자들은 VLM 기반의 로봇과 협업하게 되는데, 이 로봇은 의도적으로 실수를 저지르도록 프로그래밍되었습니다. 피할 수 없는 실패가 발생한 후, 로봇은 두 가지 방식 중 하나로 사과했습니다. 하나는 미리 정해진 상투적인 멘트였고, 다른 하나는 인간이 느끼는 좌절감을 파악해 그에 맞춘 ‘감정 적응형’ 사과였습니다.
결과는 극명했습니다. 사람들은 자신의 짜증을 읽고 그에 맞춰 “미안하다"고 말하는 로봇을 압도적으로 선호했습니다. 40명 중 무려 31명이 감정적으로 조율된 사과를 선택했습니다. 맞춤형 사과가 강력한 ‘사회적 윤활유’ 역할을 한 셈입니다.
하지만 반전이 있습니다. 로봇에 대한 ‘신뢰도’를 묻자, 로봇이 얼마나 근사하게 사과하든 상관없이 참가자들의 점수는 전반적으로 곤두박질쳤습니다. 여기서 드러난 냉혹한 진실은 이겁니다. 로봇이 시인처럼 감수성이 풍부하더라도, 정작 맡은 일을 제대로 해내지 못하면 우리는 그 로봇을 신뢰하지 않는다는 것입니다. 홍 연구원의 표현을 빌리자면, 사과는 “로봇이 물리적 과업 수행에 실패함으로써 상실된 신뢰를 회복시켜 주지 못합니다.”
독심술사가 아닌, 그저 눈치 빠른 추측가일 뿐
이번 연구는 또 다른 결정적인 한계를 밝혀냈습니다. VLM이 ‘제3자’인 인간 관찰자를 흉내 내는 데는 뛰어났지만, 실험 참가자가 실제로 느낀 감정(자기 보고식 감정 데이터)과 비교했을 때는 정확도가 급격히 떨어졌습니다.
이는 겉으로 드러나는 사회적 신호를 인지하는 것과 내면의 감정을 진정으로 이해하는 것 사이의 근본적인 간극을 보여줍니다. VLM은 찌푸린 얼굴과 처진 어깨를 보고 ‘불행함’을 정확히 유추할 수는 있었지만, 사용자가 내면에서 느끼는 실망감, 좌절감, 혹은 배신감의 미묘한 결을 파악하지는 못했습니다. “VLM은 겉으로 드러나는 사회적 신호를 잘 포착하는 관찰자일 뿐, 독심술사는 아닙니다.” 홍 연구원의 설명입니다.
이 연구는 로봇 산업 전체에 중요한 경종을 울립니다. 우리 삶에 자연스럽게 녹아드는 감성 지능형 기계를 만드는 것도 가치 있는 일이지만, 그것이 근본적인 ‘신뢰성’을 희생하며 이루어져서는 안 된다는 점입니다. 로봇이 우리에게 울 수 있는 어깨를 빌려주기 전에, 일단 우리가 마실 차부터 쏟지 않는지 확인하는 게 순서일 것 같습니다. 연구의 전체 내용은 IEEE Xplore에 게재된 논문 “Can Robots Read Your Mind? A User Study on Inferring Human Emotions in HRI"에서 확인할 수 있습니다.
