인터랙티브 디지털 휴먼(interactive digital human) ‘제임스(James)’ / 엔비디아
AI 컴퓨팅 기술 분야의 선두주자인 엔비디아가 미국 덴버에서 열린 시그라프(SIGGRAPH) 2024에서 감정과 유머 등을 사용해 사람들과 소통할 수 있는 인터랙티브 디지털 휴먼(interactive digital human) ‘제임스(James)’를 선보였다.
이로써 엔비디아(NVIDIA)는 기업이 생성형 AI를 활용해 디지털 휴먼 아바타로 고객과 소통할 수 있는 새로운 방법을 제시했다.
제임스는 초현실적 맞춤형 인터랙티브 아바타 제작을 위한 레퍼런스 디자인인 엔비디아 ACE를 사용한 고객 서비스 워크플로우를 기반으로 하며 사용자들은 곧 ai.nvidia.com에서 제임스와 실시간으로 대화할 수 있게 된다.
이번 컴퓨터 그래픽 콘퍼런스에서 엔비디아는 몰입형 텔레프레즌스(immersive telepresence) 경험을 위한 맥신 3D(Maxine 3D)와 오디오투페이스-2D(Audio2Face-2D)를 비롯한 엔비디아 맥신 AI 플랫폼(Maxine AI platform)의 최신 발전상을 함께 선보였다.
개발자는 맥신과 엔비디아 ACE 디지털 휴먼 기술을 사용해 디지털 인터페이스와 고객 인터랙션을 더욱 매력적이고 자연스럽게 만들 수 있다.
ACE 기술은 음성, 번역, 시각, 지능, 생동감 있는 애니메이션과 동작, 사실적인 외관을 위한 AI 모델을 통해 디지털 휴먼 개발을 지원한다.
다양한 산업 분야의 기업들이 맥신과 ACE를 사용해 몰입감 넘치는 가상 고객 경험을 제공하고 있다.
디지털 브랜드 홍보대사 제임스
엔비디아 NIM 마이크로서비스를 기반으로 구축된 제임스는 맥락에 맞는 정확한 답변을 제공할 수 있는 가상 어시스턴트다.
제임스는 검색 증강 생성(retrieval-augmented generation, RAG)을 활용해 사용자에게 최신 엔비디아 기술에 대해 정확하게 알려줄 수 있다.
개발자는 ACE를 통해 자체 데이터를 사용해 고객에게 관련 정보를 전달하는 도메인 맞춤형 아바타를 생성할 수 있다.
제임스는 실제와 같은 고급 애니메이션을 위한 최신 엔비디아 RTX 렌더링 기술을 기반으로 구현됐고, 제임스의 자연스러운 목소리는 일레븐랩스(ElevenLabs)에서 제공하며 개발자는 엔비디아 ACE를 통해 다양한 사용 사례에 맞는 아바타 제작 시 애니메이션, 음성, 언어를 맞춤화할 수 있다.
텔레프레즌스 속 디지털 휴먼 강화하는 엔비디아 맥신
맥신은 디지털 휴먼의 오디오와 비디오 품질을 향상시키는 최첨단 AI 기능을 배포하는 플랫폼으로 화상 회의 장치에서 사실적인 실시간 2D, 3D 아바타를 사용할 수 있도록 지원한다.
맥신 3D는 2D 비디오 초상화 입력을 3D 아바타로 변환하며 이로써 화상 회의와 기타 양방향 커뮤니케이션 애플리케이션에 매우 사실적인 디지털 휴먼을 통합할 수 있고, 이 기술은 곧 얼리 액세스로 제공될 예정이다.
현재 얼리 액세스 중인 오디오투페이스-2D는 오디오 입력을 기반으로 정적인 초상화에 애니메이션을 적용해 단일 이미지에서 역동적으로 말하는 디지털 휴먼을 생성하며 i.nvidia.com에서 이 기술을 체험해 볼 수 있다.
디지털 휴먼 애플리케이션을 도입하는 기업들
기업은 고객 서비스 에이전트와 엔터테인먼트, 소매, 접객업 분야의 텔레프레즌스 경험 등 광범위한 사용 사례에서 엔비디아 ACE와 맥신을 사용하고, 이를 최근에 활용하기 시작한 기업에는 HTC, 루킹 글래스(Looking Glass), 리플라이(Reply), 유니큐(UneeQ) 등이 포함된다.
디지털 휴먼 기술 개발사인 유니큐는 시그라프에서 두 가지 새로운 데모를 선보인다.
첫 번째는 확장성과 프라이버시 강화를 위한 로컬 인브라우저 컴퓨터 비전을 갖춘 엔비디아 GPU를 기반으로 클라우드 렌더링된 디지털 휴먼으로 이 디지털 휴먼은 오디오투페이스-3D 엔비디아 NIM 마이크로서비스를 기반으로 애니메이션 처리됐다.
유니큐의 시냅스(Synapse) 기술은 익명화된 사용자 데이터를 처리하고 이를 거대 언어 모델(large language model, LLM)에 공급해 보다 정확하고 반응이 빠른 인터랙션을 구현한다.
두 번째 데모는 단일 엔비디아 RTX GPU 기반 노트북에서 실행되며 또한 젬마 7B LLM(Gemma 7B LLM), RAG, 엔비디아 오디오투페이스-3D NIM 마이크로서비스로 구동되는 고급 디지털 휴먼이 포함된다.
두 데모 모두 엔비디아 제품을 바탕으로 사용자의 표정과 행동에 반응할 수 있는 디지털 휴먼을 개발, 가상 고객 서비스 경험에서 현실감의 한계를 뛰어넘으려는 유니큐의 노력을 보여준다.
HTC 바이버스(Viverse)는 역동적 페이셜 애니메이션과 립싱크를 위해 오디오투페이스-3D 엔비디아 NIM 마이크로서비스를 바이버스 AI(VIVERSE AI) 에이전트에 통합했고, 이를 통해 보다 자연스럽고 몰입감 있는 사용자 인터랙션을 구현할 수 있게 됐다.
홀로그램 기술 기업 루킹 글래스는 시그라프에서 매직 미러(Magic Mirror) 데모를 선보였으며 이 데모는 간단한 카메라 설정과 맥신의 고급 3D AI 기능을 사용해 그룹 시청이 가능한 최신 루킹 글래스 16인치와 32인치 공간 디스플레이(Spatial Displays)에서 실시간 사용자 얼굴 홀로그램 피드를 생성한다.
리플라이는 코스타 크루즈(Costa Crociere)의 코스타 스메랄다(Costa Smeralda) 크루즈선을 위해 개발한 최첨단 디지털 휴먼 퓨추라(Futura)의 향상된 버전을 공개한다.
오디오투페이스-3D 엔비디아 NIM과 리바 ASR NIM(Riva ASR NIM) 마이크로서비스로 구동되는 퓨투라의 음성 합성 기능은 GPT-포오(GPT-4o), RAG용 라마 인덱스(LlamaIndex), 마이크로소프트 애저(Microsoft Azure) 텍스트 음성 변환 서비스 등 첨단 기술을 활용한다.
또한 퓨추라는 포괄적인 감정 인식을 위해 흄 AI(Hume AI), 모프캐스트(MorphCast)와 함께 리플라이의 독점적인 감성 컴퓨팅 기술(affective computing technology)을 통합, 퓨추라는 언리얼 엔진 5.4.3(Unreal Engine 5.4.3)과 엔비디아 ACE 기반 페이셜 애니메이션을 탑재한 메타휴먼 크리에이터로 구축됐으며 6개국어를 지원하고, 이 지능형 어시스턴트는 개인화된 항구 방문 계획 수립, 맞춤형 일정 제안, 손쉬운 투어 예약을 지원한다.
더불어 게스트 피드백을 기반으로 추천을 개선하고, 맞춤 제작된 지식 기반을 활용해 유익한 도시 프레젠테이션을 제공함으로써 관광 여정을 개선하며 퓨추라는 고객 서비스 개선를 개선하고 실제 시나리오에서 몰입형 인터랙션을 제공해 운영을 간소화하고 비즈니스 성장을 촉진하는 것을 목표로 한다.
더코리아뉴스 배순민 기자 press_culture@naver.com
Copyrightⓒ더코리아뉴스. All rights reserved.무단전재-재배포 금지