カメラ1台の映像から3Dアバターを構築 NICT

国立研究開発法人情報通信研究機構(NICT、徳田英幸理事長)のユニバーサルコミュニケーション研究所は、カメラ1台の映像から自分のリアルな3Dアバターを構築し、刻々と変化する表情や動作を様々な方向から豊かに再現する技術『レクサー技術』(REXR、Realistic and EXpressive 3D avataR)技術)を開発したと発表した。この技術では、多数のカメラや特殊なセンサーは不要で、カメラ1台の映像だけから身体の3D形状・テクスチャ・姿勢と顔の3D形状・表情の構築を行い、細やかな顔の表情や動作をどの方向からでも入力映像と同程度に精細に再現することに成功した。今後、この技術の改良と活用を進め、深い相互理解が生まれる遠隔コミュニケーションの実現を目指す。現在、仮想空間(メタバース)や複合現実(MR)空間を共有し、自分の分身となる3Dアバターを用いて遠隔のコミュニケーションを行う技術の開発が各所で進められている。しかし、現状の3Dアバターは、あらかじめ用意しておいたCGキャラクターが用いられることが多く、コミュニケーション時に表出される本人の豊かな表情や動作は十分に再現できていない。一方、本人のフォトリアリスティックな3Dモデルを構築するためには、多数のカメラを装備した大規模な設備や特殊なセンサ(奥行き・位置センサ等)を用いる必要があり、カメラ1台だけを用いて、本人の細やかな表情や動作を3D空間に再現することは困難だったという。 今回NICTは、自分のデジタルツインとなるリアルな3Dアバターをカメラ1台の映像だけから構築し、本人の表情や動作をどの方向からでも入力映像と同程度に精細に再現する『レクサー技術』の開発に成功した。複数のAIモジュールから構成されており、まず、カメラの前で一回転した映像からフルボディのモデルを構築する。次に、カメラの前で本人が動くと、顔の表情と身体の姿勢が推定され、モデルが更新される。そして、刻々と変化する本人の表情や身体動作をこの3Dアバターを用いて様々な方向から再現・表示することができる。 『レクサー技術』を用いると、本人が表出する細やかな表情(美表情)や動作を3Dアバターを用いてどの方向からでも入力映像と同程度に精細に再現できるため、心の機微、微妙な感情変化・意図などをこれらの非言語情報から読み取ることができるという。 『レクサー技術』を仮想空間における多人数のオンラインの遠隔ミーティングに活用すれば、将来、深い信頼関係の構築やシビアなビジネス交渉もリモートで可能になり、相互理解の深化が図れる遠隔コミュニケーションの実現が期待されるとしている。 今後は、こういった遠隔コミュニケーションの実現を目指して、3Dアバター構築の精度向上(3次元形状の正確さや動きの滑らかさ等)や処理の高速化(リアルタイム対応)を可能にする技術開発をさらに進める考え。 ◇3Dアバター 自分の分身として仮想空間などに表示される3Dモデル(立体形状データ及び表面テクスチャ)のこと。 ◇仮想空間(メタバース) インターネット上に構築された仮想的な空間のことで、3Dアバターを介して現実空間のような交流を持ったり社会的な営みを行うための場。 ◇複合現実(MR)空間 現実世界と仮想世界が融合し、相互にリアルタイムで影響し合う空間のことで、カメラやセンサを用いて実世界の空間情報を認識することで、仮想的な物体や人物を現実の3D空間にあたかも存在するかのように表示させることができる。 ◇デジタルツイン 現実世界の情報をデジタル化して〝双子〟のように仮想空間に再現する技術のこと。リアルタイムにデータを収集して仮想空間に反映させることで、実世界とのインタラクションや高度な将来予測への活用が期待されている。 ◇微表情 コミュニケーションの最中にわずかに顔に生じる表情の変化のこと。微表情には、その人の真の感情が無意識に表出されると考えられている。