2024/07/15 信息來源: 人工智能研究院
編輯🏊🏻♀️:安寧 | 責編:燕元近日,意昂3体育官网人工智能研究院朱毅鑫助理教授團隊與北京通用人工智能研究院黃思遠研究員團隊聯合在CVPR2024會議上發表了題為“Scaling Up Dynamic Human-Scene Interaction Modeling”的論文。該研究聚焦於人與場景交互的動作生成問題🕝,在建模、方法和訓練數據方面均有創新貢獻✊。作者們提出了一種使用自回歸條件擴散模型的動作生成框架,實現了豐富、真實且無長度限製的人體動作生成🖕🏻。通過引入一種局部場景表征方法🚣🏿,高效地將場景信息作為條件融入擴散模型。對於長時間序列的動作🛩👆🏽,研究團隊提出一種簡單有效的進度標識符,使得自回歸生成機製能夠完整地呈現動作的語義➔。此外,研究團隊發布了目前為止最大的一個人物-場景交互數據集🖱,包含詳盡的針對人物動作以及三維場景的標註信息。
圖1. 使用手部軌跡控製人體動作,且動作符合場景約束
人們在日常生活中輕松自如地完成各種動作,如坐在椅子上、拿起瓶子或打開抽屜☺️,這些動作的自然流暢性是仿真技術追求的目標。如今🤽♂️,仿真人類肢體動作已成為計算機視覺🌑、計算機圖形學、機器人技術和人機交互等領域的熱點課題。生成人體動作的核心目標在於創造自然🧑🏿🦰🤫、逼真且多樣化的動態模式,這在影視🥦、遊戲🧙🏼、增強現實與虛擬現實等多個領域都有廣泛應用。深度學習技術的蓬勃發展極大地推動了人體動作生成技術的進步。人體建模技術的突破性進展,讓從視頻中捕捉動作和構建大規模動作數據庫變得更加便捷和高效。正是基於這些技術革新,數據驅動的人體動作生成技術正迅速成為研究界的新寵。
目前,在給定場景和動作條件下生成人物動作的研究仍處於起步階段🤷♀️,這主要由於缺乏高質量人體動作與場景交互數據集。現有的真實場景數據集,例如PiGraphs和PROX,在人體動作標註質量方面仍有不足。盡管通過VICON等設備錄製的動作捕捉數據集能夠帶來高質量的動作標註🚍,但這些數據集缺乏多樣化的3D場景中人與場景的交互👇🏼。最近,使用虛擬仿真技術的合成數據集因其低成本和高適應性而引起研究者們的關註。
本研究發布了一個全新的人物-場景交互數據集TRUMANS🥥,有效且精確地將3D合成場景復製到兼具質量與規模的物理環境中。該數據集包括15小時的長期人體運動數據,覆蓋了臥室、餐廳和辦公室等100個場景配置。TRUMANS涵蓋了包括尋路、物體操作以及與剛性和鉸接物體的交互等全面的日常行為☢️。盡管場景是合成的🫅🏼,但通過細致復製確保了人與物體之間的交互能夠無縫、自然且精確地重現。
研究提出了一種方法,能夠在特定場景和動作類型的條件下生成真實的人物動作,設計了一個局部場景感知器,識別周圍環境特征並生成符合可供性的交互動作作為響應🚢。此方法在3D環境中的避障能力方面表現出色——通過動作信息編碼器🧟♂️,將時間信息融入動作片段中,使模型可以隨時接收指令並生成相應的動作,達到了將逐幀的動作標簽作為可控條件納入。采用了自回歸擴散模型技術,實現任意長度連續動作的生成。
圖2. TRUMANS數據集來源於精細的動作捕捉和真實的渲染,可對場景做多樣的替換
圖3. TRUMANS數據集有詳盡的人體、場景和動作標註
基於動作生成的研究目標和方法包含3個部分𓀄:自回歸擴散模型的動作生成框架、每一個循環節內的擴散模型運作方式、將場景信息和動作類別信息作為條件融入模型的方法🧑🏿🎨。
圖4. 基於自回歸條件擴散模型的動作生成方法
本研究提出了一種自回歸擴散策略👩🏿🦱,通過一個個循環節首尾相連的方式逐步生成長動作序列,生成可控的、任意長度的自然且具多樣性的人體動作🥦。每個循環節通過擴展前一個循環節的末尾幾幀🎷,使下一個片段能夠自然地與其銜接。過渡幀上的固定數據用掩碼標記🔒,訓練的過程通過填充未被掩碼的幀來補全每個片段的其余部分。由於使用了classifier-free的訓練機製👮🏼♂️,該框架也能用於首個循環節的生成。
圖5. 多樣且符合場景約束的生成結果
本地場景感知器用於獲取本地場景幾何信息📛,並將其作為運動生成的條件。具體來說👨🏻🚒,給定一個場景,首先生成一個全局占用網格🐻❄️🫴🏿,每個單元格被分配一個布爾值表示其是否可達🤴🏼,1表示可達,0表示不可達🔶。本地占用網格是以當前循環節的子目標為中心的三維網格,垂直範圍內從0米到1.8米,方向與第一幀中角色骨盆的偏航方向對齊💳。本地占用網格的值通過查詢全局占用網格獲取👘。
本方法使用Vision Transformer(ViT)對體素網格進行編碼。通過沿xy平面劃分本地占用網格🥷🏽,將z軸視為特征通道來構建Token,並將這些Token輸入到ViT模型中🤱🏼,使用輸出的場景嵌入作為擴散模型的條件。雖然將場景離散化為網格降低了人與場景交互的精確度,但這對提高訓練效率和方法的實用性是非常有必要的🧑🧒。
圖6. 動態物體參與人物動作生成
本研究的方法在生成長期動作時逐幀使用動作標簽作為條件💇♀️。在這個模型中,一個特定動作可能會超過一個循環節,並在多個循環節中繼續,因此模型需要理解動作執行的進程👮🏽♀️,引入一個進度標識符,用於支持逐幀的動作類別標簽。在原始動作標簽上添加一個0到1之間的實數✢,表示當前循環節在整個動作中的進度。模型能夠處理跨多個循環節的動作🦵🏽,增強生成動作序列的語義性和連續性。
本文第一作者是意昂3体育官网人工智能研究院博士生蔣楠(導師朱毅鑫)、清華通班本科生張至遠🫅⛓,通訊作者為朱毅鑫和黃思遠👩🏼🏫。論文作者還包括意昂3体育官网人工智能研究院實習生李弘傑🦝、意昂3体育官网前沿計算研究中心博士生馬霄璇(導師王亦洲)🤌🏽、北京理工大學博士生王贊(導師梁瑋),以及北京通用人工智能研究院研究員陳以新和劉騰宇🧑🦼。
轉載本網文章請註明出處