阿裏雲推出AI視頻生成工具Live Portait,輕松讓照片開口說話
2023-08-17
據8月16日消息,阿裏雲近日推出了一款名為Live Portait的數字人視頻生成工具。它的功能就是當用戶上傳一張照片和一段文本或者語音,就可以生成一個口型與聲音同步的數字人視頻。

據8月16日消息,阿裏雲近日推出了一款名為Live Portait的數字人視頻生成工具。它的功能就是當用戶上傳一張照片和一段文本或者語音,就可以生成一個口型與聲音同步的數字人視頻。


這項功能的應用場景可以說是非常廣泛,可以用於視頻直播、聊天機器人、企業營銷等領域。目前,該工具已在魔搭社區創空間開放體驗。


阿裏雲推出AI視頻生成工具Live Portait,輕松讓照片開口說話

近年來,隨著對生成式人工智能技術的研究不斷深入,業界開始將註意力轉向更多模態的應用領域,而AI視頻生成便是其中備受關註的一個領域。通過將文本或音頻等信息轉化為面部運動信息,Live Portait能夠生成逼真的照片人物形象動畫,並有效降低了視頻拍攝和製作的門檻。


Live Portait工具由運動模塊和生成模塊組成,並采用了阿裏雲自研的口型預測算法,相較於傳統方法大幅提高了口型準確度。在訓練階段,還增加了姿態顯式控製技術,使得無需底板視頻即可生成任意動作的視頻,進一步提升了數字人說話時的真實感,能夠做出更加自然、逼真的動作。


此外,Live Portait還通過眼神主動控製技術,為眼球增加自然運動,使得生成結果更加接近真人效果。據介紹,Live Portait相關技術已被CVPR、ICCV等國際AI頂會收錄。


阿裏雲推出AI視頻生成工具Live Portait,輕松讓照片開口說話

根據魔搭社區上的信息顯示,在使用Live Portait上傳照片後,用戶可以選擇文本驅動或音頻驅動兩種方式。在文本驅動模式下,工具提供了普通話、英語、粵語和童聲等28種聲音可供選擇。此外,Live Portait還提供了輕量模型選項,幫助用戶更快速地生成視頻。


該工具算法負責人張邦表示:「Live Portait集成了團隊多項自研創新技術,例如僅需單張圖片就能生成逼真的面部動畫,突破了傳統對抗生成網絡的局限。隨著技術的進一步叠代,圖像生成視頻有巨大的應用空間,並有望成為企業降低成本、提高效率的生產工具。」


據悉,該團隊的研究方向涵蓋數字人、3D模型AI生成、高真實感渲染和自然人機交互等領域,並且已經在國際頂級學術會議上發表了50多篇論文。