<menu id="kei0a"><strong id="kei0a"></strong></menu>
  • <menu id="kei0a"></menu>
  • <dd id="kei0a"></dd>
  • <menu id="kei0a"><strong id="kei0a"></strong></menu>
    科技魔方

    Meta研究員開發三種全新視聽理解模型,提升AR/VR沉浸式視聽體驗

    AR/VR

    2022年06月27日

      日前,Meta Reality Labs的人工智能研究人員和音頻專家,以及德克薩斯大學奧斯汀分校的研究人員為開發者帶來三種全新的視聽理解模型:Visual-Acoustic Matching,Visually-Informed Dereverberation,以及VisualVoice。所述模型專注于視頻中的人類聲音,并旨在幫助行業以更快的速度實現真正的沉浸式現實。

      團隊表示:“我們非常高興與開源社區分享這項研究。我們相信,能夠理解我們周遭世界的人工智能可以幫助釋放令人興奮的新可能性,并允許人們在混合現實和虛擬現實的體驗和交互方式受益。”

      無論是參加元宇宙派對,還是在客廳通過XR設備瀏覽家庭電影,聲學都會影響相關時刻的體驗。Meta表示,他們相信AI將是提供真實聲學質量的核心。

      這三種模型都與團隊的視聽感知型AI研究密切相關。他們設想的未來是:你可以穿戴AR眼鏡,并重新體驗畫面和聲音都如同你站在從有利位置一樣的全息記憶?;蛘哒f,當你在虛擬世界暢玩游戲時,你不僅可以沉浸在圖形之中,而且能夠沉浸在聲音之中。

      1. Visual-Acoustic Matching

      如果你經歷過音頻與畫面不一致的視頻,你就會明白Visual-Acoustic Matching/視覺聲學匹配的重要程度。但是,匹配從不同環境獲取的音頻和視頻一直都是挑戰。

      為了解決這個問題,Meta創建了一個名為AViTAR的自監督視覺-聲學匹配模型,它可以調整音頻以匹配目標圖像的空間。盡管缺乏聲學非匹配音頻和未標記數據,但自監督的訓練objective可以從in-the-wild網絡視頻中學習聲學匹配。

      團隊感興趣的一個未來用例涉及重溫過去的記憶。想象一下,你屆時可以穿戴一副AR眼鏡。然后對于你看到的任何對象,你都可以選擇播放與之相關的記憶。比方說拿起芭蕾舞短裙,然后看看孩子小時候的芭蕾舞表演全息圖。這時,音頻消除了混響,畫面看起來和聽起來就像你當時坐在觀眾席一樣。

      2. Visually-Informed Dereverberation

      從視聽觀察中消除語音的混響。人類揚聲器周圍的視覺環境揭示了有關房間幾何形狀、材料和揚聲器位置的重要線索,所有這一切都會影響音頻流中的精確混響效果。通過Visually-Informed Dereverberation這種基于視覺信息的去混響技術,系統可以根據觀察到的聲音和視覺場景來學習去除混響,從而消除當天錄制視頻的多余音頻。

      比如說,當你錄制孩子小時候的芭蕾舞表演時,周圍或許會有人討論或其他嘈雜聲。但系統可以通過去混響技術去除這種多余的音頻,僅保留孩子表演芭蕾舞時的所有相關聲音,例如背景音樂。通過這種方式,全息體驗的沉浸感將能大大增強。

      3. VisualVoice

      VisualVoice通過學習未標記視頻中的視覺和聽覺線索來實現視聽語音分離,其學習方式類似于人們掌握新技能的方式(多模式)。

      想象一下,你能夠與來自世界各地的同事在元宇宙中參加一個小組會議,當你在虛擬空間中移動并加入較小的小組時,混響和聲學會相應地調整。VisualVoice能夠很好地應對各種場景的真實世界視頻挑戰。

      更多關于上述AI模型的技術性信息請訪問這個頁面。

    +1

    來源:映維網

    推薦文章

    肉H文老师好紧好大好爽
    <menu id="kei0a"><strong id="kei0a"></strong></menu>
  • <menu id="kei0a"></menu>
  • <dd id="kei0a"></dd>
  • <menu id="kei0a"><strong id="kei0a"></strong></menu>