<menu id="kei0a"><strong id="kei0a"></strong></menu>
  • <menu id="kei0a"></menu>
  • <dd id="kei0a"></dd>
  • <menu id="kei0a"><strong id="kei0a"></strong></menu>
    科技魔方

    實現高質量AR/VR全息顯示 斯坦福大學提出神經網絡參數化平面到多平面波傳播模型

    AR/VR

    2022年01月10日

      增強現實和虛擬現實系統能夠帶來前所未有的沉浸式用戶體驗,但當前AR/VR平臺的光引擎在峰值亮度、功率效率、設備形狀參數、對感知重要焦點線索的支持、以及校正用戶視覺像差能力等方面都受到不同程度的限制。所以,學界和業界正在積極探索各種解決方案。

      對于由斯坦福大學博士后研究院Yifan Peng和電子工程副教授戈登·韋茨坦(Gordon Wetzstein)等人組成的團隊而言,其相信全息近眼顯示器有望解決上述的一系列問題。

      繼在SIGGRAPH 2020發表了一份名為《Neural Holography》的研究論文后,他們又在今年的大會介紹了最新的研究成果:《Neural 3D holography: learning accurate wave propagation models for 3D holographic virtual and augmented reality displays》。

      簡單來說,《Neural Holography》主要介紹了一個能夠以1080p分辨率實時生成全彩高質量全息圖的CGH算法?!禢eural 3D holography: learning accurate wave propagation models for 3D holographic virtual and augmented reality displays》則提出了一個神經網絡參數化的平面到多平面波傳播模型,其能夠縮小物理和模擬之間的差距,并實現高質量的3D計算機生成全息圖。

      全息近眼顯示器通常是利用單個空間光調制器(SLM)來合成3D強度分布,并通過明亮且節能的激光器產生相干照明。全息術的基本原理在70多年前就已經發展起來,但高質量的全息圖一直以來都是通過光記錄技術實現。以高效利用SLM來生成高質量數字全息圖的主要挑戰是用于計算機生成全息(CGH)的算法。傳統的CGH算法依賴于模擬的波傳播模型,但由于無法充分代表近眼顯示器的物理光學,所以可實現的質量存在嚴重的限制。

      斯坦福大學團隊希望充分挖掘新興全息近眼顯示在合成高質量3D全息圖方面的潛力,而實現這一目標所需的關鍵技術是一個精確且可微的平面到多平面正向波傳播模型。其中,所述模型能夠充分模擬顯示器的物理光學,并實現高質量的3D計算機生成全息圖。

      如上圖所示,基于VR和AR顯示原型的廣泛實驗證明了所述方法的有效性。在與一系列的方法進行對比時,團隊提出的方法(ADMM-CNNpropCNN)能夠實現優異的圖像質量。

      1. 基于3D神經網絡的波傳播模型

      研究人員選擇了菲涅耳全息圖配置,其中準直相干激光束入射到僅相位SLM,以每像素方式延遲源場Usrc的相位。任何CGH算法的任務都是為目標2D或3D強度分布確定最佳SLM相位模式∈ R M×N,即全息圖。模擬復波從一個平面傳播到另一個平面(例如SLM到目標平面)的流行模型是角譜法(ASM)。

      團隊結合經典角譜方法(ASM)與卷積神經網絡(CNN),并使用了隨機梯度下降(SGD)變量,從而提出了一種名為SGDASM的函數來計算二維或多平面三維全息圖。

      諸如ASM的分析模型非常適合模擬。然而,它們通常不能很好地表示物理光學系統的真實波傳播算符。如光學像差、SLM的相位非線性、雜散光或SLM的有限衍射效率等微小缺陷都使得ASM難以開箱即用,校準所有可能的缺陷源是一項繁瑣或不可能的任務。

      為了克服所述挑戰,學界早前提出了二維平面波傳播的神經網絡參數化模型,將CNN應用到強度以執行從理想預測圖像到捕獲圖像的圖像到圖像的轉換。但相關方法在各自正向模型的精度或其梯度,又或是兩者都受到限制。

      現有的方法都不能自然地擴展到3D。所以,斯坦福大學的研究人員提出了一種結合先前方法優點,同時能夠自然有效地將它們擴展到三維多平面環境的全新波傳播模型。他們將能夠與所述模型結合使用,并能夠促進RGBD目標圖像復波場平滑度的近端梯度解算器的方法稱為ADMM-CNNpropCNN。

      上圖是團隊提出的3D波傳播模型和RGBD監控策略的說明。SLM顯示的相位模式由CNN處理。由此產生的復波場使用常規ASM波傳播算子傳播到所有目標平面。每個目標平面的波場由較小的CNN再次處理。損失函數約束目標平面的遮罩振幅,以匹配遮罩目標RGB圖像,其中每個目標平面的二值遮罩都是根據目標深度貼圖計算。

      為了訓練CNN參數化模型,團隊使用攝像頭捕捉了多對SLM相位圖以及由此產生的單平面或多平面強度。他們沒有使用隨機相位,而是使用傳統的CGH算法生成相位模式池。具體來說,對于8個目標平面中的每一個,其使用DPAC算法生成100個相位模式,使用SGD從數據集的隨機圖像生成1000個相位模式。對于SGD優化的相位,研究人員同時隨機化迭代次數,并使用隨機相位值初始化相位模式。因此,訓練數據總共包括8800個相位模式和相應的捕獲強度圖像。

      他們然后使用Pytork中的ADAM解算器優化模型參,并為三個顏色通道中的每一個分別優化一個模型。

      一經訓練,團隊可以使用波傳播模型計算二維或多平面三維目標圖像的相位模式,方法是使用fCNNpropCNN求解方程,而不是使用SGD求解fASM,因為后者是一種種迭代方法,需要幾十秒或幾分鐘才能完成,所以并非實時。

      當與3D多平面全息顯示模式一起使用時,最簡單的方法是使用目標場景的渲染焦點堆棧同時約束所有平面。但由于幾個原因,這種方法并不理想。第一,它需要渲染目標場景的焦點堆棧,這在計算成本方面非常昂貴。第二,使用焦點疊加對系統進行監控會限制系統。第三,它要求對系統的散焦模糊進行顯式建模,以便渲染焦點堆棧。這不是小事,因為如果要確保這種散焦模糊感知正確,你必須追蹤用戶的瞳孔直徑,亦即需要額外的系統復雜性。如果要模擬全息顯示自然支持的散焦模糊,就必須考慮SLM的空間-帶寬積。另外,相干波場的物理散焦行為并不直觀,與我們在自然環境中通??吹降姆窍喔晒獠煌?。

      為了緩解所述挑戰,研究團隊提出了一種計算效率高的方法:只需要目標場景的RGBD圖像,而不是多平面體或焦點堆棧。深度圖可用于所有計算機生成內容,并且可以使用稱為單目深度估計的計算機視覺技術對攝影內容進行近似。使用RGBD圖像進行多平面全息術并非新鮮事,只需要將深度貼圖的值量化到最近的全息顯示平面。所以,所有目標平面j上的每個像素位置僅對其中一個目標深度平面進行約束–最接近該位置對應深度值的一個。

      2. 實驗對比

      圖4顯示了實驗捕獲的若干測試圖像。團隊比較了一系列不同方法獲得的結果:

      如圖所示,團隊的模型提供了最佳的對比度、清晰度、無斑點瑕疵和整體圖像質量。

      圖5是多平面3D場景的實驗捕獲結果,每個場景分別聚焦在近距離、中間距離和遠距離。同樣,團隊的模型提供了最佳的對焦和離焦圖像質量,散斑顯著減少。

      3. 總結討論

      總的來說,團隊提出了一種全新的全息近眼顯示波傳播模型。模型由神經網絡參數化,并使用攝像頭反饋從物理光學系統捕獲的圖像進行自動訓練。所述模型在二維平面到平面設置方面明顯優于相關技術,并實現了高質量的三維計算機生成全息圖。

      另外,團隊證明了我們模型的3D變體可以直接使用RGBD目標圖像進行監督。為了約束三維全息圖的離焦行為(不受RGBD圖像的直接約束),團隊提出了一種聚焦時波場相位分量的正則化策略,以及有效實施這種正則化的優化器。對VR和AR原型顯示器的廣泛實驗評估證明了方法的有效性優于現有方法。

      當然,團隊同時承認了研究的局限性。例如,他們主要是開發準確高效的神經網絡(全息近眼顯示的參數化波傳播模型),而不是實時全息圖像合成。另外,原型使用了最先進的純相位SLM,但遺憾的是,所述SLM只能為光學系統提供非常有限的功能。實際上,這意味著全息近眼顯示器的視窗很小。

      對于未來,團隊將嘗試繼續優化研究,并嘗試解決一系列的局限。

      具體而言,論文的貢獻如下:

      -提出了一個用于全息近眼顯示中波傳播的可微分攝像頭校準模型。所述模型比以前的2D設置更準確地表示物理光學。開發了一種3D多平面CGH優化策略,可顯著減少離焦區域的散斑。所述策略對聚焦區域的相位設置分段平滑約束,并使用近端梯度解算器對其進行優化 使用虛擬現實和增強現實顯示原型評估我們的方法,并展示了迄今為止最高質量的2D和3D全息顯示結果。

    +1

    來源:映維網

    推薦文章

    肉H文老师好紧好大好爽
    <menu id="kei0a"><strong id="kei0a"></strong></menu>
  • <menu id="kei0a"></menu>
  • <dd id="kei0a"></dd>
  • <menu id="kei0a"><strong id="kei0a"></strong></menu>