<menu id="kei0a"><strong id="kei0a"></strong></menu>
  • <menu id="kei0a"></menu>
  • <dd id="kei0a"></dd>
  • <menu id="kei0a"><strong id="kei0a"></strong></menu>
    科技魔方

    Meta研究從視覺、觸覺探討數據驅動的主動觸摸三維對象重建

    AR/VR

    2021年12月13日

      三維形狀理解是一個活躍的研究領域,其目標是從有限的感官數據中建立對象和環境的三維模型。行業一般是通過利用局部觀測來解決,如單視圖RGB圖像、多視圖RGB圖像、深度映射或觸覺讀數。大多數研究主要集中在從一組固定的部分觀測值建立形狀重建模型。

      但在主動傳感場景中,這一約束被放松,因為在主動傳感場景中可以獲取額外的觀測以提高三維重建的質量。例如在主動視覺中,目標可以是迭代地從一個對象中選擇攝像頭視角,從而最大程度地提高重建質量。直到最近,業界才開始利用大規模數據集學習泛化不可見對象的探索策略。

      業界已從心理學角度就人類對視覺對象和無視覺對象的觸覺探索進行了經典分析,并發現用于對象理解的觸覺探索策略不僅無處不在,而且非常適合特定任務。盡管如此,基于深度學習的數據驅動方法并用于形狀理解的主動觸摸實際并不存在。

      不過,通過使用高分辨率觸覺傳感器、靜態3D形狀數據的大型數據集和深度學習,業界能夠成功地以數量級更少的觸摸信號對對象形狀進行準確估計。請注意,之前沒有利用大型數據集學習觸摸探索的研究。另外,之前也沒有任何研究在視覺輸入(如RGB攝像頭)存在的情況下探索主動觸摸。

      結合最近出現的視覺和觸摸系統數據驅動重建模型,以及數據驅動的主動視覺方法,麥吉爾大學、加州大學和Meta的團隊提出了一份名為《Active 3D Shape Reconstruction from Vision and Touch》的論文。

      其中,研究人員為三維形狀重建定義了一個新的主動觸摸問題設置,通過具有強對象先驗的學習重建模型的形狀預測來學習觸摸探索策略;其次,團隊開發了一個允許快速、真實地抓取物體,并使用配有高分辨率觸覺傳感器的機械手提取視覺和觸覺信號的模擬器;第三,團隊提出了一個基于視覺和觸覺的三維重建模型。所述模型可以生成基于網格的預測,并在單視圖圖像設置中獲得令人印象深刻的性能(無論是否存在觸摸信號);第四,團隊將模擬器和重建模型結合起來,生成了一個觸覺主動感知環境,并將其用于訓練和評估觸覺探索策略。所述環境的概要如圖1所示。

      在提供的環境中,團隊提出了一系列數據驅動的觸摸探索模型,其將基于網格的形狀重建作為輸入,并確定下一次觸摸的位置。通過利用ABC數據集中超過25k個CAD模型的大規模數據集以及所述環境,實驗結果表明數據驅動的觸摸探索模型優于基線策略,因為基線策略無法利用對象形狀或對象形狀分布和最佳動作之間的學習模式。具體來說,數據驅動解決方案比隨機基線的性能最高提升18%,并實現了令人印象深刻的對象重建,如圖2所示。

      在提出的主動觸摸探索問題中,給定預先訓練過的觸摸形狀重建模型和可選的視覺信號,目標則是選擇觸摸輸入序列,從而最大程度地提高重建精度。為了解決這個問題,研究人員定義了一個包含模擬器、重建模型(預訓練神經網絡)和損失函數的主動觸摸環境。模擬器將3D對象形狀O與描述抓取的參數g一起作為輸入,并輸出抓取位置處3D形狀的觸摸讀數t以及對象的RGB圖像。重建模型是一個由φ參數化的神經網絡,它接受一個輸入X并產生當前的三維形狀估計Oˆ,如下所示:Oˆ=f(X;ν)。

      在設置中,研究人員研究了兩種不同輸入的重建模型變體:1)模型只接收一組觸摸讀數t,這樣X=t;2)模型同時接收一組觸摸讀數t和形狀I的RGB圖像渲染,這樣X={t,I}。

      損失函數將對象形狀的當前信念Oˆ和ground truth形狀O作為輸入,并計算它們之間的距離:d(O,Oˆ)。因此,主動觸控探測可表述為依次選擇K個抓取參數{g1,g2…,gK}的最佳集合,其最大化ground truth形狀O和其中gK確定饋送到產生OˆK的重建網絡的觸控讀數之間的相似性。

      研究人員使用預測曲面和目標曲面之間的倒角距離(CD)作為主動觸摸公式中的距離度量。

      以前的觸覺探測研究獨立地考慮對象,并且通過點接觸式傳感器來密集地接觸對象表面而產生點云的不確定性估計。所述方法不使用已學習的對象先驗知識,而在對象表面采樣的大量觸摸(超過100次)不僅需要對表面進行預測,并且需要驅動探索。

      從概念上講,模擬器可以在圖3所示的五個步驟中描述。首先,將對象加載到環境中。其次,通過在以加載對象中心為中心的球體均勻放置50個點,在3D對象周圍定義動作空間。第三,選擇抓取,選擇一個點并放置一只4指機械手,使其第3指位于該點上,手的手掌與球體相切。第四,手向對象中心移動,直到與對象接觸。最后,手的手指閉合,直到達到最大關節角度,或因與對象接觸而停止。

      結果,模擬器產生4個觸摸讀數(手的每個手指一個)和一個對象的RGB圖像。請注意,每個動作由其在50個動作球體的位置索引定義。所述參數化屬于專門選擇,因為它不需要對象的任何先驗知識(除其中心外),并且在模擬中,它始終導致手部觸摸傳感器和對象表面之間的成功交互。

      在模擬器中,所有步驟都是用python在機器人模擬器PyBullet、渲染工具Pyrender和PyTorch中執行。對于給定的抓取和對象,對象加載到PyBullet中,同時手的每個手指都裝有基于視覺的觸摸傳感器,然后選擇與要執行的動作相對應的空間點,并使用PyBullet的物理模擬器執行抓取過程。

      接下里,從生成的抓取中提取姿勢信息,并由Pyrender使用,以從每個傳感器的角度渲染對象的深度映射和從固定角度渲染對象的RGB圖像。然后,將深度映射轉換為模擬觸摸信號。所述過程中的所有步驟均并行執行或使用GPU加速計算。

      模擬器支持兩種觸覺探索模式:抓和戳。在抓取場景中,手使用所有四個手指完全抓取對象。在戳的場景中,只有手的食指用于觸摸感應。

      研究人員融合視覺和觸摸信號進行形狀預測,并將其擴展到有效利用觸摸位置信息,同時處理越來越多的觸摸。特別是,為了從觸摸讀數有效預測對象形狀,通過使用圖形卷積網絡(GCN)重復變形一組獨立的網格表面元素,并在網格表示中預測形狀。圖4顯示了所述重建方法的完整管道

      團隊的觸控探索框架利用上述介紹的重建模型預測網格空間中的三維形狀,并定義策略來選擇要獲取的下一次觸控的位置,以最大化預測形狀和目標形狀之間的相似性。盡管網格對于圖形應用非常有用,并且對于表示曲面非常有效,但網格很難處理,而且計算量也很高,難以進行比較。

      為了解決所述問題,研究人員提出使用降維網格嵌入來促進策略學習。網格嵌入是從網格自動編碼器的瓶頸中提取出來,其根據形狀預測進行離線訓練,并生成學習的嵌入空間。團隊同時使用網格嵌入,以便對預測形狀進行有效的距離度量計算,即嵌入空間中的歐幾里德距離。編碼器將曲面網格作為輸入,并生成網格嵌入。

      根據形狀重建模型,研究人員使用位置嵌入來表示網格中的頂點。然后,網格通過一系列GCN層來更新頂點特征,然后在頂點之間進行通道最大池操作以產生潛在編碼。解碼器采用產生的潛在編碼,并遵循FoldingNet架構,然后生成一個具有2024個點的點云,從而恢復對象形狀。通過最小化輸入網格和預測點云之間的CD來訓練自動編碼器。

      在視覺和觸摸設置(V&TP和V&TG)中,團隊發現NN策略在兩種抓取設置中表現最好。由此可以看出,在更好地理解形狀的情況下(由于額外的視覺輸入),可以對每個對象進行更成功的動作選擇。在圖6中可以看到,其執行了更多的可變操作,這意味著系統現在正在適當地考慮對象形狀。

      當然,團隊指出所述方法存在一定的局限性。首先,重建方法旨在完全最小化CD,這導致網格表示中的視覺對象質量較差。第二,選擇形狀不可知的抓取參數化,即手始終朝著對象中心移動,這會導致觸摸點偏向具有顯著不同維度尺度的對象中心。圖7中的第一個對象就是一個例子,因為對象又長又細,所以所有的觸摸都位于對象的中心,箭頭的方向突出顯示了這一點。最后,環境需要對訓練進行全三維形狀監控。盡管這在模擬中很容易獲得,但限制了它在真實場景中的應用。

      總的來說,本文從視覺和觸覺兩個方面探討了數據驅動的主動觸摸三維對象重建問題。團隊介紹了一種允許根據選定的抓取參數高效地產生視覺和觸覺信號的觸覺抓取模擬器,并建立了一種新的視覺和觸覺三維重建方法,其可以在有或無觸覺輸入的情況下獲得令人印象深刻的性能。研究人員同時構建了一個主動觸摸探索環境,以支持訓練和測試用于三維形狀重建的主動觸摸策略。最后,團隊制作了一系列數據驅動的主動觸摸策略,并將其與一組基線進行了比較。

    +1

    來源:映維網

    推薦文章

    肉H文老师好紧好大好爽
    <menu id="kei0a"><strong id="kei0a"></strong></menu>
  • <menu id="kei0a"></menu>
  • <dd id="kei0a"></dd>
  • <menu id="kei0a"><strong id="kei0a"></strong></menu>