PA視訊(中國區(qū))官網(wǎng)動態(tài) NEWS

家務(wù)機器人或?qū)⒃俑?？Chelsea Finn團(tuán)隊推出BID新

發(fā)布時間：2025-02-18 16:37 | 閱讀次數(shù)：次

　　Chelsea Finn 團(tuán)隊一直是斯坦福走在具身智能研究前沿的團(tuán)隊之一，之前火遍全網(wǎng)的 ALOHA 炒菜機器人就是出自這個團(tuán)隊之手。團(tuán)隊領(lǐng)頭人 Chelsea Finn 的創(chuàng)業(yè)公司 Pi 更是創(chuàng)立不到一個月就拿下來自紅杉資本、OpenAI 等公司的7000萬美元融資。

　　最近，Chelsea Finn 團(tuán)隊在研究中發(fā)現(xiàn)，雖然延長動作塊能夠提升策略捕捉時間依賴性的能力，但這樣做會減少對機器人近期狀態(tài)的觀察，導(dǎo)致在隨機環(huán)境中更容易出錯。

　　為了克服這個難題，他們開發(fā)了一種雙向解碼（Bidirectional Decoding, BID）新型算法。BID 能將動作塊化與閉環(huán)操作相結(jié)合，通過在每個時間步采樣多個預(yù)測并尋找最優(yōu)化的一個，增強擴展序列的時間一致性，同時在隨機環(huán)境中實現(xiàn)自適應(yīng)重新規(guī)劃。

　　為了驗證 BID 算法的效果，他們在 Franka Kitchen 數(shù)據(jù)集上進(jìn)行了模擬測試，發(fā)現(xiàn)機器人在家庭環(huán)境中的表現(xiàn)還不錯。他們還用 Franka Panda 機器人做了真實實驗，結(jié)果顯示 BID 顯著提高了機器人在目標(biāo)移動時的放置成功率。

　　這些測試不由得讓人聯(lián)想到了他們之前做的炒菜機器人，也許這個團(tuán)隊正計劃把 BID 應(yīng)用在 ALOHA 上，準(zhǔn)備給家務(wù)機器人來個全面的技術(shù)升級。

　　本文旨在解決機器人學(xué)習(xí)中的挑戰(zhàn)，特別關(guān)注動作分塊，即在沒有中間重新規(guī)劃的情況下預(yù)測和執(zhí)行動作序列的過程，這些序列通常來源于人類示范。面臨的挑戰(zhàn)包括在捕捉時間依賴性與對隨機環(huán)境中意外變化的反應(yīng)之間的權(quán)衡，以及不同示范之間的風(fēng)格變異性較大。

　　該研究的動機在于通過對動作分塊進(jìn)行更深入的分析和提供實用的解碼算法，來增強機器人系統(tǒng)的學(xué)習(xí)和執(zhí)行過程。所要解決的問題包括：

　　BID 是一種推理算法，將動作分塊與機器人學(xué)習(xí)中的閉環(huán)操作相結(jié)合。它在每個時間步采樣多個預(yù)測，并基于向后一致性（與先前決策的對齊）和向前對比（與更強策略的結(jié)果的接近度）來優(yōu)化選擇。

　　這種綜合方法增強了長動作序列的時間一致性，同時保持了適應(yīng)動態(tài)環(huán)境變化的靈活性。BID在各種機器人任務(wù)中顯著優(yōu)于現(xiàn)有的閉環(huán)方法，代表了機器人系統(tǒng)學(xué)習(xí)和執(zhí)行過程的重大改進(jìn)。

　　對于Push-T數(shù)據(jù)集，本文在七個任務(wù)上評估了所提出的雙向解碼（BID）算法，包括將物體放入人類手持的杯子中。實驗中使用的機器人是Franka Panda，配備了兩臺相機，提供256 x 256像素分辨率的視覺觀察。本文還評估了BID在大批量和現(xiàn)有推理方法下的可擴展性和兼容性。

　　對于RoboMimic數(shù)據(jù)集，本文使用了五個任務(wù)，即Lift、Can、Square、Transport和Tool Hang。每個任務(wù)的訓(xùn)練數(shù)據(jù)集包含300個從多個人類演示中收集的回合。

　　對于Franka Kitchen數(shù)據(jù)集，本文在涉及四個或更多物體的測試案例上評估了學(xué)習(xí)到的策略，這是一個具有挑戰(zhàn)性但在家庭環(huán)境中實際應(yīng)用的機器人操作任務(wù)。

　　他們共收集了150個演示回合，包括50個干凈且一致的演示和100個嘈雜且多樣的演示。實驗中使用的機器人是 Franka Panda，并采用基于視覺的擴散策略進(jìn)行操作。

　　機器人的任務(wù)是將其抓手中的物體送入人類手中的杯子中。每次演示包括四個主要階段：(a) 隨機初始化機器人位置，(b) 接近目標(biāo)杯子，(c) 在目標(biāo)杯子附近減速，(d) 釋放物品。目標(biāo)杯子的位置可能會在演示過程中發(fā)生變化。

　　值得注意的是，BID 在動態(tài)設(shè)置中的成功率與靜態(tài)設(shè)置相似，這表明它有可能將動作塊擴展到不確定環(huán)境中。

　　本文評估了不同方法的性能，包括普通的開環(huán)和閉環(huán)采樣、BID 的開環(huán)和閉環(huán)采樣，以及 EMA 的閉環(huán)采樣。

　　機器人的任務(wù)是拿起一個杯子，并將其放在附近的碟子上。四個主要階段是：(a) 初始化機器人，(b) 接近目標(biāo)杯子，(c) 抓住目標(biāo)杯子，(d) 拿起杯子，(e) 將杯子放到目標(biāo)碟子上。目標(biāo)杯子的位置可能會在一個過程中發(fā)生變化。

　　結(jié)果表明，在動態(tài)環(huán)境中，相比其他方法，BID 的成功率至少提高了2倍，同時在靜態(tài)環(huán)境中保持了其性能。

　　動作分塊有利于對演示中的時間依賴性建模，但卻犧牲了對隨機環(huán)境中意外狀態(tài)的反應(yīng)能力。他們選擇通過閉環(huán)操作銜接長的動作塊來解決這一問題。

　　他們的主要假設(shè)是，雖然任何一對樣本共享相同潛在策略的概率很低，但從大量樣本中找到一致的一對樣本的可能性要高得多。這種直覺促使他們將閉環(huán)動作分塊問題理解為在每個時間步采樣的一批計劃中尋找最優(yōu)動作。

　　其中 ? 是動作塊集合，?? 和 ?? （B和F都是下標(biāo)，飛書文檔打不出來）是兩個衡量時間依賴性的標(biāo)準(zhǔn)，接下來將會詳細(xì)描述這兩個標(biāo)準(zhǔn)。

　　這里，ρ 是一個衰減超參數(shù)，用于解釋不確定性隨時間增長而增加的情況。這種后向損失鼓勵相鄰步驟之間采用類似的潛在策略，同時允許逐步適應(yīng)不可預(yù)見的過渡動態(tài)。

　　其中 ?+=??{?} 是強策略 ? 預(yù)測的正集合，?− 是弱策略 ?′ 預(yù)測的負(fù)集合，而 ? 是樣本大小。

　　由于 BID 中的所有步驟都可以并行計算，因此在現(xiàn)代 GPU 設(shè)備上，總體計算成本仍然適中。

　　Chelsea Finn 博士畢業(yè)于加州大學(xué)伯克利分校，師從Sergey Levine。她曾在 Google DeepMind 工作過 6 年，現(xiàn)在擔(dān)任斯坦福大學(xué)計算機科學(xué)與電子工程系的助理教授，也是 Pi 的聯(lián)合創(chuàng)始人。

　　Chelsea Finn 的研究興趣是機器人和其他代理通過學(xué)習(xí)和交互發(fā)展廣泛智能行為的能力。她的實驗室 IRIS 專注研究大規(guī)模機器人交互智能，隸屬于 SAIL 和 ML Group。

　　Yuejiang Liu 是 IRIS 實驗室的博士后，博士畢業(yè)于瑞士洛桑聯(lián)邦理工學(xué)院。他專注于研究自監(jiān)督學(xué)習(xí)、因果表征學(xué)習(xí)和測試時間適應(yīng)，并將其應(yīng)用于計算機視覺和多代理系統(tǒng)。

　　Annie Xie 畢業(yè)于加州大學(xué)伯克利分校，曾在伯克利人工智能研究（BAIR）實驗室和 Sergey Levine 一起工作，現(xiàn)在是 Chelsea Finn 指導(dǎo)的博士生。她的研究重點是開發(fā)在最少人工監(jiān)督下學(xué)習(xí)的機器人系統(tǒng)。

　　Maximilian Du 今年學(xué)士畢業(yè)于斯坦福大學(xué)，主修計算機科學(xué)、心理學(xué)（輔修）和創(chuàng)意寫作（輔修），在 Chelsea Finn 的 IRIS 實驗室從事機器人學(xué)習(xí)工作，現(xiàn)在是 Chelsea Finn 即將入學(xué)的博士生。雷峰網(wǎng)雷峰網(wǎng)

上一篇：商湯徐立：未來核心戰(zhàn)略在于無縫集成基礎(chǔ)設(shè)施

下一篇：進(jìn)入AI驅(qū)動的財產(chǎn)

亚洲欧美日韩精品,日韩精品一区二区三区电影,天天操网站,日韩免费高清,国产日韩欧美在线观看视频,欧美日韩免费一区二区三区视频,精品国产亚洲一区二区三区在线观看

家務(wù)機器人或?qū)⒃俑?？Chelsea Finn團(tuán)隊推出BID新

家務(wù)機器人或?qū)⒃俑?？Chelsea Finn團(tuán)隊推出BID新