機(jī)器人也能純視覺控制?MIT華人博士團(tuán)隊(duì)登上Nature主刊
關(guān)鍵詞: 純視覺 機(jī)器人控制 傳統(tǒng)方案 視覺運(yùn)動雅可比場 自監(jiān)督學(xué)習(xí)
電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)“純視覺”的概念在近幾年的智能駕駛領(lǐng)域被提到的次數(shù)不少,特斯拉、小鵬、以及傳聞準(zhǔn)備重組的極越,都早已全面押注到“純視覺”的智能駕駛技術(shù)。一些智駕方案商為了推動產(chǎn)品落地,也正在加速推出純視覺的方案,以降低系統(tǒng)成本。
而在機(jī)器人領(lǐng)域,傳感器的應(yīng)用一直都是業(yè)界研究的核心,包括3D ToF相機(jī)、激光雷達(dá)、毫米波雷達(dá)、觸覺傳感器、各種力矩傳感器等,在目前主流的機(jī)器人領(lǐng)域都有廣泛應(yīng)用。
然而最近刊登在Nature主刊上的一篇論文,展示了一個機(jī)器人“純視覺”方案。
傳統(tǒng)機(jī)器人控制方案
傳統(tǒng)機(jī)器人是由高剛度材料精密加工部件構(gòu)成,在結(jié)構(gòu)上,通過低公差關(guān)節(jié)連接,可以簡化為理想化的剛性連桿運(yùn)動學(xué)鏈。而為了讓系統(tǒng)了解目前機(jī)器人的狀態(tài),就需要使用多種傳感器進(jìn)行監(jiān)測,比如在每個關(guān)節(jié)配備高精度的傳感器,像角度編碼器等,實(shí)時(shí)測量關(guān)節(jié)的狀態(tài)變化,這些數(shù)據(jù)可以用于完整重建機(jī)器人的3D位姿,再通過基于動力學(xué)模型設(shè)計(jì)控制算法(如PID、MPC),將期望運(yùn)動軌跡轉(zhuǎn)換為執(zhí)行器指令。
論文中提到,傳統(tǒng)的機(jī)器人控制方案存在局限性。首先是依賴機(jī)器人預(yù)設(shè)的結(jié)構(gòu)和傳感器,要求機(jī)器人必須具有離散關(guān)節(jié)和嵌入式傳感器,無法適用于缺乏傳感器的軟體或混合材料機(jī)器人。
其次,在使用柔性結(jié)構(gòu)的機(jī)器人中,需要解決大變形、粘彈性、材料疲勞等復(fù)雜問題,傳統(tǒng)的基于連續(xù)介質(zhì)力學(xué)的模型計(jì)算成本過高,很難實(shí)現(xiàn)實(shí)時(shí)控制。同時(shí),傳統(tǒng)的模型無法處理關(guān)節(jié)間隙或者制造公差導(dǎo)致的非線性動態(tài)。
另外,因?yàn)槟P蛯τ跈C(jī)器人公差的要求非常高,依賴精密制造和高性能材料,成本過高,開發(fā)周期長,不利于機(jī)器人的普及。
“純視覺”機(jī)器人控制方案有什么優(yōu)勢?
該論文由麻省理工學(xué)院(MIT)的多位研究人員合作完成,其中論文前三作分別是李思哲、張安南和陳博遠(yuǎn),均于MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)攻讀博士學(xué)位。
那為什么會想到用“純視覺”來構(gòu)建機(jī)器人控制系統(tǒng)?論文團(tuán)隊(duì)提到,這項(xiàng)工作的靈感是來自于人類感知,人類通過用游戲控制器來控制機(jī)器人,可以在幾分鐘內(nèi)就學(xué)會拾取和放置物體,而我們唯一用到的傳感器就是眼睛。
在論文中,該“純視覺”機(jī)器人控制方案是使用了名為Visuomotor Jacobian Field(視覺運(yùn)動雅可比場)的技術(shù)。這是一種機(jī)器學(xué)習(xí)方法,可以使用單個視頻攝像頭獲得的數(shù)據(jù)來控制機(jī)器人。
首先,團(tuán)隊(duì)使用12個消費(fèi)級RGB-D視頻攝像頭捕獲的、執(zhí)行隨機(jī)生成命令的多視圖視頻訓(xùn)練了框架,無需人工注釋或?qū)<叶ㄖ萍纯蓪W(xué)習(xí)控制新機(jī)器人。在進(jìn)行訓(xùn)練后,這個方法僅使用單個視頻攝像頭就能控制機(jī)器人執(zhí)行期望的動作。
其中,視覺運(yùn)動雅可比場的框架主要包含兩個關(guān)鍵部分,首先是一個基于深度學(xué)習(xí)的狀態(tài)評估模型,這個模型可以僅通過單一視頻流就可以推斷出機(jī)器人的三維狀態(tài),編碼了它的三維幾何形狀和微分運(yùn)動學(xué),即可以確認(rèn)在任何可能得指令下,機(jī)器人在三維空間中任何點(diǎn)的移動方式。
其次是一個逆動力學(xué)控制器,在二維圖像空間或三維空間中一密集的方式將期望的運(yùn)動參數(shù)化,實(shí)時(shí)計(jì)算并輸出機(jī)器人控制指令。研究團(tuán)隊(duì)發(fā)現(xiàn),將演示軌跡參數(shù)化為密集的點(diǎn)運(yùn)動是控制各種類型機(jī)器人系統(tǒng)的關(guān)鍵,因?yàn)榭勺冃魏挽`巧機(jī)器人的運(yùn)動不能被單個三維框架上指定的剛性變換很好地約束,參數(shù)化使得廣泛的系統(tǒng)可以模仿基于視頻的演示。
最終,通過該方法獲得了跨平臺的機(jī)器人控制能力。團(tuán)隊(duì)在使用16自由度的商用Allegro靈巧手進(jìn)行測試時(shí),關(guān)節(jié)角度誤差可以小于3°,指尖位置誤差小于4mm;使用3D打印的15氣動通道軟體手時(shí),可以實(shí)現(xiàn)精準(zhǔn)抓取工具,并具備抗遮擋能力;在采用剪切拉脹材料的HSA柔性腕平臺上應(yīng)用時(shí),附加350g負(fù)重后仍實(shí)現(xiàn)7.3 mm精度;采用3D打印的Poppy教育機(jī)械臂,零部件公差較大的情況下,誤差可以小于6 mm。
另外該方案能夠?qū)崿F(xiàn)無專家干預(yù)以及機(jī)器人的泛化能力,可以自動發(fā)現(xiàn)機(jī)器人的運(yùn)動學(xué)結(jié)構(gòu),無需標(biāo)注執(zhí)行器與部件的對應(yīng)關(guān)系。同時(shí)訓(xùn)練數(shù)據(jù)雖然僅包含隨機(jī)的命令,但可以泛化到未被訓(xùn)練的運(yùn)動。
采用該方案進(jìn)行機(jī)器人控制,可以顯著降低機(jī)器人自動化的門檻,降低機(jī)器人控制成本。其中關(guān)鍵創(chuàng)新在于將傳統(tǒng)機(jī)器人控制的建模問題轉(zhuǎn)化為基于視覺的自監(jiān)督學(xué)習(xí)問題,為生物啟發(fā)式機(jī)器人的實(shí)際部署開辟了新路徑。
