(資料圖)
IT之家 3 月 8 日消息,周一,來自谷歌和柏林工業(yè)大學(xué)的一組人工智能研究人員推出了史上最大的視覺語言模型 ——PaLM-E,參數(shù)量高達 5620 億(GPT-3 的參數(shù)量為 1750 億)。
PaLM-E 是迄今為止已知的最大 VLM(視覺語言模型)。作為一種多模態(tài)具身 VLM,它不僅可以理解圖像,還能理解、生成語言,執(zhí)行各種復(fù)雜的機器人指令而無需重新訓(xùn)練。它還展示出了強大的涌現(xiàn)能力(模型有不可預(yù)測的表現(xiàn))。
據(jù)谷歌稱,當(dāng)?shù)玫揭粋€高級命令,如“把抽屜里的米片拿給我”,PaLM-E 可以為帶有手臂的移動機器人平臺(由谷歌機器人公司開發(fā))生成一個行動計劃,并自行執(zhí)行這些行動。
PaLM-E 通過分析來自機器人攝像頭的數(shù)據(jù)來實現(xiàn)這一目標(biāo),而無需對場景進行預(yù)處理。這消除了人類對數(shù)據(jù)進行預(yù)處理或注釋的需要,使機器人控制更加自主。
PaLM-E 還很有彈性,能夠?qū)Νh(huán)境做出反應(yīng)。例如,PaLM-E 模型可以引導(dǎo)機器人從廚房里拿一袋薯片,由于 PaLM-E 集成到了控制回路中,它對任務(wù)中可能發(fā)生的中斷有了抵抗力。在一個視頻例子中,一名研究人員從機器人手中抓起薯片并移動它們,但機器人找到了薯片并再次抓起它們。
另外,PaLM-E 模型也可控制機器人自主完成原需人類指導(dǎo)的復(fù)雜任務(wù)。除了機器人技術(shù)外,谷歌研究人員還觀察到使用大型語言模型作為 PaLM-E 核心的幾個有趣效果,其中一個是 PaLM-E 能表現(xiàn)出“正向轉(zhuǎn)移”,這意味其可將從一個任務(wù)中學(xué)到的知識和技能轉(zhuǎn)移到另一個任務(wù)中,相較單任務(wù)機器人模型能有更好的表現(xiàn)。
谷歌研究人員計劃未來將探索 PaLM-E 在現(xiàn)實世界中有更多應(yīng)用,例如家庭自動化或工業(yè)機器人,也希望 PaLM-E 能夠激發(fā)更多關(guān)于多模態(tài) AI 的應(yīng)用。
IT之家曾報道,身為谷歌 AI 勁敵的微軟近期也發(fā)表了「ChatGPT for Robotics」的論文,以類似的方式結(jié)合視覺數(shù)據(jù)和大型語言模型來控制機器人。
關(guān)鍵詞:
新聞發(fā)布平臺 |科極網(wǎng) |環(huán)球周刊網(wǎng) |中國創(chuàng)投網(wǎng) |教體產(chǎn)業(yè)網(wǎng) |中國商界網(wǎng) |互聯(lián)快報網(wǎng) |萬能百科 |薄荷網(wǎng) |資訊_時尚網(wǎng) |連州財經(jīng)網(wǎng) |劇情啦 |5元服裝包郵 |中華網(wǎng)河南 |網(wǎng)購省錢平臺 |海淘返利 |太平洋裝修網(wǎng) |勵普網(wǎng)校 |九十三度白茶網(wǎng) |商標(biāo)注冊 |專利申請 |啟哈號 |速挖投訴平臺 |深度財經(jīng)網(wǎng) |深圳熱線 |財報網(wǎng) |財報網(wǎng) |財報網(wǎng) |咕嚕財經(jīng) |太原熱線 |電路維修 |防水補漏 |水管維修 |墻面翻修 |舊房維修 |參考經(jīng)濟網(wǎng) |中原網(wǎng)視臺 |財經(jīng)產(chǎn)業(yè)網(wǎng) |全球經(jīng)濟網(wǎng) |消費導(dǎo)報網(wǎng) |外貿(mào)網(wǎng) |重播網(wǎng) |國際財經(jīng)網(wǎng) |星島中文網(wǎng) |上甲期貨社區(qū) |品牌推廣 |名律網(wǎng) |項目大全 |整形資訊 |整形新聞 |美麗網(wǎng) |佳人網(wǎng) |稅法網(wǎng) |法務(wù)網(wǎng) |法律服務(wù) |法律咨詢 |媒體采購網(wǎng) |聚焦網(wǎng) |參考網(wǎng) |熱點網(wǎng)
亞洲資本網(wǎng) 版權(quán)所有
Copyright © 2011-2020 亞洲資本網(wǎng) All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com