首頁(yè) > 智能 > 正文

    DeepMind帶來(lái)新驚喜:成功解決AI打怪最大痛點(diǎn)

    2021-07-29 09:37:37來(lái)源:雷鋒網(wǎng)  

    DeepMind 又冷不丁給了我們一個(gè)小驚喜。

    我們都知道,強(qiáng)化學(xué)習(xí)苦于泛化能力差,經(jīng)常只能針對(duì)單個(gè)任務(wù)來(lái)從頭開(kāi)始學(xué)習(xí)。

    像 DeepMind 之前開(kāi)發(fā)的 AlphaZero,盡管可以玩轉(zhuǎn)圍棋、國(guó)際象棋和日本將棋,但對(duì)每種棋牌游戲都只能從頭開(kāi)始訓(xùn)練。

    泛化能力差也是 AI 一直被詬病為人工智障的一大原因。人類(lèi)智能厲害的一點(diǎn)就是,可以借鑒之前的經(jīng)驗(yàn),迅速適應(yīng)新環(huán)境,比如你不會(huì)因?yàn)槭堑谝淮纬源ú耍涂粗豢邙x鴦鍋不知所措,你吃過(guò)潮汕火鍋嘛,不都是涮一下的事情嘛。

    但是,泛化能力也不是一蹴而就的,就像我們玩游戲的時(shí)候,也是先做簡(jiǎn)單任務(wù),然后逐步升級(jí)到復(fù)雜任務(wù)。在游戲《空洞騎士》中,一開(kāi)始你只需要隨意走動(dòng)揮刀砍怪就行,但在噩夢(mèng)級(jí)難度的“苦痛之路”關(guān)卡中,沒(méi)有前面一點(diǎn)點(diǎn)積累的爛熟于心的技巧,只能玩?zhèn)€寂寞。

    1 多任務(wù)元宇宙

    DeepMind 此次就采用了這種“課程學(xué)習(xí)”思路,讓智能體在不斷擴(kuò)展、升級(jí)的開(kāi)放世界中學(xué)習(xí)。也就是說(shuō),AI 的新任務(wù)(訓(xùn)練數(shù)據(jù))是基于舊任務(wù)不斷生成的。

    在這個(gè)世界中,智能體可以盡情鍛煉自己,簡(jiǎn)單的比如“靠近紫色立方體”,復(fù)雜一點(diǎn)的比如“靠近紫色立方體或?qū)ⅫS色球體放在紅色地板上”,甚至還可以和其他智能體玩耍,比如捉迷藏 ——“找到對(duì)方,并且不要被對(duì)方找到”。

    每個(gè)小游戲存在于世界的一個(gè)小角落,千千萬(wàn)萬(wàn)個(gè)小角落拼接成了一個(gè)龐大的物理模擬世界,比如下圖中的幾何“地球”。

    總體來(lái)說(shuō)這個(gè)世界的任務(wù)由三個(gè)要素構(gòu)成,即任務(wù) = 游戲 + 世界 + 玩家,并根據(jù)三個(gè)要素的不同關(guān)系,決定任務(wù)的復(fù)雜度。

    復(fù)雜度的判斷有四個(gè)維度:競(jìng)爭(zhēng)性,平衡性,可選項(xiàng),探索難度。

    比如在“搶方塊”游戲中,藍(lán)色智能體需要把黃色方塊放到白色區(qū)域,紅色智能體需要把黃色方塊放到藍(lán)色區(qū)域。這兩個(gè)目標(biāo)是矛盾的,因此競(jìng)爭(zhēng)性比較強(qiáng);同時(shí)雙方條件對(duì)等,平衡性比較高;因?yàn)槟繕?biāo)簡(jiǎn)單,所以可選項(xiàng)少;這里 DeepMind 把探索難度評(píng)為中上,可能是因?yàn)槎ㄎ粎^(qū)域算是比較復(fù)雜的場(chǎng)景。

    再例如,在“球球喜歡和方塊一起玩”游戲中,藍(lán)色和紅色智能體都有一個(gè)共同的目標(biāo),讓相同顏色的球體和方塊放在相近的位置。

    這時(shí)候,競(jìng)爭(zhēng)性自然很低;平衡性毋庸置疑是很高的;可選項(xiàng)相比上面的游戲會(huì)高很多;至于探索難度,這里沒(méi)有定位區(qū)域,智能體隨便把球體和方塊放哪里都行,難度就變小了。

    基于這四個(gè)維度,DeepMind 打造了一個(gè)任務(wù)空間的、超大規(guī)模的“元宇宙”,幾何“地球”也只是這個(gè)元宇宙的一個(gè)小角落,限定于這個(gè)四維任務(wù)空間的一個(gè)點(diǎn)。DeepMind 將這個(gè)“元宇宙”命名為 Xland,它包含了數(shù)十億個(gè)任務(wù)。

    來(lái)看看 XLand 的全貌,它由一系列游戲組成,每個(gè)游戲都可以在許多不同的模擬世界中進(jìn)行,這些世界的拓?fù)浜吞卣髌交刈兓?/p>

    2 終生學(xué)習(xí)

    數(shù)據(jù)有了,那么接下來(lái)就得找到合適的算法。DeepMind 發(fā)現(xiàn),目標(biāo)注意網(wǎng)絡(luò) (GOAT) 可以學(xué)習(xí)更通用的策略。

    具體來(lái)說(shuō),智能體的輸入包括第一視角的 RGB 圖像、本體感覺(jué)以及目標(biāo)。經(jīng)過(guò)初步處理后,生成中間輸出,傳遞給 GOAT 模塊,該模塊會(huì)根據(jù)智能體的當(dāng)前目標(biāo)處理中間輸出的特定部分,并對(duì)目標(biāo)進(jìn)行邏輯分析。

    所謂邏輯分析是指,對(duì)每個(gè)游戲,可以通過(guò)一些方法,來(lái)構(gòu)建另一個(gè)游戲,并限制策略的價(jià)值函數(shù)的最優(yōu)值上限或者下限。

    到這里,DeepMind 向我們提出了一個(gè)問(wèn)題:對(duì)于每個(gè)智能體,什么樣的任務(wù)集合才是最好的呢?換句話(huà)說(shuō),在打怪升級(jí)中,什么樣的關(guān)卡設(shè)置才會(huì)讓玩家能順利地升級(jí)為“真”高手,而不是一刀 9999?

    DeepMind 給出的答案是,每個(gè)新任務(wù)都基于舊任務(wù)生成,“不會(huì)太難,也不會(huì)太容易”。其實(shí),這恰好是讓人類(lèi)學(xué)習(xí)時(shí)感到“爽”的興奮點(diǎn)。

    在訓(xùn)練開(kāi)始時(shí),太難或太容易的任務(wù)可能會(huì)鼓勵(lì)早期學(xué)習(xí),但會(huì)導(dǎo)致訓(xùn)練后期的學(xué)習(xí)飽和或停滯。

    實(shí)際上,我們不要求智能體在一個(gè)任務(wù)上非常優(yōu)秀,而是鼓勵(lì)其終身學(xué)習(xí),即不斷去適應(yīng)新任務(wù)。

    而所謂太難、太容易其實(shí)是比較模糊的描述。我們需要的是一個(gè)量化方法,在新任務(wù)和舊任務(wù)之間做彈性連接。

    怎么不讓智能體在新任務(wù)中因?yàn)椴贿m應(yīng)而“暴死”呢?進(jìn)化學(xué)習(xí)就提供了很好的靈活性。總體來(lái)說(shuō),新任務(wù)和舊任務(wù)是同時(shí)進(jìn)行的,并且每個(gè)任務(wù)有多個(gè)智能體參與“競(jìng)爭(zhēng)”。在舊任務(wù)上適應(yīng)得好的智能體,會(huì)被選拔到新任務(wù)上繼續(xù)學(xué)習(xí)。

    在新任務(wù)中,舊任務(wù)的優(yōu)秀智能體的權(quán)重、瞬時(shí)任務(wù)分布、超參數(shù)都會(huì)被復(fù)制,參與新一輪“競(jìng)爭(zhēng)”。

    并且,除了舊任務(wù)中的優(yōu)秀智能體,還有很多新人參與,這就引進(jìn)了隨機(jī)性、創(chuàng)新性、靈活性,不用擔(dān)心“暴死”問(wèn)題。

    當(dāng)然,在每個(gè)任務(wù)中不會(huì)只有一種優(yōu)秀智能體。因?yàn)槿蝿?wù)也是不斷在生成的、動(dòng)態(tài)變化的,一個(gè)任務(wù)可以訓(xùn)練出有不同長(zhǎng)處的智能體,并往不同的方向演化(隨著智能體的相對(duì)性能和魯棒性進(jìn)行)。

    最終,每個(gè)智能體都會(huì)形成不同的擅長(zhǎng)任務(wù)的集合,像極了春秋戰(zhàn)國(guó)時(shí)期的“百家爭(zhēng)鳴”。說(shuō)打怪升級(jí)顯得格局小了,這簡(jiǎn)直是在模擬地球嘛。

    DeepMind 表示,“這種組合學(xué)習(xí)系統(tǒng)的迭代特性是,不優(yōu)化有界性能指標(biāo),而是優(yōu)化迭代定義的通用能力范圍,這使得智能體可以開(kāi)放式地學(xué)習(xí),僅受環(huán)境空間和智能體的神經(jīng)網(wǎng)絡(luò)表達(dá)能力的限制。”

    3 智能初現(xiàn)

    最終,在這個(gè)復(fù)雜“元宇宙”中升級(jí)、進(jìn)化、分流的智能體形成了什么優(yōu)秀物種呢?

    DeepMind 說(shuō)道,智能體有很明顯的零樣本學(xué)習(xí)能力,比如使用工具、打圍、數(shù)數(shù)、合作 & 競(jìng)爭(zhēng)等等。

    來(lái)看幾個(gè)具體的例子。

    首先是,智能體學(xué)會(huì)了臨場(chǎng)應(yīng)變。它的目標(biāo)有三個(gè):

    1、將黑色金字塔放到黃色球體旁邊;

    2、將紫色球體放到黃色金字塔旁邊;

    3、將黑色金字塔放到橙色地板上。

    AI 一開(kāi)始找到了一個(gè)黑色金字塔,想著把它拿到橙色地板上(目標(biāo) 3),但在搬運(yùn)過(guò)程中瞄見(jiàn)了一個(gè)黃色球體,瞬間改變主意,“我可以實(shí)現(xiàn)目標(biāo) 1 啦”,將黑色金字塔放到了黃色球體旁邊。

    第二個(gè)例子是,不會(huì)跳高,怎么拿到高臺(tái)上的紫色金字塔?

    在這個(gè)任務(wù)中,智能體需要想辦法突破障礙,取到高臺(tái)上的紫色金字塔,高臺(tái)周邊并沒(méi)有類(lèi)似階梯、斜坡一樣的路徑。

    因?yàn)椴粫?huì)調(diào)高,所以智能體急的“掀桌子”,把周邊的幾塊豎起來(lái)的板子都弄倒了。然后,巧的是,一塊黑色石板倒在高臺(tái)邊上,“咦,等等,這不就是我要的階梯嗎?”

    這個(gè)過(guò)程是否體現(xiàn)了智能體的智能,還無(wú)法肯定,可能只是一時(shí)的幸運(yùn)罷了。關(guān)鍵還是,要看統(tǒng)計(jì)數(shù)據(jù)。

    經(jīng)過(guò) 5 代訓(xùn)練,智能體在 XLand 的 4,000 個(gè)獨(dú)立世界中玩大約 700,000 個(gè)獨(dú)立游戲,涉及 340 萬(wàn)個(gè)獨(dú)立任務(wù)的結(jié)果,最后一代的每個(gè)智能體都經(jīng)歷了 2000 億次訓(xùn)練步驟。

    目前,智能體已經(jīng)能夠順利參與幾乎每個(gè)評(píng)估任務(wù),除了少數(shù)即使是人類(lèi)也無(wú)法完成的任務(wù)。

    DeepMind 的這項(xiàng)研究,或許一定程度上體現(xiàn)了“密集學(xué)習(xí)”的重要性。也就是說(shuō),不僅是數(shù)據(jù)量要大,任務(wù)量也要大。這也使得智能體在泛化能力上有很好的表現(xiàn),比如數(shù)據(jù)顯示,只需對(duì)一些新的復(fù)雜任務(wù)進(jìn)行 30 分鐘的集中訓(xùn)練,智能體就可以快速適應(yīng),而從頭開(kāi)始用強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體根本無(wú)法學(xué)習(xí)這些任務(wù)。

    在往后,我們也期待這個(gè)“元宇宙”變得更加復(fù)雜和生機(jī)勃勃,AI 經(jīng)過(guò)不斷演化,不斷給我們帶來(lái)驚喜(細(xì)思極恐)的體驗(yàn)。

    標(biāo)簽: DeepMind 元宇宙

    相關(guān)閱讀

    相關(guān)詞

    推薦閱讀

    亚洲熟妇无码AV在线播放| 精品亚洲av无码一区二区柚蜜| 妇女自拍偷自拍亚洲精品| 国产日本亚洲一区二区三区 | 亚洲国产视频网站| 夜夜亚洲天天久久| 亚洲精品电影天堂网| 亚洲综合久久成人69| 亚洲小说图片视频| 波多野结衣亚洲一级| 久久久久亚洲国产| 亚洲成a∧人片在线观看无码| 亚洲精品乱码久久久久久蜜桃图片| 亚洲综合一区二区三区四区五区| 亚洲免费福利在线视频| 亚洲欧美成人一区二区三区| 亚洲乱妇老熟女爽到高潮的片| 亚洲国产成人久久精品软件| 久久亚洲AV成人无码国产最大| 国产精品亚洲va在线观看| 亚洲av无码专区在线观看素人| 亚洲精品视频久久久| 亚洲麻豆精品果冻传媒| 亚洲黄色在线观看网站| 亚洲国产模特在线播放| 亚洲www77777| 337P日本欧洲亚洲大胆精品| 亚洲 无码 在线 专区| 亚洲AV无码无限在线观看不卡 | 国产偷窥女洗浴在线观看亚洲| 在线日韩日本国产亚洲| 亚洲国产成人片在线观看无码| 亚洲国产综合91精品麻豆| 亚洲精品在线免费观看| 亚洲AV成人影视在线观看| 国产亚洲人成在线影院| 伊人久久大香线蕉亚洲| 亚洲AV永久无码精品成人| 亚洲精品视频久久| 亚洲熟妇AV一区二区三区宅男| 老子影院午夜伦不卡亚洲|