首頁 > 智能 > 正文

    AlphaGo已經(jīng)擊敗圍棋冠軍 而大多數(shù)計(jì)算機(jī)視覺只能完成3歲任務(wù)

    2020-08-25 08:53:03來源:開源中國  

    20 世紀(jì) 50 年代和 60 年代,計(jì)算機(jī)視覺并沒有被看成重頭戲,人們認(rèn)為視覺系統(tǒng)很容易復(fù)制,而教計(jì)算機(jī)下棋更加困難。但是現(xiàn)在,AlphaGo 已經(jīng)擊敗圍棋冠軍,IBM Watson 也在 Jeopardy 中擊敗人類競(jìng)賽者,而大多數(shù)計(jì)算機(jī)視覺軟件最多只能完成 3 歲兒童的任務(wù)……

    理論與實(shí)踐不斷證明,人類視覺神經(jīng)非常復(fù)雜,計(jì)算機(jī)視覺實(shí)現(xiàn)并非易事。計(jì)算機(jī)視覺研究從上世紀(jì) 50 年代興起之后,也歷經(jīng)了狂歡、冷靜,又重新燃起希望的階段。

    本篇編譯整理自計(jì)算機(jī)視覺相關(guān)文章,介紹計(jì)算機(jī)視覺各階段的理論支撐與外部輿論變化。

    最早的人工智能想象大多數(shù)人都認(rèn)為,是現(xiàn)代人創(chuàng)造了人工智能的概念,實(shí)際上遠(yuǎn)古祖先也提出了思考型機(jī)器人的理論。

    大約 3000 年前,荷馬描述了火神赫菲斯托斯(Hephaestus)的故事。赫菲斯托斯用黃金塑造了機(jī)械侍女,并賦予她們理性和學(xué)習(xí)能力。在無人駕駛汽車問世之前的幾個(gè)世紀(jì),古希臘作家阿波羅紐斯(Apollonius)用想象力創(chuàng)造了塔洛斯(Talos),這是一個(gè)青銅自動(dòng)機(jī),負(fù)責(zé)保衛(wèi)克里特島。

    但這些歷史性的敘述并不能準(zhǔn)確描述當(dāng)今正在開發(fā)的人工智能的種類。因?yàn)楸M管現(xiàn)在大多數(shù)人工智能程序無法將其目標(biāo)任務(wù)之外的知識(shí)概括化,但是對(duì)于本身給定的預(yù)期,他們已經(jīng)達(dá)到或超過人類水平。

    人的視覺與計(jì)算機(jī)視覺人類視覺系統(tǒng)非常特別,超過 50% 的神經(jīng)組織直接或間接地與視覺有關(guān),其中超過 66% 的神經(jīng)活動(dòng)僅為處理視覺。今天人們對(duì)視覺、知覺的了解大部分來自 1950 年代和 1960 年代對(duì)貓進(jìn)行的神經(jīng)生理學(xué)研究。

    上世紀(jì) 50 年代初期,哈佛醫(yī)學(xué)院的兩位神經(jīng)科學(xué)家 David Hubel 和 Torsten Wiesel 在貓的視覺皮層上進(jìn)行了一項(xiàng)實(shí)驗(yàn)。通過研究神經(jīng)元對(duì)各種刺激的反應(yīng),兩位科學(xué)家觀察到,人類的視覺是分級(jí)的。神經(jīng)元檢測(cè)簡(jiǎn)單的特征,例如邊緣,然后輸入更復(fù)雜的特征,如形狀,最后再輸入更復(fù)雜的視覺表示。基于這些知識(shí),計(jì)算機(jī)科學(xué)家就可以專注于以數(shù)字形式重建人類神經(jīng)結(jié)構(gòu)。

    早期樂觀人工智能領(lǐng)域成立于 1956 年在達(dá)特茅斯學(xué)院舉行的夏季研討會(huì)上,來自不同領(lǐng)域的科學(xué)家們聚集在一起,以闡明并發(fā)展關(guān)于 “思維機(jī)器”的觀點(diǎn)。

    1960 年代,大學(xué)開始認(rèn)真進(jìn)行計(jì)算機(jī)視覺研究,并將該項(xiàng)目視為人工智能的奠基石。

    麻省理工學(xué)院的神經(jīng)科學(xué)家戴維 · 馬爾(David Marr)在 70 年代出版了一本《VISION》,匯集了一些方法,作出了可檢測(cè)的預(yù)測(cè),提供解決神經(jīng)科學(xué)問題的框架,并激發(fā)一代年輕科學(xué)家研究大腦及計(jì)算。該書提出了一種用于研究生物視覺系統(tǒng)的計(jì)算范例,并介紹信息處理系統(tǒng)的三個(gè)不同分析層次概念,即計(jì)算理論層次、表示形式和算法層次、以及實(shí)現(xiàn)層次。他們分別指向:計(jì)算的目標(biāo)是什么;解決問題、實(shí)現(xiàn)目標(biāo)的陳述與流程;這些表示和過程的物理實(shí)例化,例如如何在神經(jīng)元中完成特定任務(wù)。這三個(gè)層次劃分的意義是,研究者從視覺系統(tǒng)的宏觀表示出發(fā)進(jìn)行思考,而不是查看如單個(gè)神經(jīng)元式的微觀實(shí)體。

    Marr 建立了視覺表示框架,任何視覺系統(tǒng)感知到的強(qiáng)度,都是四個(gè)主要因素的函數(shù):幾何形狀,意指形狀和相對(duì)位置;可見表面的反射率和絕對(duì)吸附特性,即物理特性;照明,即光源;相機(jī),包含光學(xué)。

    早期研究人員對(duì)相關(guān)領(lǐng)域的未來非常樂觀,并提倡把人工智能作為一種可以改變世界的技術(shù)。一些人預(yù)測(cè),一代人的時(shí)間內(nèi)就會(huì)創(chuàng)造出像人類一樣聰明的機(jī)器,這種炒作為研究人員贏得了數(shù)百萬美元的公共和私人資金,研究中心在全球涌現(xiàn)。但是由于接下里的發(fā)展未能達(dá)到人們的高預(yù)期,國際上的人工智能開發(fā)工作受到了限制。

    AI 視覺的冬天研究人員以極大的樂觀度,將公眾的期望提高到了令人難以置信的高度,卻未能體會(huì)到他們?yōu)樽约涸O(shè)定的挑戰(zhàn)的難度。當(dāng)研究人員承諾的預(yù)期未能達(dá)成時(shí),這個(gè)研究領(lǐng)域遭到了猛烈的批評(píng),和嚴(yán)重的財(cái)務(wù)挫折。

    早期的計(jì)算資源在技術(shù)上無法跟上科學(xué)家提出的復(fù)雜問題,即使是最令人印象深刻的項(xiàng)目也只能解決微不足道的問題。此外,大多數(shù)研究人員都是在孤立的小組內(nèi)工作,缺乏比較有意義的,可以推進(jìn)該領(lǐng)域科學(xué)進(jìn)展的方式。

    有一則故事可以反映當(dāng)時(shí)研究人員的美好預(yù)期、以及預(yù)期落空后他們自身及和外界的失落與嘲諷。

    1966 年,美國計(jì)算機(jī)科學(xué)家、麻省理工學(xué)院 AI 實(shí)驗(yàn)室聯(lián)合創(chuàng)始人馬文 · 明斯基(Marvin Minsky)獲得了暑期津貼,聘請(qǐng)了一年級(jí)的本科生杰拉爾德 · 蘇斯曼(Gerald Sussman),讓他花費(fèi)整個(gè)夏天的時(shí)間把一臺(tái)攝像機(jī)與計(jì)算機(jī)連接起來,并讓計(jì)算機(jī)描述它看到了什么。“不用說,蘇斯曼沒有在截止日期前完成,”Motion Metrics 的機(jī)器學(xué)習(xí)開發(fā)人員 Hooman Shariati 曾說,“在接下來的四十年中,視覺成為人工智能領(lǐng)域最困難、最令人沮喪的挑戰(zhàn)之一。正如機(jī)器視覺專家貝特霍爾德 · 霍恩(Berthold Horn)曾經(jīng)指出的那樣,蘇斯曼選擇不再在視覺領(lǐng)域工作。”

    到 70 年代中期,政府和公司對(duì)人工智能失去了信心,行業(yè)資金枯竭。數(shù)學(xué)家詹姆斯 · 萊特希爾(James Lighthill)1973 年發(fā)表了一篇論文,批評(píng)早期人工智能研究,這為后來英國政府撤回對(duì)該領(lǐng)域的支持奠定了研究基礎(chǔ)。

    隨后的這段時(shí)間被稱為 “人工智能的冬天”。雖然 20 世紀(jì) 80 年代和 90 年代研究還在繼續(xù),也有過一些小規(guī)模的復(fù)興,但人工智能基本上被被歸入了科幻小說的范疇,嚴(yán)肅的計(jì)算機(jī)科學(xué)家都避免使用這個(gè)詞。

    卷積神經(jīng)網(wǎng)絡(luò)出現(xiàn)與多倫多大學(xué)的突破隨著互聯(lián)網(wǎng)成為主流,計(jì)算機(jī)科學(xué)家有了可以訪問更多數(shù)據(jù)的權(quán)限。計(jì)算機(jī)硬件在繼續(xù)改進(jìn),成本則在下降。80 年代到 90 年代,基本神經(jīng)網(wǎng)絡(luò)和算法得到改進(jìn)。

    1998 年,Bengio、Le Cun、Bottou 和 Haffner 在一篇論文中首次介紹了第一個(gè)卷積神經(jīng)網(wǎng)絡(luò) LeNet-5,能夠分類手寫數(shù)字。

    卷積神經(jīng)網(wǎng)絡(luò)可以做到平移不變形,即使對(duì)象的外觀發(fā)生某種方式的變化,也可以識(shí)別出對(duì)象。卷積神經(jīng)網(wǎng)絡(luò)通過監(jiān)督學(xué)習(xí)和反向傳播對(duì)輸入到卷積網(wǎng)絡(luò)中的數(shù)據(jù)做訓(xùn)練,并反復(fù)、自我校正。和同樣可以做反向傳播的深度神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)的特殊之處在于神經(jīng)元之間的鏈接結(jié)構(gòu)和獨(dú)特的隱藏架構(gòu)的方式,這是由人類視覺皮層內(nèi)部的視覺數(shù)據(jù)處理機(jī)制啟發(fā)得來的。此外,CNN 中的圖層按照寬度、高度和深度三個(gè)維度進(jìn)行組織。

    卷積網(wǎng)絡(luò)最重要的屬性之一就是,不管有多少層,整個(gè) CNN 系統(tǒng)僅由兩個(gè)部分組成:特征提取和分類。通過對(duì)特定特征的選擇,以及通過前饋鏈接增加空間不變性,這也是人工視覺系統(tǒng)如 CNN 非常獨(dú)特的原因。

    深度神經(jīng)網(wǎng)絡(luò)研究應(yīng)用也有進(jìn)步,并且使人們信心大增。2012 年,人工智能在 ImageNet 大規(guī)模視覺識(shí)別挑戰(zhàn)(ILSVRC)上取得突破。

    ILSVRC 是一個(gè)年度圖像分類比賽,研究團(tuán)隊(duì)在給定的數(shù)據(jù)集上做視覺識(shí)別任務(wù),評(píng)估算法準(zhǔn)確性。2010 年和 2011 年,ILSVRC 獲獎(jiǎng)?wù)叩腻e(cuò)誤率一直在 26% 左右。2012 年,來自多倫多大學(xué)的團(tuán)隊(duì)帶來一個(gè)名為 AlexNet 的深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了 16.4% 的錯(cuò)誤率。在接下來的幾年中,ILSRVC 的錯(cuò)誤率下降到了幾個(gè)百分點(diǎn)。

    基于 AI 的計(jì)算機(jī)視覺的未來當(dāng)下,人們已經(jīng)知道,視覺能力是人類承擔(dān)的生物學(xué)生最復(fù)雜的任務(wù)之一,對(duì)計(jì)算機(jī)視覺的研究和預(yù)期也更加貼近世界。同時(shí),基于對(duì)人類視覺能力了解的深入,計(jì)算機(jī)視覺研究人員也在不斷更新算法和理論。

    CNN 已經(jīng)廣泛用于需要處理視覺和空間信息的系統(tǒng)中。但隨著人工智能需要解決更高級(jí)的問題,對(duì)計(jì)算和電力資源的增長需求成為 CNN 最突出的問題之一。研究人員的注意力也在逐漸轉(zhuǎn)向尖峰神經(jīng)網(wǎng)絡(luò) SNN,這是一種新型的 ANN ,受大腦神經(jīng)動(dòng)力學(xué)的啟發(fā),具有事件驅(qū)動(dòng),快速推理和省電的特性,也被認(rèn)為是第三代神經(jīng)網(wǎng)絡(luò)。

    接下來 SNN 要優(yōu)化解決的一個(gè)問題是視覺注意 VA 與智力。人類可分散的注意力使得人能同時(shí)執(zhí)行多個(gè)任務(wù),注意力轉(zhuǎn)移可以使人快速訪問新信息。視覺注意力研究的核心目標(biāo)是要使處理的視覺信息量最少,以解決復(fù)雜的高級(jí)任務(wù),例如對(duì)象識(shí)別。

    計(jì)算機(jī)視覺任務(wù)主要涉及處理靜態(tài)圖像,人類眼睛在檢測(cè)到場(chǎng)景變化向大腦傳遞信息——這是一個(gè)事件,生物視覺系統(tǒng)的這一關(guān)鍵特性允許將注意力選擇性地集中在場(chǎng)景的顯著部分上,從而大量減少需要處理的信息量。

    假設(shè)針對(duì)一張人在草地上打高爾夫的圖像。傳統(tǒng)的傳感器中,數(shù)據(jù)以幀的形式傳輸,圖像上的所有內(nèi)容都要經(jīng)過處理,而重要的信息是人的運(yùn)動(dòng),以及帶動(dòng)的球桿和球的運(yùn)動(dòng)。這時(shí),基于事件的傳感器并不會(huì)讀取每個(gè)像素并且以恒定速率發(fā)送幀,而是在檢測(cè)到像素局部亮度變化是,從每個(gè)像素異步發(fā)送數(shù)據(jù)包或事件,從而減少計(jì)算、傳輸?shù)臄?shù)據(jù)和功耗。

    研究人員認(rèn)為,CNN 非常適合靜態(tài)圖像中的對(duì)象識(shí)別,但它缺乏動(dòng)態(tài)特性來處理基于事件的傳感器的實(shí)時(shí)數(shù)據(jù)集。因此,SNN 被寄予厚望。

    現(xiàn)在人工智能已經(jīng)無縫集成到日常生活的多方面。研究人員表示,近年來,人工智能在許多研究領(lǐng)域都取得了巨大的成功。像 AlphaGo 這樣的游戲系統(tǒng)已經(jīng)使用強(qiáng)化學(xué)習(xí)來自學(xué),助聽器使用深度學(xué)習(xí)算法過濾掉環(huán)境噪音,這些技術(shù)甚至為自然語言處理與翻譯、對(duì)象識(shí)別以及模式匹配系統(tǒng)提供了動(dòng)力,我們已經(jīng)對(duì)谷歌、亞馬遜、iTunes 等提供的類似服務(wù)習(xí)以為常。這種趨勢(shì)也絲毫沒有放慢的跡象,人們可以用計(jì)算機(jī)自動(dòng)化執(zhí)行許多小的重復(fù)性任務(wù)以節(jié)省時(shí)間。

    盡管人工智能領(lǐng)域取得了令人難以置信的進(jìn)步,但計(jì)算機(jī)視覺的應(yīng)用仍有很長的路要走,因?yàn)榫嚯x計(jì)算機(jī)可以像人類一樣地去解釋圖像還需要很長時(shí)間。就像文章開頭提到的那樣,AlphaGo 早已擊敗了人類圍棋冠軍,計(jì)算機(jī)視覺的識(shí)圖能力僅相當(dāng)于一個(gè) 3 歲的小孩。

    標(biāo)簽: 計(jì)算機(jī)視覺3歲

    相關(guān)閱讀

    相關(guān)詞

    推薦閱讀

    国产亚洲精品欧洲在线观看| 亚洲AV无码久久久久网站蜜桃| 亚洲色无码专区一区| 亚洲制服丝袜在线播放| 亚洲黄片手机免费观看| 亚洲六月丁香六月婷婷色伊人 | 亚洲一级大黄大色毛片| 亚洲精品欧洲精品| 亚洲一级特黄大片在线观看 | 亚洲国产综合精品中文字幕 | 久久精品亚洲中文字幕无码麻豆| 亚洲日韩人妻第一页| 亚洲A∨精品一区二区三区| 亚洲视频一区在线| 亚洲综合网站色欲色欲| 亚洲第一成年免费网站| 亚洲国产人成在线观看| 亚洲人成免费网站| 亚洲无吗在线视频| 久久狠狠高潮亚洲精品| 亚洲男女一区二区三区| 亚洲欧洲国产成人精品| 亚洲AV无码乱码国产麻豆 | 亚洲国产精品第一区二区三区| 亚洲高清国产拍精品青青草原| 亚洲国产精品人人做人人爱| 久久精品亚洲福利| 亚洲?V无码乱码国产精品| 国产亚洲av片在线观看18女人| 亚洲人成图片小说网站| 亚洲国产免费综合| 国产午夜亚洲精品国产成人小说| 亚洲综合日韩久久成人AV| 亚洲精品乱码久久久久久自慰| 亚洲真人日本在线| 亚洲AV无码久久精品狠狠爱浪潮 | 激情无码亚洲一区二区三区| 亚洲人成电影网站色| 亚洲国产精品无码久久| 亚洲国产精品自产在线播放| 亚洲国产精品SSS在线观看AV|