亞洲資本網(wǎng) > 資訊 > 國(guó)內(nèi) > 正文
別了,人類對(duì)手!中國(guó)圍棋人工智能要“逼出”阿爾法狗
2018-08-15 17:04:54來(lái)源: 中國(guó)青年報(bào)

馬博從未下過(guò)一盤完整的圍棋,但他的“作品”很會(huì)下棋。

最近,在一場(chǎng)世界級(jí)的圍棋大賽中,“絕藝”以7∶0戰(zhàn)勝“星陣”獲得冠軍,倆選手都不是人。絕藝來(lái)自馬博所在的騰訊AI團(tuán)隊(duì),星陣的前身是清華大學(xué)開發(fā)的“神算子”。

參加本屆世界人工智能圍棋大賽前,絕藝曾對(duì)陣柯潔豪取13連勝,還以11連勝的戰(zhàn)績(jī)奪得第10屆UEC杯計(jì)算機(jī)圍棋大賽冠軍,成為這項(xiàng)承載“攻克圍棋”使命的AI賽事里最后一個(gè)冠軍。它的名字來(lái)自杜牧詩(shī)句“絕藝如君天下少,閑人似我世間無(wú)”。

比起UEC杯,人工智能圍棋大賽參賽門檻更高:參賽程序需要獲得過(guò)世界人工智能圍棋比賽(最近3年)前8名的成績(jī),或棋力在野狐圍棋平臺(tái)九段及以上。大賽吸引了包括日韓兩國(guó)國(guó)家圍棋隊(duì)指定訓(xùn)練AI在內(nèi)的眾多高手,一度被外界認(rèn)為是一場(chǎng)“眾神之戰(zhàn)”。

世界人工智能圍棋大賽,“絕藝”大戰(zhàn)“星陣”。

人類世界的圍棋高手只是觀眾

2016年3月以來(lái),在騰訊程序員馬博的工作計(jì)算機(jī)里,絕藝幾乎24小時(shí)都在跟自己下棋,每天對(duì)弈成千上萬(wàn)盤。

這樣的對(duì)局?jǐn)?shù),是人類棋手一生幾萬(wàn)盤棋難以企及的。而在19×19的方格世界中,存在著10171種有效對(duì)局盤,數(shù)量超過(guò)宇宙原子的總和。

兩年前,李世石以1∶4敗給阿爾法狗,后者的訓(xùn)練數(shù)據(jù)是3000萬(wàn)盤棋。人類不再心存“贏”的幻想。此后阿爾法狗又連勝中日韓高手60盤,其技藝“讓人類棋手感到絕望”。

兩周前,眾多圍棋國(guó)手來(lái)到他們熟悉的中國(guó)棋院對(duì)弈場(chǎng),只當(dāng)觀眾。馬博和絕藝研發(fā)團(tuán)隊(duì)第一次走進(jìn)中國(guó)圍棋最高殿堂:“棋圣”聶衛(wèi)平、“八冠王”古力、“天才少年”柯潔都曾在此留下名局。

AI棋手沒有環(huán)肥燕瘦或迥異個(gè)性,它們不像聶衛(wèi)平那樣嗜煙如命,在煙霧繚繞中陷入棋局的沉思。也不會(huì)有柯潔的年少輕狂,對(duì)陣前輩李世石前放話“勝算95%”。它們是一行行代碼和后臺(tái)的計(jì)算資源,人類棋手要緊跟棋盤局勢(shì)都顯得十分吃力。

“比賽現(xiàn)場(chǎng)觀眾都是一些職業(yè)棋手。”馬博對(duì)記者回憶,他將筆記本電腦接入比賽的對(duì)弈系統(tǒng),點(diǎn)擊屏幕上的“開始”后,就“與我無(wú)關(guān)”了,人類棋手則緊盯著對(duì)弈臺(tái)后面的電子棋盤。雖然人類前輩在幾千年前就已經(jīng)開始黑白“搏殺”,并且一直是勝負(fù)的主角,但此刻的棋盤上還是有太多人類從未見過(guò)的“殺招”。

“我們和AI的思考層級(jí)不同,在計(jì)算量上存在著差距。”作為決賽解說(shuō)嘉賓的古力表示,他曾和絕藝有過(guò)數(shù)次交手,但對(duì)手成長(zhǎng)之快,他始料未及。3年前,風(fēng)頭正盛的日本圍棋AI“DeepZenGo”開發(fā)者加藤英樹曾表示,人工智能攻克圍棋至少需要10年。

世界人工智能圍棋大賽。

我們是人類,人類會(huì)犯錯(cuò)誤

兩年前的絕藝還只是業(yè)余五段的水平,如今古力已用“不可思議”來(lái)解說(shuō)昔日對(duì)手的戰(zhàn)術(shù)了。

就在4個(gè)月前,古力在個(gè)人微博上曬出“絕藝正式成為中國(guó)國(guó)家圍棋隊(duì)訓(xùn)練專用AI”畫面,并配文“國(guó)家隊(duì)的訓(xùn)練方式跟上了時(shí)代步伐”,而此前的中國(guó)國(guó)家隊(duì)并沒有專用AI。

在賽場(chǎng)上,馬博偶爾也會(huì)聽聽解說(shuō)嘉賓聊起的圍棋段子,或是走下對(duì)弈臺(tái)喝喝茶,和羅洗河聊聊天——后者是絕藝的圍棋顧問(wèn),也是開發(fā)團(tuán)隊(duì)中唯一能下完一盤圍棋的人。

這位曾在2006年1月終結(jié)“李昌鎬時(shí)代”的傳奇棋士,也是截至目前和絕藝對(duì)弈最多次的人類。他需要通過(guò)與之對(duì)弈發(fā)現(xiàn)漏洞,將它打造成“圍棋上帝”。

比起棋盤走勢(shì),馬博和他的對(duì)手更關(guān)心各自電腦屏幕上閃現(xiàn)出來(lái)的一行行勝率計(jì)算結(jié)果,那是AI通過(guò)算法分析落子位置得出的獲勝概率。屏幕上勝率持續(xù)上升,意味著此前的算法分析沒有出現(xiàn)失誤,布局意圖正逐步實(shí)現(xiàn)。但隨著對(duì)手落下一顆棋子,局面的勝率就會(huì)被算法重新統(tǒng)計(jì)。

絕藝使用的算法框架并非馬博團(tuán)隊(duì)的首創(chuàng)。“人工智能領(lǐng)域有很多公開的算法框架,按照這些框架很快就能做出產(chǎn)品。但如果要達(dá)到更高的勝率,就要在算法細(xì)節(jié)和計(jì)算能力上努力了。” 雖然馬博為絕藝寫下了第一行代碼,但其核心算法框架來(lái)自于Deep Mind團(tuán)隊(duì)。

2016年1月28日,谷歌旗下的Deep Mind團(tuán)隊(duì)在《自然》雜志發(fā)表論文,介紹了阿爾法狗程序的技術(shù)細(xì)節(jié),還附帶它以5∶0橫掃三屆歐洲圍棋冠軍樊麾二段的喜訊。

樊麾并沒有像1997年國(guó)際象棋世界冠軍卡斯帕羅夫那樣,在被IBM研發(fā)的象棋AI“深藍(lán)”擊敗以后,指責(zé)這款電腦程序作弊,并要求重新比賽。

他也并沒有像這位俄羅斯棋王一樣,有過(guò)3次擊敗“棋桌對(duì)面新型智慧”的戰(zhàn)績(jī),并坦言“自己還有幾年的安穩(wěn)日子”。面對(duì)比國(guó)際象棋10120種變化更為復(fù)雜的圍棋,樊麾的劣勢(shì)要更加明顯。

“人類是會(huì)犯錯(cuò)誤的,因?yàn)槲覀兪侨祟悺?rdquo;阿爾法狗在樊麾眼里像一面沒有任何情緒波動(dòng)的墻,穩(wěn)穩(wěn)地堵住了他調(diào)動(dòng)的一切經(jīng)驗(yàn)和智力攻勢(shì),也壓住了一名頂尖棋手求勝的欲望。如果沒有事先告訴他阿爾法狗是程序的話,樊麾甚至?xí)J(rèn)為對(duì)方是一個(gè)棋路清奇的人類棋手。

一年后的烏鎮(zhèn)棋局,阿爾法狗又以3∶0的戰(zhàn)績(jī)強(qiáng)勢(shì)逼哭了棋盤對(duì)面的柯潔,這位圍棋史上最年輕的五冠王第一次在賽場(chǎng)上失控落淚。在離開對(duì)弈臺(tái)的20分鐘里,他覺得自己就像一個(gè)“無(wú)助的孩子”,對(duì)過(guò)程和結(jié)局都感到絕望。

“對(duì)手非常完美,沒有任何缺陷和失誤,而且也沒有任何心態(tài)上的波動(dòng)。”柯潔賽后曾表示。阿爾法狗也在此戰(zhàn)后成為中國(guó)第43位中國(guó)圍棋九段獲得者,它的42位九段前輩都是人類。

阿爾法狗戰(zhàn)勝柯潔。

人工智能下圍棋不需要人類對(duì)手了

“沒有情緒”或許是人們對(duì)阿爾法狗最為感性的理解了。

實(shí)際上,阿爾法狗有著兩個(gè)強(qiáng)大的決策網(wǎng)絡(luò):Policy Network(策略網(wǎng)絡(luò))和Value Network(價(jià)值網(wǎng)絡(luò))。前者主要判斷在當(dāng)前局面下,下一步棋該怎么走。

作出這樣的判斷,不僅需要提前輸入人類已探索出的大量棋譜,還要讓其能夠通過(guò)大量的自我對(duì)局結(jié)果來(lái)學(xué)習(xí)評(píng)價(jià)每一步棋的優(yōu)劣。后者則相當(dāng)于人類棋手的“大局觀”,阿爾法狗在自我對(duì)局中會(huì)逐漸學(xué)習(xí)評(píng)價(jià)整體局面的走勢(shì)。

第一個(gè)網(wǎng)絡(luò)在從人類棋手已有的走法中篩選出若干種可能的同時(shí),也會(huì)通過(guò)蒙特卡洛樹搜索來(lái)展開這些走法并給出優(yōu)劣判斷。蒙特卡洛樹搜索正是圍棋AI算法的核心之一。在對(duì)弈時(shí),它會(huì)隨機(jī)選擇一種落子路徑并向下展開,如果這種落子路徑能夠獲勝,就會(huì)被賦予一定的權(quán)重,并在下次隨機(jī)選擇路徑時(shí)被優(yōu)先選中。

第二個(gè)網(wǎng)絡(luò)則會(huì)利用整體局面的判斷刪除那些無(wú)法得到高勝率的落子路徑,同時(shí)也能根據(jù)下一步棋將導(dǎo)致的新局面的優(yōu)劣,給出落子建議。最終的落子決定則是由兩個(gè)網(wǎng)絡(luò)被平均加權(quán)后作出的。

這種既有局部判斷又作全盤分析的思考方式已經(jīng)接近人類棋手的思維。雖然棋手選擇的落子位置并非由局部和全盤的思考加權(quán)平均決定,但DeepMind在論文中卻得出了這樣的結(jié)論:兩個(gè)大腦取平均的結(jié)果比依賴兩者各自得出的結(jié)果要好很多。

2017年10月,在宣布阿爾法狗退役后的5個(gè)月后,DeepMind又在《自然》雜志發(fā)表最新論文。他們最新的“狗”在3天時(shí)間內(nèi)積累了490萬(wàn)盤圍棋賽的訓(xùn)練數(shù)據(jù),并以100∶0完勝曾經(jīng)打敗過(guò)李世石、柯潔等人的——過(guò)去的那個(gè)自己。

此時(shí)的阿爾法狗已經(jīng)完全不再需要人類棋手的定式了,所有的訓(xùn)練都是通過(guò)自我博弈增強(qiáng)學(xué)習(xí)來(lái)完成。

馬博團(tuán)隊(duì)先后借鑒了Deep Mind兩篇論文,但他們已經(jīng)不再熱衷戰(zhàn)勝人類棋手,以證明絕藝的實(shí)力了。很多圍棋界的棋手期待絕藝能逼出阿爾法狗與之一戰(zhàn),探索圍棋之道的極限。

這樣的眾望,人類曾寄托于吳清源、聶衛(wèi)平、李昌鎬……當(dāng)然,也給過(guò)出戰(zhàn)阿爾法狗之前的人類棋手。

關(guān)鍵詞: 阿爾法 人工智能 別了

專題新聞
  • 蘋果8價(jià)格現(xiàn)在是多少?蘋果8p為什么被稱為機(jī)皇?
  • 清明節(jié)休市嗎?港股和a股休市時(shí)間一樣嗎?
  • 國(guó)際半導(dǎo)體產(chǎn)業(yè)協(xié)會(huì)警告美國(guó)政府 半導(dǎo)體產(chǎn)業(yè)包括哪些?
  • 聚美優(yōu)品年銷售額多少億?聚美優(yōu)品和唯品會(huì)關(guān)系如何?
  • 三公消費(fèi)是什么意思?三公消費(fèi)為啥不廢除?
  • 中國(guó)電信中簽號(hào)有哪些?中國(guó)電信上市股價(jià)會(huì)漲嗎?
最近更新

京ICP備2021034106號(hào)-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com