亚洲中文字幕无码久久2021,杂交bucsm人类ssba,99国内精品久久久久久久,国内少妇人妻偷人精品免费视频

網(wǎng)絡(luò)消費網(wǎng) >  IT > > 正文
AAAI 2022大獎出爐!中科院德州撲克程序AlphaHoldem獲卓越論文獎
時間:2022-02-28 21:07:10

近日,人工智能國際頂會 AAAI 2022 正在召開,大會論文獎也陸續(xù)公布。AI科技評論獲知,中國科學(xué)院自動化所的興軍亮教授團隊獲得 AAAI 2022 的卓越論文獎(Distinguished Paper)!

AAAI 的英文全稱是“Association for the Advance of Artificial Intelligence”(美國人工智能協(xié)會)。該協(xié)會是人工智能領(lǐng)域的主要學(xué)術(shù)組織之一,具有一定的學(xué)術(shù)權(quán)威性。

興軍亮團隊此次獲獎的工作是他們所開發(fā)的輕量型德州撲克 AI 程序——AlphaHoldem。據(jù)介紹,該系統(tǒng)的決策速度較 DeepStack 的速度提升超1000倍,與高水平德州撲克選手對抗的結(jié)果表明其已經(jīng)達到了人類專業(yè)玩家水平。

論文名稱:《AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning》

作者團隊:趙恩民,閆仁業(yè),李金秋,李凱,興軍亮

1德州撲克AI的意義

與圍棋任務(wù)相比,德州撲克是一項更能考驗基于信息不完備導(dǎo)致對手不確定的智能博弈技術(shù)。

德州撲克是國際上最為流行的撲克游戲,由于最早起源于20世紀(jì)初美國德克薩斯州而得名。

德州撲克的規(guī)則是使用去掉王牌的一副撲克牌,共52張牌,至少2人參與,至多22人,一般參與人數(shù)為兩人和十人之間。

游戲開始時,首先為每個玩家發(fā)兩張私有牌作為各自的“底牌”,隨后將五張公共牌依次按三張、一張、一張朝上發(fā)出。在發(fā)完兩張私有牌、三張共有牌、第四張公共牌、第五張公共牌后玩家都可以多次無限制押注,這四輪押注分別稱為“翻牌前”、“翻牌”、“轉(zhuǎn)牌”、“河牌”。圖1展示了一場德州撲克游戲的完整流程示意。

圖1:兩人無限注德州撲克一次游戲過程示意

經(jīng)過四輪押注之后,若仍不能分出勝負(fù),游戲進入“攤牌”階段,所有玩家亮出各自底牌并與公共牌組合成五張牌,成牌最大者獲勝。圖2給出了德州撲克不同組合的牌型解釋和大小。

圖2:德州撲克不同牌型大小說明和比較

德州撲克博弈的問題復(fù)雜度很大,兩人無限注德州撲克的決策空間復(fù)雜度超過10的161次方;其次,德州撲克博弈過程屬于典型的回合制動態(tài)博弈過程,游戲參與者每一步?jīng)Q策都依賴于上一步的決策結(jié)果,同時對后面的決策步驟產(chǎn)生影響;

另外,德州撲克博弈屬于典型的不完美信息博弈,博弈過程中玩家各自底牌信息不公開使得每個玩家信息都不完備,玩家在每一步?jīng)Q策時都要充分考慮對手的各種可能情況,這就涉及到對手行為與心理建模、欺詐與反欺詐等諸多問題。

研究者認(rèn)為,由于德州撲克游戲規(guī)則又非常簡單且邊界確定,特別適合作為一個虛擬實驗環(huán)境對博弈的相關(guān)基礎(chǔ)理論方法和核心技術(shù)算法進行深入探究。

近年來,國際研究者在德州撲克這一大規(guī)模不完美信息博弈問題的優(yōu)化求解中也取得了長足進步。

比如,之前加拿大阿爾伯特大學(xué)和美國卡內(nèi)基梅隆大學(xué)的研究者就設(shè)計出 AI 程序 DeepStack 和 Libratus,并先后在兩人無限注德州撲克中均戰(zhàn)勝了人類專業(yè)選手,隨后卡內(nèi)基梅隆大學(xué)設(shè)計的 Pluribus 又在六人無限注德州撲克中戰(zhàn)勝了人類專業(yè)選手。

但目前主流德州撲克AI背后的核心思想是利用反事實遺憾最小化(Counterfactual Regret Minimization, CFR)算法逼近納什均衡策略。

具體來說,首先利用抽象(Abstraction)技術(shù)[3][7]壓縮德?lián)涞臓顟B(tài)和動作空間,從而減小博弈樹的規(guī)模,然后在縮減過的博弈樹上進行CFR算法迭代。

這些方法嚴(yán)重依賴于人類專家知識進行博弈樹抽象,并且CFR算法需要對博弈樹的狀態(tài)結(jié)點進行不斷地采樣遍歷和迭代優(yōu)化,即使經(jīng)過模型縮減后仍需要耗費大量的計算和存儲資源。

例如,DeepStack使用了153萬的CPU時以及1.3萬的GPU時訓(xùn)練最終AI,在對局階段需要一個GPU進行1000次CFR的迭代過程,平均每個動作的計算需耗時3秒。Libratus消耗了大于300萬的CPU時生成初始策略,每次決策需要搜索4秒以上。

這樣大量的計算和存儲資源的消耗嚴(yán)重阻礙了德?lián)銩I的進一步研究和發(fā)展;同時,CFR框架很難直接拓展到多人德?lián)洵h(huán)境中,增加玩家數(shù)量將導(dǎo)致博弈樹規(guī)模呈指數(shù)增長。另外,博弈樹抽象不僅需要大量的領(lǐng)域知識而且會不可避免地丟失一些對決策起到至關(guān)作用的信息。

2AlphaHoldem是何方神圣?

這個問題也吸引了很多中國研究者,中科院自動化所的興軍亮教授團隊便是其中之一。去年12月,他領(lǐng)導(dǎo)的博弈學(xué)習(xí)研究組針對德州撲克任務(wù),提出了一種高水平、輕量化的兩人無限注德州撲克AI程序——AlphaHoldem。

不同于已有的基于CFR算法的德州撲克AI,中科院博弈學(xué)習(xí)研究組所提出的架構(gòu)是基于端到端的深度強化學(xué)習(xí)算法(如圖4所示)。

圖4:端到端學(xué)習(xí)德州撲克AI學(xué)習(xí)框架

根據(jù)團隊介紹,AlphaHoldem采用Actor-Critic學(xué)習(xí)框架,其輸入是卡牌和動作的編碼,然后通過偽孿生網(wǎng)絡(luò)(結(jié)構(gòu)相同參數(shù)不共享)提取特征,并將一種改進的深度強化學(xué)習(xí)算法與一種新型的自博弈學(xué)習(xí)算法相結(jié)合,在不借助任何領(lǐng)域知識的情況下,直接從牌面信息端到端地學(xué)習(xí)候選動作進行決策。

他們還指出,AlphaHoldem的成功得益于其采用了一種高效的狀態(tài)編碼來完整地描述當(dāng)前及歷史狀態(tài)信息、一種基于Trinal-Clip PPO損失的深度強化學(xué)習(xí)算法來大幅提高訓(xùn)練過程的穩(wěn)定性和收斂速度、以及一種新型的Best-K自博弈方式來有效地緩解德?lián)洳┺闹写嬖诘牟呗钥酥茊栴}。

AlphaHoldem 使用了1臺包含8塊GPU卡的服務(wù)器,經(jīng)過三天的自博弈學(xué)習(xí)后,戰(zhàn)勝了Slumbot和DeepStack。

每次決策時,AlphaHoldem都僅用了不到3毫秒,比DeepStack速度提升超過了1000倍。同時,AlphaHoldem與四位高水平德州撲克選手對抗1萬局的結(jié)果表明其已經(jīng)達到了人類專業(yè)玩家水平。

3團隊部分成員介紹

趙恩民,論文一作。中國科學(xué)院自動化研究所模式識別與智能系統(tǒng)專業(yè)博士四年級研究生,2018年于清華大學(xué)獲得工學(xué)學(xué)士學(xué)位。研究方向為計算機撲克和深度強化學(xué)習(xí)。

興軍亮,中國科學(xué)院自動化研究所研究員、博士生導(dǎo)師、特聘青年骨干,中國科學(xué)院大學(xué)崗位教授,中國科學(xué)院人工智能創(chuàng)新研究院創(chuàng)新專家組專家。興教授2012年畢業(yè)于清華大學(xué)計算機科學(xué)與技術(shù)系,獲工學(xué)博士學(xué)位。

此外,他還是美國電器與電子工程學(xué)會(IEEE)高級會員、美國《科學(xué)》雜志中國官方公眾號特邀評論員、中國計算機學(xué)會(CCF)高級會員、計算機視覺專委會委員。

他的主要研究領(lǐng)域為計算機視覺和計算機博弈。目前已在包括頂級國際期刊如TPAMI、IJCV、AI以及頂級國際會議上如ICCV、CVPR、AAAI、IJCAI上發(fā)表論文100多篇,谷歌學(xué)術(shù)引用超過10000次,出版計算機視覺譯著2部,參與撰寫深度學(xué)習(xí)領(lǐng)域著作1部、人工智能領(lǐng)域著作1部。

曾獲清華大學(xué)計算機系“學(xué)術(shù)新秀”、“谷歌學(xué)者”、多次頂級國際和國內(nèi)會議最佳論文獎等榮譽和獎勵,以及十余次在人臉識別、車輛識別、視頻識別等國際和國內(nèi)挑戰(zhàn)賽中獲獎。

目前作為項目和課題負(fù)責(zé)人承擔(dān)多項國家重點項目,研發(fā)的視覺感知相關(guān)技術(shù)在國家廣電總局、華為、微軟等得到了多次驗證應(yīng)用和落地推廣,取得了良好的經(jīng)濟效益和社會價值。

近年來主要圍繞深度強化學(xué)習(xí)相關(guān)的智能感知和決策問題,研發(fā)了多款針對不同游戲的博弈決策AI,其中研發(fā)的星際爭霸AI曾獲2017年IEEE CIG星際爭霸AI第2名,研發(fā)的德州撲克AI程序AlphaHoldem勝率超過了目前公開的最好德州撲克AI程序DeepStack,速度提升超過1000倍。開放了學(xué)界首個大規(guī)模不完美信息博弈平臺OpenHoldem。

關(guān)鍵詞: AAAI 2022大獎出爐中科院德州撲克程序Alp

版權(quán)聲明:
    凡注明來網(wǎng)絡(luò)消費網(wǎng)的作品,版權(quán)均屬網(wǎng)絡(luò)消費網(wǎng)所有,未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明"來源:網(wǎng)絡(luò)消費網(wǎng)"。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
    除來源署名為網(wǎng)絡(luò)消費網(wǎng)稿件外,其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考并自行核實。
熱文

網(wǎng)站首頁 |網(wǎng)站簡介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
 

Copyright © 2000-2020 www.ffpps.com All Rights Reserved.
 

中國網(wǎng)絡(luò)消費網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像
 

聯(lián)系郵箱:920 891 263@qq.com

備案號:京ICP備2022016840號-15

營業(yè)執(zhí)照公示信息

男人J进入女人P免费狂躁 | 男人狂桶女人出白浆免费视频| 日本人69XXX| 妓院里的中国姑娘| 办公室高h荡肉呻吟| 影音先锋资源站| 扒开美女内裤狂揉下部| 末满18禁止看的色视频| 人妻精品久久久久中文字幕| √天堂资源在线官网| 久久人妻少妇嫩草av蜜桃| HD老熟女BBXXX| 荷兰女人裸体性做爰| 巜饥渴的少妇在线观看| 人妻av中文系列| 少妇高潮喷水久久久久久久久| 国产又色又爽又黄刺激在线观看| 少妇洁白无删减版178章| 97成人碰碰久久人人超级碰OO| 国产精品综合一区二区三区| 国产69精品久久久久| 亚洲AV永久无码老湿机| 亚洲AV无码专区亚洲AV伊甸园| 猛烈顶弄h禁欲医生h怀孕| 国产精品人妻一区二区三区四区| 欧洲美熟女乱又伦av影片| 精品人伦一区二区三区蜜桃小说 | 麻豆免费视频网站入口在线观看| 国产a国产片国产| 日本55丰满熟妇厨房伦| 俄罗斯毛毛xxxx喷水| 极品教师韩剧在线观看第一集| 在无限游戏里花式挨ch| 一女三黑人玩4p惨叫| 丰满老熟妇好大bbbbb仙踪林| 色欲av午夜一区二区三区| 国产色视频网免费| 久久精品国产亚洲av嫖农村妇女| 四川老妇山边性对白| 处破初破苞一区二区三区| 啊灬啊灬啊灬啊灬高潮了|