人工智能與“星際爭(zhēng)霸”:多智能體博弈研究新進(jìn)展
發(fā)布時(shí)間:2021-01-11 19:11
多智能體博弈游戲具有實(shí)時(shí)對(duì)抗、群體協(xié)作、非完全信息博弈、龐大的搜索空間、多復(fù)雜任務(wù)和時(shí)間空間推理等特點(diǎn),是當(dāng)前人工智能領(lǐng)域極具挑戰(zhàn)的難題。同時(shí),該領(lǐng)域研究成果在社會(huì)管理、智能交通、經(jīng)濟(jì)、軍事等領(lǐng)域有廣闊的應(yīng)用前景。以具有代表性的多智能體博弈游戲"星際爭(zhēng)霸"為主要研究對(duì)象,通過(guò)分析研究難度、總結(jié)研究方法、介紹研究環(huán)境及數(shù)據(jù)集與競(jìng)賽資源,對(duì)近年來(lái)該領(lǐng)域人工智能研究成果進(jìn)行了梳理和總結(jié),并對(duì)該領(lǐng)域未來(lái)可能的發(fā)展方向進(jìn)行預(yù)測(cè),為相關(guān)研究工作的開展提供可借鑒參考信息。
【文章來(lái)源】:無(wú)人系統(tǒng)技術(shù). 2019,2(01)
【文章頁(yè)數(shù)】:12 頁(yè)
【部分圖文】:
星際爭(zhēng)霸I競(jìng)賽環(huán)境Fig.1StarCraftIcompetitionenvironment
都有一定概率促成最后的勝利。(4)巨大的搜索空間及多復(fù)雜任務(wù)。實(shí)時(shí)策略游戲更復(fù)雜,其在狀態(tài)空間的規(guī)模上和每個(gè)決策環(huán)節(jié)可選擇的動(dòng)作序列均非常巨大。例如,就狀態(tài)空間而言,一般的棋類游戲狀態(tài)空間在1050左右,德州撲克約為1080,圍棋的狀態(tài)空間為10170。而星際爭(zhēng)霸一個(gè)典型地圖上的狀態(tài)空間比所有這些棋類的狀態(tài)空間都要大幾個(gè)量級(jí)。以一個(gè)典型的128×128像素地圖為例,在任何時(shí)候,地圖上可能會(huì)有5~400個(gè)單元,每個(gè)單元都可能存在一圖1星際爭(zhēng)霸I競(jìng)賽環(huán)境Fig.1StarCraftIcompetitionenvironment圖2星際爭(zhēng)霸II游戲環(huán)境Fig.2StarCraftIIgameenvironment
≈35,d≈80,圍棋b≈30~300,d≈150~200,而星際爭(zhēng)霸b的范圍是1050~10200,d≈36000。多智能體實(shí)時(shí)策略游戲的這些突出難點(diǎn)給該領(lǐng)域人工智能研究方法帶來(lái)巨大挑戰(zhàn)。文獻(xiàn)[2]將本領(lǐng)域研究中的挑戰(zhàn)總結(jié)為規(guī)劃、學(xué)習(xí)、不確定性、時(shí)空推理、領(lǐng)域知識(shí)開發(fā)和任務(wù)分解六個(gè)方面。在此基礎(chǔ)上,我們將當(dāng)前研究中的挑戰(zhàn)分為多尺度規(guī)劃與多層次決策一致性、多途徑策略學(xué)習(xí)、降低不確定性、空間和時(shí)間上的多模聯(lián)合推理、領(lǐng)域知識(shí)開發(fā)和多層次任務(wù)分解六大挑戰(zhàn)。本領(lǐng)域研究難點(diǎn)與研究挑戰(zhàn)的對(duì)應(yīng)關(guān)系如圖3所示。特點(diǎn)挑戰(zhàn)規(guī)劃與決策策略學(xué)習(xí)降低不確定性空間和時(shí)間推理領(lǐng)域知識(shí)開發(fā)多層次任務(wù)分解巨大搜索空間和多復(fù)雜任務(wù)非完整信息搏弈及不確定性實(shí)時(shí)對(duì)抗及動(dòng)作持續(xù)性多玩家共存及多智能體合作圖3多智能體實(shí)時(shí)策略游戲存在的難點(diǎn)與人工智能研究挑戰(zhàn)的對(duì)應(yīng)關(guān)系Fig.3Correspondencebetweenthedifficultiesofmulti-agentreal-timestrategygamesandthechallengesofartificialintelligenceresearch(1)多尺度規(guī)劃與多層次決策一致性。一方面,由于多智能體游戲中巨大的狀態(tài)空間和可輸出動(dòng)作,使得一般的對(duì)抗規(guī)劃方法如博弈樹搜索已不能滿足需求,多智能體實(shí)時(shí)策略游戲需要多尺度的規(guī)劃。另一方面,實(shí)時(shí)約束為多異構(gòu)智能體大量的低層次動(dòng)作規(guī)劃與高層次全局決策目標(biāo)的一致性耦合帶來(lái)很大困難,難點(diǎn)在于設(shè)計(jì)一種既考慮復(fù)雜多目標(biāo)優(yōu)化又兼顧計(jì)算效率的方法,最終形成多智能體整體行動(dòng)的實(shí)時(shí)一致性。(2)多途徑策略學(xué)習(xí)。除對(duì)抗規(guī)劃技術(shù)之外,一些研究團(tuán)隊(duì)將注意力放在多途徑策略學(xué)習(xí)技術(shù)上,其中包含三種策略學(xué)習(xí)問(wèn)題。一是提前學(xué)習(xí),即開發(fā)已有數(shù)據(jù),如已有游戲回放、已有的針對(duì)特定地
本文編號(hào):2971320
【文章來(lái)源】:無(wú)人系統(tǒng)技術(shù). 2019,2(01)
【文章頁(yè)數(shù)】:12 頁(yè)
【部分圖文】:
星際爭(zhēng)霸I競(jìng)賽環(huán)境Fig.1StarCraftIcompetitionenvironment
都有一定概率促成最后的勝利。(4)巨大的搜索空間及多復(fù)雜任務(wù)。實(shí)時(shí)策略游戲更復(fù)雜,其在狀態(tài)空間的規(guī)模上和每個(gè)決策環(huán)節(jié)可選擇的動(dòng)作序列均非常巨大。例如,就狀態(tài)空間而言,一般的棋類游戲狀態(tài)空間在1050左右,德州撲克約為1080,圍棋的狀態(tài)空間為10170。而星際爭(zhēng)霸一個(gè)典型地圖上的狀態(tài)空間比所有這些棋類的狀態(tài)空間都要大幾個(gè)量級(jí)。以一個(gè)典型的128×128像素地圖為例,在任何時(shí)候,地圖上可能會(huì)有5~400個(gè)單元,每個(gè)單元都可能存在一圖1星際爭(zhēng)霸I競(jìng)賽環(huán)境Fig.1StarCraftIcompetitionenvironment圖2星際爭(zhēng)霸II游戲環(huán)境Fig.2StarCraftIIgameenvironment
≈35,d≈80,圍棋b≈30~300,d≈150~200,而星際爭(zhēng)霸b的范圍是1050~10200,d≈36000。多智能體實(shí)時(shí)策略游戲的這些突出難點(diǎn)給該領(lǐng)域人工智能研究方法帶來(lái)巨大挑戰(zhàn)。文獻(xiàn)[2]將本領(lǐng)域研究中的挑戰(zhàn)總結(jié)為規(guī)劃、學(xué)習(xí)、不確定性、時(shí)空推理、領(lǐng)域知識(shí)開發(fā)和任務(wù)分解六個(gè)方面。在此基礎(chǔ)上,我們將當(dāng)前研究中的挑戰(zhàn)分為多尺度規(guī)劃與多層次決策一致性、多途徑策略學(xué)習(xí)、降低不確定性、空間和時(shí)間上的多模聯(lián)合推理、領(lǐng)域知識(shí)開發(fā)和多層次任務(wù)分解六大挑戰(zhàn)。本領(lǐng)域研究難點(diǎn)與研究挑戰(zhàn)的對(duì)應(yīng)關(guān)系如圖3所示。特點(diǎn)挑戰(zhàn)規(guī)劃與決策策略學(xué)習(xí)降低不確定性空間和時(shí)間推理領(lǐng)域知識(shí)開發(fā)多層次任務(wù)分解巨大搜索空間和多復(fù)雜任務(wù)非完整信息搏弈及不確定性實(shí)時(shí)對(duì)抗及動(dòng)作持續(xù)性多玩家共存及多智能體合作圖3多智能體實(shí)時(shí)策略游戲存在的難點(diǎn)與人工智能研究挑戰(zhàn)的對(duì)應(yīng)關(guān)系Fig.3Correspondencebetweenthedifficultiesofmulti-agentreal-timestrategygamesandthechallengesofartificialintelligenceresearch(1)多尺度規(guī)劃與多層次決策一致性。一方面,由于多智能體游戲中巨大的狀態(tài)空間和可輸出動(dòng)作,使得一般的對(duì)抗規(guī)劃方法如博弈樹搜索已不能滿足需求,多智能體實(shí)時(shí)策略游戲需要多尺度的規(guī)劃。另一方面,實(shí)時(shí)約束為多異構(gòu)智能體大量的低層次動(dòng)作規(guī)劃與高層次全局決策目標(biāo)的一致性耦合帶來(lái)很大困難,難點(diǎn)在于設(shè)計(jì)一種既考慮復(fù)雜多目標(biāo)優(yōu)化又兼顧計(jì)算效率的方法,最終形成多智能體整體行動(dòng)的實(shí)時(shí)一致性。(2)多途徑策略學(xué)習(xí)。除對(duì)抗規(guī)劃技術(shù)之外,一些研究團(tuán)隊(duì)將注意力放在多途徑策略學(xué)習(xí)技術(shù)上,其中包含三種策略學(xué)習(xí)問(wèn)題。一是提前學(xué)習(xí),即開發(fā)已有數(shù)據(jù),如已有游戲回放、已有的針對(duì)特定地
本文編號(hào):2971320
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2971320.html
最近更新
教材專著