※ 引述《york159 (解癮了)》之銘言:
: 問個問題,
: ai要怎麼訓練指向技的「施放」?
講一些我目前理解的RLAI,以你的例子來說,機器人抓小火龍會選擇對全局來說勝率最高
的位置,而非命中率最高的位置(雖然很可能重複)。 對AI來說她做的決定會類似過去100
萬次機器人發Q抓小火龍的對局中,有沒有類似情況的pattern。
假設有10萬個類似的,他就會統計出往哪裡Q會提升最高的全局勝率。雖然我們常常會認
為說全局勝率就是抓到小火龍阿,抓到就贏會戰了然後推堡。
以常理來說是,但是在某些時刻可能不是最優解,世界賽中T1打AL有一個畫面是AL贏會戰
結果巴龍還沒出生,導致這次會戰雖然贏了但是收穫很少;如果他們當時選擇不打或是晚
點打可能會好,這意味著現實最優解可能不是全局最優解。這是人類很難學習到的地方,
因為我們精力有限而且很難量化指標。可是對AI來說,他可以對戰上千萬場並觀察到這些
事情的發生序列進而得出結論。例如說在100萬場中獲得勝利的對局中,有87%吃了巴龍、
有56%拿了首塔,他可以從量化的指標中知道真正重要的決策是甚麼。但是我們從沒有聽說
過哪一位分析師說打贏這個會戰勝率+2%之類的,對吧
那AI的缺點是甚麼?是它無法解釋或理解這麼做的原因,它會去打會戰、拿首塔或是搶龍
是因為在它的對戰經驗中獲得勝利的對局中都有做這是些事情;但是它不會知道拿火龍後
因為有加攻擊力,所以更好推線跟會戰勝率更好,AI只負責觀察並不解釋。
最值得期待的是如果有一天,真的能訓練出如同alphago的AI,那很有可能推翻我們對遊戲
的理解,某件裝備、某個地圖物件的價值可能會跟我們想像的完全不一樣,甚至連EU流可
能都會被否定掉。
PS:我有點忘記是不是T1打AL了XD
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.125.82 (臺灣)
※ 文章網址 ※
→
diefish5566 :
裝備、地圖物件的價值和EU流已經被真人否定很多次了
11/27 17:45
→
diefish5566 :
最後都是設計師教你玩遊戲
不准否定
11/27 17:46
推
ZielC :
設計師否定掉的東西有的無反制手段,不交流
11/27 19:56
→
ZielC :
有些東西對環境沒有好處,對,突破天際怎麼還沒死
11/27 19:56
→
ZielC :
正經說我很懷疑AI如何跳出區域解,上次星海有學到5
11/27 19:58
→
ZielC :
d狗的,我看他這輩子都是5d狗
11/27 19:59
推
ZielC :
如果太過複雜的設定了激勵函數,某個程度上只是再
11/27 20:01
→
ZielC :
現了工程師的遊戲理解而已
11/27 20:01
推
AppleApe :
最後一段講得很好
我也是最期待AI做這件事
感覺一定
11/27 20:30
→
AppleApe :
會讓人驚嘆怎麼會有這種玩法
11/27 20:30
→
jjjj222 :
EU流後來已經不是因為強了,
是為了簡化遊戲
11/27 20:49
推
jason401310 :
EU早就被打趴了啊,不然幹嘛一直針對換線改版
11/27 22:06
噓
MonicaLS :
AGI了解一下,AI是可以理解為什麼要吃龍的意義的
11/27 22:47
→
MonicaLS :
真的不想浪費時間跟不懂AI的人解釋
11/27 22:47
→
SolomonFaith :
比較好奇AI也怎麼下視野,遊戲很常要靠視野優勢或
11/28 01:01
→
SolomonFaith :
資訊判斷該下什麼決策,而且每種開局自己的選角和
11/28 01:01
→
SolomonFaith :
對方的選角都有不同對應的方式,感覺比棋盤更複雜
11/28 01:01
→
SolomonFaith :
?也很好奇AI能決定什麼時間在哪裡插眼嗎?且不說
11/28 01:01
→
SolomonFaith :
訓練,光是整理要喂的feature應該都蠻難的,實現感
11/28 01:01
→
SolomonFaith :
覺還要好一陣子
11/28 01:01
→
etu7912a48 :
我給的是目前唯一有實戰紀錄的AI解法,你硬要扯AGI
11/28 10:59
→
etu7912a48 :
,那就給一個agi的實例阿,不是隨便噴人一句不懂就
11/28 10:59
→
etu7912a48 :
代表你比較厲害好嗎?
11/28 11:00