Hong Kong Logistics and Supply Chain MultiTech R&D Centre > Blog
Blog
Archives
2023
《學過、無學過、不用學、學一半》- 第三章
2 May 2023

有一個出名的理論,它影響了多個不同的領域,包括社會科學、經濟學、生物學、及計算機科學等,它能夠推斷出在沒有完整資訊的情況下,人類的理性選擇,這個理論的名字是博弈論。在它的模型內,所有人都是自私的,即都會試圖使其所獲得的回報達到最大化。就如在博弈論的經典故事 - 「囚徒困境」中,兩個囚徒都會選擇招認,因為通過這個選擇,每一位囚徒都可以獲得個別最大的回報。有趣的是,如果他們能夠互相合作,並都擁有完整資訊,他們便有可能改為選擇一個使他們的共同利益得到最大化的選項,即都保持沉默。

在現實世界中,德州撲克是一個經典的不完整資訊遊戲,玩家各有2張底牌,底牌資訊是隱藏的,即玩家不知道對手的底牌是好牌或壞牌。玩家可以採取各種策略來勝出比賽,例如虛張聲勢,即手上其實沒有強牌,但卻作出巨額下注,裝出志在必得的行為。有人試過用深度學習來建構有關的人工智能模型。但因為可能性太多的關係,效果只是一般。

後來,有一個名為Libratus的人工智能軟件出現了,它在一場比賽中連贏4位人類德州撲克頂尖高手,並取得20萬美元的獎金。根據賽後的統計,在整個比賽中,人類選手甚至從未領先過。與其他人工智能相比,Libratus並沒有使用任何機器學習。它主要是根據博弈論,計算出概率分布,通過與對手進行各場大戰,使自己的回報最大化,最終獲得勝利。

在一般情況下,我們人類所得到的資訊都是不完整的,就如撲克一樣,我們都不知道對手的底牌是好還是差,因此在使用機器學習來幫助決策時,往往會遇到一定的困難。儘管如此,在處理一些實際問題時,卻也不一定可以單純用建基於博弈論來生成的人工智能來把事情辦好,如果可以同時加上機器學習,在兩款人工智能互補不足的建構下,效果可能會更好。

LSCM – David Chung