財政司長曾俊華最近發表的一篇網誌,題為《從比賽中學習》,傳媒廣泛報道,但都是只引述文中談及電視劇《大時代》的段落。其實曾司長在文中用了更多篇幅討論「囚徒困境」的博弈策略;文題裡的「比賽」,就是有關策略的設計比賽。如果只看報道,不讀原文,便錯過了這主要內容。
「囚徒困境」的遊戲規則和策略分析,見6月4日本欄。簡單地說,博弈雙方都可以在「合作」和「背叛」兩種策略之間選取其一;倘二人都選「合作」,可以得到最大的共同利益,但如果自己選了「合作」,對方卻選「背叛」,則自己將受最大損害。如果遊戲只玩一次,雙方必然一同選擇「背叛」,以保障自己最大利益。但如果是不斷重複玩下去,從長遠利益考慮,雙方終會堅持「合作」。
如果玩到某次,其中一方為要攫取眼前更大利益,突然轉為「背叛」,那末另一方必然從下一次開始也轉取「背叛」,令雙方重墮互輸的狀態,直至任何一方願意率先「合作」,重建互信。這就是曾司長網誌裡描述的Tit For Tat(以牙還牙)策略,對怎樣處理現實世界中人際關係裡的矛盾,頗有啟發。
關於博弈者在「重複囚徒困境」裡採取的策略,還有一點很重要的考慮。假設規定遊戲重複玩到一個指定次數之後便告結束,例如說,只玩100次。那末玩到第100次的時候,雙方都會想:這是最後一次了,不用再考慮以後Tit For Tat的問題了。雙方都估計,對方為求在這終極一次取得最大利益,必會「背叛」,於是自己也必須「背叛」了。所以,如果重複有限次數,到最後一次雙方必然「背叛」。
但我們還可往前再推算一步。玩第99次時,雙方也會想:按先前的邏輯,不論我這一次採取甚麼策略,「合作」抑或「背叛」,下次(即最後一次)對方一定是「背叛」的,即Tit For Tat已不再有效,所以我現在就應「背叛」,以爭取最大利益。同樣的推理可以繼續用於第98次、第97次以至前面的每一次,即用歸納法可推導出:自始至終,每次都應「背叛」!
Tit For Tat只有在無限次數的重複博弈中才會發揮作用,對有限次數的博弈並不奏效。(完)
以牙還牙