囚徒困境（Prisoner's Dilemma） - 趙永祥的數位歷程檔

位置: 趙永祥 > 策略管理

囚徒困境（Prisoner's Dilemma）

2020-09-08 07:11:12, 回應(0), 人氣(818)

囚徒困境（Prisoner's Dilemma）

囚徒困境（英語：Prisoner's Dilemma）是賽局理論的非零和賽局中具代表性的例子，反映個人最佳選擇並非團體最佳選擇。或者說在一個群體中，個人做出理性選擇卻往往導致集體的非理性。雖然困境本身只屬模型性質，但現實中的價格競爭、環境保護等方面，也會頻繁出現類似情況。

單次發生的囚徒困境，和多次重複的囚徒困境結果不會一樣。

在重複的囚徒困境中，賽局被反覆地進行。

因而每個參與者都有機會去「懲罰」另一個參與者前一回合的不合作行為。這時，合作可能會作為均衡的結果出現。欺騙的動機這時可能被受到懲罰的威脅所克服，從而可能導向一個較好的、合作的結果。作為反覆接近無限的數量，納許均衡趨向於帕累托最優。

囚徒困境的主旨為，囚徒們彼此合作，堅不吐實，可為全體帶來最佳利益（縮短刑期），但在無法溝通的情況下，因為出賣同夥可為自己帶來利益（無罪開釋），也因為同夥把自己招出來可為他帶來利益，因此彼此出賣雖違反最佳共同利益，反而是自己最大利益所在。但實際上，執法機構不可能設立如此情境來誘使所有囚徒招供，因為囚徒們必須考慮刑期以外之因素（出賣同夥會受到報復等），而無法完全以執法者所設立之利益（刑期）作考量，所以這是一個參考性的學術問題。

經典的囚徒困境[編輯]

1950年，由就職於蘭德公司的梅里爾·弗勒德和梅爾文·德雷希爾擬定出相關困境的理論，後來由顧問艾伯特·塔克以囚徒方式闡述，並命名為「囚徒困境」。經典的囚徒困境如下：

警方逮捕甲、乙兩名嫌疑犯，但沒有足夠證據指控二人有罪。於是警方分開囚禁嫌疑犯，分別和二人見面，並向雙方提供以下相同的選擇：

若一人認罪並作證檢控對方（相關術語稱「背叛」對方），而對方保持沉默，此人將即時獲釋，沉默者將判監10年。
若二人都保持沉默（相關術語稱互相「合作」），則二人同樣判監半年。
若二人都互相檢舉（互相「背叛」），則二人同樣判監5年。

用表格概述如下：

	乙沉默（合作）	乙認罪（背叛）
甲沉默（合作）	二人同服刑半年	甲服刑10年；乙即時獲釋
甲認罪（背叛）	甲即時獲釋；乙服刑10年	二人同服刑5年

解說[編輯]

如同賽局理論的其他例證，囚徒困境假定每個參與者（即「囚徒」）都是利己的，即都尋求最大自身利益，而不關心另一參與者的利益。參與者某一策略所得利益，如果在任何情況下都比其他策略要低的話，此策略稱為「嚴格劣勢」，理性的參與者絕不會選擇。另外，沒有任何其他力量干預個人決策，參與者可完全按照自己意願選擇策略。

囚徒到底應該選擇哪一項策略，才能將自己個人的刑期縮至最短？

兩名囚徒由於隔絕監禁，並不知道對方選擇；而即使他們能交談，還是未必能夠盡信對方不會反口。就個人的理性選擇而言，檢舉背叛對方所得刑期，總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇：

若對方沉默、我背叛會讓我獲釋，所以會選擇背叛。
若對方背叛指控我，我也要指控對方才能得到較低的刑期，所以也是會選擇背叛。

二人面對的情況一樣，所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此，這場賽局中唯一可能達到的納許均衡，就是雙方參與者都背叛對方，結果二人同樣服刑5年。

這場賽局的納許均衡，顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言，如果兩個參與者都合作保持沉默，兩人都只會被判刑半年，總體利益更高，結果也比兩人背叛對方、判刑5年的情況較佳。但根據以上假設，二人均為理性的個人，且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛，結果二人判監均比合作為高，總體利益較合作為低。這就是「困境」所在。例子有效地證明了：非零和賽局中，帕累托最優和納許均衡是互相衝突的。

https://zh.wikipedia.org/wiki/%E5%9B%9A%E5%BE%92%E5%9B%B0%E5%A2%83