勵志人生首頁讀後感

博弈論讀後感

博弈論讀後感(一)

博弈小術語: 收益矩陣、均衡、納什均衡、零和博弈論,也稱互動的決策論。它的基本假設之一是人是理性的。但現實並非如此,人不可能具有完備的知識也不可能時時理性。儘管如此,人們仍然樂意用博弈論的方法來解釋和分析現實社會現象。

每一次的人際交往都可以簡化成兩個基本選擇:合作或背叛。比如在前面的日誌里提到的囚徒困境,在人際交往中普遍存在囚徒困境:雙方明知合作能帶來雙贏,卻因為理性的自私和信任的缺乏而導致合作難以形成。當一次性博弈出現時,人們往往會選擇背叛。這在現實生活中也有很多例子,比如飛機場,為什麼食品價格敢定那麼高呢?因為它知道候機的乘客不會是它的長期客戶。而當博弈的終點不可知時,就又是另一回事了。

在多次博弈中,背叛仍不可避免,但合作的機率會相比一次博弈有提高。至於如何更加有效地減少背叛,一種辦法是引入懲罰機制,可以是帶劍的法律或溫和些的道德約束。現實中的集體活動等候上車問題就是個例子,讓那些遲到的人自己負責任就是一種懲罰措施。

當然,如果在開頭就有一些善意的人出來表明合作態度對提高合作機會也是有幫助的,不管這些善意的人是出於何種目的。一旦合作開始,人們就能體驗到合作的好處,並樂於堅持一段時間。至於時間的長短,關鍵是看博弈的終點是否明確。這在上面也提到了,如果終點明確,人們就會傾向於在最後一次背叛。而當大家都知道對方會這樣想時,倒數第二次就會成為新的終點,新的背叛。如此反覆推演,合作從一開始就很難形成。注意上面的論述是基於沒有懲罰機制的基礎。

有一個很有意思的實驗,是由愛克斯羅德完成的。這是一個計算機模擬競賽,參賽的62位科學家遞交了自己寫的關於博弈策略的代碼,同時加上愛克斯羅德本人寫的一個隨即策略代碼,共63個。結果表明,前15名中只有第8名是非善意的程式,最後15名只有一個善意的,奪魁的是一報還一報策略。

這個實力不凡的一報還一報策略就是對方選擇什麼我就回應什麼,你合作我就合作,你背叛我也背叛。這種策略體現的是善良、可激怒、寬容、簡單等好品質。雖然該策略在每次對局中分數都不能超過對手,但它的總分卻是最高的。它賴以生存的基礎很牢固。而那個非善意程式的成功是建立在別人的失敗之上。可以想像,如果賦予這些程式以進化的基因,久而久之,非善意程式的存活率將下降。

博弈論讀後感(二)

我閱讀的書是《博弈論教程》,王則柯、李傑編著,中國人民大學出版社。此書一共分為九章,我自學了前七章,總結了一下學習心得。

博弈大致有以下兩種分類:按照博弈各方是否同時決策可以分為:同時決策博弈(靜態博弈)、序貫決策博弈(動態博弈)、同時決策博弈與序貫決策博弈的混合博弈。按照大家是否清楚各種對局情況下每個人的得益分為:完全信息博弈和不完全信息博弈。自由組合一下啊,就會發現博弈的四大部分:完全信息的靜態博弈、不完全信息的靜態博弈、完全信息的動態博弈、不完全信息的動態博弈。

同時決策博弈

納什均衡:局中人單獨改變策略不會得到好處的對局即策略組合,就是納什均衡。設 是 人博弈 的一個策略組合。如果對於每個局中人 , ,對於所有的 都成立,則我們稱策略組合 是該博弈的一個納什均衡。

優勢策略有嚴格優勢策略和弱優勢策略之分,可以用嚴格劣勢策略逐次消去法尋找納什均衡。相對優勢策略可以利用相對優勢策略劃線法或者箭頭指向法尋找納什均衡。

混合策略納什均衡

對於有時候納什均衡不是唯一的,有時候納什均衡是不存在的,按照上述方法尋找博弈的結果有時候不能實現,所以需要展開納什均衡。

混合策略與純策略的區別在於,混合策略是局中人可以按照一定的機率,隨機的從策略組合中選擇一種純策略作為實際的行動。

混合策略:有一個有N個局中人參與的策略式博弈 中,假定局中人 有 個純策略,即 則機率分布 ,其中 , ,稱為局中人 的一個混合策略,這裡 表示局中人 選擇純策略 的機率。

混合策略納什均衡:是指給定對方選擇該相對最優混合策略的條件下,能使局中人自身的期望支付達到最大的混合策略,必須滿足的條件如下:

利用反應函式法和直線交叉法,尋找同時決策有限博弈的混合策略納什均衡。當存在多重納什均衡時,需要用帕累托優勢標準或者風險優勢標準來篩選。

帕累托效率標準:經濟的效率體現在配置社會資源以及改善人們的情況,主要看資源是否被充分利用,要想再改善某個人的利益,就必須損害其他局中人的利益,這時候就說一個經濟已經實現了帕累托效率,相反,如果還可以在不損害別人的情況下改善任何人,就認為經濟資源尚未被充分利用,就不能說經濟已達到帕累托最優。

序貫決策博弈

序貫決策博弈的一個重要特徵是總有一個局中人率先採取行動,因此衍生出先動優勢和後動優勢。先動優勢:雖然雙方都得到好處,但是先決策先行動的一方得益多一些(比如情侶博弈)。後動優勢:雖然雙方都得到好處,但是後決策後行動的一方得益多一些(比如分蛋糕、產品定價)。在這一節中,要準確把握了先動優勢和後動優勢的概念,摒棄先動者得益大於後動者得益即為先動優勢和後動者得益大於先動者得益即為後動優勢的觀念。

利用倒推法尋找序貫決策博弈的納什均衡。

同時博弈與序貫博弈

子博弈:在一個 人展開型博弈 中,滿足如下3個條件的一個博弈 ,稱為 的一個子博弈:(1) 的博弈樹是 的博弈樹的一支;(2)博弈 不能分割博弈 的信息集,具體來說,只要博弈 的某個信息集的任何一個決策節點是博弈 的一個決策節點,那麼博弈 的這個信息集的每一個決策節點都必須是博弈 的決策節點;(3)博弈 的末端節點處的支付向量,與博弈 在這些末端節點上的支付向量的有關部分重合。

重複博弈和策略性行動

子博弈精練納什均衡:令 表示階段博弈, 是 重複 次的重複博弈, ,如果 有唯一的納什均衡,那麼重複博弈 的唯一的子博弈精練納什均衡結果,是階段博弈 的納什均衡重複 次,即在每個階段博弈出現的都是一次性博弈的那個均衡結果。

對於無限次重複的囚徒困境博弈,存在觸發策略,兩個著名的觸發策略分別是冷酷策略和禮尚往來策略。冷酷策略:指雙方一開始的時候選擇合作,然後繼續選擇合作,直到有一方選擇背叛,從此永遠選擇背叛,這個策略之所以冷酷,是因為任何局中人的一次性背叛將觸犯永遠的不合作。禮尚往來策略:開始的時候和冷酷策略一樣,即雙方都選擇合作,在以後的每個階段,如果你的對手在最近的一次博弈採取合作策略或者在最近聯繫k次策略中都選擇合作策略,則你繼續合作,如果你的對手在上一個階段的博弈中採取背叛策略,則你在下一階段博弈中採取背叛策略報復,或者在以後k次策略中選擇背叛進行報復。

對手是否採取背叛策略,取決於有效收益率 。

零和博弈

零和博弈又稱零和遊戲,與非零和博弈相對,屬非合作博弈,指參與博弈的各方,在嚴格競爭下,一方的收益必然意味著另一方的損失,博弈各方的收益和損失相加總和永遠為零。雙方不存在合作的可能。

尋求二人零和博弈的純策略納什均衡,可以採用相對優勢策略劃線法,也可以採用最小最大法,最小最大法依託的思想是:局中人在進行零和博弈時對他們自己去得好結果的機會報悲觀的態度,行局中人採用maximin的決策原則,列局中人採用minimax的決策原則。此方法只是用於零和博弈的純策略納什均衡。

博弈論讀後感(三)

博弈論是一門很深的學問,主要研究個體如何在錯綜複雜的相互影響中得出最合理的策略,其套用的領域也非常廣,最通常的套用該是經濟學吧。這本書中的理論很深奧,其數學模型的推導更是複雜,然而書中的案例卻既淺顯又生動,很值得一看。現在拿出一個例子來,和大家一起分析其中的道理、分享其中的趣味。

這個例子是智豬博弈的故事,講的是:豬圈裡有兩頭豬,()一頭大豬,一頭小豬。豬圈的一邊有個踏板,每踩一下踏板,在遠離踏板的豬圈的另一邊的

投食口就會落下少量的食物。如果有一隻豬去踩踏板,另一隻豬就有機會搶先吃到另一邊落下的食物。當小豬踩動踏板時,大豬會在小豬跑到食槽之前剛好吃光所有的食物;若是大豬踩動了踏板,則還有機會在小豬吃完落下的食物之前跑到食槽,爭吃到另一半殘羹。

那麼,兩隻豬各會採取什麼策略?答案是:小豬將選擇搭便車策略,也就是舒舒服服地等在食槽邊;而大豬則為一點殘羹不知疲倦地奔忙於踏板和食槽之間。

原因何在?因為,小豬踩踏板將一無所獲,不踩踏板反而能吃上食物。對小豬而言,無論大豬是否踩動踏板,不踩踏板總是好的選擇。反觀大豬,已明知小豬是不會去踩動踏板的,自己親自去踩踏板總比不踩強吧,所以只好親力親為了。

小豬躺著大豬跑的現象是由於故事中的遊戲規則所導致的。規則的核心指標是:每次落下的食物數量和踏板與投食口之間的距離。 如果改變一下核心指標,豬圈裡還會出現同樣的小豬躺著大豬跑的景象嗎?試試看。

改變方案一:減量方案。投食僅原來的一半分量。結果是小豬大豬都不去踩踏板了。小豬去踩,大豬將會把食物吃完;大豬去踩,小豬將也會把食物吃完。誰去踩踏板,就意味著為對方貢獻食物,所以誰也不會有踩踏板的動力了。

改變方案二:增量方案。投食為原來的一倍分量。結果是小豬、大豬都會去踩踏板。誰想吃,誰就會去踩踏板。反正對方不會一次把食物吃完。小豬和大豬相當於生活在物質相對豐富的共產主義社會,所以競爭意識卻不會很強。

改變方案三:減量加移位方案。投食僅原來的一半分量,但同時將投食口移到踏板附近。結果呢,小豬和大豬都在拚命地搶著踩踏板。等待者不得食,而多勞者多得。每次的收穫剛好消費完。

這個故事給了競爭中的弱者(小豬)以等待為最佳策略的啟發。但是對於社會而言,因為小豬未能參與競爭,小豬搭便車時的社會資源配置的並不是最佳狀態。為使資源最有效配置,規則的設計者是不願看見有人搭便車的,政府如此,公司的老闆也是如此。而能否完全杜絕搭便車現象,就要看遊戲規則的核心指標設定是否合適了。

書中還有很多例子,並進行了分析,我們都能悟出些道理。所以讀的時候會有一個感覺,那就是先有事實,後由理論。也就是我們常說的理論來源於實踐。感覺就像是先有這個社會現象,然後才有這個理論去分析,這個理論套在這個社會現象上恰好合適。

返回頂部