前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇博弈論在數(shù)學建模中的應用范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
[關鍵詞]卓越計劃;運籌學實驗;數(shù)學建模
[中圖分類號]G64 [文獻標識碼]A [文章編號]1005-6432(2012)41-0145-02
1 引 言
卓越工程師教育培養(yǎng)計劃(以下簡稱“卓越計劃”)是為貫徹落實黨的十七大提出的走中國特色新型工業(yè)化道路、建設創(chuàng)新型國家、建設人力資源強國等戰(zhàn)略部署,貫徹落實《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》實施的高等教育重大計劃。“卓越計劃”具有三個特點:行業(yè)企業(yè)深度參與培養(yǎng)過程、學校按通用標準和行業(yè)標準培養(yǎng)工程人才、強化培養(yǎng)學生的工程能力和創(chuàng)新能力。力求培養(yǎng)一大批面向工業(yè)世界、面向世界、面向未來、適應經(jīng)濟社會發(fā)展需要的高質(zhì)量各類型工程技術人才。而高校是實施“卓越計劃”的主要陣地,在“卓越計劃”的推進過程中加強專業(yè)課程改革是十分必要的。
管理運籌學的飛速發(fā)展為各個行業(yè)把握管理大型組織的復雜性提供了一套十分重要的工具。這些工具集中了世界的各個邊緣的知識,其中包括數(shù)學、統(tǒng)計與概率論、計量經(jīng)濟學、電機工程甚至生物學。這些外來的技術,如線性規(guī)劃、排隊論、自動控制理論、博弈論、動態(tài)規(guī)劃以及信息論,正在幫助解決各個行業(yè)中的實際問題。
因此,在管理運籌學教學中應針對所要解決實際問題的要求和其面臨的客觀環(huán)境條件,作出假設分析,抽象為數(shù)學模型,然后應用相關的數(shù)學知識加以解決。這就要求問題解決者要知識面廣、邏輯思維嚴密,這對于非數(shù)學專業(yè),特別是經(jīng)管類專業(yè)學生實在過于困難,因為,由于受到學時限制,經(jīng)管類專業(yè)學生對高等數(shù)學、線性代數(shù)、概率與數(shù)理統(tǒng)計等先修課程學的比較膚淺,沒有或很少經(jīng)過數(shù)學嚴密的邏輯思維方面的訓練,而且經(jīng)濟管理類專業(yè)學生是文理科兼收,有相當一部分學生在數(shù)學方面的課程普遍底子較差,這客觀上就給運籌學教學帶來很大困難。因此,為使經(jīng)濟管理類學生能正確全面地掌握各級管理中已被廣泛應用,且發(fā)展較成熟的最優(yōu)化理論與方法,并能恰當運用解決實際管理工作中的各種最優(yōu)化問題,有必要針對經(jīng)濟管理類專業(yè)學生的特點和運籌學課程的性質(zhì),進行運籌學教學方法的改革。
管理運籌學在數(shù)學建模中有著廣泛的應用,多年來許多數(shù)學建模競賽中都涉及運籌學的相關內(nèi)容。
首先介紹一下圖與網(wǎng)絡在數(shù)學建模中的應用,通過“奧運場館周邊的MS網(wǎng)絡設計方案”這個例子來說明其應用。假定奧運會期間每位觀眾平均出行兩次,一次為進出場館,一次為餐飲,并且出行均采取最短路徑。測算題目中20個商區(qū)的人流量分布。首先將建模結構圖轉化為無向賦權圖,并鑒于該圖的對稱性,通過設計一種特殊的流量計算方法對傳統(tǒng)的Dijkstra算法進行改進;其次,用MATLAB編寫求解最短路的應用程序,可以得到任意兩點間的最短路徑,進而得到觀眾出行的最短路徑和所經(jīng)過的商區(qū)。
接著通過“彩票發(fā)行方案的優(yōu)化設計模型”這個例子來說明決策論在數(shù)學建模中的應用。設計一種“更好”的方案,據(jù)此給彩票發(fā)行部門提出建議。對此問題,可根據(jù)效用理論中存在著主觀概率,以及彩票信息在人群中的傳播效應,建立主觀概率意義下的優(yōu)化模型。但這個模型是較大規(guī)模的非線性規(guī)劃模型,用窮舉法求解比較困難,可采用模擬退火算法來求解,用MATLAB編程實現(xiàn)。
3 結合數(shù)學建模改進教學方法
3. 1 更新教學觀念,充分重視實驗教學
結合數(shù)學建模在教學中增加實驗教學,以提高學生解決實際問題的能力、培養(yǎng)學生的觀察和動手能力為宗旨,有利于培養(yǎng)學生的創(chuàng)新意識與創(chuàng)新能力。在今后的教學中,統(tǒng)籌安排課時,根據(jù)教學進度合理安排實驗教學時間,力求在完成每一知識點的學習后安排一次實驗。實驗內(nèi)容將從實際問題出發(fā),突出本章節(jié)的基本原理與基本方法,教師進行監(jiān)督與指導,有助于學生對理論知識的掌握與理解,同時學生的實踐能力得到鍛煉,自主學習能力得到提升。
3. 2 分級教學
從學生實際出發(fā),因材施教是將幾乎處于同一水平的學生放在一起分別教學的一種教學手段。這種教學體系,根據(jù)學生的個體差異,按照不同科目的不同學習能力的高低將學生群體劃分成不同的級別或層次,有針對性地進行分班教學。有效的分級教學,能使教師節(jié)約精力突出重點積累經(jīng)驗,能讓學生盡可能地在各自的最近發(fā)展區(qū)得到充分的自由發(fā)展,謀求各個層次的學生都能獲得成功的體驗,促進學生的素質(zhì)得到全面提高。所以說,分級教學是建立在以學生成才為本理念基礎上,為實現(xiàn)教學目的的一致性和教學過程的互異性所進行的重要實踐,因材施教是分級教學的核心思想。在運籌學教學過程中,也可采用分級教學,培養(yǎng)學生對運籌學的學習興趣,進而培養(yǎng)數(shù)學建模人才。
3. 3 適宜的教學方法
近幾年來,由于擴招,生源的擴大,學生基礎參差不齊。因此,教師應根據(jù)學生具體情況,精心設計教案,調(diào)整教學內(nèi)容、次序和教學組織方式;盡量從學生感興趣的實例出發(fā),引入正題,以引發(fā)學生學習興趣,吸引學生注意力,使之能更好地掌握理解所學知識,并能恰當運用解決實際問題。
傳授新知識時,教師講授的時間不能過長,內(nèi)容不能過多,節(jié)奏不能過快,并要將基本概念、基本原理在不影響教學效果的情況下,分散介紹,使學生易于接受;否則,教師的講授將是無效的講授。運籌學課程內(nèi)容多、邏輯性強且抽象,需要學生理解掌握。因此,課堂上教師的板書一定要簡潔、條理清楚、重點和注意事項突出,并要求學生養(yǎng)成做筆記的良好習慣,以便于課后溫習理解和掌握。
3. 4 量體裁衣,突出專業(yè)特色
實驗教學中實驗內(nèi)容是反映教學目的載體,豐富的實驗內(nèi)容可以激發(fā)學生的學習熱情和拓寬知識結構。因此,實驗內(nèi)容的選擇要“量體裁衣”。面對知識面較廣的商學院學生,要想上好運籌學并凸顯其實用性,教師需具備充分的定量和經(jīng)濟管理學知識。例如,庫存模型通常將需求區(qū)分為固定和相對復雜的隨機兩類,當學生對需求滿足特定分布的假設產(chǎn)生疑惑時,教師就應當能夠適時介紹需求數(shù)據(jù)的獲取及利用統(tǒng)計學軟件對其分布加以判斷的方法,這可加深學生對運籌學交叉性的理解。
4 結 論
隨著科學技術的進步及“卓越計劃”的深入推進,需要對運籌學課程的建設持續(xù)探索與實踐,不斷完善教學方法與教學內(nèi)容,提高學生的學習興趣,激發(fā)學生的學習熱情,真正意義上實現(xiàn)運籌學作為經(jīng)濟管理類專業(yè)核心課程應有的重要作用,并鍛煉學生的動手能力,培養(yǎng)學生的創(chuàng)新意識與創(chuàng)新能力,以滿足創(chuàng)新教育的要求。
參考文獻:
[1]教育部. 教育部啟動“卓越工程師教育培養(yǎng)計劃”[Z].
[2]韓中庚. 數(shù)學建模競賽——獲獎論文精選與點評[M].北京:科學出版社,2007(5).
[3]劉智,汪妍. 管理運籌學教學的思考[J].高師理科學刊,2011(4):83
然而,直到最近10多年來,在均衡選擇方面才取得進展,這些進展提出當存在多個均衡時,應該怎樣去做。
一、納什均衡
納什,在1950年就已經(jīng)對納什均衡給出兩種解釋。第一種是群體作用的解釋。此種解釋假設,在博弈中存在對每個參與者又稱局中人(player)起作用的參與者群體。參與者不斷地積累各種純策略中的令人注意的經(jīng)驗信息,如果此博弈穩(wěn)定下來,那么這種均衡必是納什均衡。然而。Shapley在1964年證明,如果博弈沒有穩(wěn)定下來,那么必然存在一種策略選擇的有限循環(huán)。第二種解釋的觀點是把均衡看成一個“自動實施協(xié)議”或者是理性的預測。如果基于理性的預測是唯一的,那么博弈均衡確實得以存在,這時倘若均衡是眾所周知的,它必是納什均衡。納什本人對此做了闡述,這是“一種十分強的理性化和理想化的解釋”。這對闡述均衡而言是有效的,解決均衡選擇問題是一個基本的問題。因此,對于經(jīng)濟學家的研究目的而言,與均衡選擇相關的問題是必須加以分析和深入探討。
對納什均衡的第三種解釋,是由MaynardSmith和Price在1973年首次提出的,它源于生物學領域的研究。在這種解釋中完全不存在有意識的選擇:參與者預先選取某一種策略,而且更為成功的策略生存下來;如果種群(population在生物學上稱為種群,在經(jīng)濟學中我們將其稱為群體更好)達到一種穩(wěn)定狀態(tài),那么所有策略必是等價的,因此,這種狀態(tài)必是納什均衡。這種生物學上的方法,其優(yōu)點是它不僅具體指出穩(wěn)定的結果,而且它還靠可能達成的一些結果來給出一種顯示性的過程。
當然,經(jīng)濟學家清楚地意識到將涉及到的生物學領域中的思想和方法應用到經(jīng)濟學領域中的疑問和困難,比如,像生物學中的“復制方程”擴展到經(jīng)濟學領域中的內(nèi)容和意義是什么,至今還在探索中。
二、進化思想在經(jīng)濟學中應用的回顧
對經(jīng)濟學給出進化的解釋不是一種新的手法。實際上,進化解釋在社會科學中是先于達爾文(Darwin)而出現(xiàn)。例如,亞當·斯密(AdamSmith)曾說:“帶來許多利益的勞動分工,原本不是人類智能的結果,雖然人類智能預見到勞動分工產(chǎn)生普遍富裕,并想利用它來實現(xiàn)普遍富裕。盡管在人類本能里沒有意識到這樣廣泛效用中的一種互通有無、物物交換,以及相互之間交易的傾向,此傾向很緩慢并且漸進產(chǎn)生結果,但是勞動分工是必須的。”
進化思想也能夠在馬爾薩斯(Malthus)、馬歇爾(Marshall),熊彼特(Schumpeter)和哈耶克(Hayek)所寫的著作中找到。關于進化經(jīng)濟學,這是一個單獨的學科領域,經(jīng)常與熊彼特的工作相聯(lián)系。Robson在2001年系統(tǒng)地給出了經(jīng)濟行為的生物學方面的基本解釋。
進化經(jīng)濟學與進化對策論至今是完全相互獨立地發(fā)展起來的。在經(jīng)濟學的理論研究中,理性人的偏好通常是固定的。然而,對于理性人的偏好變化或者進化選擇,經(jīng)濟學家對此也進行了研究,特別是利他主義的生存價值以及風險態(tài)度等。然而,我們這里的進化對策論是將偏好作為固定的和已知的。
關于市場生存進化方面的研究和探討,開始于Winter在1964年的文章“經(jīng)濟的‘自然選擇’與廠商理論”,接下來Winter在1971年發(fā)表了“滿足、選擇與改革殘余物”,Nelson和Winter在1982年出版的著作《經(jīng)濟變遷的演化理論》(有中文版),是這一領域中出現(xiàn)的最為重要的文獻。最近由Blume和Easley(1992,1995,1996),Dutta(1992)Dutt和Radner(1993),Radner(1995),Bega—redondo以及Boldeke和Samuelson(1997)等學者在此領域進行探索和研究。雖然這個論題與進化對策論緊密相聯(lián)系,但是,目前這兩種文獻在方法論上相距甚遠。
三、進化對策論的基本原理與結論
最近10多年里,不像對策論的傳統(tǒng)分析方法那樣——考慮有限理性的經(jīng)濟行為人以及在嚴格的認知局限之下必須學習執(zhí)行策略,這樣的對策論理論及其應用有了迅速的發(fā)展。這方面的大量研究工作是在稱為進化對策論所提供的框架下進行的。正如此學科標題所表示的,這一新學科的原理借用生物學中的進化模型所具有的與眾不同的一些特征。然而,此學科本身也發(fā)展了一些新的方法和技術,特別地適合于有限理性基本假設下對社會和經(jīng)濟體制方面的分析。進化對策論在10多年里以快速的步伐取得長足的發(fā)展。
進化對策淪為人們提供一種具有廣泛適用性的工具。其潛在的應用領域從進化生物學延伸到一般的社會科學,特別是經(jīng)濟學中。進化理論在經(jīng)濟學中有著悠久的歷史傳統(tǒng)。直到最近,這種方法在非合作對策論框架中才得到應用。
進化對策論是研究策略行為的穩(wěn)健性,它是針對有限理人所組成的大群體中多次博弈背景下的進化力量而言的。這種新的組成部分在經(jīng)濟理論里導致一種新的預測方法,并且為其他社會科學開辟一條嶄新的研究途徑。
進化對策論的基本內(nèi)容:
(一)進化穩(wěn)定策略概念。進化對策論理論中,一個關鍵概念是進化穩(wěn)定策略(ESS),這一概念的提出歸功于MaynardSmith和Price在1973年的“動物沖突的邏輯”一文。此種策略在特定的意義上對進化壓力而言是穩(wěn)健的:群體執(zhí)行該種策略對執(zhí)行任何其他策略而言是非入侵的。假定一對個體是重復隨機地來自于大的群體,去參與一個對稱并有限的兩人博弈,還假定所有的個體在博弈中起初都執(zhí)行某一個純的或混合的策略x是進化穩(wěn)定的,那么對于每一個變異策略y,都存在一個正的“入侵障礙”,使得執(zhí)行變異策略y的個體群體所獲得的支付低于此障礙,從而x贏得的預期支付比執(zhí)行的y所得要高。下面的不等式對于充分小的ε>0成立,即:
u[x,(1-ε)x+εy]>u[y,(1-ε)x+εy]…………(1)
其中左邊的表達式記為對于策略x而言,當執(zhí)行相對應策略的個體進入之后,混合群體情況的混合策略(1-ε)x+εy時的預期支付,而右邊的表達式記為對于策略y而言,其所對應的情況的預期支付。
實際上,由上述定義知道,進化穩(wěn)定性十分有用的特性是一個策略x是進化穩(wěn)定的當且僅當(1)它是對自身的最佳反應;(2)它是對所有其他最佳反應的反應,當這些策略對其自身的反應比較時。為了弄清楚(1)是必要的,只需充分觀察即知,否則會存在一個對x而言的最佳反應y。在一個充分小的種群中,表現(xiàn)出的這個“變異”策略幾乎總會遇到策略x,從而會贏得比x水平高的收益。同樣,(2)是必需的,因為否則的話一定會存在一個對x而言的可供選擇的最佳反應y,它會贏得與x遇到x的時候或者至少x遇到y(tǒng)時候的收益相同,從而y的平均水平會贏得比混合種群要高一些的收益。注意到,進化穩(wěn)定性準則沒有解釋種群是如何達到這種策略的。然而,一旦達到這種策略,則這樣的策略對進化壓力來說是穩(wěn)健的。同時,人們發(fā)現(xiàn),進化穩(wěn)定性沒有處理種群中具有兩個或更多“變異”同時出現(xiàn)的情況。因而,它隱含地把變異當成稀少事件,以致于種群有時間在另一個變異出現(xiàn)之前響應這種狀況。
雖然,進化穩(wěn)定性準則是一個生物學上的概念,但是它為各種各樣的人類行為提供一種有關的穩(wěn)健性準則。這樣,進化穩(wěn)定性要求人類群體中企圖采用可選擇的策略的任何一個小團體不比已經(jīng)采用“固有”策略的那些個體所構成的團體收益好。相反,采用固有策略的那些個體所構成的團體缺乏激勵來改變他們的策略。但是,那些采用可選策略的小團體卻受激勵而具有轉變固有策略的行為。在這種社會背景下,進化穩(wěn)定策略被人們看成是傳統(tǒng)習慣或者已經(jīng)確立起來的行為規(guī)則。比如,社會風氣、企業(yè)管理模式等都可以看為是某種人類群體的規(guī)則,而極個別的人群社會行為、習氣的變化就會被認為是“變異”。當然,在這種背景下,如果那些極少數(shù)的人群或企業(yè)的收益比不變異的人群或企業(yè)高時,那么這些變異分子會生存得更好!反之,則被淘汰掉。
可惜的是,許多博弈沒有進化穩(wěn)定策略。于是,研究人員探討各種比進化穩(wěn)定性稍弱一些的形式,以及集值形式的進化穩(wěn)定性概念等。此外,ESS概念不能推廣到n人對策的情況上。在本質(zhì)上,ESS要求強的納什均衡來實施,也就是每一個策略對于策略組而言應是唯一的最佳反應。
(二)復制動力學。復制動力學是選擇過程的顯性模型,它說明種群是如何分配博弈中有聯(lián)系的不同純策略隨時間而演化的。復制動力學的數(shù)學公式是由Taylor和Jonker于1978年在“進化穩(wěn)定策略和對策動力學”一文中提出的。他們認為由隨機配對的個體所構成的一個大種群執(zhí)行有限對策的兩人博弈,猶如進化穩(wěn)定性的設置一樣。然而,此處的個體僅僅采用純策略。種群狀態(tài)是指在純策略上的一個分布x。這種狀態(tài)在數(shù)學上與博弈中的混合策略是等價的。
如果博弈中的收益表示成生物學上的適合性,也就是后代的數(shù)目,同時每一個后代繼續(xù)其父母的策略,因此,采用純策略i的個體數(shù)目(在大的種群中)將以某一比率指數(shù)增長,而此等于對純策略i的預期收益u(ei,x),當執(zhí)行著表示種群中當前策略分布的混合策略x時,采用任何純策略i的種群分布的增長率等于此策略的收益與種群中平均收益的差。后者,等同于混合策略x當與其自身博弈時的預期收益u(x,x)。這是一個單種群的對稱兩人博弈的復制動力學。
Xi=[u(ei,x)-u(x,x)]xi………………(2)
注意到,對當前種群狀態(tài)x的最佳反應具有最高的增長率。第二最佳反應具有第二高的增長率,如此等等。然而,雖然更成功的純策略比欠成功的純策略增長得快,但是種群中的平均收益不必隨時間而增長。產(chǎn)生這一原因的可能性是,如果一個個體由采用最佳策略的個體所代替,那么遇見這個新個體的成員會得到比較低的收益。例如,這正是囚徒困境博弈的情況。如果最初幾乎所有個體采用“合作”,那么個體中將逐漸地轉向“抵賴”,從而平均收益將下降。然而,如果博弈在兩個人總是獲得相等的收益意義上是一個雙對稱的,那么自然選擇的基本規(guī)律將成立:種群中收益隨時間而增長,即使沒有必要成為全局最大的。例如,這就是合作博弈的情況,其中所有個體逐漸地轉向到執(zhí)行同一個純策略上。復制動力學能夠推廣到n人博弈的情況上,這可以看成是來自于n種群、中的個體隨機地以n類型配對,其中每一個參與者的地位狀況正如納什所給出的群體行為解釋的那樣。目前,存在兩種形式的n種群復制動力學,其中一個是由Taylor在1979年提出的,另一個是由MaynardSmith在1982年給出的。
(三)學習模型與選擇動力學
人們把學習模型分成三種類型,即基于信念的學習、強化學習以及模仿學習。最近的一些研究表明,復制動力學是由后面兩類的某種模型所促成的。
1.強化學習模型
心理學上的有關個體學習文獻的中心模型是所謂的強化模型,這是由Bush和Mosteller在1951年提出的。然而,它的思想可以追溯到Thorndikede的“導致過去好的選擇在將來最有可能重復”。當然,人們注意到這里的選擇隱含地作為概率上的一種說法。
Bush和Mosteller的強化學習模型及其他的推廣形式,已經(jīng)在一系列的人類主觀執(zhí)行博弈中得到運用。可惜,這些模型的通常數(shù)學性質(zhì),人們還知道得很少。然而,Borgers和Sarin在1997年發(fā)表的“通過強化和復制動力學的學習”文章把Cross的Bush—Mosteller學習模型的形式與Taylor的兩種群復制動力學進行了理論上的對比研究。雖然這種學習過程在離散時間背景中是隨機的、演化的,而復制動力學在連續(xù)時間背景中是確定的、演化的。他們證明,在適當?shù)貥嬙爝B續(xù)時間的界限下,他們的學習過程在有限時間區(qū)間內(nèi)可通過復制動力學來*近。
更確切地講,他們研究在多次博弈回合中(n=l,2,…),在一個固定的兩人參與者采用混合策略對中有限兩人博弈的情況。每一個參與者憑借由其所運用的純策略來記錄概率如下。如果參與者1(同樣的考察參與者2)在博弈的n次回合中運用純策略k,并且獲得一個正的收益Vk(n),這里Vk(n)作為隨機變量,它依賴于參與者2所做出的隨機選擇,那么參與者1對于運用這個策略的未來概率將越增加,其收益也就越高。參與者2以同樣的方法記錄其選擇概率向量Y。所有收益均假設處于單位開區(qū)間上,不過,這里的收益不能解釋成N—M(馮·諾依曼和摩根斯藤)效用。因此,一旦所用策略的概率是遞增的,那么所有選擇均是強化的。
從任何一個初始概率向量X(0)=x0和Y(0)=Y0開始,方程(3)定義出博弈的混合策略空間中的一個馬爾可夫鏈{X(n),Y(n)}∞n=1。其中參數(shù)δ>0表示博弈的兩次回合之間的時間:t=nδ是n次博弈回合中的“真實”時間。Borgers和Sarin得到這一過程的連續(xù)時間界限,通過設n∞和δ0以便有δn=t,在任何有限的“真實”時間上來估計價值。因此,博弈在越來越短的時間區(qū)間上執(zhí)行,同時概率以相稱的較小數(shù)值得以適應。他們證明,在這個界限內(nèi),此過程以狀態(tài)(x(t),y(t))的形式出現(xiàn)在單位區(qū)間概率上,其中如果復制動力學的初始狀態(tài)在時間0處以(x0,y0)開始,那么復制動力學會在時間t達到。在這個意義上,復制動力學在有限時間區(qū)間上近似于強化動力學(3)。
然而,這兩類模型的漸進性質(zhì)卻十分不同。例如,為了在直觀上理解這點,假設參與者1的收益既是恒定獨立于他的策略選擇又獨立于參與者2的策略選擇。設參與者1在強化動力學中的初始狀態(tài)指派概率等于參與者1的所有可獲得純策略的概率。同樣的,設復制動力學的初始狀態(tài)指派種群的各部分采用策略的概率等于所有可獲得純策略的概率。顯然,復制動力學的解是一個常量:所有種群的各部分分得的收益永遠相等。然而,強化動力學的實現(xiàn)會容易隨時間而收斂到參與者1可獲得的任何一個純策略上。由于在博弈的第一個回合中選用策略的概率將高于在下一次博弈回合中所選用的策略概率,所以強化動力學的性質(zhì)更有可能把參與者1“鎖定”到他的任何一個純策略上。Borgers和Sarin證明,任何有限兩人博弈的強化動力學以概率1收斂到一個純策略組合上,而不像復制動力學那樣。
2.模仿學習模型
博弈論學者Gale,Binmore和Samuelon在1995年提出一個所有個體參與者都采用純策略的大群體,但是有限博弈的社會學習的簡單模型。每一個參與者在博弈中都贏得一個渴望水平的收益。在離散時間0,δ,2δ,…上,任意從群體中抽取個體δ部分,把其當前收益與他們的渴望水平收益相比較,其中δ>0是很小的數(shù)。如果個體實現(xiàn)的收益低于其生存水平收益,那么該個體就會隨機地模仿已抽取的個體,在相同的參與者群體中,所有其他個體都具有相同的概率被抽取。由此可見,如果渴望水平收益具有均勻分布(某一個區(qū)間上包含所有可能的收益值),那么模仿的概率對于個體的當前策略而言,在預期收益上是線性遞減的。對于很小的δ,他們證明這個過程可以由有限時間區(qū)間上的復制動力學來*近。
人們把個體策略的適應過程作為連續(xù)時間中的一個隨機過程。假設在有限群體中每一個個體時常得到一個沖動,使其改變純策略。如果這些沖動是依照i.i.d.的Poisson分布,那么同時發(fā)生的概率是零,而且總的過程也是一個Poisson過程。此外,總過程的密度剛好是各個過程密度的和。如果群體是很大的,那么人們利用預期值給出的確定流來近似這個總過程。
Bjornestedt和Weibull在1996年研究了一系列這種模型,其中改變的個體在其博弈的群體中模仿其他的個體,并證明許多正收益的選擇動力學可以被人們推導出來,包括復制動力學的三種形式。特別,如果個體改變比率對其策略而言預期收益是線性遞減的,那么每一個純策略Poisson過程的密度是與其個體總數(shù)大小成比例,同時比例因素將是其預期收益遞減的。如果每一個改變的個體選擇其未來的策略是通過在其博弈中隨機地模仿抽取的個體,那么其作為結果的流*近也是一個復制動力學。
Schlag在1997年分析當個體經(jīng)常以參與者的同樣地位去模仿其他參與者個體時,個體應該選擇什么樣的模仿規(guī)則的問題,然而參與者的同樣地位卻受制于信息和記憶的約束。他發(fā)現(xiàn),如果個體想要學習規(guī)則是在所有平穩(wěn)環(huán)境中收益遞增,那么此個體應該滿足:(1)當改變策略時,總是通過模仿來進行;(2)永遠不向收益實現(xiàn)比其所擁有收益低的那些個體模仿;(3)向收益實現(xiàn)比其擁有收益高的那些個體模仿。
這種模型被各種各樣不同的環(huán)境所發(fā)展。在有限兩人博弈中,Schlag假設在隨機地來自于兩個相等大小的有限群體的個體之間兩兩配對,每一個有其自己的地位。個體總是執(zhí)行純策略。在每一個收益實現(xiàn)之后,每一個個體都要隨機地與其他個體所處的群體進行抽樣調(diào)查,并且比較兩種收益的實現(xiàn)。行為規(guī)則是一種函數(shù)關系,即把收益實現(xiàn)和所用策略對應到博弈中個體地位上可獲得的純策略集合上的分布,為的是采用新的策略。換句話說,允許使用個體的唯一資料是這種收益實現(xiàn)和純策略對。特別,從較早的博弈回合中實現(xiàn)收益被忽略。此外,假設個體在所有博弈中運用相同的行為規(guī)則,具有相同數(shù)目的純策略可選擇;也就是,個體不需要知曉他們執(zhí)行什么樣的博弈,他們知道所使用的純策略數(shù)目就足夠了。
在任何這樣的博弈中,導致預期收益弱遞增的以及在對手種群中對于任何固定策略分布的行為規(guī)則,稱為改進。本文中的重要結果是對于所有這樣規(guī)則的刻畫。改進規(guī)則的一個特征是他們是模仿的:個體堅持其初始的策略或者采用抽樣的個體策略;但是不會轉向第三個的策略。
行為規(guī)則稱為是占優(yōu)的改進規(guī)則,如果在某一個博弈中不存在改進規(guī)則產(chǎn)生比較高的預期收益改進比例,而且在對手種群中的某一個策略分布上。Schlag證明,某一個行為規(guī)則為占優(yōu)的改進規(guī)則,其具有上面給出的性質(zhì)(1)(2)(3)。這個比例模仿規(guī)則是其自己的一個改進規(guī)則,而且可以證明它確有一些其他吸引人的性質(zhì)。Schlag證明,Taylor兩種群復制動力學的離散時間形式可以*近在任何給定有限時間范圍內(nèi)導出的一個隨機過程,只要種群充分的大就行。
(四)進化對策論中的一些結論
本文集中探討關于有限n人博弈的顯性動力學種群模型方向的介紹,其中個體執(zhí)行純策略。首先探討確定性選擇動力學,然后介紹隨機進化模型,其中把隨機變異過程與確定性選擇過程或者隨機選擇過程結合起來。
研究確定性動力學項目性質(zhì)的一種直接方法是選取一個初始的種群狀態(tài),并且稍后可以計算。然后,人們應該記住讓初始的所有純策略在種群中出現(xiàn),由于初始的已亡策略將在選擇過程中仍保持已亡的狀態(tài)。這種解的軌跡稱為內(nèi)部的。解的軌跡隨時間流逝而安定下來,就稱為收斂的。反之,則稱為發(fā)散的。
如果種群狀態(tài)是收斂的,那么什么是長時期限制狀態(tài)的本質(zhì)呢?可以證明,在任何一種弱的正收益選擇動力學中,沿著任何收斂的內(nèi)部軌跡,限制狀態(tài)必將構建納什均衡,研究人員發(fā)現(xiàn),種群執(zhí)行某種納什均衡或者在漸進意義上的納什均衡。Nachbar在1990年第一個證明出單種群復制動力學的這個結果。事實上,如果選擇過程遇見弱的正收益的相對溫和的條件,且如果匯總的行為隨時間而安定下來,那么在長時期種群狀態(tài)中的個體就好像他們預期一個特殊的納什均衡對此執(zhí)行著一個最佳反應,這點頗像是納什所聲稱的“群體解釋”。
如果對于弱的正收益選擇動力學的內(nèi)部解隨時間而收斂,那么我們看到幸存下來的策略在作為結果的混合策略組合的最佳反應的意義上是理性的。此處的問題是,如果解的軌跡不收斂,那么會發(fā)生什么情況嗎?當長時期中沒有均衡達成時,我們產(chǎn)生的問題是,執(zhí)行是否為理性的。
非合作博弈論中基本的理性假設是參與者不采用作為嚴格的劣(strictlydominated)純策略。這個假設要求不知道其他參與者的偏好或者行為。一個更嚴格的理性一--附有知識的---假設是參與者不采用作為迭代的嚴格的劣策略。除了回避嚴格的劣的策略之外,這個假定要求所有參與者相互知道彼此的收益,而這些就是他們知道等等,一直到共同知識的某一個有限水平上使得迭代剔除嚴格劣的純策略的過程停止。
因此,進化對策論中的基本問題是進化選擇過程是否剔除掉所有的嚴格劣策略或者所有的迭代的嚴格劣純策略。如果所有迭代的嚴格劣策略消失,那么這提供了在策略上相互作用的參與者行為假設的一種進化證明,就好像此假設是參與者他們作為理性人的共同知識。
Akin在1980年證明,在任何有限對稱兩人博弈中所有嚴格劣的純策略沿著關于單種群復制動力學的任何一個內(nèi)部解的軌跡都能消失。Samuelson和Zhang在1992年把這一結論推廣到某一個兩種群選擇動力學的正收益子集合中的迭代的嚴格劣純策略上。他們將這種情況稱為聚集單調(diào)的(aggregatemonotonic)。
對長時期進化狀態(tài)分析的輔助方法是研究種群狀態(tài)的穩(wěn)定性,也就是考察種群對于很小的擾動是如何反應的。Bomze教授在1986年曾證明,如果種群狀態(tài)在單種群復制動力學中是弱的動態(tài)穩(wěn)定的,那么此狀態(tài)就是對自己的最佳反應,這里的狀態(tài)被認為是采用混合策略的。經(jīng)常運用的穩(wěn)定性準則是李雅普諾夫穩(wěn)定性,即狀態(tài)x是李雅普諾夫穩(wěn)定的,如果x的鄰域B包含x的鄰域A,使得在A中開始的解將永遠保留在B中。不是李雅普諾夫穩(wěn)定的狀態(tài)稱為不穩(wěn)定的。因此,不僅進化穩(wěn)定性的靜態(tài)穩(wěn)定性準則,而且復制動力學中的動態(tài)穩(wěn)定性都蘊涵著納什均衡的實施。這個結果能夠推廣到任何有限n人博弈中的任何弱的正收益選擇動力學上。總之,對進化壓力而言,以各種不同方式系統(tǒng)闡述的穩(wěn)定性都需要納什均衡來實施。然而,不是所有的納什均衡在這個方面都是穩(wěn)定的,因此,這些進化穩(wěn)定性準則是納什均衡概念的精煉。
另外,研究者在考察動力學進化穩(wěn)定性時,把隨機因素并入到進化過程的建模當中。特別,變異過程被認為是內(nèi)在隨機的一種情況。隨機振動可以憑借穩(wěn)定性分析方法來解釋確定性選擇動力學;一個穩(wěn)定的種群狀態(tài)對于種群的孤立的很小擾動而言是穩(wěn)健的。然而,這種穩(wěn)定分析幾乎說不出一系列的小振動或者同時發(fā)生的小振動累計之后促成的大振動的穩(wěn)健性。這樣的一系列或者同時發(fā)生的連續(xù)不斷的振動會使種群狀態(tài)離開選擇過程的吸引域。雖然這種大量涌現(xiàn)的小振動不可能是統(tǒng)計意義上的獨立而稀少變異的事件,但這一可能性在基本方法上卻改變了動力學進化過程的性質(zhì)。代替歷史依賴性(依賴于初始種群狀態(tài)),此過程會成為遍歷的(ergodic),也就是具有一種漸進分布,其中漸進分布是歷史獨立的(對于所有的初始種群狀態(tài)都是相同的)。從而,導致人們現(xiàn)今研究的一個專題——隨機動力學穩(wěn)定性。這種研究路線的先驅者是Foster和Young(1990),隨后是Fudenberg和Harris(1992),Young(1993)等等。注意到,進化穩(wěn)定性準則沒有解釋種群是如何達到這種策略的。然而,一旦達到這種策略,則這樣的策略對進化壓力來說是穩(wěn)健的。同時,人們發(fā)現(xiàn),進化穩(wěn)定性沒有處理種群中具有兩個或更多“變異”同時出現(xiàn)的情況。因而,它隱含地把變異當成稀少事件,以致于種群有時間在另一個變異出現(xiàn)之前響應這種狀況。
雖然,進化穩(wěn)定性準則是一個生物學上的概念,但是它為各種各樣的人類行為提供一種有關的穩(wěn)健性準則。這樣,進化穩(wěn)定性要求人類群體中企圖采用可選擇的策略的任何一個小團體不比已經(jīng)采用“固有”策略的那些個體所構成的團體收益好。相反,采用固有策略的那些個體所構成的團體缺乏激勵來改變他們的策略。但是,那些采用可選策略的小團體卻受激勵而具有轉變固有策略的行為。在這種社會背景下,進化穩(wěn)定策略被人們看成是傳統(tǒng)習慣或者已經(jīng)確立起來的行為規(guī)則。比如,社會風氣、企業(yè)管理模式等都可以看為是某種人類群體的規(guī)則,而極個別的人群社會行為、習氣的變化就會被認為是“變異”。當然,在這種背景下,如果那些極少數(shù)的人群或企業(yè)的收益比不變異的人群或企業(yè)高時,那么這些變異分子會生存得更好!反之,則被淘汰掉。
可惜的是,許多博弈沒有進化穩(wěn)定策略。于是,研究人員探討各種比進化穩(wěn)定性稍弱一些的形式,以及集值形式的進化穩(wěn)定性概念等。此外,ESS概念不能推廣到n人對策的情況上。在本質(zhì)上,ESS要求強的納什均衡來實施,也就是每一個策略對于策略組而言應是唯一的最佳反應。
(二)復制動力學。復制動力學是選擇過程的顯性模型,它說明種群是如何分配博弈中有聯(lián)系的不同純策略隨時間而演化的。復制動力學的數(shù)學公式是由Taylor和Jonker于1978年在“進化穩(wěn)定策略和對策動力學”一文中提出的。他們認為由隨機配對的個體所構成的一個大種群執(zhí)行有限對策的兩人博弈,猶如進化穩(wěn)定性的設置一樣。然而,此處的個體僅僅采用純策略。種群狀態(tài)是指在純策略上的一個分布x。這種狀態(tài)在數(shù)學上與博弈中的混合策略是等價的。
如果博弈中的收益表示成生物學上的適合性,也就是后代的數(shù)目,同時每一個后代繼續(xù)其父母的策略,因此,采用純策略i的個體數(shù)目(在大的種群中)將以某一比率指數(shù)增長,而此等于對純策略i的預期收益u(ei,x),當執(zhí)行著表示種群中當前策略分布的混合策略x時,采用任何純策略i的種群分布的增長率等于此策略的收益與種群中平均收益的差。后者,等同于混合策略x當與其自身博弈時的預期收益u(x,x)。這是一個單種群的對稱兩人博弈的復制動力學。
Xi=[u(ei,x)-u(x,x)]xi………………(2)
注意到,對當前種群狀態(tài)x的最佳反應具有最高的增長率。第二最佳反應具有第二高的增長率,如此等等。然而,雖然更成功的純策略比欠成功的純策略增長得快,但是種群中的平均收益不必隨時間而增長。產(chǎn)生這一原因的可能性是,如果一個個體由采用最佳策略的個體所代替,那么遇見這個新個體的成員會得到比較低的收益。例如,這正是囚徒困境博弈的情況。如果最初幾乎所有個體采用“合作”,那么個體中將逐漸地轉向“抵賴”,從而平均收益將下降。然而,如果博弈在兩個人總是獲得相等的收益意義上是一個雙對稱的,那么自然選擇的基本規(guī)律將成立:種群中收益隨時間而增長,即使沒有必要成為全局最大的。例如,這就是合作博弈的情況,其中所有個體逐漸地轉向到執(zhí)行同一個純策略上。復制動力學能夠推廣到n人博弈的情況上,這可以看成是來自于n種群、中的個體隨機地以n類型配對,其中每一個參與者的地位狀況正如納什所給出的群體行為解釋的那樣。目前,存在兩種形式的n種群復制動力學,其中一個是由Taylor在1979年提出的,另一個是由MaynardSmith在1982年給出的。
(三)學習模型與選擇動力學
人們把學習模型分成三種類型,即基于信念的學習、強化學習以及模仿學習。最近的一些研究表明,復制動力學是由后面兩類的某種模型所促成的。
1.強化學習模型
心理學上的有關個體學習文獻的中心模型是所謂的強化模型,這是由Bush和Mosteller在1951年提出的。然而,它的思想可以追溯到Thorndikede的“導致過去好的選擇在將來最有可能重復”。當然,人們注意到這里的選擇隱含地作為概率上的一種說法。
Bush和Mosteller的強化學習模型及其他的推廣形式,已經(jīng)在一系列的人類主觀執(zhí)行博弈中得到運用。可惜,這些模型的通常數(shù)學性質(zhì),人們還知道得很少。然而,Borgers和Sarin在1997年發(fā)表的“通過強化和復制動力學的學習”文章把Cross的Bush—Mosteller學習模型的形式與Taylor的兩種群復制動力學進行了理論上的對比研究。雖然這種學習過程在離散時間背景中是隨機的、演化的,而復制動力學在連續(xù)時間背景中是確定的、演化的。他們證明,在適當?shù)貥嬙爝B續(xù)時間的界限下,他們的學習過程在有限時間區(qū)間內(nèi)可通過復制動力學來*近。
更確切地講,他們研究在多次博弈回合中(n=l,2,…),在一個固定的兩人參與者采用混合策略對中有限兩人博弈的情況。每一個參與者憑借由其所運用的純策略來記錄概率如下。如果參與者1(同樣的考察參與者2)在博弈的n次回合中運用純策略k,并且獲得一個正的收益Vk(n),這里Vk(n)作為隨機變量,它依賴于參與者2所做出的隨機選擇,那么參與者1對于運用這個策略的未來概率將越增加,其收益也就越高。參與者2以同樣的方法記錄其選擇概率向量Y。所有收益均假設處于單位開區(qū)間上,不過,這里的收益不能解釋成N—M(馮·諾依曼和摩根斯藤)效用。因此,一旦所用策略的概率是遞增的,那么所有選擇均是強化的。
從任何一個初始概率向量X(0)=x0和Y(0)=Y0開始,方程(3)定義出博弈的混合策略空間中的一個馬爾可夫鏈{X(n),Y(n)}∞n=1。其中參數(shù)δ>0表示博弈的兩次回合之間的時間:t=nδ是n次博弈回合中的“真實”時間。Borgers和Sarin得到這一過程的連續(xù)時間界限,通過設n∞和δ0以便有δn=t,在任何有限的“真實”時間上來估計價值。因此,博弈在越來越短的時間區(qū)間上執(zhí)行,同時概率以相稱的較小數(shù)值得以適應。他們證明,在這個界限內(nèi),此過程以狀態(tài)(x(t),y(t))的形式出現(xiàn)在單位區(qū)間概率上,其中如果復制動力學的初始狀態(tài)在時間0處以(x0,y0)開始,那么復制動力學會在時間t達到。在這個意義上,復制動力學在有限時間區(qū)間上近似于強化動力學(3)。
然而,這兩類模型的漸進性質(zhì)卻十分不同。例如,為了在直觀上理解這點,假設參與者1的收益既是恒定獨立于他的策略選擇又獨立于參與者2的策略選擇。設參與者1在強化動力學中的初始狀態(tài)指派概率等于參與者1的所有可獲得純策略的概率。同樣的,設復制動力學的初始狀態(tài)指派種群的各部分采用策略的概率等于所有可獲得純策略的概率。顯然,復制動力學的解是一個常量:所有種群的各部分分得的收益永遠相等。然而,強化動力學的實現(xiàn)會容易隨時間而收斂到參與者1可獲得的任何一個純策略上。由于在博弈的第一個回合中選用策略的概率將高于在下一次博弈回合中所選用的策略概率,所以強化動力學的性質(zhì)更有可能把參與者1“鎖定”到他的任何一個純策略上。Borgers和Sarin證明,任何有限兩人博弈的強化動力學以概率1收斂到一個純策略組合上,而不像復制動力學那樣。
2.模仿學習模型
博弈論學者Gale,Binmore和Samuelon在1995年提出一個所有個體參與者都采用純策略的大群體,但是有限博弈的社會學習的簡單模型。每一個參與者在博弈中都贏得一個渴望水平的收益。在離散時間0,δ,2δ,…上,任意從群體中抽取個體δ部分,把其當前收益與他們的渴望水平收益相比較,其中δ>0是很小的數(shù)。如果個體實現(xiàn)的收益低于其生存水平收益,那么該個體就會隨機地模仿已抽取的個體,在相同的參與者群體中,所有其他個體都具有相同的概率被抽取。由此可見,如果渴望水平收益具有均勻分布(某一個區(qū)間上包含所有可能的收益值),那么模仿的概率對于個體的當前策略而言,在預期收益上是線性遞減的。對于很小的δ,他們證明這個過程可以由有限時間區(qū)間上的復制動力學來*近。
人們把個體策略的適應過程作為連續(xù)時間中的一個隨機過程。假設在有限群體中每一個個體時常得到一個沖動,使其改變純策略。如果這些沖動是依照i.i.d.的Poisson分布,那么同時發(fā)生的概率是零,而且總的過程也是一個Poisson過程。此外,總過程的密度剛好是各個過程密度的和。如果群體是很大的,那么人們利用預期值給出的確定流來近似這個總過程。
Bjornestedt和Weibull在1996年研究了一系列這種模型,其中改變的個體在其博弈的群體中模仿其他的個體,并證明許多正收益的選擇動力學可以被人們推導出來,包括復制動力學的三種形式。特別,如果個體改變比率對其策略而言預期收益是線性遞減的,那么每一個純策略Poisson過程的密度是與其個體總數(shù)大小成比例,同時比例因素將是其預期收益遞減的。如果每一個改變的個體選擇其未來的策略是通過在其博弈中隨機地模仿抽取的個體,那么其作為結果的流*近也是一個復制動力學。
Schlag在1997年分析當個體經(jīng)常以參與者的同樣地位去模仿其他參與者個體時,個體應該選擇什么樣的模仿規(guī)則的問題,然而參與者的同樣地位卻受制于信息和記憶的約束。他發(fā)現(xiàn),如果個體想要學習規(guī)則是在所有平穩(wěn)環(huán)境中收益遞增,那么此個體應該滿足:(1)當改變策略時,總是通過模仿來進行;(2)永遠不向收益實現(xiàn)比其所擁有收益低的那些個體模仿;(3)向收益實現(xiàn)比其擁有收益高的那些個體模仿。
這種模型被各種各樣不同的環(huán)境所發(fā)展。在有限兩人博弈中,Schlag假設在隨機地來自于兩個相等大小的有限群體的個體之間兩兩配對,每一個有其自己的地位。個體總是執(zhí)行純策略。在每一個收益實現(xiàn)之后,每一個個體都要隨機地與其他個體所處的群體進行抽樣調(diào)查,并且比較兩種收益的實現(xiàn)。行為規(guī)則是一種函數(shù)關系,即把收益實現(xiàn)和所用策略對應到博弈中個體地位上可獲得的純策略集合上的分布,為的是采用新的策略。換句話說,允許使用個體的唯一資料是這種收益實現(xiàn)和純策略對。特別,從較早的博弈回合中實現(xiàn)收益被忽略。此外,假設個體在所有博弈中運用相同的行為規(guī)則,具有相同數(shù)目的純策略可選擇;也就是,個體不需要知曉他們執(zhí)行什么樣的博弈,他們知道所使用的純策略數(shù)目就足夠了。
在任何這樣的博弈中,導致預期收益弱遞增的以及在對手種群中對于任何固定策略分布的行為規(guī)則,稱為改進。本文中的重要結果是對于所有這樣規(guī)則的刻畫。改進規(guī)則的一個特征是他們是模仿的:個體堅持其初始的策略或者采用抽樣的個體策略;但是不會轉向第三個的策略。
行為規(guī)則稱為是占優(yōu)的改進規(guī)則,如果在某一個博弈中不存在改進規(guī)則產(chǎn)生比較高的預期收益改進比例,而且在對手種群中的某一個策略分布上。Schlag證明,某一個行為規(guī)則為占優(yōu)的改進規(guī)則,其具有上面給出的性質(zhì)(1)(2)(3)。這個比例模仿規(guī)則是其自己的一個改進規(guī)則,而且可以證明它確有一些其他吸引人的性質(zhì)。Schlag證明,Taylor兩種群復制動力學的離散時間形式可以*近在任何給定有限時間范圍內(nèi)導出的一個隨機過程,只要種群充分的大就行。
(四)進化對策論中的一些結論
本文集中探討關于有限n人博弈的顯性動力學種群模型方向的介紹,其中個體執(zhí)行純策略。首先探討確定性選擇動力學,然后介紹隨機進化模型,其中把隨機變異過程與確定性選擇過程或者隨機選擇過程結合起來。
研究確定性動力學項目性質(zhì)的一種直接方法是選取一個初始的種群狀態(tài),并且稍后可以計算。然后,人們應該記住讓初始的所有純策略在種群中出現(xiàn),由于初始的已亡策略將在選擇過程中仍保持已亡的狀態(tài)。這種解的軌跡稱為內(nèi)部的。解的軌跡隨時間流逝而安定下來,就稱為收斂的。反之,則稱為發(fā)散的。
如果種群狀態(tài)是收斂的,那么什么是長時期限制狀態(tài)的本質(zhì)呢?可以證明,在任何一種弱的正收益選擇動力學中,沿著任何收斂的內(nèi)部軌跡,限制狀態(tài)必將構建納什均衡,研究人員發(fā)現(xiàn),種群執(zhí)行某種納什均衡或者在漸進意義上的納什均衡。Nachbar在1990年第一個證明出單種群復制動力學的這個結果。事實上,如果選擇過程遇見弱的正收益的相對溫和的條件,且如果匯總的行為隨時間而安定下來,那么在長時期種群狀態(tài)中的個體就好像他們預期一個特殊的納什均衡對此執(zhí)行著一個最佳反應,這點頗像是納什所聲稱的“群體解釋”。
如果對于弱的正收益選擇動力學的內(nèi)部解隨時間而收斂,那么我們看到幸存下來的策略在作為結果的混合策略組合的最佳反應的意義上是理性的。此處的問題是,如果解的軌跡不收斂,那么會發(fā)生什么情況嗎?當長時期中沒有均衡達成時,我們產(chǎn)生的問題是,執(zhí)行是否為理性的。
非合作博弈論中基本的理性假設是參與者不采用作為嚴格的劣(strictlydominated)純策略。這個假設要求不知道其他參與者的偏好或者行為。一個更嚴格的理性一--附有知識的---假設是參與者不采用作為迭代的嚴格的劣策略。除了回避嚴格的劣的策略之外,這個假定要求所有參與者相互知道彼此的收益,而這些就是他們知道等等,一直到共同知識的某一個有限水平上使得迭代剔除嚴格劣的純策略的過程停止。
因此,進化對策論中的基本問題是進化選擇過程是否剔除掉所有的嚴格劣策略或者所有的迭代的嚴格劣純策略。如果所有迭代的嚴格劣策略消失,那么這提供了在策略上相互作用的參與者行為假設的一種進化證明,就好像此假設是參與者他們作為理性人的共同知識。
Akin在1980年證明,在任何有限對稱兩人博弈中所有嚴格劣的純策略沿著關于單種群復制動力學的任何一個內(nèi)部解的軌跡都能消失。Samuelson和Zhang在1992年把這一結論推廣到某一個兩種群選擇動力學的正收益子集合中的迭代的嚴格劣純策略上。他們將這種情況稱為聚集單調(diào)的(aggregatemonotonic)。
對長時期進化狀態(tài)分析的輔助方法是研究種群狀態(tài)的穩(wěn)定性,也就是考察種群對于很小的擾動是如何反應的。Bomze教授在1986年曾證明,如果種群狀態(tài)在單種群復制動力學中是弱的動態(tài)穩(wěn)定的,那么此狀態(tài)就是對自己的最佳反應,這里的狀態(tài)被認為是采用混合策略的。經(jīng)常運用的穩(wěn)定性準則是李雅普諾夫穩(wěn)定性,即狀態(tài)x是李雅普諾夫穩(wěn)定的,如果x的鄰域B包含x的鄰域A,使得在A中開始的解將永遠保留在B中。不是李雅普諾夫穩(wěn)定的狀態(tài)稱為不穩(wěn)定的。因此,不僅進化穩(wěn)定性的靜態(tài)穩(wěn)定性準則,而且復制動力學中的動態(tài)穩(wěn)定性都蘊涵著納什均衡的實施。這個結果能夠推廣到任何有限n人博弈中的任何弱的正收益選擇動力學上。總之,對進化壓力而言,以各種不同方式系統(tǒng)闡述的穩(wěn)定性都需要納什均衡來實施。然而,不是所有的納什均衡在這個方面都是穩(wěn)定的,因此,這些進化穩(wěn)定性準則是納什均衡概念的精煉。
另外,研究者在考察動力學進化穩(wěn)定性時,把隨機因素并入到進化過程的建模當中。特別,變異過程被認為是內(nèi)在隨機的一種情況。隨機振動可以憑借穩(wěn)定性分析方法來解釋確定性選擇動力學;一個穩(wěn)定的種群狀態(tài)對于種群的孤立的很小擾動而言是穩(wěn)健的。然而,這種穩(wěn)定分析幾乎說不出一系列的小振動或者同時發(fā)生的小振動累計之后促成的大振動的穩(wěn)健性。這樣的一系列或者同時發(fā)生的連續(xù)不斷的振動會使種群狀態(tài)離開選擇過程的吸引域。雖然這種大量涌現(xiàn)的小振動不可能是統(tǒng)計意義上的獨立而稀少變異的事件,但這一可能性在基本方法上卻改變了動力學進化過程的性質(zhì)。代替歷史依賴性(依賴于初始種群狀態(tài)),此過程會成為遍歷的(ergodic),也就是具有一種漸進分布,其中漸進分布是歷史獨立的(對于所有的初始種群狀態(tài)都是相同的)。從而,導致人們現(xiàn)今研究的一個專題——隨機動力學穩(wěn)定性。這種研究路線的先驅者是Foster和Young(1990),隨后是Fudenberg和Harris(1992),Young(1993)等等。四、進化對策論在經(jīng)濟學中的應用
進化對策論的產(chǎn)生、發(fā)展在本質(zhì)上就是起因于對策論中關于理人的假設與經(jīng)濟應用中行為人“試驗——失誤”(即試錯法)學習過程相偏離的事實而引發(fā)的。從上述的闡述中,我們可以看到,進化對策論在經(jīng)濟學里的應用前景是十分廣闊的和吸引人的。
最近,Routledge探討了金融市場上個體行為人是如何通過適應性或者進化學習來發(fā)現(xiàn)內(nèi)生變化并運用這種內(nèi)生關系的一種學習模型。他通過對來自于模仿過程和經(jīng)驗過程來對個體的投資行為建模,而不是運用傳統(tǒng)上的顯性最優(yōu)化方法放松關于知識和理性的假設。Routledge運用Grossman和Stiglitz的1980年發(fā)表的經(jīng)濟模型的形式。Grossman和Stiglitz(GS)模型提供了考察適應學習過程的一種良好的框架,因為它是獲得內(nèi)生信息的標準模型,這點已經(jīng)被后來的其他許多關于學習方面的模型都是基于GS而提出的事實所證明。
如果假設交易者能夠觀察到他們自己的適應度和其他行為人的行為,那么模仿是如何發(fā)生的許多特殊細節(jié)就顯得不重要了。Routledge的研究結果表明:首先,作為單調(diào)選擇動力學的適應學習會促成GS均衡;其次,由單凋適應學習驅使的模仿的穩(wěn)健性可從隨機實驗中來獲得噪聲(noise)來研究。他發(fā)現(xiàn),適應學習是缺少穩(wěn)健性的。特別,他運用Binmore和Samuelson(1999)的技術來對模仿和經(jīng)驗建模。為了使帶有漂移(drift)的適應學習產(chǎn)生GS理性預期均衡,必要的條件是在風險資產(chǎn)供給中的噪聲與學習過程中的經(jīng)驗水平有很大的關系。
五、問題與前景
我們注意到,進化過程并不總是導致最優(yōu)性、均衡或者社會有效性。通過目前已取得的一些成果,我們認為下面的一些方向或許是值得學者進一步探討與研究的:
(1)引進機構,分析市場選擇機制。
(2)探討博弈中學習規(guī)則的進化穩(wěn)定性。結果,這就會導致?lián)碛羞m度認知能力的個體的模型。
(3)進一步探討擴展形式博弈中的進化過程。
(4)對*近理論方面的進一步探討。我們需要更多地了解確定性模型和隨機性模型之間的聯(lián)系與關系。
(5)探索、研究結構化的穩(wěn)健預測。顯然,某種博弈的子結構,諸如在最佳反應和弱最佳反應的條件下所促成的純策略集合,是進化過程的穩(wěn)健吸引子(robustattractor)等。
本文概括地闡述了進化對策論中的理論內(nèi)容和一些模型,特別是博弈中有關學習模型的新近發(fā)展。通過上面的分析,我們發(fā)現(xiàn),進化對策論的發(fā)展動力來自于與其他社會學科的交叉融合,吸收其他社會科學中的有益知識。為了把有關的選擇過程、學習過程以及變異過程的類別變窄,我們需要更多地知曉個體、團體、組織、廠商以及整個社會是如何隨時間而適應和學習的。這里的部分內(nèi)容正是實驗對策論中所要探討的,同時這也是我們應向其他社會科學學習的領域。
參考文獻:
1.王忠玉:《1994年度諾貝爾經(jīng)濟學獎與對策論》,載《科學(ScientificAmerican中文版)》,1996(7),3—5頁。
2.王忠玉:《金融市場從眾行為的數(shù)理模型》,載《中國管理科學》,2000(2),50~55頁。
3.Binmore,K.,1990.EssaysontheFoundationsofGameTheory,BasilBlackwell.
4.Binmore,K.,Samuelson,L.andVaughan,R.,1995.MusicalChairs:ModellingNoisyEvolution.GameandEconomicBehavior11,1--35.
5.Binmore,K.andSamuelson,L.,1999.EvolutionaryDriftandEquilibriumSelection.ReviewofEconomicStudies,66,363--393.
6.Blume,L.andEasleyD,1992.EvolutionandMarketBehavior.JournalofEconomicTheory58,9-45.
7.BlumeL.andEasley,D.,1990.EvolutionandLearninginCompetitiveMarkets,inKirman,A.andSalmon,M.(eds.),LearningandRationalityinEconomics,Blackwell(Oxford).
8.Bomze,1.andPotscher,B.,1989.GameTheoreticalFoundationsofEvolutionaryStability.SpringerVerlag(Berlin).
9.Bomze,I.andWeibull,J.,1996.DoesNeutralStabilityImplyLyapunovStability.9Gameand
EconomicBehavior11,173--192.
10.Bryan,R.Routledge,1999.AdaptiveLearninginFinancialMarkets.TheReviewofFinancial
Studies12,1165--1202.
11.Canning,D.,1990.LearningandSocialEquilibriuminLargePopulations,in
Kirman,A.andSalmon,M.(eds.),LearningandRationalityinEconomics,Blackwell(Oxford).
12.Cressman,R.,1992.TheStabilityConceptofEvolutionaryGameTheory,SpringerVerlag(Berlin).
13.VanDammeE.,1987.StabilityandPerfectionofNashEquilibria,SpringerVerlag(Berlin).
14.Dekel,E.andScotchmer,S.,1992.ontheEvolutionofOptimalBehavior.Journalof
EaonomicTheory57,392--406.
15.Fudenberg,D.andLevine,D.,1993.Steady-stateLearningandNashEquilibrium,Econometrica61,523-574.
16.Fudenberg,D.andLevine,D.,1997.TheTheoryofLearninginGames.MITPress.
17.Haesanyi,J.andSelten,R.,1988.AGeneralTheoryofEquilibriumSelectioninGame,MITPress.
18.Kandori,M.,Mailath,G.andRob,R.,1993.Learning,Mutation,andLong-runEquilibriainGame,Econometrica61,29--56.
19.Nelson,R.andWinter,S.1982.AnEvolutionaryTheoryofEconomicChange.HarvardUniversityPress(CambridgeMA).
20.Robson,J.A.2001.TheBiologicalBasisofEconomicBehavior.JournalofEconomicLiterature,Vol.ⅩⅩⅩⅨ(March2001),11--33.
21.Samuelson,L.andZhang,J.,1992.EvolutionaryStabilityinAsymmetricGames.JournalofEconomicTheory,57,363--391.