前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)的概念范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞:深度學(xué)習(xí);行為識別;神經(jīng)網(wǎng)絡(luò)
1 概述
動作行為識別是計算機視覺領(lǐng)域中的一個研究熱點,已經(jīng)廣泛應(yīng)用于智能監(jiān)控、人機交互、視頻檢索等領(lǐng)域中[1]。動作行為識別技術(shù)是通過對視頻或者圖像中人體動作行為做出有意義的判斷。有效表達圖像(視頻)中的實際目標和場景內(nèi)容是最基本,最核心的問題。因此,對于特征的構(gòu)建和選擇得到廣泛關(guān)注,例如STIP、SIFT、MSER等。但是,能通過無監(jiān)督方式讓機器自動從樣本中學(xué)習(xí)到表征樣本的特征,會讓人們更好地利用計算機來實現(xiàn)人的視覺功能。而深度學(xué)習(xí)作為神經(jīng)網(wǎng)絡(luò)的延伸和發(fā)展,是通過逐層構(gòu)建一個多層網(wǎng)絡(luò)來使得機器自動學(xué)習(xí)到隱含在數(shù)據(jù)內(nèi)部的關(guān)系,從而讓學(xué)習(xí)到的特征更加準確性。
文章旨在探討深度學(xué)習(xí)與機器學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))之間的關(guān)系,并且介紹深度學(xué)習(xí)的由來、概念和原理;同時介紹目前深度學(xué)習(xí)在計算機視覺中的應(yīng)用。最后提出深度學(xué)習(xí)目前發(fā)展所面臨的問題,以及對未來的展望。
2 深度學(xué)習(xí)
2.1 深度學(xué)習(xí)概述
深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究,是機器學(xué)習(xí)的拓展。深度學(xué)習(xí)是經(jīng)過組合低層特征來形成更加抽象的屬性類別和特征,從中發(fā)現(xiàn)原始數(shù)據(jù)的特征表征[2]。現(xiàn)在用于動作行為識別的技術(shù)是通過“動作表征”+“動作分類器”的框架來進行行為識別的。其中“動作表征”是人們手動設(shè)計特征獲取到的,也就是在目前識別框架內(nèi)存在一個對動作圖像(視頻)的預(yù)處理過程。
深度學(xué)習(xí)和淺層學(xué)習(xí)相對。目前許多學(xué)習(xí)算法是淺層網(wǎng)絡(luò)學(xué)習(xí)方法,具有一定的局限性,例如在樣本有限的狀況下,表示復(fù)雜函數(shù)的能力有限制,且對復(fù)雜分類問題的泛化能力也會受到一定約束[3]。而深度學(xué)習(xí)通過學(xué)習(xí)深層非線性網(wǎng)絡(luò)結(jié)構(gòu),達到復(fù)雜函數(shù)逼近,又能在樣本少的情況下學(xué)習(xí)原始數(shù)據(jù)的特征。BP算法作為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的典型算法,雖然訓(xùn)練多層網(wǎng)絡(luò),但僅含幾層網(wǎng)絡(luò),訓(xùn)練方法很不理想[3]。因為其輸入和輸出間非線性映射讓網(wǎng)絡(luò)誤差函數(shù)形成含多個極小點的非線性空間,因而經(jīng)常收斂到局部最小,且隨著網(wǎng)絡(luò)層數(shù)的增加,容易過擬合。而深度學(xué)習(xí)可以獲得分布式表示,通過逐層學(xué)習(xí)算法來得到原始輸入數(shù)據(jù)的主要變量。通過深度學(xué)習(xí)的非監(jiān)督訓(xùn)練完成,同時利用生成性訓(xùn)練避免因函數(shù)表達能力過強而出現(xiàn)過擬合情況。
2.2 深度學(xué)習(xí)原理
傳統(tǒng)機器學(xué)習(xí)僅含單層非線性變換的淺層網(wǎng)絡(luò)結(jié)構(gòu),而且淺層模型單一。這對于深度網(wǎng)絡(luò)來說易造成陷入最優(yōu)或產(chǎn)生梯度分散等問題。因此,Hinton等人在基于深度置信網(wǎng)(DBNs)的情況下提出非監(jiān)督貪婪逐層訓(xùn)練算法,隨后提出了多層次自動編碼器深層結(jié)構(gòu),這給解決深層網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)的優(yōu)化難題帶來了希望。此外Lecun等人提出的卷積神經(jīng)網(wǎng)絡(luò)是第一個多層次結(jié)構(gòu)的學(xué)習(xí)算法。同時深度學(xué)習(xí)還出現(xiàn)了許多結(jié)構(gòu):多層感知機、去噪自動編碼器、稀疏編碼等。
卷積神經(jīng)網(wǎng)絡(luò)是第一個真正采用多層次網(wǎng)絡(luò)結(jié)構(gòu),具有魯棒性的深度學(xué)習(xí)算法,通過探究數(shù)據(jù)在空間上的相關(guān)性,減少訓(xùn)練參數(shù)的數(shù)量。而且卷積神經(jīng)網(wǎng)絡(luò)(CNN)適應(yīng)性強,善于發(fā)現(xiàn)數(shù)據(jù)的局部特征。它的權(quán)重共享結(jié)構(gòu)降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量,使得卷積神經(jīng)網(wǎng)絡(luò)在模式識別中取得了很好的結(jié)果。
自動編碼器的核心關(guān)鍵是將原始圖像(視頻)輸入信號進行編碼,使用編碼后的信號來重建原始信號,使得兩者之間的重建誤差最小。通過將原始信號編碼成另一形式,能夠有效地提取信號中的主要信息,能夠簡潔地表達原始圖像(視頻)的特征。
3 深度學(xué)習(xí)的應(yīng)用
3.1 語音識別
從2009年開始,微軟研究院語音識別專家通過與Hinton合作,首先將RBM和DBN引入到語音識別聲學(xué)模型訓(xùn)練中,使得語音識別的錯誤率相對減低30%,這徹底改變了語音識別原有的技術(shù)框架。在國際上,IBM、google等公司都快速進行了DNN語音識別的研究,并且速度飛快。國內(nèi)方面,阿里巴巴,科大訊飛、百度、中科院自動化所等公司或研究單位,也在進行深度學(xué)習(xí)在語音識別上的研究。
3.2 視頻中的動作行為識別
準確迅速識別視頻中人的動作行為對于視頻搜索和視頻監(jiān)控具有劃時代的意義。最近幾年,深度學(xué)習(xí)技術(shù)被應(yīng)用于視頻動作行為識別中。如Ji等人[4]提出多層網(wǎng)絡(luò)的3D卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)視頻中的時空特征,并通過卷積來實現(xiàn)對整個視頻特征的學(xué)習(xí),從而代替之前的時空興趣點檢測和特征描述提取。在TRECVID數(shù)據(jù)庫上進行的實驗取得了不錯效果。
4 結(jié)束語
文章對深度學(xué)習(xí)的主要概念進行了全面闡述,包括其由來、原理、研究進展和相應(yīng)的應(yīng)用等。在很多領(lǐng)域中,深度學(xué)習(xí)都表現(xiàn)了潛在的巨大價值,但深度學(xué)習(xí)作為淺層學(xué)習(xí)的延伸,仍處于發(fā)展階段,還有很多問題值得我們深入探討:
(1)我們需要了解深度學(xué)習(xí)的樣本復(fù)雜度,需要多少訓(xùn)練樣本才能學(xué)習(xí)到足夠的深度模型。
(2)在推進深度學(xué)習(xí)的學(xué)習(xí)理論和計算理論的同時,我們是否可以建立一個通用的深度學(xué)習(xí)網(wǎng)絡(luò)模型,作為統(tǒng)一的框架來處理語音、圖像和語言。
(3)神經(jīng)網(wǎng)絡(luò)具有前饋性連接和反饋性連接,可是我們研究的深度網(wǎng)絡(luò)中還沒有加入反饋連接,這些都給深度學(xué)習(xí)的研究帶來了嚴峻的挑戰(zhàn)。
參考文獻
[1]王亮,胡衛(wèi)明,譚鐵牛.人運動的視覺分析綜述[J].計算機學(xué)報,2002,25(3):225-237.
[2]余凱,賈磊,陳雨強.深度學(xué)習(xí)的昨天、今天和明天[J].計算機研究與發(fā)展,2013,50(9):1799-1804.
>> 用于腦運作分析的前向網(wǎng)絡(luò)樣本重組樹生成算法研究 基于三角構(gòu)成規(guī)則的加權(quán)有向網(wǎng)絡(luò)拓撲生成算法 適用于網(wǎng)絡(luò)漸進傳輸?shù)亩喾直媛是€生成算法 全排列生成算法比較分析 KenKen問題的生成算法研究 曲線生成算法的文獻綜述 基于列生成算法的集裝箱班輪運輸網(wǎng)絡(luò)優(yōu)化 基于全卷積神經(jīng)網(wǎng)絡(luò)的圖像縮略圖生成算法 傳感器網(wǎng)絡(luò)中一種基于編碼的MAC生成算法 數(shù)據(jù)庫關(guān)鍵詞檢索中候選元組集連接樹生成算法的研究 基于分類隨機算法的試卷生成算法研究 分析基于列生成算法的動車組檢修計劃優(yōu)化 AOS自相似業(yè)務(wù)流等時幀生成算法的Matlab仿真分析 關(guān)于傳統(tǒng)空間緩沖區(qū)生成算法的分析 基于Bresenham的直線快速生成算法 題庫系統(tǒng)中試卷生成算法的改進 一種可用于腦神經(jīng)網(wǎng)絡(luò)分析的有向網(wǎng)絡(luò)分解算法 形式概念演化生成算法 MPI通信代碼自動生成算法 一種啟發(fā)式雙代號網(wǎng)絡(luò)圖自動生成算法 常見問題解答 當(dāng)前所在位置:l.(Xie Qin. Framework of Brain Information Processing[Z].[2013-10-21]. .)
[30]謝勤.WAP算法連續(xù)化及其應(yīng)用[C].畢業(yè)論文,2004.
[31]謝勤.一種可用于腦神經(jīng)網(wǎng)絡(luò)分析的有向網(wǎng)絡(luò)分解算法[J].數(shù)字化用戶,2014,3:113-116.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [J].Digitization user,2014, 3:113-116.)
[32]謝勤.一種可用于腦神經(jīng)網(wǎng)絡(luò)分析的有向網(wǎng)絡(luò)分解算法[C].第八屆海內(nèi)外華人神經(jīng)科學(xué)家研討會論文集.北京:科學(xué)出版社,2014.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [C]. Proceedings of Symposium for Chinese Neuroscientists Worldwide 2014. Beijing: Science Press. 2014.)
[33]謝勤.用于腦運作分析的前向網(wǎng)絡(luò)樣本重組樹生成算法研究[C].電子技術(shù)與軟件工程,2016,4:258-264.(Xie Qin. FeedForward Network Sample Recombination Tree Generating Arithmetic(DG-FFN SR Trees Arithmetic) And Generation Of Sample Recombination Graph [J]. Electronic Technology & Software Engineering, 2016,4:258-264.)
(通訊作者:謝勤)
作者簡介
謝勤(1982-),男,A南理工大學(xué)碩士,中國神經(jīng)科學(xué)學(xué)會會員,工程師,近年在亞組委信息技術(shù)部完成核心信息系統(tǒng)――計時記分和成績處理系統(tǒng)項目實施管理方面的工作,其中計時記分系統(tǒng)投資一億。主要研究方向為計算機科學(xué)與工程、人工智能、神經(jīng)生物學(xué)。
作者單位
1.廣州市科技和信息化局 廣東省廣州市 510000
2.第16屆亞運會組委會信息技術(shù)部 廣東省廣州市 510000
3.廣州生產(chǎn)力促進中心 廣東省廣州市 510000
4.廣州市科學(xué)技術(shù)信息研究所 廣東省廣州市 510000
5.廣州市科技創(chuàng)新委員會 廣東省廣州市 510000
2. 應(yīng)用領(lǐng)域安防
實時從視頻中檢測出行人和車輛。
自動找到視頻中異常的行為(比如,醉酒的行人或者逆行的車輛),并及時發(fā)出帶有具體地點方位信息的警報。
自動判斷人群的密度和人流的方向,提前發(fā)現(xiàn)過密人群帶來的潛在危險,幫助工作人員引導(dǎo)和管理人流。
醫(yī)療
對醫(yī)學(xué)影像進行自動分析的技術(shù)。這些技術(shù)可以自動找到醫(yī)學(xué)影像中的重點部位,并進行對比比分析。
通過多張醫(yī)療影像重建出人體內(nèi)器官的三維模型,幫助醫(yī)生設(shè)計手術(shù),確保手術(shù)
為我們每個人提供康建議和疾病風(fēng)險預(yù)警,從而讓我們生活得更加健康。
智能客服
智能客服可以像人一樣和客戶交流溝通。它可以聽懂客戶的問題,對問題的意義進行分析(比如客戶是詢問價格呢還是咨詢產(chǎn)品的功能呢),進行準確得體并且個性化的回應(yīng)。
自動駕駛
現(xiàn)在的自動駕駛汽車通過多種傳感器,包括視頻攝像頭、激光雷達、衛(wèi)星定位系統(tǒng)(北斗衛(wèi)星導(dǎo)航系統(tǒng)BDS、全球定位系統(tǒng)GPS等)等,來對行駛環(huán)境進行實時感知。智能駕駛系統(tǒng)可以對多種感知信號進行綜合分析,通過結(jié)合地圖和指示標志(比如交通燈和路牌),實時規(guī)劃駕駛路線,并發(fā)出指令,控制車子的運行。
工業(yè)制造
幫助工廠自動檢測出形態(tài)各異的缺陷
3. 概念什么是人工智能?
人工智能是通過機器來模擬人類認知能力的技術(shù)。
人工智能的三種訓(xùn)練方式分別是監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)。下文會一一介紹。
二、這是不是鸞尾花(分類器)1. 特征提取人類感官特征
花瓣數(shù)量、顏色
人工設(shè)計特征
先確定哪些特征,再通過測量轉(zhuǎn)化為具體數(shù)值
深度學(xué)習(xí)特征
這里先不提及,文章后面會說
2. 感知器
老師給了一道題:
要區(qū)分兩種鸞尾花,得畫出一條直線區(qū)分兩類花,你可以畫出無數(shù)條直線,但是哪條才是最好的呢?
怎么辦呢?我可是學(xué)渣啊,靠蒙!
隨便找三個數(shù)a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c,
每朵花的兩個特征也代入x[1]、x[2],比如帶入(4, 1) 得出 y[預(yù)測] = 1,此時 y[實際] = 1 (樣本設(shè)定變色鸞尾花為 1,山鸞尾為 -1 ),所以y[實際] – y[預(yù)測] = 0.
重復(fù)以上兩步,得出所有的『實際值和預(yù)測值的差距的綜合,記為 Loss1
可怎么知道是不是最優(yōu)的直線呢?繼續(xù)猜啊!繼續(xù)懵!像猜世界杯一樣猜就好了。
通過沿 y = ax[1] + bx[2] + c 梯度(梯度就是求導(dǎo)數(shù),高中有學(xué)的!)下降的方向繼續(xù)猜數(shù)字,具體過程大概是這樣子的:
上述所屬的實際值和預(yù)測值的差距 實際上是一種損失函數(shù),還有其他的損失函數(shù),比如兩點間直線距離公式,余弦相似度公式等等可以計算預(yù)測結(jié)果和實際結(jié)果之間的差距。
劃重點:損失函數(shù)就是現(xiàn)實和理想的差距(很殘酷)
3. 支持向量機
*判斷依據(jù)的區(qū)別也導(dǎo)致了損失函數(shù)的不同(但依舊是猜)
直觀的說,縫隙(上圖的分類間隔)越大越好
4. 多分類
如果有多種花怎么辦?
一趟植物課上,老師請來了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。老師拿出了一盤花給各個專家鑒定,牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。
老師綜合了各位專家的意見后,告訴同學(xué)們,這是一盤梅花。
小明:這老師是不是傻,一朵花是啥都不知道,還要請三個專家
老師:你給我滾出去
實際計算過程就是通過用 2.2 和 2.3 等方法訓(xùn)練的二分類器,分別輸出對應(yīng)的分類值(比如三種花的分類器分別輸出-1,2,3),那怎么把這些分類值轉(zhuǎn)化成概率呢?這就要用到歸一化指數(shù)化函數(shù) Softmax(如果是二分類就用 Sigmoid函數(shù)),這里就不拿公式來說,可以直觀的看看書中這個表格就懂了:
5. 非監(jiān)督學(xué)習(xí)第 2.2 能從預(yù)測值和實際值的差別判斷”是否猜對了”,是因為生物老師告訴了學(xué)渣,哪些樣本是山鸞尾花,哪些變色鸞尾花。但如果老師連樣本實際的類別也不告訴學(xué)渣(非監(jiān)督式學(xué)習(xí)),學(xué)渣不知道樣本分別是什么花。
那該怎么辦呢?
機器學(xué)習(xí)的入門課程總是在講鸞尾花,也是夠煩的。
這里我們換個場景:
假如你是某直播老板,要找一堆小主播,這時候你有一堆應(yīng)聘者,然而你只有她們的胸圍和臀圍數(shù)據(jù)。一堆8份簡歷擺在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉絲。你也沒空全部面試,那應(yīng)該怎么挑選呢?
這時候你把她們的胸圍和臀圍都標準在一張二維坐標圖上:
這是你隨手一劃,把她們分成兩組,可以說“聚成兩類了”。
用某種計算方式(比如平均值)找到這個聚類的中心。點離聚類中心越近,代表越相似。
求出每個聚類中的點到藍色聚類中心點和黃色聚類中心的距離
如果一個點離黃色聚類中心更近卻被你隨手劃到了藍色分組(上圖用紅色邊框標出的小方塊),那么就把它劃入黃色分組。
這時因為分組范圍和分組內(nèi)包含哪些小姐姐都發(fā)生了變化。這時候你需要以 步驟3 的方法重新計算聚類的中心
重復(fù)步驟 4 (算點中心距離)-> 重復(fù)步驟 5 (調(diào)整黃色小姐姐們和藍色小姐姐們)-> 重復(fù)步驟 3 (算中心),一直循環(huán)這個過程直到藍色和黃色聚類下所包含的小姐姐不再發(fā)生變化。那么就停止這一循環(huán)。
至此,小姐姐們已經(jīng)被分為兩大類。你可以得出兩類小姐姐:
計算機在沒有監(jiān)督的情況下,成功把小姐姐們分成兩類,接下來就可以在把兩種主播各投放2個到平臺看看誰更能干。效果更好的,以后就以那個聚類的樣本特征擴充更多能干的主播。
小明:有什么了不起的,我一眼就能看出黃色小姐姐更能干
老師:你給我滾出去
上面聚類小姐姐的算法就叫做 K 鄰近算法,K 為要聚類的數(shù)量(這需要人工指定),上述例子 K=2.那么如果分成三類就是 K=3,訓(xùn)練過程可以看下圖,有個直觀的了解:
三、這是什么物品(圖像識別)1. 特征提取人類感官特征
花瓣顏色、花瓣長度、有沒有翅膀(區(qū)分貓和小鳥)、有沒有嘴巴和眼睛(飛機和小鳥)
感官的特征通過量化得到顏色(RGB值)、邊緣(圓角、直角、三角)、紋理(波浪、直線、網(wǎng)格)數(shù)值特征
人工設(shè)計特征
深度學(xué)習(xí)特征
通過卷積提取圖像特征
劃重點:卷積的作用就是提取圖像有用信息,好比微信把你發(fā)出的圖片壓縮了,大小變小了,但是你依舊能分辨出圖像的主要內(nèi)容。
1維卷積 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10
2維卷積 1*2+3*0+2*4+4*2=28…
通過卷積就可以得到圖像的特征信息,比如邊緣
垂直邊緣檢測
水平邊緣檢測
方向梯度直方圖
2. 深度學(xué)習(xí)和傳統(tǒng)模式分類的區(qū)別既然有傳統(tǒng)模式分類,為什么還要神經(jīng)網(wǎng)絡(luò)呢?
區(qū)別就在于傳統(tǒng)的模式分類需要人為設(shè)置特征,比如花瓣長度、顏色等等。而深度學(xué)習(xí)省略掉人工設(shè)計特征的步驟,交由卷積操作去自動提取,分類器的訓(xùn)練也同時融入到神經(jīng)網(wǎng)絡(luò)當(dāng)中,實現(xiàn)了端對端的學(xué)習(xí)
劃重點:端對端學(xué)習(xí)(End to End)就是從輸入直接得出輸出,沒有中間商,自己賺差價。
3. 深(多)層神經(jīng)網(wǎng)絡(luò)存在的問題一般來說,神經(jīng)網(wǎng)絡(luò)層數(shù)增多,會提高準確率。但是,網(wǎng)絡(luò)層數(shù)加深導(dǎo)致:
過擬合學(xué)渣把高考預(yù)測試題的答案都背一遍而不理解,考試的時候,如果試題是考生背過的,那么考生就能答對;如果沒背過那么考生就不會回答了。我們就可以說,學(xué)渣『過擬合了預(yù)測試題。
與之對應(yīng)的是:欠擬合渣得不能再渣的人,連預(yù)測試題都背不下來,即使考試試題和預(yù)測試題一模一樣,他也只能答對30%。那么就可以說這種人~~欠揍~~欠擬合。
有興趣的還可以了解一下梯度彌散和梯度爆炸下面是網(wǎng)上很火很勵志的一個公式,權(quán)重在多層網(wǎng)絡(luò)中相乘,比如每一層的權(quán)重都是0.01,傳遞100層 就是 0.01 的100 次方,變得非常小,在梯度下降 Gradient Descent 的學(xué)習(xí)過程中,學(xué)習(xí)將變得非常慢。(好比從一個碗頂部放下一個小球,在底部徘徊的速度會越來越慢)
非凸優(yōu)化學(xué)習(xí)過程可能在局部最小值(極小值)就停止了,因為梯度(斜率)為零。在局部最低停止而不是全局最低停止,學(xué)習(xí)到的模型就不夠準確了。
看圖感受一下
你說的底不是底,你說的頂是什么頂
解決的辦法
均勻初始化權(quán)重值(Uniform Initialization)、批歸一化(Batch Normalization)、跳遠鏈接(Shortcut)涉及到比較多數(shù)學(xué)邏輯,這里就不展開說明了。
4. 應(yīng)用人臉識別
自動駕駛把汽車頂部拍攝到的圖片切分層一個個小方塊,每個小方塊檢測物體是車還是行人還是狗,是紅燈還是綠燈,識別各種交通標識等等。再配合雷達等判斷物體距離。
四、這是什么歌(語音識別)1. 特征提取人類感官特征音量、音調(diào)、音色
通過采樣、量化、編碼。實現(xiàn)聲波數(shù)字化(聲波轉(zhuǎn)電信號)
人工設(shè)計特征梅爾頻率在低頻部分分辨率高,高頻部分分辨率低(這與人耳的聽覺感受是相似的,即在一定頻率范圍內(nèi)人對低頻聲音比較敏感而對高頻聲音不敏感)。
關(guān)系為:
在每一個頻率區(qū)間對頻譜求均值,它代表了每個頻率范圍內(nèi)聲音能量的大小。一共有26個頻率范圍,從而得到26維的特征。倒譜操作后,得到 13 維的梅爾頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCCs)
深度學(xué)習(xí)特征通過 3.1 所介紹的 1維卷積進行特征提取
2. 應(yīng)用音樂風(fēng)格分類
輸入:音頻文件特征:聲音特征輸出:音樂種類
語音轉(zhuǎn)文字
輸入:音頻文件特征:聲音特征輸出:聲學(xué)模型(比如26個英文字母)
再把聲學(xué)模型送入另外的學(xué)習(xí)器
輸入:聲學(xué)模型特征:語義和詞匯輸出:通順的語句(可以查看第6點,如何讓計算機輸出通順的語句)
聽歌識曲通過窗口掃描(把音樂分割成一小段一小段的),然后通過4.1說的方法提取這一段的特征,就得到一個特征向量。對數(shù)據(jù)庫的歌和用戶錄音的歌做同樣的操作得到特征向量,然后兩兩之間計算相似度(兩個向量的距離可以用余弦公式算夾角大小或者兩點間距離公式來算)
五、視頻里的人在做什么(視頻理解,動作識別)1. 介紹視頻,本質(zhì)是由一幀幀圖片連續(xù)組成的,因為人視覺的暫留效應(yīng)(Persistence of vision,人眼在觀察景物時,光信號傳入大腦神經(jīng),并不立即消失,讓人產(chǎn)生畫面連續(xù)的印象),看上去是連續(xù)的,也就是視頻。識別視頻里面有什么物體,可以用上文說過的圖像識別和分類方法去實時分析單幀圖像,比如:
但是視頻相對于圖像有一個更重要的屬性:動作(行為)。
怎么從一個連續(xù)的視頻分析動作呢?
舉個例子,像上圖那只二哈,腿部的像素點相對于黃色的方框(框和狗相對靜止)在左右”移動”,這里的”移動”我們引入一個概念——光流(一個像素點從一個位置移動到另一個位置),通過像素點移動形成的光流作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練特征(X),『奔跑作為訓(xùn)練目標值(Y),經(jīng)過多次的迭代訓(xùn)練,機器就可以擬合得出一個 Y = f(X) 用于判斷視頻中的物體(Object)是否在奔跑。
2. 光流假設(shè),1)相鄰兩幀中物體運動很小2)相鄰兩幀中物體顏色基本不變
至于神經(jīng)網(wǎng)絡(luò)是怎么跟蹤某個像素點的,這里不展開說明。
第 t 時刻的點指向第 t+1 時刻該點的位置,就是該點的光流,是一個二維的向量。
整個畫面的光流就是這樣:
整個視頻的光流(軌跡)是這樣的
不同的虛線代表圖像上某個點移動的軌跡
假設(shè)視頻寬width、高 height、一共有 m 幀,那么該視頻可以用 width * height * m * 2 的張量(就是立體的矩陣)來表示,把向量喂到神經(jīng)網(wǎng)絡(luò)即可進行分類訓(xùn)練。
進一步優(yōu)化,可以把光流簡化為8個方向上的,把視頻某一幀的所有光流累加到這八個方向上得出某一幀的光流直方圖,進一步得出 8 維的特征向量。
六、一段文字在表達什么(自然語言處理)1. 特征提取
這里有4個句子,首先進行分詞:
去掉停用詞(副詞、介詞、標點符合等等,一般在文本處理上都有一個停用詞表)
編碼詞表
句子向量化
這樣就得到一個句子19 維 的 特征向量,再把這19維的特征向量用普通卷積網(wǎng)絡(luò)或者 LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)作為 X 讀入(喂它吃東西),文本的分類(比如積極、消極)作為訓(xùn)練標簽值 Y,迭代訓(xùn)練得到的模型可以用于情感分析或文本分類等任務(wù)。
2. 進階詞向量化厲害-牛逼、計算機-電腦是同義詞。光從上面的步驟,我們可能認為厲害和牛逼是兩個完全不一樣的詞語,但其實他們是近似的意思,怎么才能 AI 學(xué)習(xí)知道這點呢?需要從多個維度去進一步給詞語更豐富的內(nèi)涵,比如:
舉例來說,男性用1表示,女性用0表示,不帶性別傾向就是0.5。多個維度擴展之后,就得到“男人”這個詞的特征向量(1,0, 0.5,0,1)
逆向文檔頻率一個詞在一類文章出現(xiàn)的多,而在另外分類的文章出現(xiàn)的少,越能說明這個次能代表這篇文章的分類。比如游泳在體育類的文章中出現(xiàn)的多(2次),而在工具類的文章出現(xiàn)的少(0次),相比其他詞語(1次)更能代表體育類的文章。
假設(shè)句子中有 N 個詞, 某個詞出現(xiàn)次數(shù)為 T,一共有 X 個句子,該詞語在 W 個句子出現(xiàn),則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)
3. 應(yīng)用
七、讓計算機畫畫(生成對抗網(wǎng)絡(luò))從前有個人,以賣臨摹名家的畫來賺錢。他開始臨摹一副名畫:
第一次他畫成這樣子了:
鑒賞家一眼就看出來是假的,他不得不回去畫第二幅畫、第三幅畫…
經(jīng)過了10萬次”畫畫-鑒別”的過程,這個臨摹者畫出來的畫,鑒賞家居然認為這是真的原作,以高價買入了這副畫。
這種生成(畫畫)- 鑒別(鑒偽)的模式正是生成對抗網(wǎng)絡(luò)(GAN)的核心。
通過生成器,把隨機像素點有序排列形成具有意義的畫面,再通過鑒別器得出生成的畫面的分類、和真實畫面之間的差距,并告訴生成器要往什么方向去優(yōu)化。多輪的訓(xùn)練之后,生成器就學(xué)會了畫『真畫了。
計算機是怎么把隨機像素點變成有意義的畫面的呢?我們通過一個簡化的例子來看看。
直線上一些均勻分布的點,經(jīng)過 y=2x+1變換后變成了非均勻分布。一張隨機排布的像素點畫面,經(jīng)過某個f(x) 變換后就會變成具有某種意義的畫面,而生成器就是不停地去近似f(x), 就像 2.2 感知器擬合一條直線那樣。
下圖為計算機生成手寫數(shù)字的過程
劃重點:函數(shù)可以變換數(shù)據(jù)分布(庫克說:可以把直的變成彎的)
八AlphaGo是怎么下棋的?(強化學(xué)習(xí))1. 粗略認知監(jiān)督/無監(jiān)督訓(xùn)練:盡可能讓每一次任務(wù)正確強化學(xué)習(xí):多次任務(wù)是否達成最終目標
每一次任務(wù)都準確,不就是能達成最終目標嗎?我們來看一個例子:
一家批發(fā)商店的老板愛麗絲要求她的經(jīng)理比爾增加銷售額,比爾指導(dǎo)他的銷售員多賣一些收音機,其中一個銷售員查爾斯弄到了一個可以獲利的大單,但是之后公司因為供應(yīng)緊缺無法交付這些收音機。
應(yīng)該責(zé)怪誰呢?
從愛麗絲的角度來看,查爾斯的行為讓公司蒙羞了(最終任務(wù)沒完成)。
但是從比爾的角度,查爾斯成功地完成了他的銷售任務(wù),而比爾也增加了銷量(子任務(wù)達成)。——《心智社會》第7.7章
2. AlphaGo下圍棋,最古老的辦法是決策樹,從左上角的位置開始到右下角的位置遍歷,每一個空的位置就是一個分支,然后預(yù)測每種棋局贏的概率,找出最大概率的走法玩。這就是落子預(yù)測器。
但是由于圍棋19X19的超大棋盤,空間復(fù)雜度高達10的360次方,要窮盡所有的走法幾乎是不可能的,如大海撈針。
要降低復(fù)雜度,關(guān)鍵是要降低搜索的廣度和深度。
我們栽培一顆小盆栽的時候,如果不對枝葉進行修剪,那么養(yǎng)分就會浪費在沒長好的枝條上。需要及時對枯萎或者異常的枝條進行修剪以保證養(yǎng)分往正常(或者說我們希望它生長的方向)枝條上輸送。
同樣的道理,有限的計算機算力如果浪費在窮盡所有圍棋走法上,將導(dǎo)致棋局推演非常慢,而且耗費大量的時間也難以找到最優(yōu)的方案。
是否可以通過 “修剪” 落子選擇器這顆龐大的決策樹,加快較優(yōu)落子方案的選擇呢?怎么判斷哪些是好的”枝條”,哪些是壞的”枝條”呢?這就需要棋局價值評估器(哪個棋盤的贏的概率更大),把沒有價值的棋局先去掉不再往下遍歷,這就同時減少了搜索的廣度和深度。
其中,落子預(yù)測器有個名稱,叫做政策網(wǎng)絡(luò)(policy network)價值評估器有個名稱,叫做價值網(wǎng)絡(luò)(value network)政策網(wǎng)絡(luò)(policy network)利用蒙特卡洛搜索樹從當(dāng)前棋局推演(隨機下棋)到最終的棋局,最終勝則回報為正,反之回報為負。之后該算法會反向沿著該對弈過程的落子方案步步回溯,將路徑上勝者所選擇的落子方案分數(shù)提高,與此對應(yīng)將敗者的落子方案分數(shù)降低,所以之后遇到相同局面時選擇勝者方案的概率就會增加。因此可以加速落子選擇,稱為快速走子網(wǎng)絡(luò)。
通過 政策網(wǎng)絡(luò) + 價值網(wǎng)絡(luò) + 蒙特卡洛搜索樹 實現(xiàn)最優(yōu)落子方案的選擇,同時兩個機器人互相對弈,這樣就不停地訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)落子方案。
3. 定義接下來說一下枯燥的定義
什么是強化學(xué)習(xí)?
當(dāng)我們關(guān)注的不是某個判斷是否準確,而是行動過程能否帶來最大的收益時使用強化學(xué)習(xí)(reinforeement learning)。比如在下棋、股票交易或商業(yè)決策等場景中。
強化學(xué)習(xí)的目標是要獲得一個策略(poliey)去指導(dǎo)行動。比如在圍棋博弈中,這個策略可以根據(jù)盤面形勢指導(dǎo)每一步應(yīng)該在哪里落子;在股票交易中,這個策略會告訴我們在什么時候買入、什么時候賣出。
一個強化學(xué)習(xí)模型一般包含如下幾個部分:
一組可以動態(tài)變化的狀態(tài)(sute)
對于圍棋棋盤上黑白子的分布位置對于股票交易來說,就是股票的價格
一組可以選取的動作(metion)
對于圍棋來說,就是可以落子的位置;對于股票交易來說,就是每個時間點,買入或者賣出的股票以及數(shù)量。
一個可以和決策主體(agent)進行交互的環(huán)境(environment)這個環(huán)境會決定每個動作后狀態(tài)如何變化。
棋手(主體)的落子會影響棋局(環(huán)境),環(huán)境給主體獎勵(贏)或懲罰(輸)操盤手(主體)的買入或賣出會影響股票價格(環(huán)境,供求關(guān)系決定價格),環(huán)境給主體獎勵(賺錢)或懲罰(虧錢)
關(guān)鍵詞:AlphaGo;人工智能;圍棋;未來展望
中圖分類號:TP18 文獻標識碼:A 文章編號:1671-2064(2017)07-0193-02
1 圍棋與人工智能
圍棋作為中國傳統(tǒng)四大藝術(shù)之一,擁有著幾千年的悠久歷史。圍棋棋盤由19條橫線和19條豎線組成,共有19*19=361個交叉點,圍棋子分為黑白兩種顏色,對弈雙方各執(zhí)一色,輪流將一枚棋子下在縱橫交叉點上,終局時,棋子圍上交叉點數(shù)目最多的一方獲勝。圍棋棋盤上每一個縱橫交叉點都有三種可能性:落黑子、落白子、留空,所以圍棋擁有高達3^361種局面;圍棋的每個回合有250種可能,一盤棋可長達150回合,所以圍棋的計算復(fù)雜度為250^150,約為10^170,然而全宇宙可觀測的原子數(shù)量只有10^80,這足以體現(xiàn)圍棋博弈的復(fù)雜性和多變性。
人工智能(Artificial Intelligence,AI)主要研究人類思維、行動中那些尚未算法化的功能行為,使機器像人的大腦一樣思考、行動。長期以來,圍棋作為一種智力博弈游戲,以其變化莫測的博弈局面,高度體現(xiàn)了人類的智慧,為人工智能研究提供了一個很好的測試平臺,圍棋人工智能也是人工智能領(lǐng)域的一個重要挑戰(zhàn)。
傳統(tǒng)的計算機下棋程序的基本原理,是通過有限步數(shù)的搜索樹,即采用數(shù)學(xué)和邏輯推理方法,把每一種可能的路徑都走一遍,從中選舉出最優(yōu)路徑,使得棋局勝算最大。這種下棋思路是充分發(fā)揮計算機運算速度快、運算量大等優(yōu)勢的“暴力搜索法”,是人類在對弈規(guī)定的時間限制內(nèi)無法做到的。但是由于圍棋局面數(shù)量太大,這樣的運算量對于計算機來講也是相當(dāng)之大,目前的計算機硬件無法在對弈規(guī)定的時間內(nèi),使用計算機占絕對優(yōu)勢的“暴力搜索法”完成圍棋所有局面的擇優(yōu),所以這樣的下棋思路不適用于圍棋對弈。
搜索量巨大的問題一直困擾著圍棋人工智能,使其發(fā)展停滯不前,直到2006年, 蒙特卡羅樹搜索的應(yīng)用出現(xiàn),才使得圍棋人工智能進入了嶄新的階段,現(xiàn)代圍棋人工智能的主要算法是基于蒙特卡洛樹的優(yōu)化搜索。
2 圍棋人工智能基本原理
目前圍棋人工智能最杰出的代表,是由谷歌旗下人工智能公司DeepMind創(chuàng)造的AlphaGo圍棋人工智能系統(tǒng)。它在與人類頂級圍棋棋手的對弈中充分發(fā)揮了其搜索和計算的優(yōu)勢,幾乎在圍棋界立于不敗之地。
AlphaGo系統(tǒng)的基本原理是將深度強化學(xué)習(xí)方法與蒙特卡洛樹搜索結(jié)合,使用有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò),極大減少了搜索空間,即在搜索過程中的計算量,提高了對棋局估計的準確度。
2.1 深度強化學(xué)習(xí)方法
深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究,人類大量的視覺聽覺信號的感知處理都是下意識的,是基于大腦皮層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,通過模擬大腦皮層推斷分析數(shù)據(jù)的復(fù)雜層狀網(wǎng)絡(luò)結(jié)構(gòu),使用包含復(fù)雜結(jié)構(gòu)或由多重非線性變換構(gòu)成的多個處理層對數(shù)據(jù)進行高層抽象,其過程類似于人們識別物體標注圖片。現(xiàn)如今,應(yīng)用最廣泛的深度學(xué)習(xí)模型包括:卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)、堆棧自編碼網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)等。
強化學(xué)習(xí)源于動物學(xué)習(xí)、參數(shù)擾動自適應(yīng)控制等理論,通過模擬生物對環(huán)境以試錯的方式進行交互達到對環(huán)境的最優(yōu)適應(yīng)的方式,通過不斷地反復(fù)試驗,將變化無常的動態(tài)情況與對應(yīng)動作相匹配。強化學(xué)習(xí)系統(tǒng)設(shè)置狀態(tài)、動作、狀態(tài)轉(zhuǎn)移概率和獎賞四個部分,在當(dāng)前狀態(tài)下根據(jù)策略選擇動作,執(zhí)行該過程并以當(dāng)前轉(zhuǎn)移概率轉(zhuǎn)移到下一狀態(tài),同時接收環(huán)境反饋回來的獎賞,最終通過調(diào)整策略來最大化累積獎賞。
深度學(xué)習(xí)具有較強的感知能力,但缺乏一定的決策能力;強化學(xué)習(xí)具有決策能力,同樣對感知問題無能為力。深度強化學(xué)習(xí)方法是將具有感知能力的深度學(xué)習(xí)和具有決策能力的強化學(xué)習(xí)結(jié)合起來,優(yōu)勢互補,用深度學(xué)習(xí)進行感知,從環(huán)境中獲取目標觀測信息,提供當(dāng)前環(huán)境下的狀態(tài)信息;然后用強化學(xué)習(xí)進行決策,將當(dāng)前狀態(tài)映射到相應(yīng)動作,基于初期匯報評判動作價值。
深度強化學(xué)習(xí)為復(fù)雜系統(tǒng)的感知決策問題提供了一種全新的解決思路。
2.2 蒙特卡洛樹搜索
蒙特卡洛樹搜索是將蒙特卡洛方法與樹搜索相結(jié)合形成的一種搜索方法。所謂蒙特卡洛方法是一種以概率統(tǒng)計理論為指導(dǎo)的強化學(xué)習(xí)方法,它通常解決某些隨機事件出現(xiàn)的概率問題,或者是某隨機變量的期望值等數(shù)字特征問題。通過與環(huán)境的交互,從所采集的樣本中學(xué)習(xí),獲得關(guān)于決策過程的狀態(tài)、動作和獎賞的大量數(shù)據(jù),最后計算出累積獎賞的平均值。
蒙特卡洛樹搜索算法是一種用于解決完美信息博弈(perfect information games,沒有任何信息被隱藏的游戲)的方法,主要包含選擇(Selection)、擴展(Expansion)、模擬(Simulation)和反向傳播(Backpropagation)四個步驟。
2.3 策略網(wǎng)絡(luò)與價值網(wǎng)絡(luò)
AlphaGo系統(tǒng)擁有基于蒙特卡洛樹搜索方法的策略網(wǎng)絡(luò)(Policy Network)和價值網(wǎng)絡(luò)(Value Network)兩個不同的神經(jīng)網(wǎng)絡(luò)大腦,充分借鑒人類棋手的下棋模式,用策略網(wǎng)絡(luò)來模擬人類的“棋感”,用價值網(wǎng)絡(luò)來模擬人類對棋盤盤面的綜合評估。
AlphaGo系統(tǒng)主要采用有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò),通過觀察棋盤布局,進行棋路搜索,得到下一步合法落子行動的概率分布,從中找到最優(yōu)的一步落子位置,做落子選擇。DeepMind團隊使用棋圣堂圍棋服務(wù)器上3000萬個專業(yè)棋手對弈棋譜的落子數(shù)據(jù),來預(yù)測棋手的落子情況。期間,系統(tǒng)進行上百萬次的對弈嘗試,進行強化學(xué)習(xí),將每一個棋局進行到底,不斷積累“經(jīng)驗”,學(xué)會贏面最大的棋路走法,最終達到頂級圍棋棋手的落子分析能力。而AlphaGo的價值網(wǎng)絡(luò)使用百萬次對弈中產(chǎn)生的棋譜,根據(jù)最終的勝負結(jié)果來進行價值網(wǎng)絡(luò)訓(xùn)練,預(yù)測每一次落子選擇后贏棋的可能性,通過整體局面的判斷來幫助策略網(wǎng)絡(luò)完成落子選擇。
3 圍棋人工智能意義
經(jīng)過比賽測試證明,AlphaGo系統(tǒng)的圍棋對弈能力已經(jīng)達到世界頂級棋手水平。一直以來,圍棋因為復(fù)雜的落子選擇和巨大的搜索空間使得圍棋人工智能在人工智能領(lǐng)域成為一個具有代表性的難度挑戰(zhàn)。目前的硬件水平面對如此巨大的搜索空間顯得束手無策,AlphaGo系統(tǒng)基于有監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)大大減少搜索空間,在訓(xùn)練中開創(chuàng)性地使用深度強化學(xué)習(xí),然后結(jié)合蒙特卡洛樹搜索方法,使得系統(tǒng)自學(xué)習(xí)能力大大提高,并且AlphaGo系統(tǒng)在與人類頂級棋手對弈中取得的連勝卓越成績,櫧湓諶斯ぶ悄芰煊虻於了堅實的里程碑地位。
雖然圍棋人工智能取得了如此優(yōu)秀的成績,但是也僅僅是它在既定規(guī)則內(nèi)的計算處理能力遠遠超過了人類的現(xiàn)有水平,并且還有有待提高和完善的地方。在人類的其他能力中,例如情感、思維、溝通等等領(lǐng)域,目前的人工智能水平是遠遠達不到的。但是隨著科技的進步和人類在人工智能領(lǐng)域的研究深入,人工智能與人類的差距會逐漸減小,像圍棋人機大戰(zhàn)人工智能連勝人類這樣的例子也可能在其他領(lǐng)域發(fā)生,這就意味著人工智能的發(fā)展前景十分可觀。
4 結(jié)語
人類和人工智能共同探索圍棋世界的大幕即將拉開,讓人類棋手結(jié)合人工智能,邁進全新人機共同學(xué)習(xí)交流的領(lǐng)域,進行一次新的圍棋革命,探索圍棋真理更高的境界。
參考文獻
關(guān)鍵詞:發(fā)展趨勢;研究應(yīng)用;人工智能
DOI:10.16640/ki.37-1222/t.2017.07.119
0 簡介
人工智能((Artificial Intelligence)),它是一門新的技術(shù)科學(xué),主要用于模擬、延伸以及擴展人類的智能的方法、理論、技術(shù)以及應(yīng)用系統(tǒng)。人工智能主要就是對人類的思維、意識的信息過程的合理化的模擬。人工智能它并不是人的智能,但是,它卻能像人那樣的思考,而且也可能會超過人類的智能。總的說來,人工智能研究的一個主要目標是使機器能夠勝任一些復(fù)雜工作。
1 人工智能的運用現(xiàn)狀
目前,在很多方面人工智能有著運用,其中一個主要表現(xiàn)就是全球人工智能公司數(shù)量在急劇的增加,專家系統(tǒng)在目前來看是在人工智能各領(lǐng)域中最為活躍,且最為有成效的一個領(lǐng)域。它是一類基于知識的系統(tǒng),并可以解決那些一般僅有專家才能夠解決的復(fù)雜問題。我們這樣定義專家系統(tǒng):專家系統(tǒng)是一種具有特定領(lǐng)域內(nèi)大量知識與經(jīng)驗的程序系統(tǒng),它是基于程序系統(tǒng)依靠人工智能技術(shù),來模擬人類專家求解復(fù)雜問題的過程,大多情況下,專家系統(tǒng)的水平甚至可以超過人類專家。專家系統(tǒng)的基本結(jié)構(gòu)圖如下圖所示:
2 人工智能的影響
人工智能對經(jīng)濟的影響:人工智能的的確確會影響到社會、生活、文化的方方面面,特別是對于實體經(jīng)濟將來會有巨大的影響。以后,每個行業(yè)幾乎都會產(chǎn)生顛覆性的變化。在人工智能的研究上,中國并不落后,將來的中國一定可以從中獲得非常大的收益。一成功的專家系統(tǒng)可以為它的用戶帶來很明顯的經(jīng)濟效益。用比較經(jīng)濟的辦法執(zhí)行任務(wù)而不需要具有經(jīng)驗的專家,從而極大地減少開支。專家系統(tǒng)深入各行各業(yè),帶來巨大的宏觀效益,促進了IT網(wǎng)絡(luò)工業(yè)的發(fā)展。
人工智能對文化的影響:在人工智能原理的基礎(chǔ)上,人們通常情況下會應(yīng)用人工智能的概念來描述他們的日常狀態(tài)和求解問題的過程。人工智能可以擴大人們知識交流的概念集合,描述我們所見所聞的方法以及描述我們信念的新方法;人工智能技術(shù)為人類的文化生活提供了巨大的便利。如圖像處理技術(shù)必將會對圖形藝術(shù)和社會教育部門等產(chǎn)生深遠影響。比如現(xiàn)有的智力游戲機將會發(fā)展成具有更高智能的一種文化娛樂手段。隨著技術(shù)的進步,這種影響會越來越明顯地表現(xiàn)出來。當(dāng)然,還有一些影響可能是我們目前難以預(yù)測的。但可以肯定,人工智能將對人類的物質(zhì)文明以及精神文明產(chǎn)生更大的影響。
人工智能對社會的的影響:一方面,AI為人類文化生活提供了一種新的模式。現(xiàn)有的游戲?qū)⒅鸩桨l(fā)展為更高智能的交互式文化娛樂手段,今天,游戲中的人工智能應(yīng)用已經(jīng)深入到各大游戲制造商的開發(fā)中。另一方面,人工智能能夠代替人類進行各種腦力勞動,所以,從某種意義上來講,這將會使一部分人失去發(fā)展的機遇,甚至可能失業(yè)。由于人工智能在科技以及工程中的應(yīng)用,一部分人可能會失去介入信息處理活動的機會,甚至不得已而改變自己的工作方式;人工智能還可能會威脅到人類的精神。一般人們覺得人類與機器的區(qū)別就是人類具有感知精神,但如果有一天,這些相信只有人才具有感知精神的人也開始相信機器能夠思維和創(chuàng)作,那他們就會感到失望,甚至于感到威脅。他們會擔(dān)心:有朝一日,智能機器的人工智能可能會超過人類的自然智能,從而使人類淪為智能機器的奴隸。
3 人工智能的發(fā)展趨勢
有機構(gòu)預(yù)測,2017年人工智能投資將同比增長300%以上,在技術(shù)上將會更迅猛發(fā)展,工控自動化商城的智能語音、智能圖像、自然語言以及深度學(xué)習(xí)等技術(shù)越來越成熟,就像空氣和水一樣將會逐步地滲透到我們的日常生活。行業(yè)專家關(guān)于2017年人工智能的發(fā)展方向主要有以下幾點:(1)機器學(xué)習(xí)目前正在被應(yīng)用在更復(fù)雜的任務(wù)以及更多領(lǐng)域中,且被更多的人作為挖掘數(shù)據(jù)的方式。無監(jiān)督的學(xué)習(xí)會取得更多進展,但也存在很大的挑戰(zhàn),故在這一方面離人類的能力還是差得很遠的。計算機在理解和生成自然語言方面,預(yù)計最先會在聊天機器人和其他對話系統(tǒng)上落地。 (2)深度學(xué)習(xí)、其他的機器學(xué)習(xí)、人工智能技術(shù)的混用,是成熟技術(shù)的典型標志。將深度學(xué)習(xí)應(yīng)用到醫(yī)療領(lǐng)域中(醫(yī)療圖像、臨床數(shù)據(jù)、基因組數(shù)據(jù)等),各種類型數(shù)據(jù)上的研究以及成果將會大大的增加。 (3)聊天機器人和自動駕駛汽車可能會取得較大的進展,預(yù)計更多人類基準將會被打破,特別是那些基于視覺以及適合卷積神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)。而非視覺特征創(chuàng)建和時間感知方法將會變得更加頻繁、更加富有成果。
4 結(jié)論
人工智能是人類長久以來的夢想,同時也是一門富有挑戰(zhàn)性的學(xué)科。盡管人工智能帶來很多問題,但當(dāng)人類堅持把人工智能只用于造福人類,人工智能推動人類社會文明進步將毋庸置疑。就像所有的學(xué)科一樣,人工智能也會經(jīng)歷各種挫折,但只要我們有信心、 有毅力,人工智能終將成為現(xiàn)實,融入到我們生活的方方面面,為我們的生活帶來更大的改變。
參考文獻:
[1]朱祝武.人工智能發(fā)展綜述[J].中國西部科技,2011,10(17):8-10.
[2]肖斌.對人工智能發(fā)展新方向的思考[J].信息技術(shù),2009,37(12):166-169.