人工智能是計算機(jī)科學(xué)的一個分支,它的目的是將智能研究的成果用來生產(chǎn)出與人類智能相似的智能機(jī)器。這其中的核心就是機(jī)器學(xué)習(xí),即怎樣讓計算機(jī)模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,從而使它像人一樣獲取新的知識或技能。自20世紀(jì)80年代末期以來,科學(xué)界發(fā)明了用于人工神經(jīng)的反向傳播算法(Back Propagation)。這種算法隨之掀起了機(jī)器學(xué)習(xí)的熱潮,并一直持續(xù)到今天。
深度學(xué)習(xí),包括多層的人工神經(jīng)網(wǎng)絡(luò)和訓(xùn)練它的方法兩個方面。它的運作機(jī)理是,一層神經(jīng)網(wǎng)絡(luò)把一個數(shù)據(jù)集合作為輸入,通過激活后產(chǎn)生另一個數(shù)據(jù)集合,作為輸出,再將合適的矩陣數(shù)量形成多層組織鏈接在一起的神經(jīng)網(wǎng)絡(luò),進(jìn)行精準(zhǔn)復(fù)雜的處理。深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)研究領(lǐng)域的一個新的分支,是一個復(fù)雜的機(jī)器學(xué)習(xí)算法。其研究目的在于建立、模擬人腦的神經(jīng)網(wǎng)絡(luò),并模仿人腦的機(jī)制來解釋如圖像、聲音和文本之類的數(shù)據(jù)。
通過研究人們發(fā)現(xiàn),建立在統(tǒng)計基礎(chǔ)上的機(jī)器學(xué)習(xí)方法比過去建立在人工規(guī)則之上的系統(tǒng)顯示出了多方面的優(yōu)越性。進(jìn)入20世紀(jì)90年代,諸如支撐向量機(jī)(Support Vector Machines)、最大熵方法等各種各樣的淺層機(jī)器學(xué)習(xí)模型相繼被提出,由此在機(jī)器學(xué)習(xí)的理論分析和應(yīng)用中都取得了重大突破。由此,由深度學(xué)習(xí)的研究引發(fā)了機(jī)器學(xué)習(xí)的第二次浪潮。
這次波及學(xué)術(shù)界和工業(yè)界的浪潮,應(yīng)歸功于加拿大多倫多大學(xué)教授Geoffrey Hinton和他的學(xué)生RuslanSalakhutdinov。2006年,他們在《科學(xué)》雜志上發(fā)表了一篇關(guān)于機(jī)器學(xué)習(xí)的文章。該文章的觀點主要在兩個方面:其一,“多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類?!逼涠吧疃壬窠?jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過‘逐層初始化’(layer-wise pre-training)?!?/span>而深度學(xué)習(xí)的概念也經(jīng)由該篇文章成為學(xué)界的一個新概念。
深度學(xué)習(xí)可以通過學(xué)習(xí)深層非線性網(wǎng)絡(luò)結(jié)構(gòu),從而具有強(qiáng)大的學(xué)習(xí)數(shù)據(jù)集的本質(zhì)特征的能力。其實質(zhì)就是通過構(gòu)建復(fù)雜的機(jī)器學(xué)習(xí)模型和訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的內(nèi)容,從而提升分類或預(yù)測的準(zhǔn)確性。相比傳統(tǒng)的淺層學(xué)習(xí),深度學(xué)習(xí)的不同體現(xiàn)在:強(qiáng)調(diào)模型結(jié)構(gòu)的深度和突出特征學(xué)習(xí)的重要性。
深度學(xué)習(xí)之所以被稱為“深度”,是相對淺層學(xué)習(xí)方法而說的。通過深度學(xué)習(xí)所掌握的各種模型中,以非線性操作的層級數(shù)居多。淺層學(xué)習(xí)是依靠人工經(jīng)驗抽取樣本特征。這樣的學(xué)習(xí),所掌握的只是單層特征。而深度學(xué)習(xí)則能夠?qū)颖咎卣髟诳臻g內(nèi)進(jìn)行變換,自動地學(xué)習(xí)獲得層次化的特征表示,并實現(xiàn)分類和特征的可視化。
深度學(xué)習(xí)算法讓設(shè)計者可以根據(jù)自己的需要選擇網(wǎng)絡(luò)層數(shù),突破傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在層數(shù)方面的限制。從訓(xùn)練方法上來看,相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)隨機(jī)設(shè)定參數(shù)初始值等做法,深度結(jié)構(gòu)訓(xùn)練的難度更大。其所采用的是“貪婪無監(jiān)督逐層訓(xùn)練方法”。這種方法的工作順序是:在深度學(xué)習(xí)設(shè)計中,每層分開對待,當(dāng)前一層訓(xùn)練完后,新的一層以前一層為基礎(chǔ)進(jìn)行編碼用于訓(xùn)練。最后,每層訓(xùn)練完后再在整個網(wǎng)絡(luò)中進(jìn)行參數(shù)微調(diào)。
進(jìn)入2010年后,深度學(xué)習(xí)項目在美國獲得高度重視。美國NEC研究院、紐約大學(xué)和斯坦福大學(xué)分別獲得了來自美國國防部DARPA部門的資助。
自2011年起,谷歌公司和微軟研究院在深度學(xué)習(xí)方面取得重大突破,通過采用深度神經(jīng)網(wǎng)絡(luò)技術(shù),使得語音識別的錯誤率降低了20%—30%。2012年,深度神經(jīng)網(wǎng)絡(luò)技術(shù)在圖像識別應(yīng)用方面也取得重大進(jìn)展,將錯誤率降低了9%。在制藥公司藥物活性預(yù)測問題中,深度神經(jīng)網(wǎng)絡(luò)技術(shù)也取得了整個世界范圍內(nèi)的最好結(jié)果。
2012年6月,科學(xué)家們在谷歌實驗室里創(chuàng)建了一個有16000個處理器的大規(guī)模神經(jīng)網(wǎng)絡(luò)。該神經(jīng)網(wǎng)絡(luò)包含數(shù)十億個網(wǎng)絡(luò)節(jié)點,用來處理大量隨機(jī)選擇的視頻片段。經(jīng)過充分的訓(xùn)練,機(jī)器系統(tǒng)學(xué)會了自動識別貓的圖像。這次成功作為深度學(xué)習(xí)領(lǐng)域最著名的案例而引起了各界極大的關(guān)注。這些都表明,人工智能的發(fā)展已經(jīng)進(jìn)入到深度學(xué)習(xí)階段。
Facebook人工智能實驗室創(chuàng)建于2013年,其負(fù)責(zé)人是紐約大學(xué)教授伊恩·勒坤。伊恩·勒坤在深度學(xué)習(xí)方面的研究取得學(xué)界公認(rèn)的成就,并榮獲神經(jīng)網(wǎng)絡(luò)先鋒獎。他在研究深度學(xué)習(xí)時,曾一度遭到同行公開的輕視。然而短短幾年后,他的研究成果就成為高科技領(lǐng)域包括谷歌、微軟、百度和Twitter等巨頭最熱衷的應(yīng)用。目前,這些高科技公司正在探索深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)。希望通過對這一特殊形態(tài)的研究,推出能夠自動理解自然語言和識別圖像的服務(wù)。谷歌Android手機(jī)的語音識別系統(tǒng)就是從這些研究成果中轉(zhuǎn)化而來。百度公司也利用這方面的研究成果,開始進(jìn)行一種新型的可視化搜索引擎的研發(fā)。
伊恩·勒坤在20世紀(jì)80年代剛接觸這一領(lǐng)域時,不僅缺乏支持條件,而且人們的意識更沒深入到這一方面。但他堅持自己的信念,執(zhí)著于這方面的研究,而隨著電腦技術(shù)的迅猛向前發(fā)展,他的深度學(xué)習(xí)也就成為最前沿的研究領(lǐng)域。為此,有人形容他的行動為“就像在黑暗中舉著火炬”。
伊恩·勒坤深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò),十分類似于人的大腦中處理視覺信息的視覺皮層,被制作成了相互連通的卷積層。它與人腦的不同之處在于,可以重復(fù)使用相同的過濾器。比如說,卷積神經(jīng)網(wǎng)絡(luò)經(jīng)培訓(xùn)后,學(xué)會了在某個位置識別人臉,那么它以后會自動地識別這張臉。這種卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在聲波和手寫文字方面得到應(yīng)用。比方說,世界各地的自動取款機(jī)和銀行,都通過它來識別支票上的手寫字跡。
由于深度學(xué)習(xí)極大地促進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展,在語音、圖像和自然語言處理方面已經(jīng)得到最廣泛的應(yīng)用,因而,越來越受到世界各國學(xué)術(shù)界、科技界和高科技公司的高度重視。一些機(jī)器人戰(zhàn)勝人工的情形,更是讓深度學(xué)習(xí)成為最前沿的話題。這一切都深深吸引著廣大科研人員投身其中,引領(lǐng)和推動著人工智能邁進(jìn)深度學(xué)習(xí)階段。