人工智能是計算機科學的一個分支,它的目的是將智能研究的成果用來生產(chǎn)出與人類智能相似的智能機器。這其中的核心就是機器學習,即怎樣讓計算機模擬或?qū)崿F(xiàn)人類的學習行為,從而使它像人一樣獲取新的知識或技能。自20世紀80年代末期以來,科學界發(fā)明了用于人工神經(jīng)的反向傳播算法(Back Propagation)。這種算法隨之掀起了機器學習的熱潮,并一直持續(xù)到今天。
深度學習,包括多層的人工神經(jīng)網(wǎng)絡和訓練它的方法兩個方面。它的運作機理是,一層神經(jīng)網(wǎng)絡把一個數(shù)據(jù)集合作為輸入,通過激活后產(chǎn)生另一個數(shù)據(jù)集合,作為輸出,再將合適的矩陣數(shù)量形成多層組織鏈接在一起的神經(jīng)網(wǎng)絡,進行精準復雜的處理。深度學習屬于機器學習研究領(lǐng)域的一個新的分支,是一個復雜的機器學習算法。其研究目的在于建立、模擬人腦的神經(jīng)網(wǎng)絡,并模仿人腦的機制來解釋如圖像、聲音和文本之類的數(shù)據(jù)。
通過研究人們發(fā)現(xiàn),建立在統(tǒng)計基礎上的機器學習方法比過去建立在人工規(guī)則之上的系統(tǒng)顯示出了多方面的優(yōu)越性。進入20世紀90年代,諸如支撐向量機(Support Vector Machines)、最大熵方法等各種各樣的淺層機器學習模型相繼被提出,由此在機器學習的理論分析和應用中都取得了重大突破。由此,由深度學習的研究引發(fā)了機器學習的第二次浪潮。
這次波及學術(shù)界和工業(yè)界的浪潮,應歸功于加拿大多倫多大學教授Geoffrey Hinton和他的學生RuslanSalakhutdinov。2006年,他們在《科學》雜志上發(fā)表了一篇關(guān)于機器學習的文章。該文章的觀點主要在兩個方面:其一,“多隱層的人工神經(jīng)網(wǎng)絡具有優(yōu)異的特征學習能力,學習得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類?!逼涠?,“深度神經(jīng)網(wǎng)絡在訓練上的難度,可以通過‘逐層初始化’(layer-wise pre-training)?!?/span>而深度學習的概念也經(jīng)由該篇文章成為學界的一個新概念。
深度學習可以通過學習深層非線性網(wǎng)絡結(jié)構(gòu),從而具有強大的學習數(shù)據(jù)集的本質(zhì)特征的能力。其實質(zhì)就是通過構(gòu)建復雜的機器學習模型和訓練數(shù)據(jù),來學習更有用的內(nèi)容,從而提升分類或預測的準確性。相比傳統(tǒng)的淺層學習,深度學習的不同體現(xiàn)在:強調(diào)模型結(jié)構(gòu)的深度和突出特征學習的重要性。
深度學習之所以被稱為“深度”,是相對淺層學習方法而說的。通過深度學習所掌握的各種模型中,以非線性操作的層級數(shù)居多。淺層學習是依靠人工經(jīng)驗抽取樣本特征。這樣的學習,所掌握的只是單層特征。而深度學習則能夠?qū)颖咎卣髟诳臻g內(nèi)進行變換,自動地學習獲得層次化的特征表示,并實現(xiàn)分類和特征的可視化。
深度學習算法讓設計者可以根據(jù)自己的需要選擇網(wǎng)絡層數(shù),突破傳統(tǒng)神經(jīng)網(wǎng)絡在層數(shù)方面的限制。從訓練方法上來看,相比傳統(tǒng)神經(jīng)網(wǎng)絡隨機設定參數(shù)初始值等做法,深度結(jié)構(gòu)訓練的難度更大。其所采用的是“貪婪無監(jiān)督逐層訓練方法”。這種方法的工作順序是:在深度學習設計中,每層分開對待,當前一層訓練完后,新的一層以前一層為基礎進行編碼用于訓練。最后,每層訓練完后再在整個網(wǎng)絡中進行參數(shù)微調(diào)。
進入2010年后,深度學習項目在美國獲得高度重視。美國NEC研究院、紐約大學和斯坦福大學分別獲得了來自美國國防部DARPA部門的資助。
自2011年起,谷歌公司和微軟研究院在深度學習方面取得重大突破,通過采用深度神經(jīng)網(wǎng)絡技術(shù),使得語音識別的錯誤率降低了20%—30%。2012年,深度神經(jīng)網(wǎng)絡技術(shù)在圖像識別應用方面也取得重大進展,將錯誤率降低了9%。在制藥公司藥物活性預測問題中,深度神經(jīng)網(wǎng)絡技術(shù)也取得了整個世界范圍內(nèi)的最好結(jié)果。
2012年6月,科學家們在谷歌實驗室里創(chuàng)建了一個有16000個處理器的大規(guī)模神經(jīng)網(wǎng)絡。該神經(jīng)網(wǎng)絡包含數(shù)十億個網(wǎng)絡節(jié)點,用來處理大量隨機選擇的視頻片段。經(jīng)過充分的訓練,機器系統(tǒng)學會了自動識別貓的圖像。這次成功作為深度學習領(lǐng)域最著名的案例而引起了各界極大的關(guān)注。這些都表明,人工智能的發(fā)展已經(jīng)進入到深度學習階段。
Facebook人工智能實驗室創(chuàng)建于2013年,其負責人是紐約大學教授伊恩·勒坤。伊恩·勒坤在深度學習方面的研究取得學界公認的成就,并榮獲神經(jīng)網(wǎng)絡先鋒獎。他在研究深度學習時,曾一度遭到同行公開的輕視。然而短短幾年后,他的研究成果就成為高科技領(lǐng)域包括谷歌、微軟、百度和Twitter等巨頭最熱衷的應用。目前,這些高科技公司正在探索深度學習中的卷積神經(jīng)網(wǎng)絡。希望通過對這一特殊形態(tài)的研究,推出能夠自動理解自然語言和識別圖像的服務。谷歌Android手機的語音識別系統(tǒng)就是從這些研究成果中轉(zhuǎn)化而來。百度公司也利用這方面的研究成果,開始進行一種新型的可視化搜索引擎的研發(fā)。
伊恩·勒坤在20世紀80年代剛接觸這一領(lǐng)域時,不僅缺乏支持條件,而且人們的意識更沒深入到這一方面。但他堅持自己的信念,執(zhí)著于這方面的研究,而隨著電腦技術(shù)的迅猛向前發(fā)展,他的深度學習也就成為最前沿的研究領(lǐng)域。為此,有人形容他的行動為“就像在黑暗中舉著火炬”。
伊恩·勒坤深度學習中的卷積神經(jīng)網(wǎng)絡,十分類似于人的大腦中處理視覺信息的視覺皮層,被制作成了相互連通的卷積層。它與人腦的不同之處在于,可以重復使用相同的過濾器。比如說,卷積神經(jīng)網(wǎng)絡經(jīng)培訓后,學會了在某個位置識別人臉,那么它以后會自動地識別這張臉。這種卷積神經(jīng)網(wǎng)絡已經(jīng)在聲波和手寫文字方面得到應用。比方說,世界各地的自動取款機和銀行,都通過它來識別支票上的手寫字跡。
由于深度學習極大地促進了機器學習的發(fā)展,在語音、圖像和自然語言處理方面已經(jīng)得到最廣泛的應用,因而,越來越受到世界各國學術(shù)界、科技界和高科技公司的高度重視。一些機器人戰(zhàn)勝人工的情形,更是讓深度學習成為最前沿的話題。這一切都深深吸引著廣大科研人員投身其中,引領(lǐng)和推動著人工智能邁進深度學習階段。