
2015-07-17 | &nb∑∑₹sp; 發布者:梁國(guó)芳&nbsδ☆↔p; | 查&₽≠♦看(kàn):3320次
IT新聞
但(dàn)很(hěn)多(duō)機(jī)≥÷器(qì)學習(xí)研究者并不(bù)奉承深度。事(shì)實上(s★>☆hàng),對(duì)于那(nà)些(xiē)利用(yòδ♥✔'ng)數(shù)學語言和(hé)理(l≤♠÷♥ǐ)論保證來(lái)挽救人(rén)工(gōng)智能(néng)研究✘£σ的(de)人(rén)抗争過的(de)人(rén)₩γδγ而言,深度學習(xí)代表了(le)一(yī)種時(£©shí)尚。更糟糕的(de)是(shì),對←←(duì)于一(yī)些(xiē)人(rén)來(lái)說(shuō♥¥₹),它似乎是(shì)一(yī)種倒退。在這(zhè)篇文(wén★✔)章(zhāng)中,我會(huì)盡力對(duì)₩¶ε 理(lǐ)論保證的(de)有(yǒu)用(yòng)性∑₩提供一(yī)個(gè)高(gāo)層次的(d>↑ βe)、公平的(de)分(fēn)析,并說(shuō)明(míng)為(wèi)Ω≤♥什(shén)麽他(tā)們可(kě)能(néng)不(bù)總是(shì)★€↕像智力獎勵那(nà)樣實用(yòng)。更重要(yào)的™≤↕↓(de)是(shì),我将提供論據來(lái)解釋為("<£∏wèi)什(shén)麽經過這(zhè)麽多(duō)年(ni♦>≥Ωán)越來(lái)越健全的(de)統計(jì)學機(jγ✔λī)器(qì)學習(xí),對(duì)今天許多(duō)表現($₩xiàn)最好(hǎo)的(de)算(suàn)法并沒有(yǒu)理(lǐ"≠σ)論保證。
保證是(shì)一(yī)個(gè)聲明(míng),可(kě"β≈∏)以用(yòng)數(shù)學确定其行¶£₹(xíng)為(wèi)、性能(néng)或一(yī)個(gè)算(suà≥♠₩πn)法的(de)複雜(zá)度。在其他(tā)條件(jià♣←>≈n)不(bù)變的(de)情況下(xià),€♦®給定足夠的(de)時(shí)間(jiān),我們的(de)算(✘ε≠ suàn)法A可(kě)以從(cóng)某種模型分(fē≠™n)類器(qì){H1,H2,···↕;}找到(dào)一(yī)個(gè)分(fēn)類算(suàn<₹)法H,它的(de)性能(néng)不(bù)比H*差♠& &,H*是(shì)這(zhè)個(gè)類中®≤最好(hǎo)的(de)分(fēn)類器(qì)。當然,¶←♠這(zhè)和(hé)一(yī)些(xiē)固定的(de)損失函數(shù)≠→L有(yǒu)關。簡短(duǎn)來(lái)說(sh©σ☆↕uō),我們可(kě)能(néng)很(hěn)樂(yuè)€₽意用(yòng)一(yī)些(xiē)常數(sh>♣ù)來(lái)固定H與H*之間(jiān)↑α的(de)性能(néng)差異或比例。缺少(shǎo)這(zhè)樣一(y¥'★ī)個(gè)絕對(duì)限制(zhì),我們可(kě)能(néφε÷ng)會(huì)喜歡去(qù)證明(míng),在固定的(de)時₽λ(shí)間(jiān)內(nèi),運行(xíng)算↑ε®©(suàn)法之後,H和(hé)H*能(néng)夠給出相(x≈Ωλiàng)近(jìn)的(de)結果。
許多(duō)現(xiàn)有(yǒu)的(d ≠εe)算(suàn)法能(néng)夠提供強大(dà)←♦>的(de)統計(jì)學保證。線性回歸會(huì)有(yǒu)一(§₩yī)個(gè)确切的(de)解決方案。邏輯回歸能(néng)夠保證收斂¶≤♦&。通(tōng)常情況下(xià),深度學習(xí)算(s"$€>uàn)法不(bù)能(néng)夠提供什(shén)麽保證₩§。給定一(yī)個(gè)任意壞的(de)起點,我知(zhπ≤ī)道(dào)沒有(yǒu)理(lǐ)論能(néng)夠證明(m∑♦♥íng),經過SGD變種訓練的(de)神 ₽♠♥經網絡一(yī)定會(huì)随著(zhe)時(shí)間(jαγα€iān)推移優化(huà)而不(bù)會(huì)陷®β••入局部最小(xiǎo)。近(jìn)期的(de)工(gōng)作(zuò)βε表明(míng),在神經網絡的(de)誤差平面(一(yφ∞ī)個(gè)m維平面,m是(shì)學習(xí)參數→β(shù)的(de)個(gè)數(shù),通(∞♦tōng)常是(shì)節點邊緣之間(ji™ān)的(de)權重)上(shàng),鞍點的(de'Ω₩α)數(shù)目比局部最小(xiǎo)值要(yào)多(duō)。然而,≈α這(zhè)不(bù)等于證明(míng)不(bù)存在局部最小(xi₩↔φǎo)或者它們不(bù)能(néng)任意壞。
可(kě)證明(míng)的(de)數(shù)學性質顯然是∑₹← (shì)可(kě)取的(de)。它們甚至已經拯救了(÷≠§λle)機(jī)器(qì)學習(xí),AI領域曾經一(yī)度被認為(÷✘wèi)設計(jì)不(bù)明(mín₩↓☆g)确,承諾過度,總在實施。然而,今天許多(duō)最好(hǎo)的(de)算<₹✔(suàn)法并沒有(yǒu)提供任何保證。這(zhè)怎麽可(k Ω∞¥ě)能(néng)呢(ne)?
首先,對(duì)于某個(gè)給定的(de)類,理(lǐ÷ )論保證通(tōng)常會(huì)确保一(yīσ✔)個(gè)假設會(huì)接近(jìn)最佳假設。沒有(yǒu)辦法保證在<給定的(de)類中,一(yī)個(gè)假設能(né•♦ng)夠表現(xiàn)得(de)令人(rén)滿意。
這(zhè)裡(lǐ)有(yǒu)個(gè)棘手的(de)例子(₽★βzǐ):我希望有(yǒu)一(yī)個(gè)人(rénε§δ♦)來(lái)幫助我撰寫文(wén)檔。拼寫檢查會(huì)保證它将如(rú)©$何表現(xiàn)。它将100%識别某些(xiē)★→ ™拼寫錯(cuò)誤。但(dàn)是(shì),現(xià$∑n)有(yǒu)的(de)自(zì)動校(xiào)對(duì)∞ 工(gōng)具不(bù)能(néng)夠提供像∞∞&•智能(néng)人(rén)那(nà)樣的(✘δ↑de)洞察力。當然,人(rén)不(bù)能(néng)給出"≥σ任何形式的(de)數(shù)學保證。人(rén)會(huì)睡(shuì)♣β♥×覺,無視(shì)我的(de)郵件(jiàλ₹ n),或者胡亂回應。然而人(rén)可(kě)以比工(g¥©ōng)具助手表達更多(duō)有(yǒu)用∞☆δ(yòng)的(de)想法。具有(yǒu)諷刺意味的(d•☆•e)是(shì),可(kě)能(néng)可(kě)以采取兩種方法來(¶♦lái)提高(gāo)理(lǐ)論保證。一(yī)個(gè)是(s¥≤≠↔hì)改進算(suàn)法,另一(yī)個(gè)減少(shǎo)假設類的φ(de)成員(yuán)。而神經網絡很(hěn)少(shǎo)提供保證♦ε→♥,它們提供了(le)比大(dà)多(duō)數(shù)更好(hǎo∞↓≠)理(lǐ)解的(de)機(jī)器(qì)™λ£≠學習(xí)模型更豐富的(de)潛在假設。啓發式學習(xí)技≥ (jì)術(shù)和(hé)更強大(dà)的(de)計∑©↓φ(jì)算(suàn)機(jī)已經排除了(le)有(yǒu)效學習(xí)↕ ✔的(de)障礙,很(hěn)明(míng)顯,對(duì)于許¶Ω多(duō)模型,為(wèi)給出實用(yòng)性的(d∞♠≠e)預測,這(zhè)種增強的(de)表現(xiàn)≈≈∏力是(shì)不(bù)可(kě)少(shǎo)的(de)。
保證通(tōng)常是(shì)在最壞的♥₽(de)情況下(xià)給定的(de)。通(tōng)過保證最佳系™πλ✔數(shù)ε得(de)到(dào)結果∞∑♥,最壞的(de)情況也(yě)不(bù)過于是(shì)保證一(yī)個(gσ<©"è)普通(tōng)的(de)系數(shù)ε得(de)±"≈λ到(dào)的(de)結果。但(dàn)是(shì)在實踐中,最≈≈壞的(de)情況可(kě)能(néng)永遠(yuǎn)不(bù)會(huì φ)發生(shēng)。現(xiàn)實世界中的(de)數(shù)據通(t♥∏ōng)常都(dōu)是(shì)高(gāo)度結構化(huà)的(de∏∏"✘),并且最壞的(de)情況可(kě)能( σnéng)具有(yǒu)這(zhè)樣的(de)¶ 結構,即在标準數(shù)據集和(hé)錯(c∞¥uò)誤數(shù)據集之間(jiān)沒有(≈↑yǒu)重疊。在這(zhè)些(xiē)假設中,最≤&壞情況下(xià)的(de)約束仍然成立,但(dàn>✘)這(zhè)可(kě)能(néng)是(shì)所有(yǒu)算(suà₹n)法都(dōu)更好(hǎo)執行(xíng)的(de•÷≈)情況。可(kě)能(néng)沒有(yǒu)理(lǐ§↓)由相(xiàng)信,更壞情況下(xià)的(de)算>≤(suàn)法能(néng)夠保證會(huì)有(yλ₩>ǒu)一(yī)個(gè)更好(hǎo)的(de)典≥✘型性能(néng)。
理(lǐ)論合理(lǐ)的(de)模型可(k$≈σ✘ě)能(néng)不(bù)能(néng)轉為(wèi)真實性能(nén★ •βg)的(de)另一(yī)個(gè)原因是(shì),生(shēn♥g)成理(lǐ)論結果而假設的(de)數(shù∞ →)據通(tōng)常都(dōu)是(shì)假的(de)。以潛在狄利'>克雷分(fēn)布(LDA)為(wèi)例,它是(shì)一(yī)個(gè)♥ σ易于理(lǐ)解的(de)非常有(yǒu)用(yò∞∑♥ng)的(de)用(yòng)于話(huà)題建模的(de)算(∑ ®←suàn)法。大(dà)量關于LDA的(de)'β•理(lǐ)論依據都(dōu)是(shì)基于一(yī)篇文(wén)檔♥↔在主題上(shàng)與分(fēn)布相(xiàng↔≈')關這(zhè)個(gè)假設之上(shànλ★≈g)。每個(gè)主題都(dōu)依次與分(fēn)布在詞彙表中所有(yǒu)£★&™單詞相(xiàng)關聯。生(shēng)成過程如(rú)下(xià),對♦←>♦(duì)于文(wén)檔中的(de)每個&∞(gè)字,文(wén)章(zhāng)主題根據每個(gè)主題的($π∏↓de)相(xiàng)對(duì)概率來(lái♠•)随機(jī)選擇。然後,以選中的(de)主題為(wèi)條件(jiàn)≈✔ >,從(cóng)這(zhè)篇文(wén)章(zhāng)的(de§✘λ∏)主題詞分(fēn)布中選取一(yī)個($>$gè)詞語。反複這(zhè)個(gè)過程直到(dào¥÷≤)所有(yǒu)的(de)詞都(dōu)被選中。
顯然,這(zhè)種假設在任何自(zì)然語言的(de)數(±≠©shù)據集上(shàng)并不(bù)成立。在實際的(de)文(wén)檔≈ 中,單詞要(yào)從(cóng)上(shàng)下(xià)文(wén)中選© ™取,而且很(hěn)大(dà)程度上(shàng)取決于€£它們所處的(de)語境。此外(wài)文δ™(wén)檔的(de)長(cháng)度不(bù)是(shì)任意的(de)≈≥€φ,盡管這(zhè)種情況可(kě)能(néng)在本科(kēβ£)課程中出現(xiàn)。然而,對(duì)于這(zhè)樣的(de)生(shδ∑∞ēng)成過程,LDA具有(yǒu)許多(duō)理(lǐ)論特性的(₩∏→ de)優雅證明(míng)。
需要(yào)明(míng)确的(de)是(sh ♥←&ì),LDA的(de)确是(shì)一(y£εī)個(gè)用(yòng)處廣泛、最先進的(de)算(s←₹♦↓uàn)法。而且,我相(xiàng)信,算(suàn)法的(de)™★σ性能(néng)理(lǐ)論研究,即使是(shì↑×ε)基于不(bù)切實際的(de)假設,仍然是(shì)提高(gāγ•o)我們對(duì)更一(yī)般和(hé)更強大(dà)定₹α™理(lǐ)做(zuò)出理(lǐ)解和(hé)基礎工(gōng)作(zuò∏→✔☆)不(bù)可(kě)或缺的(de)步驟。在這(πzhè)篇文(wén)章(zhāng)中,我隻思考衆多(duō)知(zhī)名Ωγ♠的(de)理(lǐ)論,以及為(wèi)數(sh₽₩ù)據科(kē)學工(gōng)作(zuò)者解釋關于為(w耧 i)什(shén)麽具有(yǒu)良好(hǎo)理(lǐ)→∏論性質的(de)算(suàn)法并不(bù)總是(shì)表現(xi₹$↔Ωàn)最好(hǎo)的(de)。
有(yǒu)人(rén)可(kě)能(néng)會(huì)問(wèn>✘>),如(rú)果不(bù)是(shì)完全由理(lǐ)論↓σ 引導,是(shì)什(shén)麽讓像深度學習(xí ↑♣)這(zhè)樣的(de)方法流行(xíng)?另外(wài),為(wèi∏≥)什(shén)麽由直覺判斷支撐的(de)經驗方法會(huì)如(rú)™∞此廣泛成功,即使在幾十年(nián)前他(tā)們并不(bù)受≈±↑歡迎?
在回答(dá)這(zhè)些(xiē)問(wèn)題上(shàng),我相(x ±∏₹iàng)信大(dà)量良好(hǎo)标記的(de)數(s™♣≈hù)據的(de)出現(xiàn),比如(rú)Imag♥→eNet,是(shì)啓發式方法東(dōng)山(sh™₽±ān)再起的(de)原因。給定了(le)足夠大(dà)的(de ★)數(shù)據集,過度拟合的(de)風(fēng)險很≠←±(hěn)低(dī)。此外(wài),對(duì)測試數(shù)據的(de ≤€)驗證提供了(le)解決典型案例的(deΩ>)手段,而不(bù)是(shì)著(zhe)眼于最壞的(de)∏×∏情況。并行(xíng)計(jì)算(suàn)和(hΩ∑↔é)存儲器(qì)大(dà)小(xiǎo& ¶)的(de)進步讓人(rén)們可(kě)以通(tōng)過實證分(€♦ ✘fēn)析來(lái)同時(shí)跟蹤許多(duō)假設。由強大(dà) '直覺判斷支撐的(de)實證研究,在我們達到(dàoδ↑)理(lǐ)解的(de)極限時(shí),為(wèi)我們提供←'φ了(le)前進的(de)道(dào)路(σ↓←≈lù)。
對(duì)于在機(jī)器(qì)感知(zhī)和(hé)自(zì)然語言★≈領域深度學習(xí)所取得(de)的(de)成功¥←€↕,人(rén)們可(kě)以合理(lǐ)地(dì)認為(wèi),到(dà↕≤≠ o)目前為(wèi)止,三個(gè)最有(yǒu)價值的(dβ©e)機(jī)器(qì)學習(xí)算(suàn)法是(shì)線性回歸、l★±ogistic回歸和(hé)K-均值聚類,它們在理• (lǐ)論上(shàng)都(dōu)非常易于理(lǐ)解。而迄今為(wèiβ≠)止,反駁經驗主義勝利的(de)最合理(lǐ)的(de)理(lǐ)♣☆∏由可(kě)能(néng)是(shì),最₽>好(hǎo)的(de)算(suàn)法是(shìβ §)由理(lǐ)論驅動和(hé)限制(zhì)的(de),而經∑§∑驗主義則隻是(shì)用(yòng)于最新的(de)突破,并不(bù)♦φ是(shì)最重要(yào)的(de)。
實現(xiàn)算(suàn)法時(shí),理(₹•β∞lǐ)論上(shàng)的(de)保證是(shì)很(hěn)☆♣≠↕優美(měi)的(de)。它們反應了(le)清晰的(de)思維,提供了(l α"<e)對(duì)問(wèn)題結構的(de)深刻洞察。給定一(yī¥★§β)個(gè)可(kě)工(gōng)作(zuò)™↓σ₹的(de)算(suàn)法,理(lǐ)論 €♥解釋了(le)其性能(néng),加深理(lǐ)解,提供了(le)"±♥進一(yī)步判斷的(de)基礎。缺乏可(kě)工(gōng)作(zuò)的 ←(de)算(suàn)法,理(lǐ)論提供了(le)實現(xiàn)這♦&(zhè)個(gè)算(suàn)法的(de)思想。
不(bù)過,這(zhè)種想法也(yě)有™×(yǒu)其美(měi)妙之處,搭配嚴謹的(de)實證σ↓♠研究,有(yǒu)理(lǐ)有(yǒu)據的(de)直覺判斷可(kě☆§∞)以産生(shēng)勝過更好(hǎo)理(lǐ)解模型的(de)持續運作(±∑zuò)系統,有(yǒu)時(shí)在許多(duō)重要(yào)任務中£&←,甚至超過人(rén)類。經驗主義為(wèi)形式分(fēn)析受γ↕≥±到(dào)抑制(zhì)的(de)應用(yòng)場(c§↑" hǎng)合提供了(le)前進的(de)π♥道(dào)路(lù),并可(kě)能(néng)為(wèi)将↕®α∑來(lái)可(kě)能(néng)最終↔↔ 承認深入理(lǐ)解理(lǐ)論知(zhī)識打開(®×₩kāi)了(le)新的(de)方向。
英文(wén)原文(wén): Deep Learning and the Triumph of ↕ Empiricism(譯者/劉翔宇 審校(xiào)/劉帝偉、朱正貴 責編/周建丁')
