
2015-07-24 | ₽₽¥λ; 發布者:梁國(guó)芳&nb↓¥∏sp; | &nbs♣©≥p; 查看(kàn):3320次
IT新聞Gorila (General Reinforcement≤♦↓↓ Learning Architectuε♣re)
在5月(yuè)份聖地(dì)亞哥(gē)舉辦的(de)I∏÷CLR(International ✘σβ;Conference on Learning ™≤;Representations)會(huì)議δ↕(yì)上(shàng),Silver對(duì↕)同一(yī)主題做(zuò)了(le)主題演講,但(dàn)那(nà)次演講更注重強化(huà' ←)學習(xí)(RL)的(de)普遍利益,而不₽≠(bù)是(shì)Gorila本身(s£€↓hēn)。
總的(de)來(lái)說(shuō),↓ 在前饋監督學習(xí)和(hé)無監督強化(huà)學習(xí≤§σλ)方面,Gorila是(shì)Jeff Dean∞→₩等人(rén)開(kāi)發的(de)著名的≠£Ω(de)DistBelief的(de)一(yī)般化(huà)。
什(shén)麽是(shì)強化(huà)學習(xí)?
從(cóng)ML(機(jī)器(qì)學習(x✔↑≤í))的(de)角度來(lái)看(kàn),強化(huà)學習₽<δ(xí)(Reinforcement Learning)比監督式學習(xí)有(yǒu)某些(xiē)更優秀的(de)特點,∞'但(dàn)也(yě)很(hěn)難成功地(dì)實現(xiàn)它。監督或σ↓Ω半監督學習(xí)取決于兩個(gè)關鍵特性:
在無監督學習(xí)中,沒有(yǒu)類别标簽和(hé)&ldqu<∏o;教師(shī)”。最常見(jiàn)的(de)無監督學習(xí€<↕™)的(de)例子(zǐ)是(shì),在沒有(yǒu)外(wài)×β✔界幫助的(de)情況下(xià),算(suàn)法可(kě)以根據數(s™©∑λhù)據集的(de)本質特征進行(xíng)聚類。
強化(huà)學習(xí)(RL)和(hé)監督學習(xí)、無監™>→督學習(xí)都(dōu)不(bù)同。RL從(§£cóng)另一(yī)個(gè)角度考慮問(wèn>♠)題,一(yī)個(gè)網絡是(shì)否可(kě)以在現(x ♦iàn)在通(tōng)過采取一(yī)個(gè)或多(duō)個(gè)≠↔動作(zuò)并在将來(lái)有(yǒu)所回報(bào)或者付出(潛在×γ±←的(de)遙遠(yuǎn)的(de),即t步之後的(de'×≤)步驟)。這(zhè)種延遲的(de)獎勵方案更難訓練因為(wèi)我們∑÷☆可(kě)能(néng)有(yǒu)大(dàΩ∞)量的(de)t步需要(yào)回滾,而且我們同樣需要(yào)解決債¶₽ε權轉讓的(de)問(wèn)題,也(yě)就(jiγ✔ù)是(shì)把網絡選擇的(de)多(d≠£&→uō)個(gè)動作(zuò)和(hé)實現(x✔π∞iàn)目标結合起來(lái)。這(zhè)沒有(yǒu)教師(sh δ≤®ī)模塊也(yě)沒有(yǒu)多(duγ€ō)少(shǎo)标記的(de)數(shù)據,我們隻需要(yào)能(n×♠★×éng)夠測量環境中動作(zuò)的(de)結果。
從(cóng)數(shù)學意義上(sh•£↕≤àng)來(lái)說(shuō),對(duì)于一(yī)個(gè)給定的(<≠∏♣de)環境狀态(包含動作(zuò)action),網絡需要(yào)選擇最好(hǎo)的(de)aλ ₽✘ction,去(qù)學習(xí)最好(hǎo)的(de)策略從( &cóng)而得(de)到(dào)最好(hǎo)的(de)結★>果。比如(rú)求解Q learning/貝爾曼≠∞最優方程(來(lái)自(zì)動态規劃派)。
可(kě)視(shì)化(huà)最簡單的(d× e)方法是(shì)玩(wán)視(sh→±'ì)頻(pín)遊戲(這(zhè)也(yě)是(shì)确保←≥主流媒體(tǐ)覆蓋面豐富的(de)一(yī®)種很(hěn)棒的(de)方式)。:) ♠DeepMind團隊使用(yòng)49款遊戲♥γΩ♥(包括Atari 2600&nbπδεsp;- Seaquest,Tennis,B®φ¥oxing等)來(lái)訓練網絡。
關于Gorila
來(lái)自(zì)于David&nb§≈≥↑sp;Silver2015年(nián)在ICML大(€♥✘§dà)會(huì)上(shàng)介紹強化(huà)學↕>$習(xí)的(de)示意圖(已獲得(de)試用(yòng)§≈∑許可(kě))
我對(duì)Gorila感興趣的(de)地(dì ★>)方是(shì),它與Dean的(de)MapRe$☆γ duce或者Chang的(de)BigTab•±le有(yǒu)多(duō)少(shǎo)相'γ≥(xiàng)似之處。在這(zhè)兩種情況下(xià),一(yī)個(gè₹γ♠)很(hěn)艱難的(de)問(wèn)題✔≠(有(yǒu)效利用(yòng)異構計(jì)算(suàn)集群對(duì)✔✔ε非常大(dà)數(shù)據集的(de)存儲和(hé×Ω")查詢)以起初從(cóng)未有(yǒu)過的 ↓£(de)規模和(hé)水(shuǐ)平被新的(de)設計(jì§")良好(hǎo)的(de)網絡解決了(le)。
Gorila的(de)四個(gè)關鍵組件(jiàn):
啓示
所有(yǒu)這(zhè)一(yī)切的(de)意義是(shì) ¶'相(xiàng)當明(míng)顯的(d®™∏☆e),但(dàn)是(shì)他(tā)們的(de)重β'要(yào)性仍值得(de)一(yī)提:
最後,Silver和(hé)Nair提到(dào)了(le)®₹将要(yào)發表的(de)論文(wén),一(♠♠♥ yī)旦發表,我将馬上(shàng)提供鏈接。
