日韩在线看免费高清完整版,chinese情侣真实自拍,97视频资源站

核心提示：過去十年，AI 在計算機視覺、語音識別、機器翻譯、機器人、醫(yī)學、計算生物學、蛋白質折疊預測等等領域取得了一個又一個突破，而這

過去十年，AI 在計算機視覺、語音識別、機器翻譯、機器人、醫(yī)學、計算生物學、蛋白質折疊預測等等領域取得了一個又一個突破，而這些突破的背后，均離不開深度學習。那么，深度學習起源于何時何地，又在何時成為最突出的AI方法？

最近，UC伯克利教授、深度學習專家Pieter Abbeel在其播客節(jié)目《機器人大腦》（Robot Brains）中，對Geoffrey Hinton進行了一次訪談。

曾獲得2018年圖靈獎的Hinton，被稱為「深度學習三巨頭」之一，是人工智能史上最重要的學者之一。他的論文被引用了50多萬次，這意味著，有50萬篇以上的研究論文是建立在他的研究之上。

他在深度學習領域已經研究了大約半個世紀，大部分時間相對默默無聞，但在2012年，事情發(fā)生了轉折：那一年，憑借AlexNet在ImageNet比賽的勝出，他證明了深度學習在圖像識別方面比其他計算機視覺的方法具備更大的優(yōu)勢。這被稱為「ImageNet時刻」，改變了整個AI領域，掀起了深度學習的浪潮。

在這次對話中，Hinton講述了他從學術界到谷歌大腦的工作經歷、學習心理學和當木匠的經歷，以及可視化技術t-SNE算法背后的歷史，并就一些問題發(fā)表了他的觀點，包括：

現有的神經網絡和反向傳播算法與大腦的運作方式有何不同？

為什么我們需要無監(jiān)督的局部目標函數？

睡眠和玻爾茲曼機的功能是什么？

為什么培育計算機比制造計算機更好？

為什么需要負面數據？

如今的大規(guī)模語言模型真正理解了語言嗎？

……

AI科技評論在不改變原意的基礎上對他們的訪談作了編輯與整理：

Geoffrey Hinton 最新訪談：不出五年，我們就會破解大腦的運作機制，但不是通過反向傳播

1

反向傳播不同于人腦運作方式
Abbeel：什么是神經網絡？我們?yōu)槭裁匆P注它？

Hinton：我們的大腦是這樣工作的：

它有很多被稱為神經元的小處理元件，每隔一段時間，一個神經元就會發(fā)出 “ping”聲，而使它發(fā)出“ping”聲的原因是它聽到了其他神經元的“ping”聲。每次它聽到其他神經元的“ping”聲時，就會在它得到的一些輸入存儲中增加權重，當權重達到一定輸入后，它也會發(fā)出“ping”聲。

因此，如果你想知道大腦是如何工作的，你只需要知道神經元如何決定調整這些權重。有一些用于調整權重的程序，如果我們能夠把它們弄清楚，那我們就會知道大腦是如何工作的。我認為我們會在未來五年內破解這些程序。

我認為，所有現有的人工智能都是建立在與大腦高層次上所做的事情完全不同的基礎上。它必須趨于相同，當你有很多參數，假設你有數十億的參數，這些神經元間的權重在你大量訓練實例的基礎上去調整參數，就會發(fā)生奇妙的事情。大腦是這樣，深度學習也是這樣。問題在于，你如何獲得調整參數的梯度，因此你要思考衡量標準及想調整的參數，使它們來完善你想達成的措施。

但我目前的信念是，反向傳播，也即目前深度學習的工作方式，與大腦所做的完全不同，大腦是以不同的方式來獲得梯度的。

Abbeel：你寫過一篇關于訓練神經網絡的反向傳播的論文，它成為今天大家所做一切的動力，而現在你說是時候弄清楚我們是否應該做些改變了？是否應該將其向與大腦相似做努力？你是否認為反向傳播可以比大腦正在做的事更好？

Hinton：Rumelhart、Williams和我確實寫了關于反向傳播的論文（如下）、且被引用次數最多。

Geoffrey Hinton 最新訪談：不出五年，我們就會破解大腦的運作機制，但不是通過反向傳播
論文地址：http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf

反向傳播已廣為人知。我們真正做的是表明了它可以學習有趣的表征，并非我們發(fā)明了反向傳播，而是重新定義了反向傳播。我們提出它可以學習有趣的表征，例如單詞嵌入，因此認為反向傳播可能比我們在大腦中的效率要高得多。將大量信息擠壓到少數幾個連接中，而少數幾個連接只有幾十億個，因此大腦的問題是連接非常便宜，有數以萬億計的連接，而經驗是非常昂貴的，所以我們傾向于在少量經驗上投入大量參數。

而我們正在使用的神經網絡基本上是相反的。它們有很多的經驗，并試圖把輸入和輸出的信息聯系到參數中。我認為反向傳播比大腦使用的方法更有效，但并不擅長從不多的數據中抽象出很多結構。

Abbeel：對于這方面，你有什么可能獲得更好性能的方法的假設嗎?

Hinton：很長時間里我都認為，我們需要無監(jiān)督目標函數。這里主要是指感知學習，如果你能通過觀察世界來學習模型，那你就可以基于這個模型、而非原始數據采取行動，這正確率更高。

我相信大腦使用了很多局部小的目標函數，它不是一種端到端的系統鏈，通過訓練來優(yōu)化目標函數。

舉個例子，如果你看張圖像的一小塊，試圖提取些表征，可以將你從那小塊圖像中得到的表征、與通過附近其他斑塊的表征而得到的上下文語境進行比較，由此去預測該圖像中有什么。

一旦你對這個領域很熟悉，這些來自上下文的預測和本地提取的特征通常會一致。如果不一致，你也能從中學到很多。

我認為大腦可以從這種局部分歧中學到很多東西。可能在你看來，一個大圖像和圖像的許多小局部斑塊意味著很多反饋，即圖像中的局部提取和上下文預測的一致。我們可以從這些與上下文預測的一致中得到更豐富的反饋。要做到這一點很難，但我認為現在正沿著這條線發(fā)展。

Abbeel：你對SimCLR這項工作以及它與更普遍的學習的差異有什么看法？你怎么看待最近的MAE（Masked Autoencoders）？它與你剛才的描述有什么關系？

Hinton：我所得到的相關有證據表明，這種目標函數是好的。

我個人沒有寫過這篇論文，但在很久以前，曾與Sue Becker寫過一篇關于從圖像的兩個不同斑塊得到一致表征思考的論文。我認為，那是關于通過在同一圖像的兩個塊表征之間達成一致、來進行自監(jiān)督學習的想法的起源。

Abbeel：我們來談一談你提到的使用端到端學習反向傳播來支持端到端學習的方法。你的意思是，以接近大腦的學習方式，即從更少的數據中學習、提取更多數據，將是在了解大腦運作方式上取得進展的關鍵。今天，很多人正在努力解決從無標簽數據中有效學習的問題，因為它需要的人力更少，但他們仍然使用跟反向傳播相同的機制。

Hinton：我不喜歡MAE的地方在于，你有一些輸入補丁，經過多層表征，在網絡的輸出中試圖重建缺失的輸入補丁。

我認為大腦有這些層次上的表征，但每個層都在試圖重構下面那個層次的內容。并不是說經歷了這么多層再返回，而是有這么多層，每一層都試圖重建下一層的東西。在我看來，這更像大腦，但問題在于：如果不使用反向傳播，你能做到這一點嗎？

顯然，如果通過多個層次重建輸出的缺失部分，你需要通過所有層次來獲得信息，而反向傳播已經內置于所有的模擬器中，但大腦并非如此。

Abbeel：想象一下，大腦在處理這些局部的目標時有三個選擇：一是我們想要優(yōu)化的局部目標是什么？二是用什么算法來優(yōu)化它？三是我們將神經元連接在一起進行學習的架構是什么？在這三個問題上，我們似乎都還沒有做得很好。你怎么看？

Hinton：如果你對認知學習感興趣，那就非常清楚。

你想要一個可視主題地圖，一種書寫主題地圖的層次結構，架構上是局部連接的。對此，你可以通過假設在反電子地圖上某個位置的東西是由其對應的視神經圖決定的，來解決很多信用分配問題。不需深入系統，而是使用局部交互、弄清楚像素在其中的作用。

目前，神經網絡所做的是，假設在每個局部性上使用相同函數，卷積神經網絡如此，transformer也如此。大腦不一定能做到這點，因為這會涉及權重共享，且要在每個地方做完全相同的計算。而有一種方法能達到權重共享的目標，那就是卷積，我認為它在大腦中能起到更有效的作用。

如果你想通過上下文預測同局部提取達成一致，那么想象一下，有一堆列在做本地預測，并通過查看附近的列以獲得其上下文預測。你可以把上下文看作是本地預測的老師，反之亦然。把上下文中的信息看作是被提煉到本地提取器中。由此可得到的是相互提煉，它們都在為對方提供教學信號，這意味著關于你應在一個地方提取的知識正被轉移到其他地方。

當它們試圖達成一致，或者想讓不同位置的事物達成一致，例如希望鼻子和嘴巴同意各自是同一張臉的一部分，那它們都應該產生相同的表征，當你試圖在不同地方獲得相同表征，就需要允許知識從一個地方被提煉到另一個地方，這與實際的權重共享相比有更大的優(yōu)勢。

顯然，從生物學角度來說，一個優(yōu)勢是不同位置的詳細架構無需相同，另一個優(yōu)勢是前端處理無需相同。

拿視網膜來說，不同部分的視網膜有不同大小的感知域，卷積網忽略它們多個不同的分辨率，并在每個分辨率上做卷積，但它們無法執(zhí)行不同的前端處理。而如果從一個位置提取到另一個位置，要做的就是從光學陣列獲得相同函數在不同位置的表示，此時在不同的位置對光學陣列采取不同的預處理也可以，即使前端處理不同，但仍可以提煉出表示整個功能的知識。

所以，雖然提取比實際顯示權重效率低，但它更靈活，在神經系統上更可信。這也是我一年前提出一個重要看法，即必須有類似權重共享的技巧來提高效率，但如果你試圖讓相鄰事物達成一致，那本地提取就會起作用。

Abbeel：既然大腦的方式不同，我們是否應該繼續(xù)用另一種方式來考慮權重共享，還是說我們不應該繼續(xù)權重共享？

Hinton：我認為應該繼續(xù)在卷積網中做卷積的事情，在transformer中共享權重，通過共享權重來共享知識。要記住，大腦分享知識不是通過共享權重，而是通過共享從輸入到輸出的功能，利用提取來傳遞知識。

2

人腦尖峰神經元 vs. GPU人工神經元
Abbeel：現在還有一個話題被廣泛談論，大腦與當前神經網絡很不同，神經元是用尖峰信號工作的，跟我們GPU中的人工神經元存在很大的差異。我很好奇你對這個問題的看法，這只是一個工程上的差異，還是我們可能需要更多知識來更好理解？

Hinton：這不僅僅是工程上的不同。一旦我們理解了為什么硬件這么出色，就能理解它對大腦地理標記單位視網膜是敏感的。例如，視網膜不使用尖峰神經元，有大量非尖峰神經的處理。一旦理解了大腦皮層的運作原因，我們就會發(fā)現這是生物學的正確做法。我認為這取決于學習算法是如何得到尖峰神經元網絡的梯度，但目前沒有人真正知道。

關于尖峰神經元的問題，往往會出現兩種截然不同的決策：它在什么時候會出現尖峰，以及它會不會出現尖峰。這就是離散決策。人們想出各種替代函數來試圖優(yōu)化系統。

2000年，Andy Brown和我有一篇關于嘗試學習尖峰玻耳茲曼機的論文，如果有一個適合尖峰碼的學習算法就太棒了，我想這是阻礙尖峰神經元硬件發(fā)展的主要原因。

許多人已經意識到可以用這種方式制造更節(jié)能的硬件，并且也構建了巨大的系統，但真正欠缺的是一個出色的學習結果。因此我認為，在得到一個好的學習算法之前，我們將無法真正利用尖峰神經元做事情。

因此，當你采取一個標準的人工神經元時，只需要問：它是否能分辨輸入的兩個值是否相同？不能。但當你使用尖峰神經元時，就很容易建立一個系統，兩個尖峰在同時到達，它們就會放電，不同時間到達則不會。因此，使用峰值時間似乎是一個衡量一致性的好方法。

正如生物系統，你之所以可以看到方向、聲音，來自于信號到達兩只耳朵的延時，如果拿一英尺來說，光大約是一納秒，而第一個聲音大約是一毫秒。但如果我將東西在你側面移動幾英寸，到兩只耳朵的時間延遲差異，到兩只耳朵的路徑長度只有一英寸的一小部分，即信號到兩只耳朵的時間差只有一毫秒。因此我們對30毫秒的時間很敏感，以便從聲音中獲得立體聲。我們通過兩個軸突（不同方向尖峰傳遞）來做到這一點，一個來自一個耳朵，一個來自另一個耳朵，當尖峰同時到達，就有細胞發(fā)出信號。

因為尖峰時間可以被用來做非常敏感的事情，那當它的精確時間沒被使用時，將是件令人驚訝的事。長時間以來，我一直認為，如果你能用尖峰時間來檢測自監(jiān)督學習等方面的一致性，或者說，我提取了你的嘴巴和鼻子的信息，從嘴巴和鼻子來預測你整個面部，當你的嘴巴和鼻子能正確組成一個面部，這些預測就會一致。如果能用尖峰時間來觀察這些預測是否一致就更好了，但很難做到，因為我們不知道、也沒有一個好的算法來訓練網絡，就像神經元一樣。

Abbeel：你剛才是說視網膜不使用所有尖峰神經元？大腦有兩種類型的神經元，有些更像我們的人工神經元，有些則是尖峰神經元？

Hinton：我不確定視網膜是否更像人工神經元，但可以肯定的是，大腦新皮層有尖峰神經元，這是它的主要交流模式，發(fā)送尖峰從一個參數到另一個參數細胞。

我有一個很好的論點：大腦有非常多參數，和我們使用的典型神經網絡相比沒有太多的數據，這種狀態(tài)下有可能過度擬合，除非使用強大的正則化。一個好的正則化技術是每次你使用一個神經網絡，你忽略了一大堆的單元，因此可能也忽略神經元正在發(fā)送尖峰的事實。它們真正交流的是潛在的泊松速率。我們假設它是傳遞的。這個過程是有代價的，它隨機發(fā)送脈沖，這個過程中速率是變化的，由輸入到神經元的信息決定，你可能會想要把真實值的速率從一個神經元發(fā)送到另一個，當你想做很多正則化，可以把真實值的速率加上一些噪聲，增加噪音的一種方法是使用會增加很多噪音的脈沖，大多數情況下就是退出的動機。

當你觀察任何一個時間窗口，大多數神經元都不參與任何事情，你可以把尖峰看作是一個代表性的潛在個人比率。這聽起來非常糟糕，因為它很嘈雜。但一旦你理解了正則化，這會是個非常好的主意。

所以我仍然對這個想法情有獨鐘，但實際上我們根本沒有使用尖峰計時。它只是使用非常嘈雜的個人速率表示來成為一個好的正則化器，而我有點像在兩者之間切換。有些年我認為神經網絡是確定性的。我們應該有確定性的神經網絡，這是再往后幾年的東西。我認為這是一個5年的周期。最好的隨機性也非常重要，它會改變一切。因此，玻爾茲曼機本質上是隨機的，這對它們來說很重要。但重要的是，不要完全致力于這兩種情況，而是要對這兩種情況持開放態(tài)度。

現在重要的是，更多地考慮你剛才所說尖峰神經元的重要性，并弄清楚如何有效地訓練尖峰神經元網絡。

Abbeel：如果我們現在說不要擔心訓練的部分（考慮到它看起來更有效率），難道人們不想分布純粹的推理芯片，也即是分別進行有效的預訓練，然后將其編譯到尖峰神經元芯片上，使它具有非常低功率的推理能力？

Hinton：很多人都想到了這一點，這非常明智，它可能在進化的道路上使用神經網絡進行推理是有效的，并且所有人都在這樣做，也被證明是更有效的，不同的公司已經生產了這些大的尖峰系統。

一旦你在做這些事情，你會對推理越來越感興趣，可以用一種方式來學習在尖峰時期更多利用可用的能量。所以你可以想象有一個系統，你學習時是使用輔助設備，不是模擬硬件，例如不在這個低能量的硬件上，但你可以將其轉移到低能量的硬件上就很好。

3

AlexNet的誕生背景
Abbeel：什么是AlexNet？它是如何產生的？你從研究受限玻爾茲曼機器到試圖理解大腦如何工作的路徑是什么？

Hinton：我想說，你可能突然間就證明了，更傳統的神經網絡方法確實行得通。

大約在2005年，我被可以使用成堆的限制電壓機器來預先訓練特征檢測器的想法迷住了，它可以更容易地讓Backdrop工作，結果是有足夠的數據。后來，因為Faith Ali和她的圖像識別團隊有了足夠的數據，盡管預訓練即將回歸，但不再需要預訓練。

GPT-3有預訓練，預訓練也是個好主意，可一旦我們發(fā)現你可以預訓練，這能使背景工作更好，對語音有很大的幫助，就像George John 和 Abdul Rahman Muhammad在2009年做的那樣。此后，我小組的研究生 Alex 開始將相同的想法應用于視覺，很快我們發(fā)現，當你有ImageNet的數據時，你并不需要預訓練。

我記得有一天Ilya來到實驗室說：「看，現在我們已經有了語音識別，這東西真的很管用，我們必須在其他人之前做出ImageNet。」Janella也走進實驗室表達了這樣的想法，他的學生和博士后也說：「哇，但是我正在忙其他的事情。」事實上他沒有辦法讓誰致力于此。后來他說服了Alex通過對數據進行預處理來完成這個實驗，數據都被預處理成他所需要的。

這只是背景。我想說的是，很多研究人員都知道這個，但可能不是每個人都知道Alex的結果和Ilya之前在ImageNet圖像識別競賽上的工作相比錯誤率降低了一半。這就是為什么每個人都從手工設計的方法轉向計算機視覺，嘗試直接編程。

4

從學術界到谷歌
Abbeel：哪一刻標志著你的職業(yè)生涯發(fā)生了重大變化？從學術界到谷歌，對你產生了什么影響？為什么會發(fā)生這種轉變？

Hinton：我有一個殘疾的兒子需要撫養(yǎng)，所以需要一大筆錢，一個方法是教課。2012年，我教了一門神經網絡的課程。但他們的軟件不是很好，所以做起來非常煩躁。每周一章，我必須給他們提供教學視頻，會有一大堆人要看。有時上完課第二天Yoshua Bengio會問：「你為什么（在課上）這么說？」

我與多倫多大學最初的協議是，如果從這些課程中賺到任何錢，我希望大學將錢與教授們分享，他們沒有明確說明具體的分配方式，但人們認為大概在50％或類似，我對此沒有意見。但在我開始授課后，教務長在沒有咨詢我或其他人的情況下做出了一個單方面的決定：如果資金來自課程平臺，大學會拿走所有的錢，而教授什么都拿不到。我讓學校幫我準備視頻，制作視頻的人會來問我，你知道制作視頻有多貴嗎？

這讓我對學校感到非常生氣，所以我開始考慮教授之外的其他職業(yè)選擇。那個時候，我們突然引起了各種公司的興趣，他們要招募我們，要么是給予大額撥款，要么是資助創(chuàng)業(yè)。通常我會說不，我不想試圖從研究中賺取額外的錢，但那次學校騙了我錢的經歷，讓我想找一些其他的方式來賺錢。

Abbeel：當時的拍賣會是一種怎樣的場景？

Hinton：那是在NIPS會議上，Terry在一個賭場里組織了一些小活動。在酒店地下室煙霧繚繞的房間里，有人在樓上賭博，感覺就像在拍電影。我們完全不知道自己值多少錢。我咨詢了一位律師，他說我可以聘請專業(yè)的談判人員，或者直接進行拍賣。

據我所知，這是第一次有像這樣的小團體進行拍賣。我們通過Gmail進行拍賣，人們必須把他們的出價用電子郵件發(fā)給我，并附上電子郵件的時間戳。價格一直在漲，一開始是50萬美元，之后是100萬美元，這很令人興奮，我們發(fā)現自己的價值比我們想象的要高得多。

回想起來，我們也許可以得到更多，但我們已經看到了一個我們認為是天文數字的金額。我們都想為谷歌工作，所以我們停止了拍賣，并確定加入谷歌。

Abbeel：據我了解，你今天還在谷歌。

Hinton：我現在還在谷歌工作，已經9年了。我喜歡谷歌的主要原因是，核心團隊非常好。

我和Jeff Dean相處得非常好，他非常聰明，而我是非常直截了當的。他希望我做的正是我想做的事情，也就是基礎研究。他認為我應該做的是嘗試提出全新的算法，這就是我想做的，非常適配。我不擅長管理一個大團隊，去提高百分之一的語音識別能力。但我很樂意，最好是可以再一次徹底改變這個領域。

Abbeel：你曾是多倫多大學的計算機科學教授，但你從來沒有獲得過計算機科學學位，你獲得過心理學學位，而且你還曾做過木匠。你是如何從學習心理學、到成為一名木匠、再到進入人工智能領域的？

Hinton：在劍橋的最后一年，我過得很艱難。考試后我就退學當了一名木匠，我喜歡做木工活勝過其他任何事。高中時上完所有的課程，晚上就可以呆在家里做木工活，所以我成為了一名木匠，做了大約6個月。

但我不可能以做木匠為生。我曾是一名木匠兼裝修師，在裝修的過程中賺了錢，我很享受做木工活的樂趣。直到我遇到了一個真正的木匠，才意識到我在木工方面完全沒有希望。他可以用手鋸把一塊木頭完全切成方形。和他比起來，我太絕望了，我決定還是回到人工智能。

Abbeel：據我所知，你的博士是在愛丁堡大學攻讀的。

Hinton：是的，我去那里攻讀神經網絡的博士學位，和著名教授Christopher Longa Higgins一起做研究，他真的非常出色，在30多歲時就因為研究出硼氫化物的結構而差點獲得諾貝爾獎。他對神經網絡以及與全息圖的關系很感興趣，大約在我到達愛丁堡的那天，他對神經網絡失去興趣，因為讀了Winograd的論文而完全改變看法，認為神經網絡是錯誤的思考方式。盡管他完全不同意我所做的事情，但他并沒有阻止我做這件事。

国内a级毛片-国内不卡1区2区-国内福利写真片视频在线观看-国内高清久久久久久久久-日本高清无吗-日本高清午夜色wwwσ

Geoffrey Hinton 最新訪談：不出五年，我們就會破解大腦的運作機制，但不是通過反向傳播