神經網絡如何外推:從前饋到圖形神經網絡

Submitted by neurta on Thu, 01/14/2021 - 08:26
iclr

最終決定?

ICLR 2021會議計劃主席

2021年1月8日(修改時間:2021年1月13日)ICLR 2021會議論文700決策讀者:?大家

決定:接受(口頭)

評論:

本文研究了(兩層)神經網絡如何外推。論文寫得很漂亮,作者非常成功地回答了所有問題。他們設法更新了論文,澄清了假設并添加了其他實驗。

[–]

更新資料?

ICLR 2021會議論文700位作者

2020年11月21日(修改:2020年11月21日)ICLR 2021會議論文700官方評論讀者:?大家

評論:

尊敬的審稿人和審計委員會,

我們更新了草稿,以納入審稿人的有見地的建議:

遵循Reviewer 3和Reviewer 4的建議,我們在第3.3節(先前在附錄中提供了初步結果)中針對具有不同激活函數(tanh,二次方和余弦)的MLP添加了其他外推實驗。

根據Reviewer 4的建議,我們添加了關于與其他分布外設置的關系的第5節(第5節),包括域自適應,自我監督學習,不變模型和分布魯棒性。

遵循Reviewer 2的建議,我們在整個論文中都明確了定理的假設。我們還強調說,我們的理論結果在不同的訓練設置(例如,寬度,深度,學習率,批量大?。┥辖涷炐缘爻闪?,因此在實踐中可以放寬假設。

遵循審稿人3的建議,我們在4.1節中討論了相關的神經算術邏輯單元。我們的結果可能提出了一個解釋,為什么他們提出的體系結構可以改進算術任務的外推。

在最終版本中,我們將改進審閱者1,審閱者2,審閱者3,審閱者4的其他次要方面。謝謝大家的寶貴建議。

如果您還有其他問題,請告訴我們。

謝謝,

s

[–]

一般更新?

ICLR 2021會議論文700位作者

2020年11月15日(修改日期:2020年11月19日)ICLR 2021會議論文700官方評論讀者:?大家

評論:

尊敬的審稿人和審計委員會,

我們衷心感謝所有評論。他們在我們的論文中給出了積極而高質量的評論,并提供了許多建設性的反饋。我們正在努力納入審稿人的有見地和有價值的建議。我們將更新草稿并盡快發布回復。

[–]

有趣的論文,結果有些具體?

ICLR 2021會議論文700 AnonReviewer2

2020年10月28日(修改:2020年11月22日)ICLR 2021會議論文700官方評論讀者:?大家

評論:

概要

本文研究了神經網絡如何外推。作者從理論上研究了NTK體制中均方損失的兩層ReLU MLP,并基于這些結果研究了GNN。他們發現,MLP可以從原點沿任何方向快速收斂到線性函數,但是可以證明在訓練分布足夠多樣化的情況下學習線性目標函數。對于GNN,他們提出了一個假設,即將算法任務外推到新數據的成功取決于對體系結構或功能中特定于任務的非線性進行編碼。理論結果得到經驗結果的支持,有時甚至超出定理的特定條件(例如,將MLP中的層數增加到附錄C.1中的4)。

優點

  • 本文提供了關于神經網絡,尤其是GNN的外推功能的理論和實踐見解。
  • 我特別喜歡有關GNN的部分以及以下假設:如果我們可以對MLP外部的非線性進行編碼,以便MLP僅需學習線性函數,那么GNN將會很好地進行推斷。
  • 總體而言,我發現該論文非常有趣并且閱讀有趣。

顧慮

  • MLP的理論結果非常具體。有時從結果的摘要或討論中都看不出來。一些約束:
    • MLP有兩層,我發現這是最大的限制,因為大多數實際的MLP都有更多的層。
    • 整篇論文均使用均方根損失。我認為這還不夠強調(本文僅一次提及)。據我了解,證明也依賴于損失,因此損失應包含在定理的條件中。
    • 我們處于NTK體制之下,這當然可以從所使用的技術中看出。但是,摘要中未提及。
    • MLP是ReLU MLP,本文對此進行了充分強調。作者將其他激活函數的初步經驗結果包括在附錄中(正弦,二次方和正切)。

問題

  • 定理3和定理5的證明是否可以推廣到具有更多層的MLP?
  • 我們是否可以基于這些結果對其他損失函數(例如softmax)的外推有所了解?

排名原因

我發現該論文非常有趣,并從中獲得了很多見識。MLP的某些約束沒有得到足夠的重視,并且在某些方面的寫作比結果有保證的更為籠統。即使存在限制,我仍然相信這是重要的一步,并為神經網絡的外推功能提供了啟示。如果可以更清楚地限制我,我愿意進一步提高自己的分數。

次要評論

  • 第5頁的倒數第二段:“對于定理5”應為“對于定理5”。
  • 圖1的標題:outisde =>外面
  • 在4.2?!皩嶒灒河兄谕馔频捏w系結構”中:“具有最大讀數的GNN優于具有和讀數的GNN(圖6a)”應該是圖5a。

評分:9:接受論文的前15%,強烈接受

信心:3:審閱者相當有信心評估是正確的

[–]

我們的回應?

ICLR 2021會議論文700位作者

2020年11月21日(修改:2020年11月21日)ICLR 2021會議論文700官方評論讀者:?大家

評論:

多謝您的寶貴意見。

在整個論文中,我們已經使定理的假設更加清楚:(1)在抽象中,我們現在指出,我們的理論結果建立在過參數化網絡與神經切線核之間的聯系上;(2)我們已經闡明,我們在所有定理中都使用平方損失;(3)在引言和第3節中,我們強調了我們的證明適用于兩層網絡。正如您已經認識到的那樣,我們使用實驗來確認我們的理論在不同的訓練設置(例如4層網絡(附錄C.1和C.2))中成立。因此,定理中的假設可以在實踐中放寬。再次感謝您的有益建議。請讓我們知道是否有任何不正確的地方,我們將在最終版本中對其進行修復。

我們在下面回答您的問題。

問題1:定理3和定理5的證明是否可以推廣到具有更多層的MLP?

答:經過一些初步的計算,我們認為我們的證明技術可以擴展到兩層以上。但是,要為更多層提供完整的證明,需要付出很大的努力,因此,我們目前尚無完整的證明。注意,出于類似的原因,有關NTK的大多數理論著作都集中在兩層。您可能已經注意到,我們確實有實驗結果來確認我們的理論適用于更深的網絡(附錄C.1和C.2)。我們同意將證明擴展到多層是一個重要的未來方向。

問題2:我們能否根據這些結果對其他損失函數(例如softmax)的外推有所了解?

A2:不幸的是,很難將理論擴展到softmax損失,但是,我們同意這是未來工作的重要方向。請注意,平方損失可以與其他損失進行競爭[1],因此我們從回歸任務中學到的經驗教訓也可能對分類任務有用。

[1]關于分類中深層神經網絡的損失函數。Janocha等。2017年

我們已經按照建議修復了語法錯誤。

我們很高興回答您可能遇到的其他問題。

[–]

響應?

ICLR 2021會議論文700 AnonReviewer2

2020年11月22日ICLR 2021會議論文700官方評論讀者:?大家

評論:

感謝您的詳細回復!我真的很喜歡這篇論文,我的疑慮得到了解決,所以我將分數更新為9。

[–]

謝謝?

ICLR 2021會議論文700位作者

2020年11月22日ICLR 2021會議論文700官方評論讀者:?大家

評論:

謝謝!我們很高興您喜歡我們的論文,也感謝您的深刻見解。

[–]

MLP和GNN外推能力的關鍵研究為多域適應分析提供了不同的方面?

ICLR 2021會議論文700 AnonReviewer4

2020年10月28日(修改:2020年11月11日)ICLR 2021會議論文700官方評論讀者:?大家

評論:

本文分析了MLP和GNN的外推能力。與現有的側重于這些模型的可推廣性和容量的理論工作相反,本文重點介紹了使用梯度下降的訓練算法的行為。以通過神經正切核進行核回歸的類比為例,研究梯度下降算法引起的偏差。本文的介紹清晰且井井有條,第一部分顯示了最有意義的結果,引起了讀者的興趣,而不是讓他們留下大量的證據。本文的貢獻也很重要,因為與模型結構本身的理論分析相比,它引起了研究人員對算法實現所引起的偏差的理論分析的關注。模型外推還與元學習,多任務學習,領域適應和半監督學習等主題緊密相關,因為模型外推的功能在應用于其他任務時會限制其性能。

優點:

  1. 本文顯示了一些有趣的結果:例如,由GD訓練的帶有ReLU的MLP將在訓練數據支持范圍之外的任意方向上收斂到線性函數。這與MLP在不同區域呈分段線性的想法相吻合。但是,證明很復雜,并且需要以核回歸為基礎。該結果似乎表明,在訓練數據支持的數據流形上對MLP的學習也是局部線性的,并且在沒有訓練數據支持的情況下,歸納遵循線性慣性。很奇怪,這是否是由于ReLU函數的分段線性所致。也許我們將使用tanh和其他S型函數對MLP進行更好的非線性外推。
  2. GNN和動態編程算法之間的比較非常直觀和啟發。這表明與GNN中更常用的總和相反,最大/最小集合更適合于外推,并且最大/最小集合GNN和DP之間的相似性也很有說服力??偟膩碚f,在深入研究證明之前,本文已經建立了良好的直覺。
  3. 改善外推的建議是將非線性放入GNN的體系結構或輸入表示中是有用的。例如,將sum-aggregate替換為min / max聚合有助于實現良好的推斷。這也解釋了為什么像BERT這樣的預訓練嵌入可以用于其他任務,并且仍然可以很好地推斷出來。

意見建議:

  1. 研究范圍的局限性。本文僅討論使用ReLU和GD的神經網絡的結果。盡管GD被廣泛使用,但ReLU作為激活功能在外推研究中起著關鍵作用。有必要對其他常用激活函數的使用進行分析,以了解外推能力是否得到擴展。
  2. 有趣的是,看到與領域適應和半監督學習的更多聯系。

評分:9:接受論文的前15%,強烈接受

信心:4:審閱者有信心,但不能絕對確定評估是否正確

[–]

我們的回應?

ICLR 2021會議論文700位作者

2020年11月21日ICLR 2021會議論文700官方評論讀者:?大家

評論:

多謝您的寶貴意見。

我們在第3.3節中對具有tanh,二次方和余弦激活函數的MLP添加了附加實驗。我們探索了這些MLP在我們用于ReLU MLP的任務上的外推能力。通常,MLP更好地外推涉及與MLP激活“相似”的非線性的函數,例如,當學習二次函數時,二次MLP可以很好地外推。我們將理論分析留給以后的工作。

我們添加了第5節,以討論我們的結果與其他分布外設置(包括域自適應,自我監督學習,不變模型和分布魯棒性)之間的聯系。我們推測,這些方法中的某些方法可能會通過(1)從未標記的分布外數據中學習超出訓練數據范圍的有用非線性,以及(2)將相關的分布外測試數據映射到訓練數據范圍來改善外推。

我們很高興回答您可能遇到的其他問題。

[–]

加強我們對圖神經網絡理解的重要工作。想法是相關的,扎實的和良好的支持??傮w上出色的工作。?

ICLR 2021會議論文700 AnonReviewer1

2020年10月28日(修改:2020年11月11日)ICLR 2021會議論文700官方評論讀者:?大家

評論:

本文從理論的角度研究了MLP和GNN的外推能力(受梯度下降和均方損失的影響)。作者展示了廣泛實驗的結果,這些結果支持了他們的理論發現。

特別是,作者研究了這些神經網絡在訓練分布之外學習什么的問題,并在它們很好地推斷時確定條件。他們的發現表明,ReLU MLP在線性任務中可以很好地外推,收斂速度快(O(1 / \ epsilon)。當使用網絡架構或數據表示形式對非線性操作進行編碼時,GNN(具有MLP模塊)可以很好地外推,因此內部MLP模塊僅與線性函數對齊。

論文寫得很好,清楚地解釋了想法和定義,并詳細列出了實驗。這項工作的理論貢獻很重要,因為它們加深了我們對這些網絡的學習方式和泛化程度的理解。這些發現有助于我們根據手頭的數據和問題設計GNN。因此,這項工作解決了GNN理解中的一個基本問題,必須予以出版。

對作者的一些評論/問題:

  • 在第3.2節中,根據培訓支持和指導非正式地定義了分發的“多樣性”。更詳盡的定義會有所幫助。
  • 該論文的標題有些誤導:“從前饋到GNN”暗示該論文中還討論了其他網絡類型。

評分:9:接受論文的前15%,強烈接受

信心:4:審閱者有信心,但不能絕對確定評估是否正確

[–]

我們的回應?

ICLR 2021會議論文700位作者

2020年11月21日ICLR 2021會議論文700官方評論讀者:?大家

評論:

多謝您的寶貴意見。我們在下面回答您的問題。

問題1:在第3.2節中,根據培訓支持和指導非正式地定義了分布的“多樣性”。更詳盡的定義會有所幫助。

A1:我們在定理5中提供了“多樣性”的確切定義。通過“方向”,我們指的是非零向量w。

問題2:論文標題有點誤導:“從前饋到GNN”暗示論文中還討論了其他網絡類型。

A2:很抱歉您感到困惑。標題是指在前饋網絡模塊上構建GNN的關系。在本文中,我們對前饋網絡的分析(第3節)使我們對更復雜的GNN(第4節)有所了解。從這個角度來看,我們希望標題合適。如果您仍有疑問,請告訴我們。

我們很高興回答您可能遇到的其他問題。

[–]

一篇有趣的論文,它打開了新的方向,可以更好地推斷出我們目前有關深度學習的知識?

ICLR 2021會議論文700 AnonReviewer3

2020年10月27日(修改:2020年11月11日)ICLR 2021會議論文700官方評論讀者:?大家

評論:

本文解決了一個具有挑戰性的問題,即深度網絡如何在其培訓分布的支持范圍之外學習如何推斷知識。本文為新穎的理論論證以及針對目標案例的經驗證據做出了貢獻。與其他最近解決該問題的方法不同,這里介紹的理論分析不是漸近的,并且提供了有關MLP在訓練區域附近可以學習的功能類型的精確信息。此外,作者提供了令人信服的論點,涉及需要在輸入表示形式和/或模型體系結構中明確編碼(特定于任務的)非線性,以促進成功的外推??傮w而言,本文解決了重要問題,可以在深度學習研究的前沿進行考慮。該論文寫得很好,并對最近的文獻進行了適當的回顧。有鑒于此,我認為該文件將使ICLR社區感興趣。但是,我想明確指出,我無法仔細檢查附錄中報告的所有詳細信息和證明,對于ICLR論文來說,篇幅非常長(近40頁)。

可能的改進意見:

  • 附錄D.3 / C.4中報告的有關具有不同激活函數(正弦,正切,二次方)的MLP的外推能力的分析是相關的,應予以強調。例如,可以通過考慮正文中分析的一些數據生成任務來擴展它們。
  • 將分析擴展到MLP無法適當推斷的其他簡單問題將非常有趣。我具體指的是在[1]中討論的簡單計數和算術任務,其中訓練分布之外的泛化是通過向網絡中添加臨時門單元來實現的。鑒于作者在論文的開頭句子中提到了算術,我認為這個領域在這里特別重要。

[1] A. Trask,F。Hill,S。Reed,J。Rae,C。Dyer和P. Blunsom,“神經算術邏輯單元”,arXiv:1808.00508,2018年。

評分:8:接受論文的前50%,明確接受

信心:4:審閱者有信心,但不能絕對確定評估是否正確

[–]

我們的回應?

ICLR 2021會議論文700位作者

2020年11月21日ICLR 2021會議論文700官方評論讀者:?大家

評論:

多謝您的寶貴意見。

我們在第3.3節中對具有tanh,二次方和余弦激活函數的MLP添加了附加實驗。我們探索了這些MLP在我們用于ReLU MLP的任務上的外推能力。通常,MLP更好地外推涉及與MLP激活“相似”的非線性的函數,例如,當學習二次函數時,二次MLP可以很好地外推。我們將進一步的理論分析留給未來的工作。

感謝您指出我們先前關于算術任務和神經算術邏輯單元(NALU)的工作。它們的確確實相關。在第4.1節中,我們將使用理論結果來對NALU為何有助于算術任務進行外推提供潛在的解釋。為了學習乘法,NALU在體系結構中編碼對數和展開非線性變換。由于log(a * b)= log a + log b,因此該變換將乘法減少為線性函數,這有助于遵循我們的線性算法比對假設進行推斷。為了改善學習加法運算,他們提出了稀疏性約束,這超出了本文的范圍。

我們很高興回答您可能遇到的其他問題。

冯仰妍破处门