核心提示:從計算機網絡到大型強子對撞機中的粒子相互作用,圖可以用來模擬任何東西。圖之所以無處不在,是因為它們具有離散性和組合性,這
從計算機網絡到大型強子對撞機中的粒子相互作用,圖可以用來模擬任何東西。圖之所以無處不在,是因為它們具有離散性和組合性,這使得它們能夠表達抽象關系,同時又易于計算。它們受歡迎的原因之一是圖抽象出幾何圖形,即節點在空間中的位置或邊緣是如何彎曲的,只留下節點如何連接的表示。
圖論起源于萊昂哈德 · 歐拉(Leonhard Euler)在1741年的著作《geometria situs》中的觀察,他指出著名的柯尼斯堡七橋問題問題沒有解決方案。
Michael Bronstein從代數拓撲學取經,提出了一種新的圖神經網絡計算結構!
圖注:七橋問題要求在哥尼斯堡市內找到一條循環行走的路線,不需要多次過橋。正如歐拉所說,哥尼斯堡市的確切形狀并不重要,重要的是不同的土地(圖的節點)是如何相互連接的(邊)。歐拉表明,當且僅當所有節點具有偶數度時,這樣的循環才存在。另外,最初的橋梁中只有五座存活到現代。
有趣的是,歐拉的發現不僅標志著圖論的開始,而且也常常被認為是拓撲學誕生的標志。與圖一樣,拓撲學家對空間的那些與其特定形狀或幾何形狀無關的屬性感興趣。
這些思想的現代表現形式出現在1895年的“分析地點” (Analysis situs),這是 Henri Poincaré 的一篇開創性的論文,他的工作點燃了對流形的組合描述的興趣,從這些流形中可以更容易地找到和計算拓撲不變量。
Michael Bronstein從代數拓撲學取經,提出了一種新的圖神經網絡計算結構!
這些組合描述今天被稱為細胞復合體 ,可以被認為是圖的高維概括。
與由節點和邊形成的圖不同,細胞復合體也可以包含更高維的結構或“細胞”:頂點是0-細胞,邊是1-細胞,2D 表面是2-細胞等。為了構建一個細胞復合體,我們可以通過將一個細胞的邊界粘合到其他低維細胞上來進行分層。
在特殊情況下,當單元格由單形(如邊、三角形、四面體等)構成時,這些空間也稱為單形復合體。
Michael Bronstein從代數拓撲學取經,提出了一種新的圖神經網絡計算結構!
1
機器學習與數據科學中的拓撲
我們認為,人們不必等待 400 年才將把拓撲學變成一種實用的工具。
在拓撲數據分析(TDA)的保護傘下,諸如淺層復合物這樣的拓撲結構已經被用于機器學習和數據科學,這類方法出現在20世紀90年代,試圖以一種對度量不敏感和對噪聲穩健的方式來分析“數據的形狀”。
TDA的根源可以追溯到20世紀20年代末最多產的拓撲學家之一 Leopold Vietnam oris 的工作。然而,這些技術必須等到現代計算的誕生才能大規模應用。
Michael Bronstein從代數拓撲學取經,提出了一種新的圖神經網絡計算結構!
給定一個點云,每個點周圍固定半徑的封閉球之間的交叉點產生一個簡單的復合體。通過逐步增加球的半徑,我們可以得到一個嵌套的簡單復合體序列。圖源:Bastian Rieck。
TDA 的主力是持久性同源性(PH),一種從點云中提取拓撲特征的方法。給定一個點的數據集,PH 創建一個簡單復數的嵌套序列,其中每個復數對應于分析基礎點云的某個比例。然后,它跟蹤各種拓撲特征(例如,連接的組件、循環或空洞) ,這些特征隨著比例的逐漸增加而出現和消失,并且人們從序列中的一個復合物過渡到下一個復合物。
在深度學習時代,持久性同源性有了“第二次生命”,因為它表明人們可以通過它進行反向傳播,從而允許將已經建立的 TDA 設備集成到深度學習框架中。
最近的一系列工作提出了在幾何深度學習中簡化和細胞復合體的不同用途,作為一個更豐富的底層拓撲空間來支持數據和對其進行的計算。
最早利用這一觀點的幾項工作提出了卷積模型以及在簡化復合體上操作的隨機行走方法。如在本文中,卷積模型可以被理解為簡單和細胞復合體上信息傳遞的具體實例。
由于計算是由這些空間的拓撲結構(即鄰域結構)驅動的,我們把這套方法稱為拓撲信息傳遞。在這個框架中,相鄰的單元,可能是不同維度的,正在交換信息,如下圖所示。
Michael Bronstein從代數拓撲學取經,提出了一種新的圖神經網絡計算結構!
拓撲信息傳遞示意圖。藍色箭頭描述了上層相鄰細胞之間的“水平”信息傳播,即同一高維細胞的邊界上的細胞。紅色箭頭描述了“垂直”信息傳播,即細胞從其邊界的低維細胞中接收信息。將來自邊界細胞的信息匯總到一個更粗的表示中,這種計算可以被解釋為一種(可微分的)集合形式。
在 GNN 中超越圖
盡管細胞復合體提供了豐富的結構,但我們不能忽視圖是迄今為止機器學習中最常見的拓撲對象,而且很少有數據集能超越它們。盡管如此,人們仍然可以通過轉換輸入圖來利用這些有趣的拓撲空間。
我們把將圖轉換為高維拓撲空間稱為“提升”,以類似于范疇理論中的同名概念。它是一種轉換,通過遵循某些規則將高維單元附加到輸入圖上。例如,一個圖可以通過在圖的每個懸崖或周期上附加一個高維單元而被提升為一個單元復合體。通過這樣做,圖被替換成一個不同的空間,它有更多的結構,可以為GNN提供一個比原始圖更好的計算結構。在下文中,我們將討論這種方法的具體優勢。
Michael Bronstein從代數拓撲學取經,提出了一種新的圖神經網絡計算結構!
通過將二維封閉圓盤的邊界粘合到圖中的誘導循環上,可以從圖中構造出高維的細胞復合體。
高階特征和結構
GNN通常采用以節點為中心的觀點,駐留在邊上的數據僅被視為增加頂點間通信的輔助信息。在拓撲信息傳遞中,所有單元都是一等公民。無論它們的維度如何,它們都被分配了一個特定的表示,這個表示是通過與相鄰的單元交換信息而發展起來的。這為明確地模擬某些高階結構和它們之間的相互作用提供了一個秘訣。特別是,它提供了一種原則性的方法來演化輸入圖的邊緣(即1個單元)特征,這是一大類 GNN 模型沒有考慮到的問題。
高階交互
圖表根據定義是二元的(“成對的”),不能表示涉及兩個以上對象的關系和交互。在對以高階相互作用為特征的復雜系統進行建模時,這可能是一個問題:例如,化學反應中的三種反應物可能同時發生相互作用。在細胞復合體中,這種情況可以通過兩個細胞(即“填充”三角形)連接反應物來編碼。因此,模型的計算流程適應高階交互的存在。
Michael Bronstein從代數拓撲學取經,提出了一種新的圖神經網絡計算結構!
圖注:七橋問題要求在哥尼斯堡市內找到一條循環行走的路線,不需要多次過橋。正如歐拉所說,哥尼斯堡市的確切形狀并不重要,重要的是不同的土地(圖的節點)是如何相互連接的(邊)。歐拉表明,當且僅當所有節點具有偶數度時,這樣的循環才存在。另外,最初的橋梁中只有五座存活到現代。
有趣的是,歐拉的發現不僅標志著圖論的開始,而且也常常被認為是拓撲學誕生的標志。與圖一樣,拓撲學家對空間的那些與其特定形狀或幾何形狀無關的屬性感興趣。
這些思想的現代表現形式出現在1895年的“分析地點” (Analysis situs),這是 Henri Poincaré 的一篇開創性的論文,他的工作點燃了對流形的組合描述的興趣,從這些流形中可以更容易地找到和計算拓撲不變量。
Michael Bronstein從代數拓撲學取經,提出了一種新的圖神經網絡計算結構!
這些組合描述今天被稱為細胞復合體 ,可以被認為是圖的高維概括。
與由節點和邊形成的圖不同,細胞復合體也可以包含更高維的結構或“細胞”:頂點是0-細胞,邊是1-細胞,2D 表面是2-細胞等。為了構建一個細胞復合體,我們可以通過將一個細胞的邊界粘合到其他低維細胞上來進行分層。
在特殊情況下,當單元格由單形(如邊、三角形、四面體等)構成時,這些空間也稱為單形復合體。
Michael Bronstein從代數拓撲學取經,提出了一種新的圖神經網絡計算結構!
1
機器學習與數據科學中的拓撲
我們認為,人們不必等待 400 年才將把拓撲學變成一種實用的工具。
在拓撲數據分析(TDA)的保護傘下,諸如淺層復合物這樣的拓撲結構已經被用于機器學習和數據科學,這類方法出現在20世紀90年代,試圖以一種對度量不敏感和對噪聲穩健的方式來分析“數據的形狀”。
TDA的根源可以追溯到20世紀20年代末最多產的拓撲學家之一 Leopold Vietnam oris 的工作。然而,這些技術必須等到現代計算的誕生才能大規模應用。
Michael Bronstein從代數拓撲學取經,提出了一種新的圖神經網絡計算結構!
給定一個點云,每個點周圍固定半徑的封閉球之間的交叉點產生一個簡單的復合體。通過逐步增加球的半徑,我們可以得到一個嵌套的簡單復合體序列。圖源:Bastian Rieck。
TDA 的主力是持久性同源性(PH),一種從點云中提取拓撲特征的方法。給定一個點的數據集,PH 創建一個簡單復數的嵌套序列,其中每個復數對應于分析基礎點云的某個比例。然后,它跟蹤各種拓撲特征(例如,連接的組件、循環或空洞) ,這些特征隨著比例的逐漸增加而出現和消失,并且人們從序列中的一個復合物過渡到下一個復合物。
在深度學習時代,持久性同源性有了“第二次生命”,因為它表明人們可以通過它進行反向傳播,從而允許將已經建立的 TDA 設備集成到深度學習框架中。
最近的一系列工作提出了在幾何深度學習中簡化和細胞復合體的不同用途,作為一個更豐富的底層拓撲空間來支持數據和對其進行的計算。
最早利用這一觀點的幾項工作提出了卷積模型以及在簡化復合體上操作的隨機行走方法。如在本文中,卷積模型可以被理解為簡單和細胞復合體上信息傳遞的具體實例。
由于計算是由這些空間的拓撲結構(即鄰域結構)驅動的,我們把這套方法稱為拓撲信息傳遞。在這個框架中,相鄰的單元,可能是不同維度的,正在交換信息,如下圖所示。
Michael Bronstein從代數拓撲學取經,提出了一種新的圖神經網絡計算結構!
拓撲信息傳遞示意圖。藍色箭頭描述了上層相鄰細胞之間的“水平”信息傳播,即同一高維細胞的邊界上的細胞。紅色箭頭描述了“垂直”信息傳播,即細胞從其邊界的低維細胞中接收信息。將來自邊界細胞的信息匯總到一個更粗的表示中,這種計算可以被解釋為一種(可微分的)集合形式。
在 GNN 中超越圖
盡管細胞復合體提供了豐富的結構,但我們不能忽視圖是迄今為止機器學習中最常見的拓撲對象,而且很少有數據集能超越它們。盡管如此,人們仍然可以通過轉換輸入圖來利用這些有趣的拓撲空間。
我們把將圖轉換為高維拓撲空間稱為“提升”,以類似于范疇理論中的同名概念。它是一種轉換,通過遵循某些規則將高維單元附加到輸入圖上。例如,一個圖可以通過在圖的每個懸崖或周期上附加一個高維單元而被提升為一個單元復合體。通過這樣做,圖被替換成一個不同的空間,它有更多的結構,可以為GNN提供一個比原始圖更好的計算結構。在下文中,我們將討論這種方法的具體優勢。
Michael Bronstein從代數拓撲學取經,提出了一種新的圖神經網絡計算結構!
通過將二維封閉圓盤的邊界粘合到圖中的誘導循環上,可以從圖中構造出高維的細胞復合體。
高階特征和結構
GNN通常采用以節點為中心的觀點,駐留在邊上的數據僅被視為增加頂點間通信的輔助信息。在拓撲信息傳遞中,所有單元都是一等公民。無論它們的維度如何,它們都被分配了一個特定的表示,這個表示是通過與相鄰的單元交換信息而發展起來的。這為明確地模擬某些高階結構和它們之間的相互作用提供了一個秘訣。特別是,它提供了一種原則性的方法來演化輸入圖的邊緣(即1個單元)特征,這是一大類 GNN 模型沒有考慮到的問題。
高階交互
圖表根據定義是二元的(“成對的”),不能表示涉及兩個以上對象的關系和交互。在對以高階相互作用為特征的復雜系統進行建模時,這可能是一個問題:例如,化學反應中的三種反應物可能同時發生相互作用。在細胞復合體中,這種情況可以通過兩個細胞(即“填充”三角形)連接反應物來編碼。因此,模型的計算流程適應高階交互的存在。