首页 > 科技未来 > 内容

Michael Bronstein 借鉴代数拓扑，提出了一种新的图神经网络计算结构！

发布于：2024-06-18 编辑：匿名来源：网络

图形神经网络（GNN）通常将其计算图与输入图的结构对齐。

但图是 GNN 的正确计算结构吗？最近的一系列论文挑战了这一假设，用代数拓扑领域更通用的对象代替图，这提供了各种理论和计算优势。

作者 |由 Michael Bronstein 等人编译 |黄楠编辑，宾果|陈彩娴这篇文章由克里斯蒂安·Bodnar和Fabrizio·Frasca合着，发表在 C. Bodnar、F. Frasca等人的 ICML《Weisfeiler and Lehman Go Topological: 信息传递简单网络》和 NeurIPS 《Weisfeiler and Lehman Go Cellular: CW 网络》论文中，供参考。

本文仅从微分几何和代数拓扑的角度讨论图神经网络系列的一部分。

图形可用于对从计算机网络到大型强子对撞机中的粒子相互作用的任何事物进行建模。

图因其离散和组合的性质而无处不在，这使得它们能够表达抽象关系，同时易于计算。

它们受欢迎的原因之一是图抽象了几何形状，即节点在空间中的位置或边缘如何弯曲，只留下节点如何连接的表示。

图论起源于莱昂哈德·欧拉（Leonhard Euler）在其著作《geometria situs》中的观察，即著名的柯尼斯堡七桥问题无解。

图例：七桥问题需要在柯尼斯堡找到一条不需要多次过桥的环形步行路线。

正如欧拉所说，柯尼斯堡市的具体形状并不重要，重要的是不同的土地（图的节点）如何相互连接（边）。

欧拉表明，当且仅当所有节点的度数为偶数时，这种循环才存在。

此外，只有五座原始桥梁幸存到现代。

资料来源：维基百科有趣的是，欧拉的发现不仅标志着图论的开始，而且通常被认为是拓扑学的诞生。

与图一样，拓扑学家对空间的那些与其特定形状或几何形状无关的属性感兴趣。

这些思想的现代表达出现在 1988 年亨利·庞加莱 (Henri Poincaré) 的一篇开创性论文“分析位置”中，他的工作激发了人们对流形组合描述的兴趣，从中可以更轻松地查找和计算拓扑不变量。

图例：Leonhard Euler () 和 Henri Poincaré () 这些组合描述如今被称为细胞复合体，可以被视为图的高维概括。

与由节点和边形成的图不同，单元复合体还可以包含更高维的结构或“单元”：顶点是 0 单元，边是 1 单元，2D 表面是 2 单元等。

为了构建细胞复合体，我们可以通过将一个细胞的边界粘合到其他低维细胞来将其分层。

在特殊情况下，当单元由单纯形（如边、三角形、四面体等）组成时，这些空间也称为单纯形复形。

图例：图可以看作是我们附加边（1 个单元）的一组顶点。

同样，单细胞复合体和细胞复合体可以被视为我们连接 2 细胞（以蓝色显示）、3 细胞（以绿色显示）等的图形。

1 机器学习和数据科学中的拓扑我们认为，人们不拓扑学必须等待数年才能成为实用工具。

浅层复合等拓扑结构已在拓扑数据分析 (TDA) 的保护下用于机器学习和数据科学，这是 20 世纪 90 年代出现的一类方法，旨在创建一种对度量不敏感且抗噪声的方法分析“数据的形状”。

TDA 的根源可以追溯到 20 年代末最多产的拓扑学家之一 Leopold Vietnam Oris 的工作。

然而这些技术要等到现代计算出现之后才能大规模应用。

图例：给定一个点云，每个点周围固定半径的封闭球体之间的交集会产生一个简单的复合体。

通过逐渐增加球体的半径，我们可以获得简单复合体的嵌套序列。

图片来源：巴斯蒂安·里克。

TDA 的主力是持久同源（PH），一种从点云中提取拓扑特征的方法。

给定点数据集，PH 创建简单复数的嵌套序列，其中每个复数对应于所分析的基础点云的一定比例。

然后，它跟踪随着尺度逐渐增大以及从序列中的一个复合体过渡到下一个复合体而出现和消失的各种拓扑特征（例如，连接的组件、环或孔）。

在深度学习时代，持久同源性具有“第二生命”，因为它被证明可以通过它执行反向传播，从而允许将已经建立的 TDA 设备集成到深度学习框架中。

最近的一项工作提出了几何深度学习中简化和细胞复合体的不同用途，作为更丰富的基础拓扑空间来支持对其执行的数据和计算。

利用这一观点的首批作品提出了卷积模型以及在简化复合体上运行的随机游走方法。

正如本文中所示，卷积模型可以理解为细胞复合体上信息传输的简单而具体的示例。

由于计算是由这些空间的拓扑（即邻域结构）驱动的，因此我们将这种方法称为拓扑信息传输。

在这个框架中，相邻的单元（可能具有不同的维度）正在交换信息，如下图所示。

图例：拓扑信息传输示意图。

蓝色箭头描述了上层相邻单元（即同一高维单元边界上的单元）之间的“水平”信息传播。

红色箭头描绘了“垂直”信息传播，其中细胞从其边界的低维细胞接收信息。

通过将边界单元的信息汇总为更粗略的表示，可以将这种计算解释为（可微的）系综形式。

超越 GNN 中的图虽然细胞复合体提供了丰富的结构，但我们不能忽视图是迄今为止机器学习中最常见的拓扑对象，很少有数据集能够超越它们。

尽管如此，人们仍然可以通过转换输入图来利用这些有趣的拓扑空间。

我们将图到高维拓扑空间的变换称为“提升”，类似于范畴论中的同名概念。

它是一种按照一定规则将高维单元附加到输入图的转换。

例如，通过将更高维的单元附加到图的每个悬崖或循环，可以将图提升为单元复合体。

通过这样做，图被替换为具有更多结构的不同空间，并且可以为 GNN 提供比原始图更好的计算结构。

下面，我们讨论这种方法的具体优点。

图例：通过将二维闭合圆盘的边界粘合到图中的诱导环，可以从图构建高维细胞复合体。

高阶特征和结构GNN通常采用以节点为中心的视图，驻留在边上的数据仅被视为辅助信息以增加顶点之间的通信。

在拓扑信息传递中，所有单位都是一等公民。

无论它们的尺寸如何，它们都会被分配一个特定的表示，该表示是通过与相邻单元交换信息而开发的。

这为显式建模某些高阶结构及其之间的相互作用提供了方法。

特别是，它提供了一种原则性的方法来演化输入图的边缘（即 1 个单元）特征，这是一大类 GNN 模型没有考虑的问题。

根据定义，高阶交互图是二元的（“成对”），不能表示涉及两个以上对象的关系和交互。

在对以高阶相互作用为特征的复杂系统进行建模时，这可能是一个问题：例如，化学反应中的三种反应物可能同时相互作用。

在细胞复合体中，这种情况可以通过连接两个细胞之间的反应物（即“填充”三角形）来编码。

因此，模型的计算流程适应高阶相互作用的存在。

图例：细胞 Weisfeiler-Lehman (CWL) 测试，将经典的 WL 测试扩展到细胞群。

算法的每一步都完美地散列相邻单元格的颜色（可能具有不同的尺寸）。

表达性信息传递 GNN 的表达能力受到 Weisfeiler-Leman (WL) 图同构测试的限制，已知该测试无法检测某些图子结构，例如三角形或循环，即使是非常简单的非同构图。

之前的论文表明，细胞版本的测试（CWL）可用于测试细胞复合物的同构性。

当这个新的测试与上面描述的图提升过程相匹配时，可以发现它比WL测试能够更好地区分。

更大的图形类。

因此，在一定条件下，拓扑信息传递过程继承了本次测试的优点，相比标准GNN提高了表达能力。

不充分、过度平滑和瓶颈信息传递需要n层来拉近距离。

当仅使用几层以使相距较远的节点无法交换信息时，这种现象称为欠达。

相反，使用太多层可能会导致过度平滑。

并且信息可能会在图的结构瓶颈中丢失。

单元复合体可以缓解这些问题，因为高维单元引起的更丰富的邻域结构在可能相距较远的节点之间创建了捷径。

只需包含一些传播的计算步骤即可。

图注：GNN 需要许多层才能使相距较远的节点能够进行通信（左）。

高维单元通过创建快捷方式改变空间的底层拓扑（右）。

这允许远程节点在多个消息传递步骤中交换信息。

分层建模拓扑消息传递执行的计算是分层的，信息从低维单元流向高维单元并返回，这可以被视为“垂直”（和可微分）池化，而不是中的“水平”池化。

标准图神经网络。

这保留了“压缩”图区域的归纳偏差，而不会忽略输入图的细粒度，这会损害基于 GNN 的池化的性能。

信息。

图注：拓扑信息传递允许信息存在于不同维度的细胞之间。

分层域对齐。

某些应用自然与细胞复合物的结构一致。

例如，分子的原子、键和化学环可以表示为0-单元。

，1-细胞和2-细胞，分子的物理结构和细胞的复杂表示之间的直接对应使得拓扑信息传递能够利用上述特性。

这些表示还证明了拓扑信息传递在预测分子特性任务中的实现。

最先进的结果。

其他表现出良好对齐的应用程序可能包括计算机图形应用程序中的离散流形（网格）、社交网络（派系特别重要）或空间图，例如 Google 地图（街道之间的街区可以自然地（表示为“立方”单元）注意：咖啡因子被建模为二维细胞复合体，拓扑和微分几何的组合保留了与代数拓扑和微分几何联系的许多有趣的联系，允许使用迄今为止在图形中尚未得到充分探索的数学工具。

和几何深度学习。

空穴代数和方向等价在代数拓扑中，通常使用有向单纯形复形，其中每个单纯形都有一个任意的“方向”。

例如，我们在每条边上选择一个源节点和一个目标节点，并为每条边按照其节点遍历的顺序选择一个三角形。

一旦选择了方向，就可以对复杂的形状执行有趣的代数运算符，例如通过“边界运算符”计算某些单纯形的边界。

这些代数运算还可用于查找单纯复形中的“洞”，即没有边界但不在其他事物边界上的区域。

在幕后，持久同源性依赖于这些计算来检测拓扑特征。

图例：应用于 2-单纯形的边界算子会生成一个三角形。

再次将运算符应用于三角形，结果为零，因为三角形是一个没有边界的循环。

拓扑信息传递可以被视为代数算子（例如边界算子）的（非线性）推广。

因此，拓扑信息传递的行为必须类似：我们希望每层的输出“一致”地响应输入复合体方向的变化。

换句话说，我们希望我们的层在方向上是等效的。

在我们的工作中，我们研究了拓扑信息传递如何通过选择适当的非线性和信息传递函数来满足这一性质，并且这也在纯卷积设置中进行了研究。

区分拓扑空间中最早已知的拓扑不变量之一，欧拉签名，最初用于柏拉图固体的分类，我们可以将其定义为每个维度中单元数量的交替和。

令人惊讶的是，如果两个细胞复合体是同胚的，即使它们是同一空间的不同离散化，这些总和也将是一致的。

有趣的是，拓扑信息传输模型的读出操作使得计算拓扑的不变性变得容易，因为它对每个维度单元应用了包含不变量的约简。

因此，这类模型可以在结构上区分某些非同构空间（即具有不同的欧拉特征）。

从计算的角度来看，这可以看作是 WL 测试的推广，我们不仅有兴趣确定两个细胞复合物是否相同，而且有兴趣确定它们是否彼此同构。

离散霍奇理论离散霍奇理论为细胞复合体的拓扑性质提供了更加几何的解释。

Michael Bronstein 借鉴代数拓扑，提出了一种新的图神经网络计算结构！

当与 k 单元关联的特征的符号取决于 k 单元的方向时，这些特征可以在数学上视为微分几何中微分 k 形状的离散版本（即，k 维体积元素可以表示为融合的）。

称为霍赫拉普拉斯算子的算子概括了图形拉普拉斯算子并对这些微分形式进行运算。

可以证明，基于该拉普拉斯算子的扩散偏微分方程将在极限内收敛于与复合材料孔相关的信号。

图注：基于 Hodge Laplace 算子的扩散偏微分方程收敛到初始微分形式在 Laplace 算子核心上的投影的极限。

该图显示了霍赫拉普拉斯算子的零特征向量如何在复形中的孔周围取高值。

第一个简单的神经网络模型实际上是基于霍赫的拉普拉斯卷积模型，而该模型又受到拓扑信号处理的启发。

就在最近，基于该算子的卷积模型版本被用来解决计算代数拓扑中的 NP 难题。

3 最后的想法这些只是伪装的图表吗？最近的论文认为，除其他外，拓扑信息传输方法只不过是在编码细胞复合体结构的修改图上进行信息传输的 GNN。

对于卷积模型来说也是如此，其中信息传输计算涉及单元对。

然而，在其最一般的形式中，信息函数允许高维细胞调制在其边界上的低维细胞之间传递的信息。

一般来说，它可以通过图上的常规信息传递来传递，因为一条边正好连接两个节点，而一个 2-cell 可以连接任意多条边。

在这两种情况下，计算都是由数据所附加的底层空间的拓扑驱动的。

我们相信，采用这种拓扑视角进行信息传输的好处超出了纯粹的计算考虑。

除了有价值的数学联系之外，它还开辟了与其他数学和计算学科的研究讨论，促进了我们往往过于单调的社区之间的积极交叉。

拓扑信息传递的下一步是什么？我们预见拓扑信息传输方法未来的两个主要方向：首先，多年来在 GNN 中开发的许多架构（例如注意力机制）可以在这些新的拓扑空间中采用，同时利用它们的特定特征。

。

其次，更多来自代数拓扑领域的数学对象和工具（包括蜂窝滑轮等结构，即使对于最精通数学的机器学习研究人员来说，这也可能听起来很陌生）将深深嵌入图形和几何中。

学习社区采用。

这些方法不仅可以为老问题提供答案，而且有助于解决新问题。

正如罗伯特·格里斯特所说：“novel Challengesnecessitynovelmath”（新挑战需要新数学）。

Michael Bronstein 借鉴代数拓扑，提出了一种新的图神经网络计算结构！

站长声明

标签：

上一篇：北京市朝阳区科技创新创业引导基金2021年投资指南

下一篇：艾隆科技（688329.SH）3月29日在上交所科创板上市

神州租车：北汽集团将收购不超过21.26%股份

投资界6月1日获悉，神州租车在港交所宣布，神州优车已与神州租车签订无法律约束力战略北京汽车集团有限公司合作协议。根据战略合作协议，北汽集团将收购神州优车不超过4.5亿股股份，相当于公司截至本公告日期已发行股本总额约21.26%。神州优车与北汽集团的合作细节及条款仍

06-18
北京：拟实现共享单车一车一标总量调控

北京：拟实现共享单车一车一标总量控制。根据新规，共享单车一标一车，实现总量控制；同时实施电子围栏，加强日常调度。

06-18
都2024年了，谁还在为光腿神器买单

入冬以来，为了保持温暖和优雅，女生买了几件光腿神器，成了衣柜必备。冬天喜欢穿裙子的小文说：“我喜欢穿裙子，但又不想感觉臃肿，每年冬天我都会买多件‘露腿神器’，来实现冬天穿短裙的愿望。 ” ”沃伦茉寻、小野和 Zi Brands 等新来者正在吸引更年轻的人??群。以以茉

06-17
专注AI超声辅助诊断，深知科技获数千万元战略融资

据投资界8月26日消息，据动脉网报道，上海深知信息技术有限公司完成数十项融资战略融资数百万元。本轮融资由美年健康独家投资。据悉，本轮融资将主要用于两个方面。一方面，深圳将继续加强研发能力，进行产品形态规划，探索产品新的使用领域。另一方面，深圳将不断提升产

06-17
满眼都是AI+，霍金甚至说，我要创业

“这个世界上没有出路，但当更多人传开的话，自然就会发生。 ”首都寒冬的空调没持续多久，人工智能之风就吹来了，春天已经绽放。在北京举行的小型会议上，人们交换名片并添加微信。打破陌生人之间的隔阂的不再是老北京的“吃饭了吗？你在哪里？”而是被替换为“朋友，你是

06-17
中微：12英寸高端刻蚀设备已应用于5nm先进产线

据《科创板日报》，中微董事长兼总经理尹志耀表示，公司等离子刻蚀设备已被国际首创采用线客户。 65纳米至14纳米、7纳米和5纳米等先进集成电路加工制造生产线和先进封装生产线。其中，公司研发的12英寸高端刻蚀设备已应用于国际知名客户最先进的生产线，用于5纳米及5纳米以下

06-06
创始人少年班毕业，装配式建筑一站式云平台“大乐装”获过亿元Pre-A轮融资

据投资界（ID：pedaily）8月30日消息近日，大乐庄完成超亿元Pre-A轮融资，由BAI资本领投，腾讯、招商创投、钟鼎资本以及东方富海管理的中小企业发展基金跟投。本轮融资将主要用于大乐庄预制软件体系及供应链建设。这是大乐庄成立不到一年完成的第三轮融资。此前，大乐庄分

06-18
疫苗一哥改变命运

10月9日，智飞生物宣布与葛兰素史克签署经销及联合推广协议。 GSK将指定智飞生物作为重组带状疱疹疫苗在合作地区的首家经销商和分销商。该协议将延长至今年年底；同时，葛兰素史克将优先成为智飞生物在合作地区（中国大陆）联合开发和商业化任何RSV老年疫苗的首个合作伙伴。

06-17
阿里云创新中心星云计划合作伙伴系列专场“2022 NVIDIA Startup Showcase”报名已开启

阿里云创新中心星云计划合作伙伴系列专场是阿里云创新中心与生态合作伙伴为中小微企业提供的一系列支持计划微型企业。在本次计划中，创新中心将优质合作伙伴的产品和服务权益纳入星云计划，形成星云联权。联合福利包括但不限于技术支持、产品折扣、免费试用、1对1咨询服务、

06-18
中国电信70亿激励基金推动终端升级 OPPO手机积极参与其中

中国电信70亿激励基金推动终端升级，OPPO手机积极参与。 2019年12月17日，中国电信召开终端产业合作战略发布会。终端厂商、芯片厂商、解决方案提供商、代理商、零售商、连锁企业、电商企业等合作伙伴以及全国多家媒体等数万人参加了会议。作为中国电信重要的战略合作伙伴，

06-18
一口气拿出5款新手机，诺基亚2018年要爆款了

雷锋网：诺基亚似乎开了个好头。转眼间，“诺基亚”回来已经一年多了，陆续发布了多款定位不同的产品，但在整体市场上偏向于“中产”。转眼间，又到了一年一度的全球移动通信盛会——MWC，其中自然也有诺基亚的表现。至少诺基亚这次没有像去年那么尴尬了。因为这次诺基亚

06-18
东莞战略新兴产业引导基金顺利通过中国基金管理协会注册，规模100亿元

6月10日消息，近日，东莞金控集团全资子公司东莞金控基金公司担任基金管理人的市新兴战略产业投资合伙企业（有限合伙）（以下简称市战略基金）已在中国证券投资基金业协会注册，标志着市战略基金正式启动运营。接到市政府委托后，东莞金控集团迅速组织专业团队负责该基金的实

06-18