Appearance
ACMP
Introduction
- 神经信息传递充当图结构数据网络传播过程中聚合邻居特征的基本特征提取单元。事实上很多流行的GNN模型如GCN, GAT, GIN都可以表示为MP形式。
- 了解本文主要解决的两个问题:过平滑与异配图表现欠佳(对于GNNs在异配图上表现差的分析可以见文章Revisiting Heterophily For Graph Neural Networks)。
- 图神经扩散方程,即Neural diffusion equations on graphs(GRAND)为一些消息传递模型提供了统一的数学框架,这使得我们可以简化GNN模型仅从动力学的角度进行研究。
- 动力学层面,吸引力会促使粒子衍化为一个共同的群落,而排斥里允许粒子分离形成不同群体。对应到GNN上,我们说,实现过平滑必须存在排斥力的作用。而现有的GNN模型反应到动力系统中,往往是仅有吸引力或者吸引力占绝对主导地位,这是产生过平滑和在异配图上表现差的根本原因,本文据此在GRAND模型中引入排斥力进行合理的改进。
- 控制许多PDE模型的变分原理表明,PDE对应的动力系统的平衡态实际对应了一个特定能量的最小值。据此,本文提出了狄利克雷能量,并说明该能量能够反应过平滑、特征爆炸等现象。
- 总的来讲,本文提出的模型有四个主要特点,一是克服过平滑现象,即狄利克雷能量具有严格大于零的下界;二维持模型稳定,防止特征爆炸,即特征和狄利克雷能量具有上界;通过改变
,可以控制吸引力和排斥力的表现,能够应用到同配图和异配图上;四模型能够被神经ODE求解器简单求解。
Background
背景
Message Passing
根据GCN分量形式可以看出,GCN卷积过程
其中,
Graph neural diffusion
假设略去激活函数和参数矩阵(
注意,这里的
Motivation
主要有两个考虑,一是添加斥力,二是防止因斥力导致特征发散到无穷的情况发生。
Attractive and repulsive force
在上述扩散模型中,可以看到若
添加了超参
Damping term
这里考虑到由于斥力的存在,可能导致模型特征发散到无穷,或两点间相距无穷远,这不利于下游任务的进行。于是,添加阻力项,使得当
Gradient Flow
这一部分解释模型的合理性
Dirchlet Energy
控制许多PDE模型的变分原理表明,PDE对应的动力系统的平衡态实际对应了一个特定能量的最小值。如何从数学上刻画过平滑及发散现象,这里设计了狄利克雷能量
其对应Euler-Largrange方程
先用无向合成随机图说明 ACMP 的 Dirichlet 能量的演化。文章比较了消息传递传播器的性能:GCN、GAT、GRAND 和 ACMP。图中可视化了每层输出的 Dirichlet 能量。
可以看到,对于狄利克雷能量,当发生过平滑现象,
同时,根据欧拉拉格朗日方程可以看到,GRAND扩散过程是最小化狄利克雷能量的近端梯度下降过程。
Particle equation with the double-well potential
相应的,本文提出的模型也对应了一个优化过程。势能项
Network Architecture
这里,
ACMP-GCN
ACMP-GAT
使用
Neural ODE Solver
使用explicit Euler, Runge-Kutta 4th-order, midpoint, Dormand-Prince5 等都可以很好的给出ACMP模型的一个数值解。
Theory
Prop1. 给出了模型下狄利克雷能量和特征有界的证明
Prop2. 给出了模型最终产生双聚类的证明
Prop3. 给出了模型狄利克雷能量最终有一个非零的下界,即避免了过平滑
Prop4. 给出加强牵引力条件下,一个特征一旦被一个井底捕获则无法逃逸到另一个井底
Prop5+6. 给出GRAND形式下狄利克雷能量指数递减。
Prop7. 全局状态下稳定解
Prop8. 若初始时点