卷积算符的切比雪夫多项式形式

直接上结论：

问题

对于基本的图卷积定义 $g_{θ} * x = U g_{θ} U^{T} x$ 。存在三个问题

真实数据中，有效信息蕴含在低频段
参数数量有 $O (N)$ ，容易过拟合。
$U$ 为稠密矩阵，加大了计算复杂度。

解决

基于切比雪夫多项式分解给出一种 $K$ 阶的递推形式，这里 $K << N$ 。

g_{θ} * X = \sum_{k = 0}^{K} θ_{k} T_{k} (\tilde{L}) X

其中， $T_{k}$ 为切比雪夫多项式。

符号定义

$G = (V, E, W)$ ，其中 $V$ 为点集， $E$ 为边集， $W$ 为边权重矩阵，无权图中 $W = A$ 。
$X \in R^{n}$ 为节点信号。
$L = D - W$ 为图拉普拉斯矩阵。本文记 $L = I_{n} - D^{\frac{- 1}{2}} A D^{\frac{- 1}{2}}$ ，即 $L$ 代表归一化后的图拉普拉斯矩阵。
图傅里叶变化 $F (x) = U^{T} x$ ，逆傅里叶变化 $F^{- 1} (x) = U F (x)$ 。
图卷积 $g * x = U ((U^{T} x) ⊙ (U^{T} y)) = U g_{θ} (Λ) U^{T} x$ 。本文中，简记 $y = U g_{θ} (Λ) U^{T} x$ 。

局部滤波器的多项式参数化

观察图信号卷积的形式，事实上 $U g_{θ} U^{T}$ 为图滤波器的形式。 $x$ 先前作为图信号，一直为 $n$ 维的向量，现在将其拓展至 $X \in R^{N \times d}$ 。将 $X$ 视为 $d$ 组定义在 $G$ 上的图信号通道，分别对 $d$ 各通道的信号进行滤波操作，则有 $Y = U g_{θ} (Λ) U^{T} X$ 。
如上定义的滤波器有两个问题：

非局部化，即对点的更新需要全局参与。
参数过多，有过拟合风险。
$U$ 为稠密矩阵，增加了计算复杂度 $O (N^{2})$ 。

针对以上问题提出了一种可行的解决方案：将 $g_{θ} (Λ)$ 进行多项式展开后选取其前 $K$ 项。我们将证明这是可行的，且是精确 $K$ 局部化的。

多项式展开

g_{θ} (Λ) = \sum_{k = 0}^{K - 1} θ_{k} Λ^{k}

这样做有两个好处：

将参数变为 $Θ = (θ_{0}, θ_{1} . . . θ_{K - 1})$ ，这里一般 $K << N$ ，这极大的降低了参数的数量，能够有效避免过拟合现象的发生。
$Y = U g_{θ} (Λ) U^{T} X = \sum_{k} θ_{k} L^{k} X = g_{θ} (L) X$ 。注意到当 $d_{G} (i, j) > k$ ，即点 $i$ 与 $j$ 间距离大于 $k$ ， $(g_{θ} (L))_{i j} = \sum_{k} θ_{k} (L^{k})_{i j} = 0$ 。
也就是说，对中心点的过滤运算，只需要其 $K$ 阶邻居参与，运算为严格 $K -$ 局部化的。

但应该注意到，目前为止，思路是可行的，但简单的多项式分解仍存在问题，例如 $L$ 本身的特征值为 $[0, 2]$ 的，这导致数值不稳定性的出现。

接下来，基于以上想法，给出论文中的改进方法。

基于递归的快速滤波

考虑利用切比雪夫的递归形式，将 $g_{θ} (L)$ 变为一个可以直接从 $L$ 递归得到的多项式函数进行参数化。由于 $L$ 为稀疏矩阵，采用稀疏矩阵运算，可将算法复杂度降低至 $O (K | E |)$ ，这里 $K$ 表示选取多项式阶， $| E |$ 表示边数。

切比雪夫多项式定义

对于 $X$ ，定义

{\begin{cases} T_{k} (X) = 2 X T_{k - 1} (X) - T_{k - 2} (X) \\ T_{0} (X) = 1 \\ T_{1} (X) = X \end{cases}

基于切比雪夫多项式展开 $g_{θ} (Λ)$

将 $g_{θ} (Λ)$ 展开为切比雪夫多项式形式并取其前 $K$ 项得到

g_{θ} (Λ) = \sum_{k} θ_{k} T_{K} (\tilde{Λ})

切比雪夫多项式要求特征值 $λ \in [- 1, 1]$ ，这里 $\tilde{Λ} = \frac{2 Λ}{max_{λ i n Λ} λ} - I_{n}$ 。

TIP

原本归一化拉普拉斯矩阵对应的对角阵特征值符合切比雪夫多项式特征值要求范围，做如上改变的作用猜测一为保证数值的稳定性，二为尽可能的保留信息，避免信息损失。

基于切比雪夫多项式的卷积运算

本节主证明： $g_{θ} * X = U (\sum_{k} θ_{k} T_{k} (\tilde{Λ})) U^{T} = \sum_{k} θ_{k} T_{k} (\tilde{L}) X$ ，这里 $\tilde{L} = \frac{2 L}{λ_{m a x} - I_{n}}$ 。同时，在该式基础上推导滤波运算的递推形式。

TIP

使用第二数学归纳法进行证明，以下为证明过程。

令

{\begin{cases} f (k) = U (\sum_{k} θ_{k} T_{k} (\tilde{Λ})) U^{T} \\ g (k) = \sum_{k} θ_{k} T_{k} (U \tilde{Λ} U^{T}) \end{cases}

$k = 1$ :

f (1) = U θ_{k} T_{0} (\tilde{Λ}) U^{T} = θ_{k} I_{n} = g (1)

$k = 2$ ：

\begin{aligned} f (2) & = U θ_{0} U^{T} + U θ_{1} \tilde{Λ} U^{T} \\ = θ_{0} I_{n} + θ_{1} U \\ = g (2) \end{aligned}

假设对 $k = n$ 成立，则 $k = n + 1$ ：

f_{n + 1} = f (n) + U θ_{n + 1} T_{n + 1} (\tilde{Λ}) U^{T} g_{n + 1} = g (n) + θ_{n + 1} T_{n + 1} (U \tilde{Λ} U^{T})

只要证明 $U θ_{n + 1} T_{n + 1} (\tilde{Λ}) U^{T} = θ_{n + 1} T_{n + 1} (U \tilde{Λ} U^{T})$ 即可。
事实上，由于 $(U \tilde{Λ} U^{T})^{m} = U {\tilde{Λ}}^{m} U^{T}$ ，故两项中关于 ${\tilde{Λ}}^{m}$ 的系数相同，故 $f (n + 1) = g (n + 1)$ 。证明完成!

TIP

下面给出递推形式，请注意，递推形式的计算中仅需要O(K|E|)的算法复杂度！！

由于 $g_{θ} * X = \sum_{k} θ_{k} T_{k} (\tilde{L}) X$ ，记 $\tilde{X_{k}} = T_{k} (\tilde{L}) X$ ，我们有

{\begin{cases} \tilde{X_{k}} = 2 \tilde{L} \tilde{X_{k - 1}} - \tilde{X_{k - 2}} \\ \tilde{X_{0}} = X \\ \tilde{X_{1}} = \tilde{L} X \end{cases}

则

Y = g_{θ} (\tilde{L}) X = [\tilde{X_{0}} \dots \tilde{X_{K - 1}}] Θ

其中 $Θ = [θ_{0} \dots θ_{K - 1}]^{T}$

其他说明

论文中递推形式在参数训练中降低计算复杂度也是明显的，这里假设 $E$ 为损失函数， $S$ 为批大小， $F_{i n}$ 为输入图信号维度， $F_{o u t}$ 为输出维度。那么在梯度反向传播过程中，我们有

{\begin{cases} \frac{\partial E}{\partial θ_{i, j}} = \sum_{s = 0}^{S} [\tilde{X_{s, i, 0}} \dots \tilde{X_{s, i, K - 1}}]^{T} \frac{\partial E}{\partial y_{s, j}} \\ \frac{\partial E}{\partial X_{s, i}} = \sum_{j = 1}^{F_{o u t}} g_{θ_{i, j}} (L) \frac{\partial E}{\partial y_{s, j}} \end{cases}

显然，其计算复杂度为 $O (K | E | S F_{i n} F_{o u t})$ 。

GCN在该思想的基础上进一步减少了参数的数量，并通过叠加多个卷积层达到 $K -$ 局部的效果，具体的细节将在其他文章中描述。

卷积算符的切比雪夫多项式形式 ​

直接上结论： ​

问题 ​

解决 ​

符号定义 ​

局部滤波器的多项式参数化 ​

多项式展开 ​

基于递归的快速滤波 ​

切比雪夫多项式定义 ​

基于切比雪夫多项式展开gθ(Λ) ​

基于切比雪夫多项式的卷积运算 ​

其他说明 ​

​