Skip to content

Introduction

论文来自2023 ICLR会议论文。看了三个月GNN相关内容,所看到的GCN的支撑不是从实例性能出发,就是从思想来源,由CNN、图信号等领域自然发展而来, 却没有找到理论上的支撑,所以翻了翻理论方面的相关文献,找到了这篇。

Main body

理论推导过于繁琐,这里只作简要说明。我们知道GCN中有很多依托于注意力的版本,例如GAT,本文并不关注于所谓的注意力,只关注卷积算符的合理性;其次,GCN层一般只有2 3层,由于过平滑,本文关注GC层的作用,则不考虑过平滑问题,所以只考虑2层,3层情况下的神经网络;最后,由于GCN在异配图下的表现往往差过同配图,本文关注GC层的作用,在更新过程引入 ξ=sgn(pq) 其中p为同类连接的概率,q为异类连接的概率。

Contributions

本文理论层面使用合成数据集,记为XOR data,并研究了在该数据集上执行二分类任务的性能,数据集的节点特征从高斯混合中采样(这样选取的目的是使其非线性可分的),接下来是主要成果:

  • 首先证明了结合图信息的网络表现优于不是用图的方法。事实上,与不使用图的方法相比,单个GC层允许多层神经网络在更宽的范围对节点进行分类,表现在二分类中,GC的网络对两类特征均值之差的需要仅为不使用图的网络的1n(p+q)4。进一步,可以证明,在较稠密的图中,这个值可以达到1n4
  • 证明了对于多次网络来讲,配备多个GC算子是要比配备单个GC算子展现更好的性能,同时,配备相同GC算子的情况下,对其不同的排布产生的神经网络性能相似。
  • 在实例上,使用了真是数据集和大规模数据集验证了本文提出的理论成果,显示了GC在网络多层和同(异)质下的各种组合的性能趋势。

Preliminaries

Data model

证明主要依托的数据集。现介绍其设置及符号含义:
图基础结构n,d分别表示节点数量和特征维度,取正整。ϵ1,,ϵn代表节点的分类,为服从伯努利分布的随机变量。Cb={i[n]|ϵi=b} for b{0,1}表示属于b类的点集。
点特征X代表节点特征,其中Xi代表节点i的特征。设置两个量,μ,ν,XiN(((2ηi1)(1ϵi)μ+ϵiν),σ2)。事实上,可以看到,μ,ν在此充当了某类点特征集中的均值。记号XiORGMM(n,d,μ,ν,σ2)
图信息A代表邻接矩阵,值得一提,这里的图是允许自环存在的,这也是由卷积算子的特点所决定的。使用D表示度矩阵,记号deg(i)=Di,i,使用Ni表示点i的邻居,定义同类点连边概率为p,不同类点间连边概率为q。记号(A,X)XORCSBM(n,d,μ,ν,σ2,p,q)

Network Architecture

本文关注的是使用RELU层的MLP:

H(0)=X,f(l)(X)=(D1A)klH(l1)W(l)+b(l)H(l)=ReLU(f(l)(X))} for l[L],y^=φ(f(L)(X)).

这里,φ(x)=sigmoid(x)=11+ex。网络最终输出y^。注意D1A为归一化的邻接矩阵,事实上,在通常GCN中归一化使用D12AD12,事实上后面的实验可以说明他们具有相似的表现。模型中kl控制了在第l层中添加GC的数量,事实上,当该层不使用图信息则令kl=0即可。
(W(l),b(l))是可训练的参数,对于模型的训练使用交叉熵作为损失函数θ(A,X)=1ni[n]yilog(y^i)+(1yi)log(1y^i),,则

OPT(A,X)=minθCθ(A,X),

这里,C表示参数可选范围,事实上,在这里我们限制||W(1)||2R,||W(>1)||1。理论部分可以看到对参数的限制是很有必要的,否则,若允许R无限大,那么损失函数的值可以任意的逼近0,不具备研究意义。以后,使用θ(X)代替θ(In,X)

Theory

这里为了保持严谨性,对于定理的描述使用原文描述即英文版本

Main results

Thm1

Theorem 1.Let X Rn×dXOR-GMM(n,d,μ,ν,σ2) and defne γ=μν2 to be the distance between the means. Then we have the following:

  1. Assume that γKσ and let h(x):Rd{0,1} be any binary classifter. Then for any K>0 and any ϵ(0,1),at least a fraction 2Φc(K/2)2O(nϵ/2)ofall data points are misclassifiedbyhwithprobabilityatleast1exp(2n1ϵ).

  2. For any ϵ>0,ifthe distance between the means is γ=Ω(σ(logn)12+ϵ),then for any c>0, with probability at least 1O(nc),there exist a two-layer and a three-layer network that perfectlyclassifythedata,andobtainacrossentropylossgivenby

θ(X)=Cexp(R2γ(1±c/(logn)ϵ)),

whereC[1/2,1] is an absolute constant$

首先回忆一下定义,这将有利于我们理解定理含义,γ=μν2XiN(((2ηi1)(1ϵi)μ+ϵiν),σ2),注意到,比较γ,σ,我们说,γσ的值能够表现不同类别的特征重合程度。
定理一的第一部分是告诉我们,当其分离程度较小的情况下,γσK,在高概率1exp2n1ϵ下总会有小部分2Φc(K/2)2O(nϵ/2)的点被分类错误。注意到,在这种情况下,当K时,可以看到此时错误分类点的比例将趋于0,事实上在第二部分给出了更加准确的界,而如果K0,及其节点的特征混杂在一起,这时候错误分类的比例将接近12!注意这是二分类任务,此时分类器无任何作用!
定理的第二部分表明,当其不同类特征分散程度较大达到γ=Ω(σ(logn)12+ϵ)时,不使用图信息的网络才能够高概率1O(nc)情况下完美分类。

Thm2

Theorem 2.Let(A,X)XOR-CSBM(n,d,μ,ν,σ2,p,q),γ=μν2,andΓ(p,q)=p g|/(p+q).There exist a two-layer network and a three-layer network with the following properties:

  1. If the intra-class and inter-class edge probabilities are p,q=Ω(log2nn), and it holds that Γ(p,q)ζ(γ/2σ)=ω(lognn(p+q)),thenforanyc>0,withprobabilityatleast1O(nc), the networks equipped with a graph convolution in the second or the third layer perfectly classify the data, and obtain the following loss:
θ(A,X)=Cexp(CσRΓ(p,q)ζ(γ/2σ)(1±c/logn)),

where C>0 and C[1/2,1] are constants$

  1. Ifp,q=Ω(lognn)andΓ(p,q)2ζ(γ/2σ)=ω(lognn),thenforanyc>0,withprobabilityatleast 1O(nc), the networks with any combination of two graph convolutions in the second andlor the third layers perfectly classify the data, and obtain the following loss:
θ(A,X)=Cexp(CσRΓ(p,q)2ζ(γ/σ)(1±c/logn)),

where C>0 and C[1/2,1] are constants.$

定理二的第一部分告诉我们当图在较小密度p,q=Ω(log2nn)的条件下如果能够满足Γ(p,q)ζ(γ/2σ)=ω(lognn(p+q))那么一层GC的神经网络能够以高概率1O(nc)的情况下实现完美分类。想要理解这一部分的内容,如果我们限制Γ(p,q)=Ω(1)可以看到此时选择满足条件Γ(p,q)ζ(γ/2σ)=ω(lognn(p+q))γ仅仅定理一中不使用图信息时完美匹配所需要的γ1n(p+q)4
定理二的第二部分表明,在较大的图密度p,q=Ω(lognn)下,甚至能够将这个数值改进到1n4。当然这并非表明图的密度越大越好,事实上,当p,q=Ω(1)时,多个GC层的性能甚至比不上单个GC层。

Corollary

Corollary 2.1. Consider the data model XOR-CSBM(n,d,μ,ν,σ2,p,q) and the network architecture.

  1. Assume that p,q=Ω(log2n/n) andconsiderthethreelayernetworkcharacterizedby part one of Theorem 2, with one graph convolution. For this network, placing the graph convolutioninthesecondlayer(k2=1,k3=0)obtainsthesameresultsasplacingitin the third layer (k2=0,k3=1).
  2. Assume that p,q=Ω(logn/n),and consider the three-layer network characterized by part two of[Theorem 2] with two graph convolutions. For this network, placing both convolutions in the second layer (k2=2,k3=0) or both of them in the third layer (k2=0,k3=2) obtains the same results as placing one convolution in the second layer and one in the third layer(k2=1,k3=1).

推论2.1能够直接由定理2推得,推论二事实上描述了多层网络分类能力的提高取决于卷积算子的数量而不取决于其位置。特别的,在XOR-CSBM数据中将相同数量的卷积放在第二层或第三层的任意组合中,其对分类任务的性能是相似的。

Proof

这一部分涉及的定理、引理将非常多,在此只列出,而没有精力去记录详细的证明。

Pre

列出证明使用的工具:

  • Hoeffding's inequality
  • Chernoff bound
  • Union bound
  • Gaussian concentration 做出基本假设:
    为方便计算同时保证能够展示背后思想的前提下,做出如下假设
Assumption 1. Forthe XOR-GMM data model, the means of the Gaussian mixture are such thatμ,ν=0 andμ2=ν2.

同时,证明中用到的符号假设:

  • [x]+=RELU(x)
  • φ(x)=sigmoid(x)=11+ex
  • v^=v||v||2
  • γ=||μν||2
  • γ=γ/2
  • Γ(p,q)=|pq|p+q
  • ϕ(x)表示标准高斯分布密度函数
  • Φ(x)表示标准高斯分布分布函数
  • Φc(x)=1Φ(x)

Graph

这一小节主要介绍了关于我们设计的图的一些性质,例如度、共同邻居等的集中分布特性。

Proposition A.1(Concentration of degrees). Assume that the graph density is p,q=Ω(log2nn). Thendeg(i)=n2(p+q)(1±on(1)),1deg(i)=2n(p+q)(1±on(1)),1deg(i)(jC1aijjC0aij)=(2εi1)pqp+q(1+on(1)),where the error term on(1)=O(clogn).

性质1表明节点度高概率在n2(p+q)附近,同时给出一个点同类点邻居与不同类点邻居数量差的估计。

Proposition A.2Assume that the graph density is p,q=Ω(lognn). Then for any constant c>0, with probability at least 12nc|NiNj|=n2(p2+q2)(1±on(1))forallij,|NiNj|=npq(1±on(1))forallij,where the error termon(1)=O(clogn).

性质二给出在相对稠密情况下,同类节点间共同邻居和不同类节点间共同邻居的一个数量估计。

Lemma A.3 (Variance reduction). Denote the event fromProposition A.l to be B. Let {Xi}i[n]Rn×d be an iid sample of data. For a graph with adjacency matrix A (including self-loops) and afixed integer K>0, define a K -convolution to be X~=(D1A)KX. Then we haveCov(X~iB)=ρ(K)Cov(Xi), where ρ(K)=(1+on(1)Δ)2Kj[n]AK(i,j)2.Here, AK(i,j) is the entry in the ith row and jth column of the exponentiated matrix AK andΔ=Edeg=n2(p+q)

引理3表明了随着引入卷积层数量K增多,Cov(X~)会减小。这表明卷积操作在增加不同节点间特征间的相似性,使其变得难以区分。这也表明了添加更多的卷积层不一定有利于性能提升。

Basic Network

这里假定,由于我们的数据服从高斯分布,贝叶斯方法在该类数据上性能表现最优。

Lemma A.4. Leth(x)=∣x,ν^x,μ^for all xRd and defıneζ(t)=terf(t)1π(1et2).Then we havel.Theexpectation Eh(Xi)={2σζ(γ/2σ)iC02σζ(γ/2σ)iC1.2. For any γ,σ>0 such that γ=Ωn(σ), we have that ζ(γσ)=Ω(γσ).3. For any γ,σ>0 such that γ=on(σ), we have that ζ(γσ)=Ω(γ2σ2).

假定贝叶斯分类器形如h(x)=argmaxb{0,1}Pr[y=b|x=x],引理6给出了在XOR-GMM数据集下贝叶斯分类器的准确表达形式

Lemma A.6.Forsomefixedμ,νRd and σ2>0, the Bayes optimal classiffer, h(x):Rd{0,1}for the data model XOR-GMM(n,d,μ,ν,σ2) is given byh(x)=1(|x,μ|<|x,ν|)={0|x,μ||x,ν|1|x,μ|<|x,ν|,where 1 is the indicator function.Proposition A.7.Consider two-layer and three-layer networks of the form described above, without biases (i.e., b(l)=0foralllayersl),for parametersW(l)and some RR+asfollows.l. For the two-layer network,W(1)=R(μ^μ^ν^ν^),W(2)=(1111).2. For the three-layer networkW(1)=R(μ^μ^ν^ν^),W(2)=(11111111),W(3)=(11).

性质7给出了2层和3层神经网络框架实现引理6中的贝叶斯分类方法。有必要说明的是,性质7中神经网络给出的输出为取值label = 1的概率,事实上他与引理6里的贝叶斯分类器等效。

Network no graph

到目前为止,使用以上的引理可完成定理一的证明。

Network with GC

通过向引理7提出的模型中加入GC证得以下结论

Proposition A.8. Fix. a positive integer d >0, σ  R+ and μ,ν  Rd. Let  (A,X) ХОВ-СSВМ(n,d,μ,ν,σ2,p,q).Defıne X~ to be the transformed data after applying a graph como-lution on X, i.e., X~=D1AX. Then in the regine where p,q=Ω(log2nn), with probability at least11/poly(n) we have thatEX~i={pμ+qν2(p+q)on(1)iC0pν+qμ2(p+q)on(1)iC1.Hence, the distance betweethe means of the convolved data, given by pq2(p+q)μν2on(1)diminishes to 0 for n.

性质8表明在第一层加入GC是有害的,可以发现,当n时,经过第一层卷积作用后,节点特征将收敛到0变得无法区分。

接下来是对定理2的证明,首先通过引理9给出添加一个GC后神经网络输出的表达形式,基于此完成了对定理2第一部分关于添加单个GC的证明。引理10表明添加2个GC 时,对于不同组合,总是有相同的输出形式。基于引理10,可征得定理2第二部分。

Lemma A.9. Let h(x)=|x,ν^||x,μ^|for any xRd. Consider the two-layer and three-layer networks in|Proposition A.7|where the weight parameter of the last layer, W(L), is scaled by afactor of ξ=sgn(pq). If a graph comvolution is added to these networks in either the second or thethird layer then for a sample (A,X)XOR-CSBM(n,d,μ,ν,σ2,p,q),the output of the networksfor a point i[n]isy^i=φ(fi(L)(X))=φ(Rsgn(pq)deg(i)j[n]aijh(Xj)).Lemma A.10.Let h(x):RdR=∣x,ν^x,μ^. Consider the networks constructed inProposition A.7equipped with two graph convolutions in the following combinations:1. Both convolutions in the second layer of the two-layer network.2. Both convolutions in the second layer of the three-layer network.3. One convolution in the second layer and one in the third layer of the three -layer network.4. Both convolutions in the third layer of the three-layer network.Thenfora sample (A,X)XORCSBM(n,d,μ,ν,σ2,p,q),the output of the netnorks in all theabove described conbinationsfor a point i[n] isy^i=φ(fi(L)(X))=φ(Rdeg(i)j[n]τijh(Xj)), where τij=k[n]aikajkdeg(k).

Experiments

实验部分较为简单,参考原文章即可。