Skip to content

Real World Networks

很长时间内,人们习惯于将所有复杂网络都看作是随机网络。在1999年研究描绘万维网(以网页为节点、以超级链接为边)的项目时,学者们原以为会发现一个随机网络:人们会根据自己的兴趣,来决定将网络文件链接到哪些网站,而个人兴趣是多种多样的,可选择的网页数量也极其庞大,因而最终的链接模式将呈现出相当随机的结果。

然而,事实并非如此。因为在万维网上,并非所有的节点都是平等的。在选择将网页链接到何处时,人们可以从数十亿个网站中进行选择。然而,我们中的大部分人只熟悉整个万维网的一小部分,这一小部分中往往包含那些拥有较多链接的站点,因为这样的站点更容易为人所知。只要链接到这些站点,就等于造就或加强了对它们的偏好。这种“择优连接(Preferential Attachment)”的过程,也发生在其他网络中。在Internet上,那些具有较多连接的路由器通常也拥有更大的带宽,因而新用户就更倾向于连接到这些路由器上。在美国的生物技术产业内,某些知名公司更容易吸引到同盟者,而这又进一步加强了它在未来合作中的吸引力。类似地,在论文引用网络(论文为节点,引用关系为边)中,被引用次数较多的科学文献,会吸引更多的研究者去阅读并引用它。针对这些网络的“择优连接”的新特性,引出了以下的内容。

Background

ER随机图与很多实际网络具有很多共性,例如稀疏性,巨片,平均距离等,但在度分布上,两者具有显著差异,ER随机图告诉我们度分布可近似Possion分布,该分布在<k>处有一个峰值,然后呈指数快速衰减。但实际网络中会呈现一种长尾分布,存在少量度很大的节点。

Preferential Attachment Graph

Defination

优先连接网络相较于ER随机图有两个特性,一个是允许点增加,一个是优先连接
G1,G2Gt为一列随机图,固定一个整数m为每次新加点携带的度。初始时刻,G1为1个点,m条自环的图,Gt+1是通过Gt添加点vt+1以及m条边得到。
这里,对于m条边的添加为从Gt中依据概率P选择m个点并将他们与vt+1相连,其中

P(yi=w)=deg(w,Gt)2mt,

这反应在现实生活中可以说是一个新人进入了一个社区,他首先与社区中有名的人认识。接下来,对随机图模型性质进行研究。

Expected Degree Sequence: Power Law

本小节的主要结论,

D~k(t)2m(m+1)k3t.

度序列的期望值服从幂律分布,k3。推导过程大致如下

对上式的解释:Gt总点度为2mt所以(k1)Dk1(t)2mt代表yi是度k1的点加边变成新的k度点的概率。相似的 (kDk(t)2mt)表示yi为一个k度点因加边导致k度点减少的概率。若m=k,本身加进去的t+1m度,这解释了1k=m项。ϵ(k,t)是一个误差项,它解释了对于某些yi=yj (ij)的可能性。

在对(19.1)两边做期望,能得到关于D¯的一个递推

在假设D¯k(t)dkt成立的条件下,可以得到一个关于dk的递推式,

或者

dk={k1k2dk1+21k=mk+2 if km,0if k<m.

最终可以得到当k足够大D¯的表达式。
定理一对假设D¯k(t)dkt的正确性给出了说明,定理一可由归纳假设进行证明。

Maximum Degree

固定st,设XlsltGl中点s的度。引理2说明了顶点s的度高概率下具有以下上界。
对于引理2的证明很自然想到一阶矩方法,但这里证明非常巧妙, 通过一些放缩可以得到

E(eλXl+1|Xl)eλ(1+(1+mλ)2l)Xl.

在设置适当的λ形式之后,

λj+1=(1+1+mλj2j)λj<ϵi.

可以得到一个有关E(eλsXl)递推,注意到这里Xs=m,再根据λ递推式便可得到以下结论。

E(eλsXl)E(eλs+1Xt1)E(eλtXs)1+o(1).

则,引理能够得到证明。这并非是最好的可能。

Concentration of Degree Sequence

为顶点度数固定一个k值。定理三证明了Dk(t)集中在它的期望值D¯k(t)附近。
证明定理3借助定理23.16,

Degrees of early vertices

早期加入节点的度,这小节主要有两个重要结论

课本上19.11有错误。这个式子给出了点sGt中度期望。定理7给出了s=O(1),及较早时刻出现的节点度的下界。

Spatial Preferential Attachment

空间优先连接模型,显然它结合了优先连接的概念以及对每个点引入了一个影响范围。图是有向的,影响范围与点入度有关。
mN为空间Rm的维度,p[0,1]为链接(弧)概率,并固定两个附加参数A1,A2,其中A1<1/pA2>0。设SRm中的单位超立方体,其范数d(··)L范数导出。特别地,对于S中的任意两点xy

对于每一个正实数α<1,且uS,定义u周围体积为α的球

Bα(u)={xS:d(u,x)rα},

其中ra=α1/m/2,因此,rα的选择使得Bα的体积为α。 SPA 模型生成一个有向图{Gt}的随机序列,其中 Gt=(Vt,Et)VtS, 即所有顶点都位于 m 维超立方体 S=[0,1]m中。\ 设 deg(v;t)为顶点 νGt 中的入度,deg+(ν;t)为它的出度。则,在 t1 时刻,顶 点ν的影响范围 S(ν;t)是以 ν为圆心的球,体积如下:

为了构造一个图序列,我们从t=0开始,G0为空图。在每一个时间步t,我们从Gt1出发构造Gt,首先,从立方体S中均匀随机地选择一个新的顶点vt并将其添加到Vt1中以创建Vt。然后,独立地,对于每个顶点uVt1满足vtS(ut,t1),以概率p创建一个有向链接(vt,u)。因此,在时间步t中添加一个链接(vt,u)的概率等于p|S(u,t1)|

Power law and vertex in-degrees

定理8给出t=n时入度为i的点数量期望的一个估计。

注意这个式子有错误!!借助引理9证明。
定理10使得我们对于一个点,当给定了他的年龄后,我们能够得知其入度的期望值。这是对于SPA模型是十分有意义的,得知入度可以分析它的影响范围进而分析SPA的几何性质。证明纯计算,条件期望后期望的算法。

Directed diameter

有向直径定义为任意两点间最短路径的最大值。定理11给出了SPA模型Gt高概率下的直径的一个上界。

PA with Deletion

带删除的优先连接。在本节中, 我们将考虑随着过程的继续而删除或添加边或顶点的模型. Chung 和 Lu[5] 以及 Cooper、Frieze 和 Vera[8] 都考虑了随机顶点删除.这些 论文表明, 假设顶点到达的速度大于顶点被删除的速度, 度序列的幂律仍然存 在.这些论点是基于 (19.1) 等方程的分析.由于边的数量现在是一个随机变 量, 这就变得复杂了。

Random Edge Deletion

这里我们考虑的模型如下:假设α<1满足αm为整数。假设在添加顶点t+1及其m条关联边后,我们从当前图中随机删除αm条边。这里的误差ϵ(k,t)还必须考虑到我们删除边与t+1关联的可能性。

Adversarial Vertex Deletion

随机删除点。这一小节的主要结论为定理12。
对于任何足够小的常数δ,存在一个足够大的常数m=m(δ)和一个常数θ=θ(δm),使得高概率下Gn有一个大小至少为θn的“巨大”连通分量。
这个结论事实上对应了现实生活中,无针对性的随机攻击一些节点,该图的连通的性质不变,证明其具有很好的鲁棒性。

定理13给出耦合用的导出子图的相关描述,定理15给出了好顶点数的下界。利用定理13、14、15可以证明定理12。

定理13对于任何足够小的常数δ,存在一个足够大的常数m=m(δ),使得我们可以耦合Gn和随机图Hn,其顶点集Γn ,使得HnG(γnp)以及高概率下|E(Hn)E(Gn)|103e2δ2m/107mn
为了描述我们耦合中的诱导子图,我们现在做一些定义。我们说Gt的顶点v是好的,如果它是在时间t/2之后创建的,并且它未被删除的原始边的数量超过m/6。说到v的原始边,我们指的是添加v时创建的m条边。设Γt表示Gt的好顶点集,并且γt=|Γt|。如果一个Gt的顶点不是好的 ,我们就说它不好。注意,一旦一个顶点变坏,它在剩下的过程中仍然是坏的。另一方面,一个在t1时间点是好的顶点,在之后的t2时间点可能会变坏,原因很简单,因为它是在t2/2之前创建的。
定理14G通过从Gn,c/n中删除少于n/100条边得到。如果c10,则高概率下G有一个大小至少为n/3的连通分支。
定理15高概率的意义下,对于所有n/2<tnt,我们有γtt/10

prove of 12

p=m1500n

G=Gn,H=G(γnp)为定理19.13构造的图。设G=GH。然后E(H)E(G)=E(H)E(G)所以高概率下|E(H)E(G)|103eδ2m/107mn。根据引理19.15,|G|=γnn/10 w.h.p,由于m足够大,p=m/1500n>10/γn103eδ2m/107mn<n/1000γn/100。那么,根据引理19.14,w.h.p. G(因此G)有一个大小至少为|G|/3n/30的分量。