Skip to content
D-PSGD算法与实践

加速transormer模型训练速度,以便应用到较长上下文中。

Transformer + GNN

参考Can Transfomrer and GNN Help Each Other?

GNN can recover the hidden features solely from the graph structure

9-th, GNN能仅仅从图结构中恢复图内隐藏的特征信息,但现有的GNN框架还不能很好的完成特征恢复的任务...

Ascend C开发流程

A note

无...

CUDA编程

无...

Transformer

参考论文 Attention is all you need

vLLM

LLM增添内存管理,利用PagedAttention,提高服务器吞吐量。

FlashAttention

加速transormer模型训练速度,以便应用到较长上下文中。

Preferential Attachment Graph

反应现实世界幂律分布现象的一种随机图的定义及性质。