Gate 新闻消息,4月23日——DeepSeek已在MIT许可证下开源TileKernels,这是一套用TileLang编写的GPU内核库,面向大语言模型的训练与推理。TileLang是tile-ai团队开发的一种领域专用语言,用于在Python中表达高性能GPU内核。DeepSeek表示,该库中的大多数内核在计算密度和内存带宽方面已接近硬件性能上限,其中部分内核已部署在内部的训练与推理操作中。
该库包含六类内核:MoE (专家混合) 的门控与路由,包括Top-k专家选择、从token到专家的映射,以及融合的expand/shrink并配合权重归一化;支持FP8、FP4和E5M6格式的量化,提供逐token、逐块与逐通道量化,并包含融合的SwiGLU+量化操作;批量转置;Engram门控,融合RMSNorm的前向/反向传播与权重梯度归约;Manifold HyperConnection,采用Sinkhorn归一化并进行混合的split/apply;以及高层autograd接口,将底层内核封装为可训练的层。
Engram和Manifold HyperConnection是DeepSeek模型架构中的专有组件,首次公开披露了实现细节。该库需要NVIDIA SM90或SM100架构的GPU (H100/H200或Blackwell系列)、CUDA Toolkit 13.1或更高,以及PyTorch 2.10或更高。