What I'm Reading This Week (2025/02.23-03.01)
• By vski5 • 1 minute read目录
Trends
孩子们,你们的皇帝又开始操纵币价了。
What I Am Reading
没看书
0. 当你决定压力很大,那就看看则连斯基
- 一国首脑在白宫被直播羞辱,尽管是自作自受
- 万斯做了无孩爱猫女做的事情,索取情绪价值————指责则连斯基没有感谢美国
- 中美俄罕见达成共识,支持乌克兰停火
- 不知道乌克兰能否被瓜分,欧洲又要怎么样
1. deepseek发布新玩意儿的一周
Day 1: FlashMLA
- 发布 FlashMLA - 针对 Hopper GPU 的高效 MLA 解码内核
- 优化支持可变长度序列,已投入生产使用
- 支持 BF16
- 支持分页 KV 缓存(块大小 64)
- 性能:3000 GB/s 内存绑定,580 TFLOPS 计算绑定(基于 H800)
Day 2: DeepEP
- 发布 DeepEP - 首个用于 MoE 模型训练和推理的开源 EP 通信库
- 功能特性:
- 高效优化的全对全通信
- 支持节点内(NVLink)和节点间(RDMA)通信
- 高吞吐量内核,适用于训练和推理预填充
- 低延迟内核,适用于推理解码
- 原生 FP8 分发支持
- 灵活的 GPU 资源控制,实现计算与通信重叠
- 功能特性:
Day 3: DeepGEMM
- 发布 DeepGEMM - 支持密集和 MoE GEMM 的 FP8 GEMM 库
- 应用于 V3/R1 训练和推理
- 性能:在 Hopper GPU 上高达 1350+ FP8 TFLOPS
- 特点:
- 无需复杂依赖,像教程一样简洁
- 完全即时编译(Just-In-Time)
- 核心逻辑约 300 行,超越大多数专家调优内核
- 支持密集布局和两种 MoE 布局
Off-Peak Discounts Alert
- DeepSeek API 平台非高峰折扣
- 时间:每日 16:30–00:30 UTC
- 折扣:
- DeepSeek-V3:50% 折扣
- DeepSeek-R1:75% 折扣
- 目标:优化资源利用,节省成本
Day 4: Optimized Parallelism Strategies
- 发布优化并行策略
- DualPipe:
- 双向管道并行算法,用于 V3/R1 训练中计算与通信重叠
- 链接:https://github.com/deepseek-ai/DualPipe
- EPLB:
- V3/R1 的专家并行负载均衡器
- 链接:https://github.com/deepseek-ai/eplb
- 分析:
- V3/R1 计算与通信重叠分析
- 链接:https://github.com/deepseek-ai/profile-data
- DualPipe:
Day 5: 3FS, Thruster for All DeepSeek Data Access
- 发布 3FS(Fire-Flyer File System) - 并行文件系统
- 充分利用现代 SSD 和 RDMA 网络带宽
- 性能:
- 180 节点集群:6.6 TiB/s 聚合读取吞吐量
- 25 节点集群 GraySort 基准:3.66 TiB/min 吞吐量
- 每个客户端节点 KVCache 查询峰值:40+ GiB/s
- 特点:
- 分离式架构,强一致性语义
- 支持 V3/R1 的训练数据预处理、数据集加载、检查点保存/重载、嵌入向量搜索及推理 KVCache 查询
- 链接:
- 3FS:https://github.com/deepseek-ai/3FS
- Smallpond(基于 3FS 的数据处理框架):https://github.com/deepseek-ai/smallpond
Day 6: DeepSeek-V3/R1 Inference System Overview
- 发布 DeepSeek-V3/R1 推理系统概览
- 优化吞吐量和延迟:
- 通过跨节点 EP 增强批处理扩展
- 计算与通信重叠
- 负载均衡
- 在线服务统计:
- 每个 H800 节点:73.7k/14.8k 输入/输出 token 每秒
- 成本利润率:545%
- 目标:为社区提供价值,助力 AGI 目标
- 深入阅读:https://bit.ly/4ihZUiO
- 优化吞吐量和延迟:
链接
原文超链接与二维码