紧接着昨天那篇PyTorch Blog的内容MetaShuffling:Meta的Fused MoE kernel工程方案,更激进的Kernel优化和尽量避免Padding,我把fbgemm开源的moe grouped gemm kernel([链接])拷贝了一下,fix了一个小bug,然后在H100(Hopper)和SGLang的Grouped GEMM Triton Kernel对比了一下正确性和性能,在正确性没问题的情况下,性能...
特征错位问题:传统 FPN 类范式在多尺度检测中通过逐点融合不同层级的特征图,容易导致特征错位问题,从而影响模型性能。
按照原定计划,这篇文章应该要开始进入Scheduler的讲解了。但是我突然想起,在之前的文章中,漏掉了一个看似简单,但是十分重要的细节:vllm是如何加载模型权重的?在现在非常热门的rlhf训练中,避不开的一点是Actor和推理引擎间是需要做权重通信和更新的。所以,了解vllm load_model()的运作流十分重要。
软件膨胀(Software bloat)是指软件在运行时未被使用的代码和功能。对于机器学习(ML)系统而言,软件膨胀是造成其技术债务的主要因素,会导致性能下降和资源浪费。
随着 DeepSeek-R1 的火爆出圈,LLMs 和 VLMs 俨然已从 pretrain 转变为 test-time scaling 范式,从而促使 CoT Reasoning 愈演愈烈。今天让我们继续聚焦 Reasoning in VLMs 方面相关的工作。
基于 Transformer 的大型语言模型(LLMs)显著推动了人工智能能力的发展,但由于其高计算需求、内存带宽限制和能耗问题,将其部署在边缘设备上面临巨大挑战。
高效目标跟踪:在杂乱环境中实现对不可预测目标的高效跟踪,解决传统分离流程引入的显著延迟和累积误差问题。
后续会陆续更新一些CUDA和Triton Kernel编程入门向的文章,虽然比较浅显简单,但我自己挺喜欢这种温故而知新的感觉。
现有视觉语言模型(LVLMs)在处理多样化视觉感知任务时依赖任务特定模块和奖励函数,导致可扩展性和泛化能力受限
关键词:MoE、CPU-GPU Scheduling、Inference、Cache Management
机器学习(ML)工作负载在数据中心对 GPU 的需求激增,使得高效利用 GPU 变得至关重要。然而,在满足各个 ML 模型的多样化需求的同时优化资源使用是一个挑战。
近年来,大型语言模型(LLMs)通过优化传统的自然语言处理(NLP)流程,在提升人工智能性能和泛化能力方面取得了显著进展。
最近大型语言模型的进展,激发了人们将它们应用于电子设计自动化(EDA,即利用软件工具辅助设计电子系统,比如芯片设计)任务的兴趣,特别是在寄存器传输级(RTL,这是数字电路设计中的一种抽象层次,介于高层算法和底层门电路之间,用于描述数据在寄存器之间的传输和处理)代码生成方面。
近年来,多模态预训练模型如雨后春笋般涌现,其中 OpenAI 的 CLIP 凭借其简洁的对比学习框架和强大的零样本迁移能力,无疑是里程碑式的存在。它成功地将图像和文本映射到共享的语义空间,为诸多下游任务奠定了坚实的基础。然而,正如“月有阴晴圆缺”,CLIP 在展现其强大通用性的同时,也暴露了其在细粒度理解 (fine-grain...
❝为大型语言模型(LLM)提供服务对于人工智能驱动的应用程序至关重要,但这需要大量的计算资源,特别是在内存带宽和计算吞吐量方面。
驱动大型语言模型(LLM)的 Transformer 架构因其注意力机制而成为基础。随着这些模型的规模不断扩大,导致计算资源需求激增、实时性要求提高,让高效的 GPU 注意力内核对于实现高吞吐量和低延迟的推理变得至关重要。
❝ 扩散模型(DM)在文本到图像生成任务中取得革命性进展,能生成高质量、多样化的图像内容。然而,模型通常具有庞大的计算成本和模型规模,这使得实际应用中难以部署,尤其是在边缘设备上。例如,基于卷积 U-Net 结构的稳定扩散模型(如 Stable Diffusion 1.5、Stable Diffusion XL)在生成图像时需大量计算资源和内存,...
DeepSeek 是一个广受欢迎的开源大型语言模型 (LLM),因其强大的性能而备受赞誉。然而,由于其庞大的规模和独特的架构(采用多头潜在注意力 (MLA) 和混合专家 (MoE)),需要更先进的系统才能高效地大规模服务。在本篇博文中,我们将解释如何将 DeepSeek 的推理系统性能与 SGLang 进行匹配。
本文来自:[链接] ,由 GiantPandaLLM 翻译和 Repost。作者是来自 Linkedin 的 Biaoh He && Qingquan Song .
基于 Transformer 的模型(一种多头自注意力机制的神经网络架构)是高性能大型语言模型(LLMs)的核心,但它们相较于传统的深度神经网络(DNNs)需要更多的算力资源。