爱笑的小姐姐 - 极术社区 - 连接开发者与智能计算生态

爱笑的小姐姐

9405 声望

嵌入式 AI，让AI无处不在。欢迎加入微信交流群，微信号：gg15319381845（... 展开

关注他

关注了

7

粉丝数

19019

他的主页他的提问他的回答他的文章他的关注他的粉丝

他的收藏声望记录

最新动态

发布了文章 · 57 分钟前

Meta Shuffling的MoE Grouped GEMM kernel benchmark

紧接着昨天那篇PyTorch Blog的内容MetaShuffling：Meta的Fused MoE kernel工程方案，更激进的Kernel优化和尽量避免Padding，我把fbgemm开源的moe grouped gemm kernel([链接])拷贝了一下，fix了一个小bug，然后在H100(Hopper)和SGLang的Grouped GEMM Triton Kernel对比了一下正确性和性能，在正确性没问题的情况下，性能...
发布了文章 · 4 天前

Soft 最近邻插值 SNI 对齐特征 +ESD 增强空间保留，效率精度双突破

特征错位问题：传统 FPN 类范式在多尺度检测中通过逐点融合不同层级的特征图，容易导致特征错位问题，从而影响模型性能。
发布了文章 · 5 天前

图解Vllm V1系列4：加载模型权重(load_model)

按照原定计划，这篇文章应该要开始进入Scheduler的讲解了。但是我突然想起，在之前的文章中，漏掉了一个看似简单，但是十分重要的细节：vllm是如何加载模型权重的？在现在非常热门的rlhf训练中，避不开的一点是Actor和推理引擎间是需要做权重通信和更新的。所以，了解vllm load_model()的运作流十分重要。
发布了文章 · 5 天前

减少 55% 代码行数、 CPU 和 GPU 峰值内存，加速训练推理！

软件膨胀（Software bloat）是指软件在运行时未被使用的代码和功能。对于机器学习（ML）系统而言，软件膨胀是造成其技术债务的主要因素，会导致性能下降和资源浪费。
发布了文章 · 5月29日

MiniMax AI 开源首个感知+推理的强化学习框架 V-Triune: 统一视觉-语言任务

随着 DeepSeek-R1 的火爆出圈，LLMs 和 VLMs 俨然已从 pretrain 转变为 test-time scaling 范式，从而促使 CoT Reasoning 愈演愈烈。今天让我们继续聚焦 Reasoning in VLMs 方面相关的工作。
发布了文章 · 5月28日

边缘端Qwen2.5-0.5B推理：通过模型压缩和硬件加速实现高效的LLM推理

基于 Transformer 的大型语言模型（LLMs）显著推动了人工智能能力的发展，但由于其高计算需求、内存带宽限制和能耗问题，将其部署在边缘设备上面临巨大挑战。
发布了文章 · 5月27日

YOPOv2-Tracker开源 | 端到端方法革新，跟踪提速10倍，扰动观测器破解传统框架延迟难题

高效目标跟踪：在杂乱环境中实现对不可预测目标的高效跟踪，解决传统分离流程引入的显著延迟和累积误差问题。
发布了文章 · 5月26日

[Triton编程][基础] Triton极简入门: Triton Vector Add

后续会陆续更新一些CUDA和Triton Kernel编程入门向的文章，虽然比较浅显简单，但我自己挺喜欢这种温故而知新的感觉。
发布了文章 · 5月23日

VisionReasoner首提统一框架，检测/分割/计数3类任务超越YOLO-World等专用模型

现有视觉语言模型（LVLMs）在处理多样化视觉感知任务时依赖任务特定模块和奖励函数，导致可扩展性和泛化能力受限
发布了文章 · 5月21日

混合CPU-GPU调度+Cache管理：MoE推理Prefill1.3倍、Decode1.7倍加速！

关键词：MoE、CPU-GPU Scheduling、Inference、Cache Management
发布了文章 · 5月19日

CMU与Meta提出LithOS：节省 GPU51% 容量、26%能耗，迈向高效机器学习操作系统

机器学习（ML）工作负载在数据中心对 GPU 的需求激增，使得高效利用 GPU 变得至关重要。然而，在满足各个 ML 模型的多样化需求的同时优化资源使用是一个挑战。
发布了文章 · 5月15日

阿里提出 Cost-Efficient LLMs：从 Large 到 Super-Tiny 的端到端优化

近年来，大型语言模型（LLMs）通过优化传统的自然语言处理（NLP）流程，在提升人工智能性能和泛化能力方面取得了显著进展。
发布了文章 · 5月14日

基于 LLM 的 RTL 代码生成，VerilogEval 上功能正确性 SOTA

最近大型语言模型的进展，激发了人们将它们应用于电子设计自动化（EDA，即利用软件工具辅助设计电子系统，比如芯片设计）任务的兴趣，特别是在寄存器传输级（RTL，这是数字电路设计中的一种抽象层次，介于高层算法和底层门电路之间，用于描述数据在寄存器之间的传输和处理）代码生成方面。
发布了文章 · 5月13日

在多模态的浪潮之巅，如何“精雕细琢”图文对齐？

近年来，多模态预训练模型如雨后春笋般涌现，其中 OpenAI 的 CLIP 凭借其简洁的对比学习框架和强大的零样本迁移能力，无疑是里程碑式的存在。它成功地将图像和文本映射到共享的语义空间，为诸多下游任务奠定了坚实的基础。然而，正如“月有阴晴圆缺”，CLIP 在展现其强大通用性的同时，也暴露了其在细粒度理解 (fine-grain...
发布了文章 · 5月12日

Tilus 虚拟机：超越 Triton 开启低精度任意比特 GPGPU 的 LLM 高效计算

❝为大型语言模型（LLM）提供服务对于人工智能驱动的应用程序至关重要，但这需要大量的计算资源，特别是在内存带宽和计算吞吐量方面。
发布了文章 · 5月9日

FlashInfer：面向 LLM 服务的可定制且高效的 GPU 注意力引擎

驱动大型语言模型（LLM）的 Transformer 架构因其注意力机制而成为基础。随着这些模型的规模不断扩大，导致计算资源需求激增、实时性要求提高，让高效的 GPU 注意力内核对于实现高吞吐量和低延迟的推理变得至关重要。
发布了文章 · 5月8日

FP4DiT：扩散 Transformer 模型 FP4 量化的革命性突破，开启边缘部署新时代

❝ 扩散模型（DM）在文本到图像生成任务中取得革命性进展，能生成高质量、多样化的图像内容。然而，模型通常具有庞大的计算成本和模型规模，这使得实际应用中难以部署，尤其是在边缘设备上。例如，基于卷积 U-Net 结构的稳定扩散模型（如 Stable Diffusion 1.5、Stable Diffusion XL）在生成图像时需大量计算资源和内存，...
发布了文章 · 5月7日

在 96 个 H100 GPU 上部署具有 PD 分解和大规模专家并行性的 DeepSeek

DeepSeek 是一个广受欢迎的开源大型语言模型 (LLM)，因其强大的性能而备受赞誉。然而，由于其庞大的规模和独特的架构（采用多头潜在注意力 (MLA) 和混合专家 (MoE)），需要更先进的系统才能高效地大规模服务。在本篇博文中，我们将解释如何将 DeepSeek 的推理系统性能与 SGLang 进行匹配。
发布了文章 · 5月6日

在 SGLang 中实现 Flash Attention 后端 - 基础和 KV 缓存

本文来自：[链接] ，由 GiantPandaLLM 翻译和 Repost。作者是来自 Linkedin 的 Biaoh He && Qingquan Song .
发布了文章 · 4月30日

3.5 倍能效突破，Attention 和 Softmax 的 AI 加速器实现

基于 Transformer 的模型（一种多头自注意力机制的神经网络架构）是高性能大型语言模型（LLMs）的核心，但它们相较于传统的深度神经网络（DNNs）需要更多的算力资源。
点击载入更多

认证与成就

获得 325 次点赞

2020年02月20日加入

举报他

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息