NPU Info
NPU / GPU 算子优化相关新闻与资讯汇总
Last updated: 2026-03-29 09:35
算子优化相关新闻
▼ 📅 2026年3月29日
▼ ⏰ 08:00
2026-03-29NVIDIA TensorRT-LLM 发布 v1.1.0rc5,继续迭代 LLM 推理 kernel 路径与后端适配(含算子执行与性能相关工程更新),属于 TensorRT/算子优化链路的新增版本信号 来源 ↗
2026-03-29PyTorch 主线(含 Inductor/Triton 相关子目录)当日仍有活跃提交,重点围绕编译稳定性与性能回归治理,反映图编译到 kernel 生成路径的持续工程推进(follow-up: 2026年3月28日) 来源 ↗
2026-03-29OpenXLA 主仓当日可见新增提交,持续推进 HLO/后端 lowering 与执行路径工程化,属于"算子融合+代码生成基础设施"层面的日更进展(follow-up: 2026年3月28日) 来源 ↗
2026-03-29StableHLO 当日继续更新算子语义与兼容性相关实现,支撑跨框架 IR 稳定演进,对编译器算子规范化与下游优化有直接价值(follow-up: 2026年3月28日) 来源 ↗
2026-03-29IREE 主干持续有新提交,围绕编译管线与运行时后端细节迭代,体现 MLIR→目标设备执行链路在算子落地层面的持续优化(follow-up: 2026年3月28日) 来源 ↗
2026-03-29TVM 主仓当日保持活跃开发,近期提交继续聚焦算子调度、代码生成与后端适配等核心方向,属于编译优化生态的持续增量 来源 ↗
2026-03-29AMD MLIR-AIE 在 3 月中旬后持续释放更新信号(含新编译组件与 Ryzen AI NPU 工具链演进),显示 NPU 侧 MLIR 编译栈在快速补齐可用性与 workload 覆盖 来源 ↗
2026-03-29EuroLLVM 2026 MLIR Workshop 议程继续发酵,包含以强化学习预测 MLIR pass/参数的编译优化研究(MLIRCompilerEnv),指向 auto-tuning 在编译管线配置层面的新热点 来源 ↗
2026-03-29arXiv 3 月新论文 AutoKernel(2603.21331)在"代理驱动 GPU kernel 自动优化"方向持续被讨论,强调无需人工介入的瓶颈定位与迭代搜索闭环(follow-up: 2026年3月27日) 来源 ↗
2026-03-29arXiv 3 月论文 PolyBlocks(2603.06731)继续受到关注,其 MLIR 基础设施覆盖 tiling/fusion/片上存储利用与 attention 优化,代表 AI 编译器"模块化复用+近库性能"路线(follow-up: 2026年3月27日) 来源 ↗
⭐2026-03-29今日检索到机器之心/新智元/NeuralTalk 在"当日新增且强聚焦 NPU/GPU 算子优化与编译器"的独立重磅报道仍较少,媒体侧信号延续前一日偏稀疏状态 (via 机器之心) 来源 ↗
▼ 📅 2026年3月28日
▼ ⏰ 17:00
2026-03-28今日暂无新增新闻
▼ ⏰ 12:00
2026-03-28ONNX Runtime 发布 v1.23.0,新增/强化了对更高版本 ONNX opset 与推理后端的支持,并继续推进 execution provider 路径上的图优化与算子执行性能,属于推理编译/算子运行时的当日有效增量 来源 ↗
2026-03-28TensorRT Model Optimizer 发布 v1.0.0,强调模型压缩与部署前优化流程(含量化/结构化优化工具链整合),对"算子级优化+部署性能"链路有直接工程价值 来源 ↗
2026-03-28OpenXLA 生态在当日可见仓库活跃更新(xla / stablehlo / iree 等)并持续围绕 IR 降级与后端执行路径演进,反映编译栈对算子融合与代码生成基础设施的持续推进 来源 ↗
2026-03-28IREE 当日主干持续更新,近期提交聚焦编译管线稳定性与后端执行改进,属于 MLIR/IREE 路线在端到端算子 lowering 与运行时优化上的工程性进展 来源 ↗
2026-03-27tinygrad 发布 v0.11.0,继续演进 kernel 生成与后端执行能力(含多后端算子代码路径优化),在轻量编译器/内核栈方向提供了可跟踪的新版本信号 来源 ↗
2026-03-27bitsandbytes 发布 v0.50.0,围绕低比特量化算子与训练/推理效率持续迭代(含 CUDA 路径更新),对应"量化算子优化"高优先级方向的新增动态 来源 ↗
2026-03-27llama.cpp 发布 b5xxx 系列新版本,持续推进 CUDA/Metal 等后端 kernel 与量化算子实现,反映 LLM 推理侧"算子实现细节驱动性能"的快速迭代节奏 来源 ↗
2026-03-26Apple MLX 发布 v0.29.3,更新中包含内核与图执行相关修复/优化,显示 Apple 端侧(含 ANE/Metal 相关路径)在算子执行性能上的持续工程化打磨 来源 ↗
2026-03-26NVIDIA TransformerEngine 发布 v2.8,继续强化 FP8/混合精度训练与相关 fused kernel 路径,属于"混合精度 + 融合算子"方向的近期关键更新 来源 ↗
2026-03-25PyTorch/XLA 发布 r2.8,包含编译执行路径与 XLA 集成更新,体现训练/推理图在 XLA 编译落地中的持续性能与稳定性优化(follow-up: 2026年3月27日) 来源 ↗
2026-03-25NVIDIA DALI 发布 v1.51.2,数据处理算子与 GPU pipeline 继续优化,对端到端训练吞吐(尤其 input pipeline 瓶颈)有实际影响,属于"算子+系统协同优化"增量 来源 ↗
⭐2026-03-28今日检索到机器之心/新智元/NeuralTalk 在"当日新增且高度聚焦 NPU/GPU 算子优化与编译器"方向仍缺少明确独立重磅更新,媒体侧信号相对稀疏 (via 机器之心) 来源 ↗
▼ ⏰ 08:00
2026-03-28LLVM MLIR 社区更新了 AI 编译相关议程材料,新增/强化了面向 GPU kernel profiling 的 Proton Dialect 讨论,重点指向"编译期-运行期"联动优化与 kernel 级性能诊断,对算子调优闭环有直接参考价值 来源 ↗
2026-03-28Triton 社区近期可见 v3.6.0 发布线索,更新项涉及编译分析基础能力(如 integer-range utility 暴露)与后端工程演进,属于 kernel 代码生成与优化基础设施层面的持续迭代(follow-up: 2026年3月27日) 来源 ↗
2026-03-28Triton 官方 release 页面所示近期稳定版仍以 bugfix 和代码生成稳定性为主,同时保留自动 warp specialization 等性能特性,反映 GPU kernel 自动优化能力在持续工程化(follow-up: 2026年3月27日) 来源 ↗
2026-03-28昇腾社区文档线更新到 CANN Community Edition 8.3 RC alpha 开发文档,Ascend C 最佳实践继续强调高性能自定义算子开发流程(含 tiling/访存/流水并行等),显示 NPU 算子工程指南仍在快速完善 来源 ↗
2026-03-28arXiv 近一周新增的 AscendOptimizer(2026-03-24)继续成为 Ascend NPU 算子 auto-tuning 代表进展:以 episodic agent 驱动算子级搜索,聚焦 host tiling + kernel 协同优化,在公开生态稀缺样本下提升自动调优可行性(follow-up: 2026年3月27日) 来源 ↗
2026-03-28Qualcomm 方向的 Hexagon-MLIR(2026-02-23)近期仍被持续引用,作为 NPU 编译栈将 PyTorch/Triton 子图统一 lowering 到 Hexagon binary 的关键实践,说明"算子子图到专用 NPU"链路正在走向标准化(follow-up: 2026年3月27日) 来源 ↗
2026-03-28级联归约自动融合论文 RedFuser 仍是 2026 Q1 算子融合热点之一,近期讨论聚焦"融合收益 vs. 调度复杂度"平衡,提示 AI 编译器在 reduction-heavy 图上的自动 fusion 仍有较大优化空间(follow-up: 2026年3月27日) 来源 ↗
2026-03-28GitHub 主仓显示 Triton 代码库维持高频活跃开发,围绕 kernel 语言/编译器主干持续迭代,行业侧可重点关注即将进入正式 release 的后端修复与性能回归控制变更(follow-up: 2026年3月27日) 来源 ↗
2026-03-28公开社区出现新的 Triton 融合算子实践(Qwen3-TTS 相关第三方开源尝试,报告多算子融合与推理提速),虽非厂商官方发布,但反映"RMSNorm/激活/残差"类 memory-bound 算子融合仍是落地热点 来源 ↗
2026-03-28今日检索范围内,未发现"新智元 / 机器之心 / NeuralTalk"在 2026-03-28 当天新增且高相关(聚焦 NPU/GPU 算子优化与编译器)的独立重磅报道;相关中文媒体侧今日信号相对稀疏(该条为检索结论汇总)
▼ 📅 2026年3月27日
▼ ⏰ 17:00
2026-03-22AutoKernel 论文提出"代理驱动 + 迭代实验"GPU kernel 自动优化流程,可自动定位瓶颈并在 Triton/CUDA 实现上反复搜索,强调无需人工介入的 auto-tuning 闭环,属于算子级性能搜索新进展 来源 ↗
2026-03-06PolyBlocks 论文发布 MLIR-based AI 编译基础设施,报告了多级 tiling、融合、片上存储利用与 attention 融合等算子/内核优化能力,并称在 matmul/conv 等算子上可接近厂商调优库表现 来源 ↗
2026-02-23Hexagon-MLIR 论文给出面向 Qualcomm Hexagon NPU 的开源编译栈,强调 Triton kernel 与 PyTorch 子图到 NPU binary 的统一 lowering,对 NPU 算子部署链路有直接价值 来源 ↗
[2026-03-XX] Triton Inference Server 新近发行版本在发布说明中给出与 TensorRT 10.10、ONNX Runtime 1.22 等组件的配套升级,反映推理工具链侧对新算子/后端兼容与性能路径的持续推进 来源 ↗
[2026-03-XX] Triton(triton-lang)近期 release 线继续以 bugfix 和编译稳定性修复为主(含多项代码生成/后端相关修复),显示 GPU kernel 开发栈在工程可用性与性能回归控制上的持续迭代 来源 ↗
2026-03-27今日在公开可检索源中,未发现"新智元/机器之心/NeuralTalk"当日新增且明确聚焦 NPU/GPU 算子优化与编译器的高相关独立报道(已尽量检索其站内与公开索引)
▼ ⏰ 12:00
2026-03-24AscendOptimizer 论文提出面向华为昇腾 NPU 的"episodic agent"算子优化方法,聚焦自动调优与算子级性能搜索,在 Ascend 场景下给出可落地优化流程(NPU 算子优化方向) 来源 ↗
[2026-03-XX] NVIDIA CUTLASS 4.4.1 更新持续强化 kernel 生成与调优能力,更新项涉及针对特定 CUDA 版本的内核控制文件(controls)与更丰富的 kernel 代码生成能力,并包含与注意力相关示例演进(GPU kernel/代码生成方向) 来源 ↗
[2026-03-XX] arXiv 新论文 RedFuser 聚焦级联归约(cascaded reductions)自动算子融合,强调在 AI 加速器上通过自动 fusion 提升执行效率,属于编译器 fusion 新进展 来源 ↗
[2026-03-XX] ICLR 2026 论文(OpenReview)讨论算子配置下的性能/复杂度权衡,比较 Triton、CUTLASS、Composable Kernel 等路线并给出高性能融合实现结果,体现"可编程性+性能"并进趋势 来源 ↗
2026-02-27CUTLASS 4.4.1 变更中提及 Blackwell(如 SM100/相关示例)与注意力内核生态扩展,显示 NVIDIA 在新架构上持续推进算子模板库与示例代码(GPU 编译/算子库方向) 来源 ↗
[2026-03-XX] NVIDIA 官方文档链路显示 CUTLASS Python DSL 相关能力继续演进,结合 kernel controls 机制,强化"自动化配置 + 代码生成"的工程化路径(auto-tuning/tooling 方向) 来源 ↗
[2026-03-XX] arXiv(近期可见)围绕算子融合规模化与 memory/computation 平衡持续有工作(如 RedFuser 代表自动融合方向),说明"融合策略搜索+访存优化"仍是 2026 上半年热点 来源 ↗
[2026-03-XX] 从近期公开技术材料看,FlashAttention/CUTLASS/Triton 仍是 GPU 注意力算子优化主战场,行业焦点继续集中在新架构(Blackwell)上的 kernel 适配与性能释放 来源 ↗
组内进展
▼ 📅 2026年3月27日
▼ ⏰ 12:00
dummyreport.md
- 当前NPU算子整体完成情况仍不明确,存在进度可见性不足的问题。
- 已完成MatMul算子在新平台上的适配与性能测试,相关迁移与验证取得实质进展。
- 已启动Attention算子融合优化方案设计,进入后续性能优化阶段。