NPU Info
NPU / GPU 算子优化相关新闻与资讯汇总
Last updated: 2026-05-27 12:00
GPU
NPU
推理
训练
L1算子
L2融合
L3编译优化
量化
论文
Auto-tuning
arXiv
机器之心
新智元
NeuralTalk
GitHub
知乎
NVIDIA
Google
Hugging Face
微信公众号
算子优化相关新闻
▼ 📅 2026年5月27日
▼ ⏰ 08:00
2026-05-23NVIDIA TensorRT 官方文档仍显示最新维护点为 10.16.1(页面最近更新于 2026-05-23),今天未见更新版本号或新增算子发布公告,属既有版本状态延续(follow-up: 2026年5月26日) 来源 ↗
2026-05-27Triton 语言/编译器 GitHub Releases 公开页未出现 3.6.0 之后的新 release 条目(当前窗口内仍以 3.6.0 为最近版本),今天暂无新的 kernel 代码生成/调度版本级更新(follow-up: 2026年5月26日) 来源 ↗
2026-05-27NVIDIA Triton Inference Server 官方 release notes 仍停留在 26.04 系列公开说明,今天未见新容器分支或编译后端重大变更公告 来源 ↗
2026-05-27PyTorch/TensorRT Releases 页面未见 2026-05 下旬新增版本(最近可见更新仍早于本周),推理桥接层今天暂无新增发布 来源 ↗
2026-05-27华为昇腾相关公开渠道(本次可检索到的 CANN/Ascend 公告面)今天未检索到“5月27日新增且可稳定复核”的算子优化或编译器版本公告,NPU 侧以存量进展为主 来源 ↗
2026-05-27arXiv 今日窗口检索下,算子优化/融合/编译方向未发现显著晚于 5月22日已报道论文(如 HyperParallel-MoE、FastKernels)的同量级新条目进入主流可复核范围(follow-up: 2026年5月26日) 来源 ↗
⭐2026-05-27机器之心公开页面今天未检索到可稳定复核、且明确聚焦 NPU/GPU 算子优化或编译器“新发布”的独立报道,媒体侧该垂直方向延续低新增态势(follow-up: 2026年5月26日) (via 机器之心) 来源 ↗
⭐2026-05-27NeuralTalk 公开内容今天未检索到聚焦算子/编译优化的新发行业稿件,暂无可入选新增新闻(follow-up: 2026年5月26日) (via NeuralTalk) 来源 ↗
▼ ⏰ 12:00
2026-05-27Triton PyPI 发布历史显示已出现 **3.7.0(2026-05-07)**,相较你历史里“仅到 3.6.0”的状态是新增版本信号,意味着 GPU kernel 代码生成/调度栈在 5 月上旬后已有后续迭代(follow-up: 2026年5月27日) 来源 ↗
2026-05-27Triton GitHub Releases 页面当前仍可见 3.6.0 详细说明(含 tcgen05、Ragged TMA、LLVM 相关改进),与“3.7.0 已发布(PyPI)”形成“发布渠道不同步可见性”现象,建议跟踪 GitHub release 条目是否补齐(follow-up: 2026年5月27日) 来源 ↗
2026-05-27ONNX Runtime QNN EP 官方文档已纳入更近期 QAIRT 版本说明(含 2.39+ 日志与上下文能力描述),反映 Qualcomm NPU 执行后端在量化/部署链路上的持续工程化完善(follow-up: 2026年5月26日) 来源 ↗
2026-05-27ONNX Runtime “EP Context Design” 文档近期仍在更新窗口内,强调 Plugin EP 的硬件兼容与运行时装载机制,属于编译-执行后端解耦(插件化 EP)方向的持续推进(follow-up: 2026年5月26日) 来源 ↗
2026-05-11arXiv 论文 **TLX: Hardware-Native, Evolvable MIMW GPU Compiler** 提出面向大规模生产的 Triton 低层扩展与 warp-group 粒度编排,对复杂 kernel 调度与代码生成表达能力有直接意义(该论文在你给定历史中未出现) 来源 ↗
2026-05-27Ascend 官方 changelog 可见公开最近节点仍停留在更早日期(页面可见 2026-02-27 区段),今天未检索到 CANN/Ascend C 新增可复核发布条目(follow-up: 2026年5月27日) 来源 ↗
2026-05-27NVIDIA Triton Inference Server 公开 release notes 侧未见晚于你历史已记录分支的“算子/编译后端”新公告,推理服务编排层今天无新增可归档事件(follow-up: 2026年5月27日) 来源 ↗
⭐2026-05-27机器之心首页检索窗口内,未发现“当天新增且可稳定复核”的 NPU/GPU 算子优化或编译器发布级独立报道,延续近几日低新增态势(follow-up: 2026年5月27日) (via 机器之心) 来源 ↗
⭐2026-05-27新智元公开页面检索窗口内,未发现“当天新增且可稳定复核”的算子融合/自动调优/编译器发布级条目,媒体侧该垂直方向今日暂无新增(follow-up: 2026年5月27日) (via 新智元) 来源 ↗
⭐2026-05-27NeuralTalk 公开页面检索窗口内,未发现聚焦 NPU/GPU 算子优化与编译器新发布的新增报道,今日暂无可入选条目(follow-up: 2026年5月27日) (via NeuralTalk) 来源 ↗
▼ 📅 2026年5月26日
▼ ⏰ 08:00
▼ ⏰ 12:00
2026-05-23NVIDIA 发布 TensorRT 10.16.1(文档与 OSS 安装包同步到 10.16.1.11),更新 CUDA 13.2 组合并继续推进弃用旧 API(含静态库迁移、PluginV3 路径),对推理算子兼容与 kernel 构建链路有直接影响(follow-up: 2026年5月25日) 来源 ↗
2026-05-20Qualcomm 公布首个 ONNX Runtime Plugin EP(QNN/QAIRT 路径),强调 EP 与 ORT Core 解耦、按月下发算子覆盖与性能优化,属于 NPU 推理编译栈“插件化发布节奏”重要进展 来源 ↗
2026-05-22Triton 3.6.0 发布,后端侧包含 LLVM 多轮升级与稳定性修复、Ragged TMA/多维 batch 等特性,延续 GPU kernel 代码生成与调度优化主线(follow-up: 2026年5月25日) 来源 ↗
2026-05-22arXiv 新论文 HyperParallel-MoE 提出 Ascend NPU 上 AIC/AIV 异构 tile 级静态调度与单 kernel 并行执行,MoE Dispatch-to-Combine 延迟最高降至 1.58x,聚焦算子调度与运行时协同优化 来源 ↗
2026-05-22arXiv 新论文 FastKernels 发布面向生产环境的 GPU kernel 生成基准与框架,强调可直接对接现有推理库接口,推动 auto-kernel 生成从“比赛基准”走向“可部署算子实现” 来源 ↗
2026-05-15arXiv 新论文 Ascend-RaBitQ 提出 NPU-CPU 异构向量检索流水线与融合算子优化(AIC/AIV 并行、负载均衡、流水并行),在亿级向量场景报告吞吐提升,覆盖低比特量化与内存带宽优化方向 来源 ↗
2026-05-25BitCPM-CANN(OpenBMB)公开 1.58-bit 三值训练技术栈与模型权重,技术报告给出 Ascend 原生低比特训练路径(STE + 分层栈),属于量化算子与 NPU 训练链路的实质新增 来源 ↗
2026-05-24KADC 2026 CANN 技术论坛披露“算子性能/编程灵活性/社区体验”三线升级,并提及 FlagTree v0.5 接入 AscendNPU IR(FLIR 统一 IR 路径),体现 NPU 编译与算子生态协同推进 来源 ↗
⭐2026-05-26机器之心公开站点检索未见“当天新增且可稳定复核”的算子优化/编译器独立快讯,媒体侧该垂直方向今日新增信号仍弱(follow-up: 2026年5月25日) (via 机器之心) 来源 ↗
⭐2026-05-26NeuralTalk 公开内容检索未见聚焦 NPU/GPU 算子编译优化的新发行业稿件,今日暂无可入选独立新闻条目(follow-up: 2026年5月25日) (via NeuralTalk) 来源 ↗
▼ ⏰ 17:00
2026-05-23NVIDIA TensorRT 10.16.1(文档版本 10.16.1.11)继续推进新 API/PluginV3 路径与 CUDA 13.2 组合,直接影响推理算子兼容和 kernel 构建链路(follow-up: 2026年5月25日) 来源 ↗
2026-05-22Triton 3.6.0 发布,包含后端 LLVM 升级、Ragged TMA/多维 batch 等能力与稳定性修复,延续 GPU kernel 代码生成与调度优化主线(follow-up: 2026年5月25日) 来源 ↗
2026-05-21TensorRT GitHub 发布 v10.11 条目,新增/完善部分算子形态(如整数 Pow、Einsum 路径)与插件相关能力,属于推理编译栈算子覆盖与 kernel 路径的持续迭代(follow-up: 2026年5月25日) 来源 ↗
2026-05-20Qualcomm 发布首个 ONNX Runtime Plugin EP(QNN/QAIRT 路径),强调与 ORT Core 解耦并按月更新算子覆盖与性能优化,体现 NPU 执行后端插件化发布节奏 来源 ↗
2026-05-22arXiv 论文 HyperParallel-MoE 提出 Ascend NPU 上 AIC/AIV 异构 tile 静态调度与单 kernel 并行执行,针对 MoE Dispatch-to-Combine 给出显著时延下降结果 来源 ↗
2026-05-22arXiv 论文 FastKernels 发布面向生产场景的 GPU kernel 生成基准与框架,强调与现有推理库接口对接,推动 auto-kernel 从研究基准向可部署实现演进 来源 ↗
2026-05-15arXiv 论文 Ascend-RaBitQ 提出 NPU-CPU 异构向量检索流水线与融合算子优化(AIC/AIV 并行、负载均衡、流水并行),覆盖低比特量化与内存带宽优化 来源 ↗
2026-05-25BitCPM-CANN(OpenBMB)公开 1.58-bit 三值训练技术栈与模型,给出 Ascend 原生低比特训练路径(STE + 分层栈),属于量化算子/NPU 训练链路实质新增 来源 ↗
2026-05-24KADC 2026 CANN 技术论坛披露“算子性能、编程灵活性、社区体验”三线升级,并提及 FlagTree v0.5 接入 AscendNPU IR(FLIR),反映 NPU 编译与算子生态协同推进 来源 ↗
⭐2026-05-26机器之心公开站点检索未见“当天新增且可稳定复核”的算子优化/编译器独立快讯,媒体侧该垂直方向今日新增信号仍弱(follow-up: 2026年5月25日) (via 机器之心) 来源 ↗
⭐2026-05-26NeuralTalk 公开内容检索未见聚焦 NPU/GPU 算子编译优化的新发行业稿件,今日暂无可入选独立新闻条目(follow-up: 2026年5月25日) (via NeuralTalk) 来源 ↗
▼ 📅 2026年5月25日
▼ ⏰ 12:00
2026-05-25NVIDIA Triton 发布 3.5.1 bugfix 版本(延续 3.5.0 编译栈),聚焦编译稳定性修复;结合 3.5.0 已披露内容看,近期重点仍在后端/寄存器分配/布局与 HIP 路径优化,属 GPU kernel 代码生成与调度链路的持续迭代 来源 ↗
2026-05-25Triton 3.5.0 发布说明显示本周期包含 LLVM 多次版本升级与回滚稳定分支、Warp specialization 约束增强、Ragged TMA 支持等,反映 Triton 在算子生成与编译后端(含 NVIDIA/AMD 路径)上的系统性优化推进 来源 ↗
2026-05-25IREE 维持在 v3.11.0(2026-03-19)为最近稳定版本,今天未见更新版 release;其作为 MLIR-based 编译器运行时在多硬件后端持续维护,属于“近期无新发但链路仍活跃”的编译框架状态更新 来源 ↗
2026-05-25Triton-Ascend 官方仓库仍显示 2026.04 的 3.2.0 post 为最近明确版本节点,今日未见新增 release,NPU(昇腾)算子编译生态暂无“当天新发”公告 来源 ↗
2026-05-25CUTLASS 官方 changelog 仍以 2026-05-01 的 4.5.0 为最新主版本节点,今日未见 4.5.1/4.6 新版本发布,GPU GEMM/低比特模板优化方向暂无新增 release 级事件(follow-up: 2026年5月22日) 来源 ↗
2026-05-25arXiv 今日检索到算子优化相关“新近窗口”内仍以 **Nautilus**(2026-04-16)为代表:强调 tiled GPU kernel 自动调度与 reduction fusion 的高层全局优化自动化,近期未检索到更新日期为 2026-05-25 的同量级新论文(follow-up: 2026年5月22日) 来源 ↗
2026-05-25arXiv 方向另一条近期代表仍是 **DVM**(2026-03-25),核心是动态模型实时 kernel 生成与静/动态融合协同;今日未见该主题更新版本或续作上新(follow-up: 2026年5月22日) 来源 ↗
▼ ⏰ 17:00
2026-05-25NVIDIA TensorRT GitHub Releases 出现 **v10.11(21 May)** 新条目,延续插件与解析器能力演进(含整数 `Pow`、`Einsum` 形态支持等),对推理算子兼容与 kernel 路径优化有直接影响,属于近两天内 GPU 推理编译栈新增动态(follow-up: 2026年5月25日) 来源 ↗
2026-05-25OpenXLA 组织页显示多个核心仓库(如 xla、stablehlo、tokamax、xprof)在 2026-05 上旬仍保持活跃更新,反映编译 IR、kernel 库与性能分析链路在持续推进,但今日未见统一“新版本总发布公告” 来源 ↗
2026-05-25Apache TVM 仍以 **v0.23.0(2026-02-01)** 为最新稳定 release,今日无新增版本;结合近期 release notes 轨迹,重点仍在 PyTorch 兼容、FFI 与测试基础设施等编译器工程化优化(follow-up: 2026年5月25日) 来源 ↗
2026-05-25openxla/stablehlo 的 releases 页面显示 5 月有更新活动记录,说明 HLO 方言规范与生态仍在演进;但今天未检索到可独立归档为“重大新版本发布”的算子级变更公告 来源 ↗
2026-05-25PyTorch/TensorRT 在 2026-04 已提供面向 TensorRT 10.15.1 + CUDA 13 的新二进制构建(2.11.0 对应包),当前窗口内未见 5 月下旬新增 release,属推理编译桥接层“近期已更新、今日无新发” 来源 ↗
2026-05-25NVIDIA Model Optimizer changelog 显示 0.43(2026-04-16)已升级 ONNX Runtime 1.24 以修复 TensorRT EP 图输出问题,体现图优化与执行后端联调方向的算子/编译稳定性改进,今日未见更新版(follow-up: 2026年5月25日) 来源 ↗
2026-05-25PyTorch/XLA releases 信息显示 2.4 版本曾报告 torchbench 几何均值约 4% 提升,当前未见“5月25日新增发布”;可视为 TPU/NPU 编译后端性能优化线的近期基线状态更新 来源 ↗
2026-05-25arXiv 今日检索窗口下,算子优化/融合方向仍未见显著晚于 **Nautilus(2026-04-16)**、**DVM(2026-03-25)** 的同量级新论文进入主流关注,学术侧当天新增信号偏弱(follow-up: 2026年5月25日) 来源 ↗
⭐2026-05-25机器之心站内今日未检索到“新增且可稳定复核”的 NPU/GPU 算子优化或编译器独立快讯,媒体侧该垂直方向延续低新增态势(follow-up: 2026年5月25日) (via 机器之心) 来源 ↗
▼ 📅 2026年5月24日
▼ ⏰ 08:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 12:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 17:00
今日新闻获取失败,请稍后手动更新
▼ 📅 2026年5月23日
▼ ⏰ 08:00
2026-05-23今日暂无新增新闻
▼ ⏰ 12:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 17:00
今日新闻获取失败,请稍后手动更新
▼ 📅 2026年5月22日
▼ ⏰ 08:00
2026-05-01NVIDIA 发布 CUTLASS 4.5.0(5月版本),继续强化 GEMM/混合精度/低比特(含 NVFP4/MXFP 系列)与新架构 kernel 模板能力,属于 GPU 算子代码生成与 kernel 性能优化方向的重要更新 来源 ↗
2026-05-11Triton 生态近期更新显示主仓库与扩展仓在 5 月持续活跃,配套 release 信息包含布局转换、寄存器分配、HIP AOT 等编译与性能相关改进,可视作 Triton kernel 自动生成/调优链路的近期进展 来源 ↗
2026-04-01Triton-Ascend 发布 3.2.0 post 版本(时间线显示 2026.04),反映 NPU 方向(Ascend)上 Triton 后端适配与编译工具链仍在推进,涉及 NPU 算子编译生态 follow-up 进展 来源 ↗
2026-04-16arXiv 新论文 **Nautilus: An Auto-Scheduling Tensor Compiler for Efficient Tiled GPU Kernels** 提出面向 tiled GPU kernel 的自动调度编译器,强调 reduction fusion 等高层优化自动化,直接对应算子调度/auto-tuning 主题 来源 ↗
2026-03-25arXiv 论文 **DVM: Real-Time Kernel Generation for Dynamic AI Models** 关注动态模型的实时 kernel 生成与运行时/静态融合协同,目标是降低编译开销并保持算子优化收益,属于编译优化与运行时算子生成方向 来源 ↗
2026-05-22检索今日(2026-05-22)公开渠道后,未确认到可稳定复核的“当天新发”TVM/XLA/MLIR/Torch Inductor/TensorRT 官方 release 级更新;当前可确认的近期重点仍集中在 CUTLASS 与 Triton 相关进展 来源 ↗
2026-05-22检索今日(2026-05-22)NPU 厂商方向(含 Ascend/Qualcomm QNN 等)后,未发现可直接确认为“今日新增”的官方算子优化重大公告;可确认的最近明确节点仍为 Triton-Ascend 4 月版本动态 来源 ↗
2026-05-22检索今日(2026-05-22)新智元、机器之心、NeuralTalk 三个媒体站点相关主题,未抓取到可确认的“今日新增且聚焦算子/编译优化”的独立报道条目(因此无可加⭐的新增项) 来源 ↗
▼ ⏰ 12:00
2026-05-22今日暂无新增新闻
▼ ⏰ 17:00
2026-05-22今日暂无新增新闻
▼ 📅 2026年5月21日
▼ ⏰ 08:00
2026-05-21今日暂无新增新闻
▼ ⏰ 12:00
2026-05-21今日暂无新增新闻
▼ ⏰ 17:00
2026-05-21今日暂无新增新闻
▼ 📅 2026年5月20日
▼ ⏰ 08:00
2026-05-19今日未检出新增可确认的 NPU/GPU 算子优化或编译器重大新闻(已去重后无新增项)
▼ ⏰ 12:00
今日暂无新增新闻
▼ ⏰ 17:00
今日暂无新增新闻
▼ 📅 2026年5月19日
▼ ⏰ 08:00
2026-05-19今日暂无新增新闻
▼ ⏰ 12:00
2026-05-01NVIDIA 发布 CUTLASS 4.5.0,新增 CuTe DSL `block_copy()`、SM120 上 Block Scaled MMA、MXF8F6F4 混合精度与 EFC broadcast/remap 语义,重点改进 GEMM/epilogue kernel 代码生成与内存搬运抽象,利好算子级调优与融合实现 来源 ↗
2026-05-12NVIDIA 技术博客总结 TensorRT 推理链路“降摩擦”实践:强调 ONNX 图简化、层融合、GPU 最优 kernel 选择、动态 shape profile 配置与插件补算子,属于工程化算子优化方法论更新 来源 ↗
2026-04-16arXiv 新论文 Nautilus 提出面向 tiled GPU kernel 的自动调度张量编译器,宣称可覆盖高层全局变换(含激进 reduction fusion)与低层 kernel trade-off 联合优化,聚焦 auto-scheduling/auto-tuning 来源 ↗
2026-05-19经今日检索,新智元未发现“5月19日当天”新增的 NPU/GPU 算子优化或编译器专题快讯(相较你给出的历史记录属同结论) 来源 ↗
2026-05-19经今日检索,机器之心未发现“5月19日当天”新增的算子融合/编译优化/内核调优独立报道(与近三天“暂无新增”一致) 来源 ↗
2026-05-19经今日检索,NeuralTalk 未检出“5月19日当天”新增的算子优化/编译器方向独立新闻条目(按你的去重规则判定无可新增项) 来源 ↗
▼ ⏰ 17:00
2026-05-19今日暂无新增新闻
▼ 📅 2026年5月18日
▼ ⏰ 08:00
2026-05-18今日暂无新增新闻
▼ ⏰ 12:00
2026-05-18今日暂无新增新闻
▼ ⏰ 17:00
2026-05-18今日暂无新增新闻
▼ 📅 2026年5月17日
▼ ⏰ 08:00
2026-05-17今日暂无新增新闻
▼ ⏰ 12:00
2026-05-17今日暂无新增新闻
▼ ⏰ 17:00
2026-05-17今日暂无新增新闻
▼ 📅 2026年5月16日
▼ ⏰ 08:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 12:00
2026-05-16今日暂无新增新闻
▼ ⏰ 17:00
2026-05-11arXiv 新论文《TLX: Hardware-Native, Evolvable MIMW GPU Compiler for Large-scale Production Environments》提出面向大规模生产环境的硬件原生 GPU 编译器设计,强调可演进编译流水与算子级性能可持续优化,覆盖 kernel 生成与调度策略迭代路径 来源 ↗
2026-05-07Triton 发布 3.7.0 版本,Release Notes 显示包含 Blackwell 相关 ptxas 适配、LLVM 升级链路调整及 matmul 内核重构(含部分不兼容变更),属于 GPU kernel 代码生成与性能优化主线的重要更新 来源 ↗
▼ 📅 2026年5月15日
▼ ⏰ 08:00
2026-05-14arXiv 新论文《Nautilus: An Auto-Scheduling Tensor Compiler for Efficient Tiled GPU Kernels》继续成为当前最值得关注的自动调度/算子融合方向论文,强调从数学描述自动发现 FlashAttention-3 风格 kernel,并在 GH200/RTX 5090 上取得更高吞吐 来源 ↗
2026-05-14arXiv 新论文《Hexagon-MLIR: An AI Compilation Stack For Qualcomm's Neural Processing Units (NPUs)》聚焦高通 Hexagon NPU,提供 Triton kernels 与 PyTorch 模型统一下沉到 binary 的 MLIR 编译链路 来源 ↗
2026-05-14arXiv 新论文《A Two-Stage GPU Kernel Tuner Combining Semantic Refactoring and Search-Based Optimization》提出“语义重构 + 搜索调优”的两阶段 kernel tuner,强化可控性与稳定性,适合 CUDA/HIP kernel 自动优化 来源 ↗
2026-05-14arXiv 新论文《Enabling RISC-V Vector Code Generation in MLIR through Custom xDSL Lowerings》展示 MLIR+xDSL 向 RVV 的端到端 lowering,可用于高性能 GEMM 与 Transformer 微内核生成 来源 ↗
2026-05-14arXiv 新论文《GPUOS: A GPU Operating System Primitive for Transparent Operation Fusion》提出 persistent worker kernel + NVRTC 动态注入的透明算子融合方案,面向小算子密集型推理/attention 场景 来源 ↗
2026-05-14NVIDIA CUTLASS 4.5.0(2026-05-01)持续作为 CUDA GEMM/模板化 kernel 生成的重要基线,新增对 `dataclasses.dataclass` 的 JIT/cute.compile 支持,并修复 Blackwell 上 TMA 描述符相关问题 来源 ↗
2026-05-14NVIDIA TensorRT 官方仓库提示 TensorRT 11.0 将在 2026 Q2 发布,意味着 NVIDIA 推理编译/算子执行栈将迎来下一轮能力升级 来源 ↗
2026-05-14Torch-TensorRT 近期版本继续强化 PTX plugin 与多后端分区能力,支持把图按 TensorRT / PyTorch Inductor 能力拆分执行,算子部署链路更灵活 来源 ↗
2026-05-14ONNX-TensorRT 仍在面向 TensorRT 10.16 适配 ONNX 1.18.0,维持 ONNX 图到 TensorRT 后端的兼容与算子支持矩阵更新 来源 ↗
2026-05-14Triton 3.6.x 仍是当前公开主线,近期可见的 kernel 优化点包括 TDM load/store、HIP v6 要求与多项性能改进,今日未检出独立新 release 事件 来源 ↗
2026-05-14TVM 最新公开 release 仍停留在 v0.23.0 线,今日未检出新的事件级发布;但其编译框架主线仍在持续维护与算子前端兼容修复 来源 ↗
2026-05-14vLLM Ascend 仍延续 CANN 8.5.0 适配与模型支持扩展,昇腾 NPU 推理算子链路继续滚动迭代 来源 ↗
⭐2026-05-14机器之心今日未检出可独立核实的 NPU/GPU 算子融合、kernel codegen 或 auto-tuning 事件级报道,技术后端方向暂无明确新增 (via 机器之心) 来源 ↗
▼ ⏰ 12:00
2026-05-15今日暂无新增新闻
▼ 📅 2026年5月14日
▼ ⏰ 08:00
2026-05-14今日暂无新增新闻
▼ ⏰ 17:00
2026-05-14今日暂无新增新闻
▼ 📅 2026年5月13日
▼ ⏰ 08:00
2026-05-13Intel NPU Windows 驱动发布 v32.0.100.4621(Release Notes 提及 OpenVINO 2026.0 与 SDXL UNet 在 NPU/CPU/GPU 结果一致性修复),侧面反映 Intel NPU 执行算子一致性与后端稳定性在继续打磨,属端侧编译/算子链路增量 来源 ↗
2026-05-13NVIDIA Triton Inference Server 26.01 文档版本线可见(CUDA 13.1.1 依赖栈),虽然偏服务层,但对 CUDA kernel 运行时与算子部署兼容矩阵有直接影响,可视作此前 24.11 系信息的后续版本演进 | [来源](https://docs.nvidia.com/deeplearning/triton-inference-server/archives/triton-inference-server-2650/release-notes/rel-26-01.html) (follow-up: 2026年5月11日)
2026-05-13OpenXLA 官方站点仍将 XLA:GPU Emitters 作为 fusion→MLIR→LLVM 的核心路径展示,当前未见 5月13日当天新增“事件级”发布,但近期文档更新状态仍说明融合算子代码生成工程持续推进 | [来源](https://openxla.org/xla/emitters) (follow-up: 2026年5月12日)
2026-05-13Triton 官方 releases 页面当前可见最近主线仍以 3.6/3.7 相关信息为主,今天未检出新的独立 release 事件,显示 GPU kernel 语言/编译器方向今日无新增公告 来源 ↗
2026-05-13CUTLASS 仓库/Release 侧今天未检出超出 4.5.0(May 2026)之外的新发布条目,CUDA GEMM 模板与 CuTe DSL 方向暂无新的“当天事件级”更新 来源 ↗
2026-05-13arXiv 检索到 DRTriton(2603.21465)等与 Triton kernel 自动生成/强化学习相关论文仍处于近期讨论期,但非今日新上架;相较你给出的历史去重后,今日未新增可确认的“算子优化/编译优化”新论文事件 来源 ↗
▼ ⏰ 12:00
今日暂无新增新闻
▼ ⏰ 17:00
2026-05-13ONNX Runtime 主仓库当前可见稳定版本为 v1.25.1(4月27日发布),相较你今日08:00清单属新增覆盖:其 1.25.x 线包含多项与算子执行安全性/稳定性相关修复(如 Attention/Tile/Transpose 等路径),可视为编译执行后端在算子正确性与鲁棒性上的持续加固 来源 ↗
2026-05-13ONNX Runtime 1.26.0 RC 测试通道已开放(5月4日开启,含 CUDA 12/CUDA 13 包),显示 ORT 在多 CUDA 栈并行适配推进中;对 GPU 算子内核兼容矩阵与后续图优化落地有直接影响(follow-up: 2026年5月12日) 来源 ↗
2026-05-13NVIDIA TensorRT 开源仓库当前最新公开 release 仍为 TensorRT 10.15(2月3日),今天未检出更新的“事件级”新版本;结合你历史记录,可作为 TensorRT 方向“今日无新增发布”的补充核验 来源 ↗
2026-05-13Torch-TensorRT(pytorch/TensorRT)近线版本信息显示近期仍围绕动态 shape 与特定 CUDA/TensorRT 组合做工程演进,今天未检出新 release 条目,属 GPU 编译/算子部署链路的“无新增但持续维护”状态 来源 ↗
2026-05-13Triton 官方 releases 页面截至今日仍未出现超出你已记录(3.7 线)的新发布事件,GPU kernel 语言层面暂无新增公告(follow-up: 2026年5月12日) 来源 ↗
2026-05-13CUTLASS releases 截至今日仍未见超出 4.5.0(May 2026)的新事件,CUDA GEMM/kernel 模板方向暂无当天增量(follow-up: 2026年5月12日) 来源 ↗
2026-05-13OpenXLA 官方文档入口(含 emitters/tools)今日未见可独立确认的新“发布级”变更事件,fusion→MLIR→GPU codegen 与 autotune 仍处持续文档化推进阶段(follow-up: 2026年5月12日) 来源 ↗
2026-05-13arXiv 以“2026-05-13 当天”为界检索算子优化/融合/auto-tuning/编译优化方向,未发现可确认的新上架热点论文;近期讨论仍集中在你已覆盖的 DRTriton/Nautilus/WaveTune 等存量工作(follow-up: 2026年5月12日) 来源 ↗
⭐2026-05-13机器之心今日未检出可独立核实的 NPU/GPU 算子融合、kernel codegen、auto-tuning“新增事件级”报道,相关流量仍以模型应用资讯为主 (via 机器之心) 来源 ↗
▼ 📅 2026年5月12日
▼ ⏰ 08:00
2026-05-12Triton 3.7 已发布,新增 `tl.squeeze/unsqueeze`、scaled BMM、FP8 常量、AMD warp-pipeline/warp specialization、动态寄存器重分配等,GPU kernel 生成与调度链路明显增强 来源 ↗
2026-05-12CUTLASS 4.5.0(May 2026)发布,继续强化 CUDA 下的 GEMM/数据搬运抽象,并加入 mixed-precision 相关能力,面向高性能算子实现与模板化代码生成 来源 ↗
2026-05-12OpenXLA 的 XLA:GPU Emitters 页面近期更新,明确展示 fusion 后 HLO 向 MLIR/xla_gpu emitter 的发射路径,说明 kernel codegen 工程仍在推进 来源 ↗
2026-05-12OpenXLA 工具链页持续强调 autotune 开关与持久化缓存(persisted autotuning),有利于融合算子的可复现调优与性能回放 来源 ↗
2026-05-12vLLM Ascend 发布 v0.18.0,官方说明已升级到 CANN 8.5.0,并新增/优化 Kimi-K2.x、Minimax-m2.x、GLM5、Qwen3.x、DeepseekOCR 等模型支持,昇腾推理算子路径继续高频迭代 来源 ↗
2026-05-12CANN 容器镜像仓库更新到 v0.1.rc12,用于发布 CANN 8.1.RC1 到 DockerHub/AscendHub,显示昇腾编译/运行环境仍在滚动更新 来源 ↗
2026-05-12TVM 最新 release 列表仍在持续更新,近期包含 Relax/ONNX/PyTorch 前端修复与算子支持补强,编译框架侧对新算子与图导入兼容性持续推进 来源 ↗
2026-05-12arXiv:Record-Remix-Replay 提出层次化 GPU kernel 优化框架,结合 LLM 驱动进化搜索、贝叶斯优化与 record-replay 编译技术,聚焦 kernel 调参与 pass/运行时配置联动优化 来源 ↗
2026-05-12arXiv:DVM 提出实时 kernel 生成与动态 operator compiler,并结合静态图/动态图融合策略,面向动态 AI 模型的在线编译与算子融合优化 来源 ↗
2026-05-12arXiv:WaveTune 面向 GPU kernel auto-tuning,提出 wave-aware bilinear modeling,用于提升自动调优对不同 wave 形态的性能预测能力 来源 ↗
2026-05-12arXiv:Nautilus 作为自动调度 tensor compiler,强调更自动化的 math-to-kernel 优化,并覆盖更激进的 reduction fusion 等全局变换 来源 ↗
2026-05-12arXiv:GPUOS 提出透明算子融合的 GPU operating system primitive,使用 persistent worker kernel、NVRTC/RDC 动态注入与 TorchDispatch 集成 来源 ↗
▼ ⏰ 12:00
2026-05-12MNN 3.5.0(4月发布)在算子与后端优化上新增 QNN 后端(含更多 LLM 算子支持)、TopKV2 多后端优化与 TurboQuant KV Cache 量化(TQ3/TQ4);属于移动端/边端算子优化链路的持续推进 来源 ↗
2026-05-12PyTorch ExecuTorch 最新 release notes 显示 Qualcomm 路线升级到 QNN SDK 2.37,并加入多类 operator fusion(如 clamp 与 convolution/二元算子融合)及 MaskedSoftMax 等优化,体现端侧 NPU/GPU kernel 图优化继续落地 来源 ↗
2026-05-12TileLang Ascend 近期动态提到新增 ACLGraph integration 示例(图级优化),显示 Ascend NPU 上 tile/kernel 级与图编译协同优化在推进 来源 ↗
2026-05-12NVIDIA Model-Optimizer 仓库近期延续量化/剪枝/蒸馏等部署优化能力并强化与 TensorRT(-LLM)/vLLM 等推理栈衔接,行业侧“训练后压缩→算子执行”一体化工具链趋势增强 来源 ↗
2026-05-12arXiv 新论文 **MightyUCB**(2605.05358)提出面向自动调优的多臂赌博机/置信上界策略改进,用于降低调优开销并更快逼近高性能 kernel 配置,属于 auto-tuning 方法学的新进展 来源 ↗
2026-05-12arXiv 新论文 **Rethinking LayerNorm**(2605.04040)围绕 LayerNorm 的实现与训练效率提出系统级重审与优化分析,对常见基础算子(归一化)在 kernel 级性能优化具有直接参考价值 来源 ↗
2026-05-12arXiv 新论文 **GRAE: GPU Register-Aware Executor**(2605.03145)提出寄存器感知执行机制,聚焦提升 GPU kernel 的寄存器利用与执行效率,属于 kernel 调度/资源分配优化方向 来源 ↗
2026-05-12arXiv 新论文 **Pushing LLM Inference to the Edge with Cross-Platform Runtime System**(2605.03047)讨论跨平台运行时对边端推理算子执行路径的统一与优化,涉及内核调度与后端适配效率问题 来源 ↗
⭐2026-05-12机器之心今日流中未检出可核实的“算子融合/auto-tuning/kernel codegen 后端”独立新增事件级报道,相关内容以模型与应用层资讯为主 (via 机器之心) 来源 ↗
▼ 📅 2026年5月11日
▼ ⏰ 08:00
2026-05-11Triton 发布 **3.7 Release Notes**,新增“Automatic Warp Specialization(自动 warp 专门化)”与多项 kernel 生成/后端改进,属于 GPU 算子性能优化与代码生成链路的实质更新 来源 ↗
2026-05-11OpenXLA 文档侧新增/强化 **XLA:GPU Emitters**(近期页面更新可见),强调将 fusion 后 HLO 转为 MLIR/xla_gpu 方言的发射流程,体现 fusion→kernel 代码生成工程继续推进 来源 ↗
2026-05-11OpenXLA 工具链页面近期更新继续强调 autotune 开关与 autotune 结果序列化能力(如 autotune dump/level 控制),显示其在融合算子自动调优可复现与调试方向持续补强 来源 ↗
2026-05-11vLLM Ascend release notes(最近抓取可见)显示版本线已推进到 v0.18.0,且历史条目持续包含 full graph、量化(W8A8)与 NZ 优化等 NPU 算子路径,说明昇腾推理算子工程仍在高频演进 | [来源](https://github.com/vllm-project/vllm-ascend/blob/main/docs/source/user_guide/release_notes.md) (follow-up: 2026年5月8日)
2026-05-11NVIDIA Triton Inference Server release notes(可见最新归档为 24.11 系)延续 CUDA 12.6.x 相关栈要求,推理服务层面对底层 CUDA/kernel 生态的版本耦合继续明确 | [来源](https://docs.nvidia.com/deeplearning/triton-inference-server/pdf/Triton-Inference-Server-Release-Notes.pdf) (follow-up: 2026年5月8日)
2026-05-11arXiv 方向:近期可见 **AutoKernel**(2603.21331)提出 agent-driven GPU kernel 自动搜索与迭代优化流程,面向 Triton/CUDA kernel 的自动调优与算子级性能提升,属于“自动调优+代码生成”热点延续 来源 ↗
2026-05-11arXiv 方向:**AscendOptimizer**(2603.23566)聚焦昇腾 NPU 算子优化的 episodic agent 路线,延续“AI agent 参与 NPU kernel/算子调优”的研究趋势 来源 ↗
▼ ⏰ 12:00
2026-05-11今日暂无新增新闻
▼ ⏰ 17:00
今日新闻获取失败,请稍后手动更新
▼ 📅 2026年5月10日
▼ ⏰ 08:00
今日暂无新增新闻
▼ 📅 2026年5月9日
▼ ⏰ 08:00
2026-05-09今日暂无新增新闻
▼ ⏰ 12:00
今日暂无新增新闻
▼ ⏰ 17:00
今日新闻获取失败,请稍后手动更新
▼ 📅 2026年5月8日
▼ ⏰ 08:00
2026-05-08今日暂无新增新闻
▼ ⏰ 12:00
2026-05-08今日暂无新增新闻
▼ ⏰ 17:00
2026-05-08ONNX Runtime 社区在 v1.24.0 之后继续出现 QNN EP 相关 issue/讨论与包线索更新,重点围绕量化算子覆盖与端侧部署兼容性验证,显示 Qualcomm NPU 算子执行链路仍处于高频迭代观察期 来源 ↗
2026-05-08Triton 主仓库(triton-lang/triton)在 3.6.0 后的主线提交继续围绕 lowering/inliner/调度与代码生成细节推进,延续 GPU kernel 自动优化路径,属于 5 月上旬持续演进而非单点发布 | [来源](https://github.com/triton-lang/triton/commits/main) (follow-up: 2026年5月7日)
2026-05-08OpenXLA 文档与工程侧持续强调 GPU per-fusion autotuning cache 与 fusion emitter 路线,近期更新信号显示其在“融合后 kernel 生成 + 自动调优复用”方面仍在强化工程落地 | [来源](https://openxla.org/xla/persisted_autotuning) (follow-up: 2026年5月7日)
2026-05-08vLLM Ascend release notes(近两周可见)披露对 Triton 算子重复重编译路径的优化,减少冗余 rebuild,属于昇腾生态在 NPU 推理算子工程效率上的新进展 来源 ↗
2026-05-08NVIDIA Triton Inference Server 历史归档 release notes 页面在今日检索可见更新索引,但未检出“5 月 8 日当天”新增性能向版本条目,推理服务侧暂以存量版本维护为主 | [来源](https://docs.nvidia.com/deeplearning/triton-inference-server/archives/triton-inference-server-2330/pdf/Triton-Inference-Server-Release-Notes.pdf) (follow-up: 2026年5月7日)
2026-05-08arXiv 方向今日未发现可稳定确认“晚于 5 月 7 日已报 AscendOptimizer/DRTriton”的高相关新增爆点论文,算子融合与自动调优研究热度延续但新增事件有限 来源 ↗
▼ 📅 2026年5月7日
▼ ⏰ 08:00
2026-05-07今日暂无新增新闻
▼ ⏰ 12:00
2026-05-07ONNX Runtime QNN 生态出现新包与版本线索(onnxruntime-qnn 在 PyPI 页面标注近月更新轨迹与 v2.0.0 release notes 入口),反映 Qualcomm NPU 执行提供器在部署链路侧仍在持续维护;但需结合 GitHub release 页进一步核验具体变更点后再做性能结论 来源 ↗
2026-05-07PyTorch 发布 KernelAgent 技术博文(2026-03-06)强调用硬件计数器驱动 Triton kernel 闭环自动优化(Nsight Compute + 多代理策略),代表 GPU 算子自动调优从“规则驱动”向“agentic + profile-guided”演进 来源 ↗
2026-05-07NVIDIA 技术博客披露 Megatron 侧进一步推进 fused SYRK/all-reduce kernel 与通信隐藏(2026-04-22),虽面向训练栈,但核心落点是大规模 GPU kernel 融合与并行调度优化 来源 ↗
2026-05-07Qualcomm AI Hub release notes 近月更新继续出现 QNN/HTP 相关环境与选项调整(含 delegate 选项变更、设备支持更新),属于端侧 NPU 图执行与工具链可用性的持续迭代信号 | [来源](https://workbench.aihub.qualcomm.com/docs/hub/release_notes.html) (follow-up: 2026年5月6日)
2026-05-07CGO 2026 会议论文页面公开 Compiler-Assisted Instruction Fusion(CAIF)结果,针对神经网络负载展示“编译器辅助指令融合”带来的额外收益,属于编译层 fusion 优化的学术新进展 来源 ↗
2026-05-07学术侧新增 SpaceFusion++(2026 年近月发表)提出面向神经语言模型推理的 operator fusion auto-scheduler,强调融合调度在 locality 与执行效率上的系统化改进 来源 ↗
2026-05-07NVIDIA Triton Inference Server 于 2026-04-07 发布安全公告(非性能特性更新),提示推理服务侧模型配置处理存在漏洞修复需求;对生产环境算子服务稳定性与发布节奏有直接影响 来源 ↗
2026-05-07今日检索未发现新智元、机器之心、NeuralTalk 在“2026-05-07 当天”新增且明确聚焦 NPU/GPU 算子优化或编译器内核细节的独立事件级报道 来源 ↗
▼ ⏰ 17:00
2026-05-07ONNX Runtime 发布 v1.24.0(含 ORT format model,QNN Execution Provider 新增对量化算子 QLinearConv/QLinearMatMul 的支持),属于端侧 NPU(Qualcomm QNN)算子覆盖面的实质扩展,较 5 月 7 日早报“仅有 PyPI 线索”形成明确版本级后续 | [来源](https://github.com/microsoft/onnxruntime/releases) (follow-up: 2026年5月7日)
2026-05-07OpenXLA/XLA 当天提交新增 GPU 融合与代码生成相关修复(含 hlo fusion / emit 路径的稳定性改进与性能回归修复),反映训练/推理编译后端仍在持续打磨 kernel 级优化链路 来源 ↗
2026-05-07MLIR 主线出现 Transform/Vector/Linalg 方向的新提交,聚焦 pattern rewrite 与 lowering 流程优化,可视作“算子级 IR 变换到后端代码生成”效率改进的上游信号 来源 ↗
2026-05-07IREE 当天提交继续推进 GPU codegen 与 dispatch pipeline(含调度与目标后端兼容性修复),对端到端算子编译可用性和性能稳定性有直接价值 来源 ↗
2026-05-07Triton 主仓库新增/合入与 inliner、lowering、warp specialization 相关改动,延续 3.5/3.6 之后的 kernel 自动优化路线,重点仍在编译期变换与硬件映射效率 | [来源](https://github.com/triton-lang/triton/commits/main) (follow-up: 2026年5月5日)
2026-05-06Ascend 生态侧出现 DeepSeek V4 在昇腾平台部署技术披露,明确提到“高性能融合算子 + 异步调度 + 长上下文管理 + KV cache 优化”,可视作 CANN/昇腾推理算子优化在大模型场景的最新工程化案例 来源 ↗
2026-05-07PyTorch/Triton 生态延续 KernelAgent 后续讨论与工程实践,硬件计数器驱动的 profile-guided kernel auto-tuning 正在从研究走向可复用方法学,强化“多代理自动调优”在 GPU kernel 优化中的地位 | [来源](https://pytorch.org/blog/kernelagent-hardware-guided-gpu-kernel-optimization-via-multi-agent-orchestration/) (follow-up: 2026年5月7日)
2026-05-07arXiv 近期待跟踪论文《AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization》提出面向昇腾 NPU 的 episodic agent 算子优化框架,聚焦 NPU kernel 搜索与调优自动化,补齐“NPU 侧 agentic auto-tuning”研究空白 来源 ↗
2026-05-07arXiv 近期待跟踪论文《DRTriton: Large-Scale Synthetic Data Reinforcement Learning for Triton Kernel Generation》报告通过合成数据+强化学习提升 Triton kernel 生成质量,体现“代码生成模型 + 编译器反馈”闭环优化趋势 来源 ↗
2026-05-07AMD ROCm 文档在 2026 年春季版本中补充 Triton kernel 优化指南(block 配置、访存与流水策略等),虽非“当天发布”,但属于近期官方一手方法论更新,对 GPU kernel 调优实践价值高 来源 ↗
▼ 📅 2026年5月6日
▼ ⏰ 08:00
2026-05-06Intel oneDNN 2026 版本发布后更新说明新增/强调底层 kernel 优化项(含 BRGEMM 寄存器分配调整以降低冲突),属于 CPU/GPU/NPU 通用算子库在代码生成与微架构调优层面的新进展 来源 ↗
2026-05-06Intel oneAPI Toolkit 2026.0(近一周发布)整合 Base+HPC 工具链,面向“performance-tuned AI”统一交付编译器与性能库;对 oneDNN/oneMKL 等算子执行栈协同优化与部署一致性有直接价值 来源 ↗
2026-04-14Qualcomm AI Hub 发布 2026-04-14 版本更新,新增多 HTP 优化选项与 QAIRT 版本推进(含 2.42/2.43/2.45),反映 Hexagon/QNN(QAIRT)在端侧算子图优化与异构执行配置能力持续增强 来源 ↗
2026-03-02Qualcomm 在 MWC 期间披露面向商用平台的 AI-driven RAN 特性与自动化能力,虽主场景在通信侧,但涉及 Hexagon NPU/异构加速栈的在线优化框架,体现“模型推理+系统级调优”工程化趋势 来源 ↗
2026-05-01Intel 人工智能相关新闻流更新至 Computex 2026 周期,官方强调从 silicon 到 software 的开放生态推进;结合 oneAPI/oneDNN 近期 release,可视作编译与算子库协同优化路线的行业侧信号 来源 ↗
2026-05-06经今日检索,未发现“2026-05-06 当天”来自昇腾 CANN/寒武纪/Graphcore/AMD ROCm/TensorRT/TVM/Triton/OpenXLA/MLIR/IREE/ONNX Runtime 的明确新增独立发布(与 5 月 5 日已报版本线相比暂无可确认新条目) | [来源](https://github.com/NVIDIA/cutlass) (follow-up: 2026年5月5日)
2026-05-06经今日检索,arXiv 在“算子融合/自动调优/编译优化”方向未检出可稳定确认且晚于 2026-05-05 已报《Nautilus》《DVM》的高相关新增热点论文(截至本次抓取) 来源 ↗
2026-05-06经今日检索,新智元、机器之心、NeuralTalk 未检出“当天新增且直接聚焦 NPU/GPU 算子优化/编译器内核细节”的独立事件级报道(延续近几日媒体侧偏平静态势) 来源 ↗
▼ ⏰ 12:00
2026-05-06今日暂无新增新闻
▼ ⏰ 17:00
2026-05-06今日暂无新增新闻
▼ 📅 2026年5月5日
▼ ⏰ 08:00
2026-05-05NVIDIA CUTLASS 在 2026 年 3 月发布 4.5.0,继续强化 Blackwell 相关低精度(含 FP4/MXFP*)与 GEMM/kernel 模板能力,属于 GPU 算子级性能优化工具链的重要近期基线更新 来源 ↗
2026-05-05Triton 主线近期可见 3.5.x/3.6.0 发布信息,包含编译后端与布局/调度相关改进(如拓扑排序、布局去重泛化等),对自定义 kernel 自动化生成与优化有直接影响 来源 ↗
2026-05-05Triton-Ascend 路线显示 2026 年 4 月有 3.2.0 post 版本动态,反映 Triton 在昇腾/NPU 方向的持续适配推进,关注点集中在 NPU kernel 编译与执行栈协同 来源 ↗
2026-05-05Apache TVM 最新稳定版显示为 v0.23.0(2026-02-01),近期 release/PR 轨迹继续覆盖 Relax、前端导入与算子支持扩展,属于编译框架侧的持续性优化演进 来源 ↗
2026-05-05arXiv 新论文《Nautilus: An Auto-Scheduling Tensor Compiler for Efficient Tiled GPU Kernels》(2026-04-16)提出面向 tiled GPU kernel 的自动调度编译器,强调含 reduction fusion 在内的全局优化协同 来源 ↗
2026-05-05arXiv 新论文《DVM: Real-Time Kernel Generation for Dynamic AI Models》(2026-03-25)聚焦动态模型实时 kernel 生成与运行时融合,目标是在动态 shape/执行路径下缩短编译开销并保持算子优化收益 来源 ↗
2026-05-05CUTLASS 社区在 Blackwell/SM120 场景出现 NVFP4 Grouped GEMM 精度/输出问题讨论并给出修复路径,属于“新架构 + 新数据格式”下 kernel 稳定性与性能调优的工程 follow-up 信号 来源 ↗
2026-05-05Triton Windows 分支出现 v3.6.0-windows.post26(2026-03-10)发布,虽非核心算子算法更新,但有助于扩大 kernel 开发与调优环境覆盖,利好工具链可用性 来源 ↗
2026-05-05今日检索范围内未发现来自新智元/机器之心/NeuralTalk 且“明确发表于 2026-05-05、直接聚焦 NPU/GPU 算子优化”的新增独立事件级报道(相较 2026-05-02~05-04 的“暂无新增”基线,仍以开源与论文侧更新为主)
▼ ⏰ 12:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 17:00
2026-05-05今日暂无新增新闻
▼ 📅 2026年5月4日
▼ ⏰ 12:00
2026-05-04今日暂无新增新闻
▼ ⏰ 17:00
2026-05-04今日暂无新增新闻
▼ 📅 2026年5月3日
▼ ⏰ 08:00
2026-05-03今日暂无新增新闻
▼ ⏰ 12:00
2026-05-03今日暂无新增新闻
▼ ⏰ 17:00
2026-05-03今日暂无新增新闻
▼ 📅 2026年5月2日
▼ ⏰ 08:00
2026-05-02今日暂无新增新闻
▼ ⏰ 12:00
2026-05-02今日暂无新增新闻
▼ ⏰ 17:00
今日新闻获取失败,请稍后手动更新
▼ 📅 2026年5月1日
▼ ⏰ 08:00
2026-05-01今日暂无新增新闻
▼ ⏰ 12:00
2026-04-29TVM 0.24.0 发布节奏落地,涵盖版本分支、RC、正式版与站点更新流程,显示编译栈进入例行季度迭代窗口;对后续 GPU/NPU 算子调度与新后端合入有直接影响 来源 ↗
2026-04-30Triton 主仓库当前公开 release 仍停留在 3.6.0,新增集中在多维 batch、ragged TMA atomic add、scales 检查等内核/代码生成修复,未见 5/1 新正式版 来源 ↗
2026-04-29CUTLASS 4.5.0 继续稳定推进,重点仍是 CuTe DSL、AoT 编译、JAX 支持与分层数据搬运抽象,指向 GEMM/量化 kernel 工程化增强 来源 ↗
2026-04-29CUTLASS 社区仍在讨论 Blackwell/SM120 与 NVFP4 MoE 场景下 grouped GEMM 正确性与补丁,低精度 kernel 在新架构上的打磨仍在继续 来源 ↗
2026-04-29Triton-Ascend 3.2.0 post 版本已公布,映射到 CANN 8.5.0,说明昇腾后端的 Triton/NPU 算子编译链路继续推进 来源 ↗
2026-03-28TileLang-Ascend 放出高性能 Flash Attention / Sparse Flash Attention 基准与优化指南,强化 Ascend NPU 上注意力算子优化与 kernel 调优 来源 ↗
2026-03-25DVM 提出面向动态 AI 模型的实时 kernel 生成,并结合 runtime operator fuser 做静态/动态图融合,聚焦 NPU 侧运行时算子编译与融合 来源 ↗
2026-04-16Nautilus 发布,主打自动调度张量编译器与更自动化的 math-to-kernel 优化,尤其强调 reduction fusion 等高层优化 来源 ↗
2026-02-23Hexagon-MLIR 公开,提供面向 Qualcomm Hexagon NPU 的开源编译栈,并统一支持 Triton kernel 与 PyTorch 模型 lowering 来源 ↗
2026-04-14ROCm Composable Kernel 进入 rocm-7.2.2 最新发布线,AMD GPU 侧高性能线性代数与 kernel 模板继续迭代 来源 ↗
2026-03-19ONNX Runtime QNN Execution Provider v2.0.0 Preview 发布,继续强化 Qualcomm Snapdragon / QAIRT 设备上的硬件加速推理链路 来源 ↗
2026-04-30PyTorch/XLA 近期发布线延续对 Pallas/Triton、自定义 kernel 与动态形状支持的增强,TPU 上 FlashAttention、GMM 等算子路径可用性继续提升 来源 ↗
2026-04-30OpenXLA 生态仍在围绕 XLA、StableHLO、Triton 与 MLIR 继续推进,属于 GPU/TPU 编译工具链的持续基础设施更新 来源 ↗
2026-04-30arXiv 近两月热点继续集中在算子融合/自动调度/内核编译:Neptune、DVM、Nautilus、Hexagon-MLIR 等方向,显示“从手工 kernel 到自动化编译”的趋势仍在加速 来源 ↗
▼ 📅 2026年4月30日
▼ ⏰ 08:00
2026-04-30Triton 主仓库当前公开 release 仍停留在 3.6.0(2026-01-21),今日未见新的正式版本发布;算子代码生成与自动调优主线暂无“新版本级”增量,建议继续跟踪其 release 与 PR 队列的后续合入节奏 | [来源](https://github.com/triton-lang/triton/releases)(follow-up: 2026年4月29日)
2026-04-30CUTLASS 官方 release 页面今日未出现高于既有 4.5.0 线的新正式版本,低精度/量化 GEMM kernel 相关增强仍以既有迭代延续为主,暂无独立“今日新发”条目 | [来源](https://github.com/NVIDIA/cutlass/releases)(follow-up: 2026年4月29日)
2026-04-30arXiv 侧今日未检索到已形成行业传播的“新发算子融合/编译优化”热点论文(相较近日报道的 DVM、RedFuser 无新增同量级事件),当前更像是存量方向持续演进 | [来源](https://arxiv.org)(follow-up: 2026年4月29日)
⭐2026-04-30机器之心今日未检索到新增且明确聚焦 NPU/GPU 算子融合、kernel auto-tuning、编译器后端优化的独立快讯 | [来源](https://www.jiqizhixin.com)(follow-up: 2026年4月29日) (via 机器之心)
⭐2026-04-30新智元今日未检索到新增且直接围绕 Triton/CUTLASS/TVM/XLA/CANN 等算子编译链路的独立报道 | [来源](https://www.aitime.com)(follow-up: 2026年4月29日) (via 新智元)
⭐2026-04-30NeuralTalk 今日未检索到新增聚焦算子优化/编译器内核方向的独立新闻,公开内容重心仍偏模型与应用层 | [来源](https://www.neuraltalk.ai)(follow-up: 2026年4月29日) (via NeuralTalk)
2026-04-30Triton Windows 分支生态近期仍在围绕 CUDA 12.4/12.6/12.8 适配与安装链路完善,虽非主线新 release,但对 Triton kernel 在开发环境可用性与调试效率有现实价值 来源 ↗
2026-04-30NCCL Q2 2026 路线图仍显示 v2.30 开发分支推进(通信库侧),虽非直接算子编译器发布,但与多 GPU kernel 调度/并行执行效率高度相关,值得作为 GPU 性能栈配套动态关注 来源 ↗
▼ ⏰ 12:00
2026-04-30今日暂无新增新闻
▼ ⏰ 17:00
2026-04-30今日暂无新增新闻
▼ 📅 2026年4月29日
▼ ⏰ 12:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 17:00
2026-04-29Triton 主仓库 release 页面出现 **3.5.1 bugfix** 与 **3.5.0** 版本说明(含 LLVM 升级、inliner/布局与代码生成修复、数值与后端优化项),属于 GPU kernel 代码生成与编译优化链路的持续迭代(follow-up: 2026年4月28日) 来源 ↗
2026-04-29Triton-Ascend 公告区显示 **2026.04 发布 Triton-Ascend 3.2.0 post 版本**,反映 Triton 在昇腾/NPU 侧后端适配继续推进,关注点集中在算子编译可用性与后端落地(follow-up: 2026年4月28日) 来源 ↗
2026-04-29CUTLASS 主仓库信息显示 **4.5.0(2026-03)** 已进入稳定发布窗口,继续强化混合精度/缩放张量与新架构支持,指向 GEMM/量化相关 kernel 模板的持续增强(follow-up: 2026年4月28日) 来源 ↗
2026-04-29CUTLASS release 线仍可见“在 MMA 循环中携带 scaling tensors 的额外 kernel/threadblock 生成”方向,说明低比特与量化算子路径仍在高频工程化优化(follow-up: 2026年4月28日) 来源 ↗
2026-04-29CUTLASS 社区 issue 侧出现 Blackwell/SM120 与 NVFP4 MoE 场景下 grouped GEMM 正确性与补丁讨论,表明新 GPU 架构上的低精度 kernel 仍在快速打磨,具有明显算子级性能/稳定性意义 来源 ↗
2026-04-29arXiv 方向未检索到“今日新发且已形成行业传播”的算子融合/编译优化爆款条目;近期可追踪新增仍以既有主题延展为主(如自动融合、调度与代码生成) (follow-up: 2026年4月28日) 来源 ↗
2026-02-24arXiv 论文 **RedFuser** 提出面向级联归约模式的自动算子融合框架,聚焦 AI 加速器上 reduction 类算子的通用融合收益,在“融合策略自动化”方向具参考价值 来源 ↗
▼ 📅 2026年4月28日
▼ ⏰ 08:00
2026-04-28今日暂无新增新闻
▼ ⏰ 12:00
2026-04-28Triton 发布 3.4.0 版本,新增自动 Warp Specialization、inliner 导入到 triton-opt 等优化能力,重点提升 NVIDIA GPU kernel 的自动调优与代码生成性能,属于算子级 kernel 优化工具链的实质更新 来源 ↗
2026-04-28NVIDIA CUTLASS 最近一周的 release 更新包含对缩放张量在 MMA 循环中的支持与额外 kernel/threadblock 生成文件,指向低精度/量化相关 GEMM kernel 的可组合优化增强 来源 ↗
2026-04-28Intel 的 Triton XPU Backend 仓库近期更新强调 MLIR pass 级 IR dump 与 autotuning 配置打印能力,便于定位 kernel 调度与自动调优瓶颈,属于 GPU/NPU 异构后端编译调优链路增强 来源 ↗
2026-04-06AutoKernel 开源发布:通过 agent 循环自动为 PyTorch 模型生成/筛选 Triton 或 CUDA kernel,主打算子自动优化与夜间批量实验式 auto-tuning;截至近期已形成较高社区关注度 来源 ↗
2026-03-25arXiv 论文 DVM 提出面向动态 AI 模型的实时 kernel 生成与运行时/静态混合算子融合策略,目标是降低动态 shape 场景下编译时延与内存占用,属于“编译+算子融合”前沿方向 来源 ↗
⭐2026-04-28NeuralTalk 暂未检索到“今日(2026-04-28)”新增的 NPU/GPU 算子优化专题独立报道;其近期相关话题更多聚焦模型与应用层,算子编译深度稿件当日缺失 (via NeuralTalk) 来源 ↗
⭐2026-04-28新智元(AI Era)暂未检索到“今日(2026-04-28)”新增且直接面向 NPU/GPU 算子优化工具链(如 Triton/CUTLASS/TVM/XLA)的独立报道 (via 新智元) 来源 ↗
▼ ⏰ 17:00
2026-04-28Qualcomm AI Hub 发布 2026-04-14 更新:QAIRT 升级到 2.45,并引入 ONNX Runtime 的 optrace 及 NPU 段分析视图(Runtime Layer Analysis),强化了面向 NPU 的算子级 profiling/瓶颈定位能力,属于编译与算子调优链路增强 来源 ↗
2026-04-28Qualcomm AI Hub 同次更新将 Quantize Job 升级到 AIMET-ONNX 2.28,并升级 ONNX 1.19.1,体现量化算子与编译兼容栈的同步推进,可直接影响端侧 NPU 部署精度-性能权衡 来源 ↗
2026-04-28Qualcomm AI Hub 在 2026-03-30 版本将新任务从 TF Lite 迁移至 Lite RT 2.1.3,并声明继续沿用 delegate 路径,属于移动端 NPU runtime/算子执行路径的实质调整(follow-up: 2026年4月28日) 来源 ↗
2026-04-28Qualcomm AI Hub Workbench 在 2026-03-02/02-17 周期强化编译链路:弃用 `qnn_context_binary` 旧运行参数并推动 `submit_compile_and_link_jobs`,面向多模型编译与权重共享 context 生成,属于 NPU 编译流程工程化优化(follow-up: 2026年4月28日) 来源 ↗
2026-04-28Qualcomm AI Hub Workbench 继续完善 .pt2(PyTorch Exported Program)编译支持,已在 2026 Q1 周期从 beta 向常态化推进,反映 PyTorch 前端到 QNN/QAIRT 后端的算子 lowering 路径正在稳定(follow-up: 2026年4月28日) 来源 ↗
2026-04-28昇腾社区 CANN Commercial 8.0.0 文档侧更新持续强调 ATC 在模型转换阶段执行算子调度、权重重排与内存优化,且 Ascend C 提供 kernel launch 工程模板以便算子调试/优化,显示 NPU 厂商在算子开发工具链层面的持续完善 来源 ↗
2026-04-28Triton 3.4.0(已于今日12:00轮播报)后的生态跟进显示 Intel XPU Triton Backend 近期围绕 MLIR pass IR dump 与 autotuning 配置可观测性继续演进,利于跨 GPU/NPU 后端 kernel 调度问题定位(follow-up: 2026年4月28日) 来源 ↗
2026-04-28CUTLASS 近期 release 线继续围绕低精度 GEMM kernel 生成与缩放张量路径补强,结合此前同日播报信息,说明 NVIDIA 侧量化/混合精度算子优化仍在高频迭代(follow-up: 2026年4月28日) 来源 ↗
2026-04-28arXiv 当日未检索到已形成广泛传播、且明显超出既有 DVM(2603.24239)事件的新“算子融合/编译优化”热点论文条目,当前公开增量以既有方向延展为主(follow-up: 2026年4月28日) 来源 ↗
▼ 📅 2026年4月27日
▼ ⏰ 08:00
2026-04-27今日暂无新增新闻
▼ ⏰ 17:00
2026-04-27今日暂无新增新闻
▼ 📅 2026年4月26日
▼ ⏰ 08:00
2026-04-26今日暂无新增新闻
▼ ⏰ 12:00
2026-04-26今日暂无新增新闻
▼ ⏰ 17:00
今日暂无新增新闻
▼ 📅 2026年4月25日
▼ ⏰ 08:00
2026-04-25今日暂无新增新闻
▼ ⏰ 12:00
2026-04-25Apache TVM 主干近期合入 `Tensor.clamp` 的 torch export 适配改动,属于前端算子覆盖面与 lowering 完整性的持续增强,可减少模型导入后手工改图/回退路径,间接提升 auto-tuning 与端到端编译稳定性 来源 ↗
2026-04-25Torch-TensorRT 2.11.0(4月2日发布)在发布说明中强调新增“跨后端图分割原型能力”(可在 TensorRT 与 PyTorch Inductor 等后端间按算子能力切分),这是算子级编译/执行协同的重要进展,利于复杂模型做异构最优调度 来源 ↗
2026-04-25CUTLASS 最新 Changelog(近两周更新)提到修复 Group GEMM hang 等 kernel 稳定性问题;虽非新算子类型,但对大批量/分组 GEMM 场景的可用吞吐与生产可部署性有直接价值 来源 ↗
2026-04-24arXiv 新论文《Dispatch-Aware Ragged Attention for Pruned Vision Transformers》提出面向稀疏/剪枝 ViT 的 Triton 注意力 kernel,报告更低 dispatch 开销(文中称约 40μs 级),核心价值在于让“理论剪枝收益”更可转化为真实端到端时延收益 来源 ↗
2026-04-25MLIR Release Notes 持续滚动更新(LLVM 社区),近期多项改动围绕 IR/Pass 基础设施与方言演进,为上层 AI 编译栈(IREE、XLA、Torch-MLIR 等)提供算子融合与 codegen 优化底座(需结合具体提交进一步追踪) 来源 ↗
2026-04-25PyTorch/XLA 文档延续 Dynamo + Lazy Tensor 编译桥接路线,强调 FX 图到 XLA 编译执行链路;在算子级别体现为图捕获后统一优化与后端 lowering,属于训练/推理一体化编译路径的持续完善 来源 ↗
2026-04-22Moonshot 开源 FlashKDA(Kimi Delta Attention 的 CUTLASS kernel 实现)在社区传播中显示其针对 Hopper/H20 做了内存访问与 kernel 细节优化,对比 Triton baseline 报告更高性能,属于“特化注意力算子 + 手工/模板化 kernel 优化”代表案例 来源 ↗
2026-04-25⭐ 机器之心 / 新智元 / NeuralTalk 三个指定媒体渠道在“2026-04-25(今日)”未检索到可确认的、新增且与既有历史不重复的 NPU/GPU 算子优化重磅报道(当前可确认新增主要仍来自官方仓库/文档与 arXiv)
▼ ⏰ 17:00
2026-04-25今日暂无新增新闻
▼ 📅 2026年4月24日
▼ ⏰ 12:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 17:00
今日新闻获取失败,请稍后手动更新
▼ 📅 2026年4月23日
▼ ⏰ 08:00
2026-04-23今日暂无新增新闻
▼ ⏰ 12:00
2026-04-23今日暂无新增新闻
▼ ⏰ 17:00
今日新闻获取失败,请稍后手动更新
▼ 📅 2026年4月22日
▼ ⏰ 08:00
2026-04-22今日暂无新增新闻
▼ ⏰ 12:00
2026-04-22今日暂无新增新闻
▼ ⏰ 17:00
2026-04-20arXiv 新论文 **GPUOS: A GPU Operating System Primitive for Transparent Operation Fusion** 提出“持久化 worker kernel + 运行时算子注入 + 原子队列”机制,在不改模型代码前提下做透明算子融合,属于算子融合与调度路径的新方向(区别于既有编译期 fusion) 来源 ↗
2026-04-22NVIDIA TensorRT 文档归档页可见 **10.8.0 Release Notes**(含 Blackwell 支持、FP4/E2M1 与 tiling 优化条目),显示部署侧在低精度算子与 kernel 布局优化上继续前进;相较你历史记录里的 10.6.0 属于后续版本线索(follow-up: 2026年4月20日) 来源 ↗
2026-04-16Ascend 官方发布节奏页当前“Last updated on Apr 16, 2026”,今天检索未见 4月22日新的 CANN/Ascend C 独立发布公告;但该页仍是 NPU 算子支持矩阵与编译优化变更的首要跟踪入口(follow-up: 2026年4月20日) 来源 ↗
2026-04-22MLIR Release Notes 页面近一周仍在更新窗口内,显示编译 IR 基础设施持续迭代;对后续 GPU/NPU 算子 lowering、融合 pass 与代码生成稳定性有直接影响(偏工具链底座层) 来源 ↗
2026-04-22pytorch/TensorRT releases 页面近期抓取仍强调与 **AOTInductor** 的嵌入式集成路径(Torch-TensorRT engine 嵌入 AOTInductor 库),反映 PyTorch 编译链与 TensorRT 部署链正在加强“端到端算子优化”衔接 来源 ↗
2026-03-30arXiv 论文 **Improving Efficiency of GPU Kernel Optimization Agents...** 提出 μCUTLASS DSL 与 speed-of-light 指导优化,将 epilogue fusion、多级 pipeline 等 kernel 设计空间结构化,属于自动调优/代码生成方法的新进展(此前历史未覆盖该文) 来源 ↗
2026-04-22CUTLASS 官方 Changelog 页面近两周仍可见 4.x 系列维护轨迹;虽未检索到比你 4月21日已报 **4.5.0** 更晚的明确新 tag,但文档面持续维护说明 kernel 模板与数据类型支持仍在演进(follow-up: 2026年4月21日) 来源 ↗
2026-04-22经今日定向检索,**新智元 / 机器之心 / NeuralTalk** 暂未发现可确认且“与 NPU/GPU 算子优化直接相关、并可去重后新增”的独立条目(与近两日结论一致)
▼ 📅 2026年4月21日
▼ ⏰ 08:00
2026-04-21今日暂无新增新闻
▼ ⏰ 12:00
2026-04-21NVIDIA CUTLASS 仓库当前首页已显示 **CUTLASS 4.5.0(2026年3月)**,版本说明强调对 block-scaled/NVFP4 等新数据类型、MMA 循环与缩放张量路径的内核级支持扩展,属于 GPU 算子模板与 kernel 生成能力的持续增强(follow-up: 2026年4月20日) 来源 ↗
2026-04-21Triton 官方 Releases 页仍以 **3.6.0(2026-01-21)** 为最新正式版本,发布说明中可见对拓扑排序、构建系统与编译链细节的持续整理,显示其算子代码生成/auto-tuning 基础设施进入“稳定迭代期”(follow-up: 2026年4月20日) 来源 ↗
2026-04-21Triton 主仓 `RELEASE.md` 近期仍在维护版本兼容矩阵(Python/平台约束),对生产侧 kernel 优化落地(尤其 CI 与可复现实验)有直接工程价值,反映编译器工具链正在强化“版本可运维性”(follow-up: 2026年4月20日) 来源 ↗
2026-04-21Triton Windows 官方分支(`triton-lang/triton-windows`)最近月度活跃,文档提到自特定 post 版本起可捆绑最小 CUDA 工具链,降低了非 Linux 环境下 Triton kernel 开发与调优门槛,利好跨平台算子优化实验 来源 ↗
2026-04-21NVIDIA NCCL 公布 **Q2 2026 路线图 issue**(两周内),虽偏通信库,但其 release 规划与集合通信 kernel 演进会直接影响多 GPU 训练中 fused kernel 的端到端收益评估,属于算子优化外部关键变量 来源 ↗
2026-04-21arXiv 论文 **Nautilus**(2026-04-16)提出面向 tiled GPU kernels 的自动调度张量编译器,强调 reduction fusion 等全局优化与“math-to-kernel”自动化,对 GPU 算子调度/自动调优方向形成新增学术进展(follow-up: 2026年4月20日) 来源 ↗
2026-04-21经检索今日未发现可确认的、来自 **新智元/机器之心/NeuralTalk** 且“明确聚焦 NPU/GPU 算子优化”的新增独立报道;这三类媒体在该细分主题上今天暂无可去重后新增条目可纳入。
▼ ⏰ 17:00
2026-04-21PyTorch/XLA Releases 页面(近两日抓取)显示 2.4 版本强调在 TPU 上 `openxla_eval` dynamo backend 的 torchbench 几何平均约 4% 提速,属于编译后端算子调度/代码生成链路的可量化性能更新 来源 ↗
2026-04-21Apache TVM Releases 页面(昨日抓取)可见近期发布分支继续推进 FFI API 清理与 release 流程文档更新,这类基础设施改动虽偏工程层,但直接影响 auto-tuning/算子代码生成栈的可维护性与迭代速度 来源 ↗
2026-04-21OpenXLA GitHub 组织页显示核心仓库在 2026-01-14 仍有更新,社区继续以 XLA+MLIR+StableHLO 作为统一编译生态推进方向,属于跨 GPU/NPU 算子优化中长期主线(follow-up: 2026年4月20日) 来源 ↗
2026-04-21Intel Extension for OpenXLA Releases 页可见 0.5.0 版本轨迹,反映 OpenXLA 在非 NVIDIA 平台侧的后端扩展仍在持续,利于异构硬件算子 lowering/调优路径完善(follow-up: 2026年4月20日) 来源 ↗
2026-04-21IREE Turbine Releases 页显示版本线已到 3.6.0,并强调 nightly 预发布与 `turbine_generate` 规则等能力,说明 PyTorch→IREE 导出与编译流水线在“可自动化构建+可持续调优”方向继续增强 来源 ↗
2026-04-21IREE AMD AIE 插件仓库(`nod-ai/iree-amd-aie`)持续作为专用加速器后端接入样例,体现 MLIR/IREE 生态在 NPU/专用阵列架构上的算子编译扩展仍有工程推进价值 来源 ↗
2026-04-21arXiv 论文《Nautilus》(2026-04-16)继续成为 GPU 算子自动调度焦点:从数学表达自动发现类 FlashAttention-3 kernel,并报告在 GH200/RTX 5090 上相对 SOTA 编译器最高 23%/42% 吞吐增益(follow-up: 2026年4月20日) 来源 ↗
2026-04-21经检索今天未确认到可去重后的、来自新智元/机器之心/NeuralTalk 且明确聚焦“NPU/GPU 算子优化”的新独立报道条目。
▼ 📅 2026年4月20日
▼ ⏰ 08:00
2026-04-20Triton 官方 Releases 页面显示 3.6 版本发布(页面抓取为“yesterday”),社区关注点延续到 kernel 级代码生成与自动调优基础设施,属于 GPU 算子优化工具链的实质性版本更新 来源 ↗
2026-04-15arXiv 新论文《ATLAAS: Automatic Tensor-Level Abstraction of Accelerator Semantics》提出基于 MLIR 的端到端语义提升流程,可把底层加速器语义恢复为 tensor 级规格并衔接自动软件栈生成,对 NPU/专用加速器算子编译与代码生成有直接价值 来源 ↗
2026-04-20MLIR NVVM Dialect 文档近期更新并出现 `tcgen05.commit` 等与异步 tcgen/mbarrier 相关语义描述,反映上游 IR 对新一代 GPU 指令/同步原语建模在推进,有助于后续 kernel 调度与访存同步优化落地 来源 ↗
2026-04-20NVIDIA TensorRT GitHub Releases 持续滚动更新,近期工程侧讨论仍聚焦 ONNX/融合链路兼容性与性能回归治理,显示部署编译栈对“算子融合稳定性+可解释调优”需求持续上升(follow-up: 2026年4月18日) 来源 ↗
2026-04-20TensorRT-LLM release notes 仍在持续追加版本条目与融合行为说明,延续对 LLM 推理中 eager fusion/算子路径兼容性的修正节奏,属于 GPU 推理算子优化的持续工程化迭代(follow-up: 2026年4月18日) 来源 ↗
2026-04-20华为 Ascend 发布节奏页(此前最近更新时间为 2026-04-16)仍是 CANN/Ascend C 跟踪窗口,当前可见官方持续维护发布通道,建议重点关注后续算子支持矩阵与编译优化条目是否出现新增(follow-up: 2026年4月18日) 来源 ↗
2026-04-20Intel XPU 后端 Triton 仓库持续作为“非 NVIDIA 平台 autotuning 实践”主要开源入口,围绕调优日志与可观测性的方法论热度仍在,体现跨硬件 kernel 自动调优的延续趋势(follow-up: 2026年4月18日) 来源 ↗
2026-04-20GitHub 上 Liger-Kernel 继续被社区作为 Triton 高性能训练算子参考实现,近期讨论仍集中在融合算子与访存路径优化复用范式,热度延续(follow-up: 2026年4月18日) 来源 ↗
2026-04-20arXiv 论文《Hexagon-MLIR: An AI Compilation Stack For Qualcomm's NPUs》(近月发布)持续受到关注,其“统一支持 Triton kernel 与 PyTorch lowering 到 Qualcomm Hexagon NPU”的路线,仍是 NPU 编译栈与算子下沉的重要方向 来源 ↗
▼ ⏰ 12:00
2026-04-20今日暂无新增新闻
▼ ⏰ 17:00
2026-04-16arXiv 新论文《Nautilus: An Auto-Scheduling Tensor Compiler for Efficient Tiled GPU Kernels》提出面向 tiled GPU kernel 的自动调度张量编译器,强调全自动从数学表达到账户级 kernel 优化,并覆盖 reduction fusion 等高阶变换,属于 GPU 算子自动调优/代码生成的新进展 来源 ↗
2026-03-30arXiv 新论文《Improving Efficiency of GPU Kernel Optimization Agents using a Domain-Specific Language and Speed-of-Light Guidance》提出以 DSL + “speed-of-light” 上界引导提升 kernel 优化 agent 效率,并实现 μCUTLASS 编译链路,覆盖 epilogue fusion 与多阶段 pipeline 配置,面向 CUDA/CUTLASS 算子性能工程 来源 ↗
2026-03-25arXiv 新论文《DVM: Real-Time Kernel Generation for Dynamic AI Models》聚焦动态模型实时 kernel 生成,结合 runtime operator compiler 与图级/运行时融合策略,目标是降低动态 shape 场景下编译时延与内存开销,属于“算子融合+运行时代码生成”方向 来源 ↗
▼ 📅 2026年4月19日
▼ ⏰ 08:00
今日暂无新增新闻
▼ ⏰ 12:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 17:00
今日暂无新增新闻
▼ 📅 2026年4月18日
▼ ⏰ 08:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 12:00
2026-04-18arXiv 新论文《Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization》提出统一进化式 kernel 优化流程,报告在 KernelBench(Triton 后端)取得较强平均加速并强调可向生产系统迁移,属于 LLM 驱动 auto-tuning/代码生成新进展 来源 ↗
2026-04-18arXiv 新论文《AutoKernel: Autonomous GPU Kernel Optimization via Iterative Agent-Driven Search》聚焦“自动瓶颈定位+迭代实验搜索”闭环,面向 Triton/CUDA kernel 自动优化,强调 Amdahl 优先级驱动的算子级性能收益 来源 ↗
2026-04-18arXiv 新论文《RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators》针对级联 reduction 场景提出自动算子融合与 kernel 生成框架,瞄准 attention 类“safe softmax + GEMM”等跨循环依赖难融合问题 来源 ↗
2026-04-18华为 Ascend 官方文档更新发布节奏与版本说明页(最近更新时间 2026-04-16),虽非单一算子公告,但反映 CANN/Ascend 平台近期仍在持续迭代发布窗口,建议结合后续 “What’s New/Release Notes” 追踪算子与编译器细节变更 来源 ↗
2026-04-18Triton Intel XPU 后端项目文档持续强调 autotuning 可观测性(如 `TRITON_PRINT_AUTOTUNING`),显示 Triton 生态在非 NVIDIA GPU 上也在推进 kernel 自动调优工作流与性能工程实践 来源 ↗
2026-04-18NVIDIA Developer Forums 对 AutoKernel 的讨论仍在扩散,社区关注点集中在“自动化 kernel 研究 agent”如何接入 Triton/CUDA 实验回路与真实模型瓶颈治理,属于 4 月中旬 GPU 算子自动优化热点延续 | [来源](https://forums.developer.nvidia.com/t/autokernel-autoresearch-for-kernel-optimization/363215) (follow-up: 2026年4月16日)
2026-04-18GitHub 开源项目 Liger-Kernel(高效 Triton 训练算子集合)仍作为 Triton kernel 工程化的重要参考仓库,被社区持续用于融合算子、内存访问与训练吞吐优化实践对照 来源 ↗
2026-04-18社区出现新的 Triton 融合 MoE dispatch kernel 实作案例,主张以更少 kernel launch 完成前向路径、降低调度与访存开销,体现“算子融合+调度压缩”在推理侧的持续探索 来源 ↗
▼ ⏰ 17:00
2026-04-17arXiv 新论文《Nautilus: An Auto-Scheduling Tensor Compiler for Efficient Tiled GPU Kernels》提出面向 tiled GPU kernel 的自动调度张量编译器,强调从高层数学表达自动下沉到 kernel 级优化,并覆盖 reduction fusion 等全局变换,属于“算子调度+代码生成+auto-tuning”新进展 来源 ↗
2026-04-18TensorRT-LLM 发布说明在近期版本继续披露融合相关行为与开关(如 LLaMA eager fusion 兼容性规避项),显示推理栈仍在持续打磨融合算子稳定性与性能边界 来源 ↗
2026-04-18NVIDIA/TensorRT GitHub Releases 页面仍将新版发布与详细 release notes 绑定,近期社区关注点集中在 ONNX/算子融合链路的兼容与性能回归排查,反映生产部署侧对“编译优化可解释性”的需求上升 来源 ↗
2026-04-18华为昇腾官方发布节奏页(最近更新时间 2026-04-16)后,Ascend 文档站仍维持高频迭代窗口,建议重点跟踪 CANN/Ascend C 后续“算子支持矩阵、融合策略、编译器优化项”条目变化(follow-up: 2026年4月18日) 来源 ↗
2026-04-18Triton Intel XPU 后端仓库近期文档与示例继续强化 autotuning 可观测性实践(如调优日志输出),显示 Triton kernel 自动调优能力在非 NVIDIA 生态持续推进(follow-up: 2026年4月18日) 来源 ↗
2026-04-18社区围绕 AutoKernel/Kernel-Agent 路线的讨论仍在升温,重点从“论文可行性”转向“如何接入真实 CUDA/Triton 生产瓶颈治理流程”,体现 GPU 算子自动优化正进入工程化验证阶段(follow-up: 2026年4月18日) 来源 ↗
2026-04-18GitHub 上 Liger-Kernel 仍被广泛用作 Triton 训练算子优化参考实现,近期关注集中在融合算子与访存路径调优的可复用范式,持续影响开源训练 kernel 工程实践(follow-up: 2026年4月18日) 来源 ↗
2026-04-18Reddit 工程社区对“融合 MoE dispatch Triton kernel”案例持续讨论,核心价值仍是减少 kernel launch 与调度开销、提升推理吞吐,该方向热度延续(follow-up: 2026年4月18日) 来源 ↗
▼ 📅 2026年4月17日
▼ ⏰ 08:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 12:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 17:00
今日新闻获取失败,请稍后手动更新
▼ 📅 2026年4月16日
▼ ⏰ 08:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 12:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 17:00
2026-04-16NVIDIA CUTLASS 4.5.0 更新(发布于 2026-03-27)继续强化 GEMM kernel 调优能力:新增/改进针对特定 CUDA 版本与内核的 controls 配置机制、优化部分 shuffle/内存重排路径,并增强 3.x API kernel 与 profiler 集成,利于算子级 auto-tuning 与性能回归分析 来源 ↗
2026-04-16Triton 官方近期稳定版 3.5.1(bugfix)延续 kernel 端性能与正确性修复,包含 FP 参数传递修复与自动 warp specialization 相关优化落地,面向自定义算子开发的可用性提升明显 来源 ↗
2026-04-16社区披露 RTX 5090 上 cuBLAS FP32 batched SGEMM 疑似调度异常(同一小 kernel 被广泛分派)并给出 TMA 双缓冲替代实现,报告在特定 batch/shape 下可显著优于默认路径,提示新架构下库内算子选择仍有优化空间 来源 ↗
2026-04-16arXiv 论文《OptiML》提出从自然语言/原始 CUDA 代码到优化 kernel 的端到端框架,以“搜索+验证”形式做自动优化,聚焦 kernel 级代码生成与性能提升 来源 ↗
2026-04-16arXiv 论文《KernelBlaster》提出面向 CUDA 优化的记忆增强 in-context RL 方案,强调跨任务持续优化与可复现实验流水线,属于 LLM 驱动 auto-tuning 新进展 来源 ↗
2026-04-16arXiv 论文《Dr. Kernel》聚焦 Triton kernel 自动生成的强化学习训练范式,报告在 KernelBench 子集上获得可观加速比例,显示 DSL 算子自动优化正从启发式走向可训练策略 来源 ↗
2026-04-16NVIDIA 开发者博客技术文披露“手写 PTX + CUDA/CUTLASS”高阶优化实践,围绕内核关键路径做更细粒度指令级控制,为极致算子性能优化提供可复用方法论 来源 ↗
2026-04-16NVIDIA 开发者论坛出现 AutoKernel(面向 Triton/CUDA 的自动化 kernel 研究)讨论与开源指引,体现社区正在把“自动研究/自动调参 agent”应用到 GPU 算子优化流程 来源 ↗
2026-04-16机器学习社区对“cuBLAS 在 RTX 5090 上 MatMul 性能异常”展开二次讨论与复现,补充了不同实现族(CUTLASS/xmma/自定义 TMA)对比视角,属于同一事件的传播扩散与交叉验证 来源 ↗
▼ 📅 2026年4月15日
▼ ⏰ 12:00
今日新闻获取失败,请稍后手动更新
▼ ⏰ 17:00
今日新闻获取失败,请稍后手动更新
▼ 📅 2026年4月6日
▼ ⏰ 08:00
2026-04-06今日暂无新增新闻
▼ ⏰ 12:00
今日暂无新增新闻
▼ ⏰ 17:00
今日暂无新增新闻
▼ 📅 2026年4月5日
▼ ⏰ 08:00
2026-04-05今日暂无新增新闻
▼ ⏰ 12:00
2026-04-05Apache TVM 发布 v0.23.0(当日发布时间),继续推进张量算子调度与后端代码生成能力,属于编译优化/auto-tuning 工程主线的新版本更新(follow-up: 2026年4月4日) 来源 ↗
2026-04-05ONNX Runtime 发布 v1.23.0(当日发布时间),覆盖执行图优化与多后端执行路径更新,对推理算子内核选择与性能稳定性有直接影响 来源 ↗
2026-04-05NVIDIA TensorRT 主仓出现新版本线(当日可见 release 更新),延续推理编译与 kernel 路径演进,聚焦算子实现与硬件适配收敛(follow-up: 2026年4月3日) 来源 ↗
2026-04-05Intel oneDNN 发布新版本更新(当日窗口可见),围绕 CPU/GPU/DNNL kernel 实现、算子性能与图优化链路持续迭代 来源 ↗
2026-04-05OpenXLA 生态(含 XLA/StableHLO)主干继续有提交,但今日窗口未确认到可单列“重大 release/RFC 级”的算子编译优化公告(follow-up: 2026年4月4日) 来源 ↗
2026-04-05IREE 主仓在今日窗口持续提交,暂未检索到可独立成条的重大版本发布说明,仍以编译栈渐进式优化为主(follow-up: 2026年4月4日) 来源 ↗
2026-04-05Ascend CANN 官方发布页在今日检索窗口未确认“4月5日当天新增且明确聚焦算子优化/Ascend C kernel”的独立重大发布说明(follow-up: 2026年4月3日) 来源 ↗
2026-04-05Triton 公开发布页未见“4月5日当天新增重大 release”;当前仍以 3.4.x 线后续工程迭代(如原子优化、构建与后端改进)为主(follow-up: 2026年4月3日) 来源 ↗
2026-04-05arXiv 新近论文《RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators》提出面向级联归约的自动算子融合理论与实现,强调 loop 级融合与增量计算,对 NPU/GPU 编译器的 fusion pass 设计有参考价值 来源 ↗
▼ ⏰ 17:00
2026-04-05今日暂无新增新闻
▼ 📅 2026年4月4日
▼ ⏰ 08:00
2026-04-04PyTorch/TensorRT 发布新版本(上月发布、近两日被索引),更新项包含 TensorRT-RTX 支持与新增模型支持,属于推理图编译与 kernel 路径的工程化推进 来源 ↗
2026-03-25arXiv 论文《DVM: Real-Time Kernel Generation for Dynamic AI Models》提出面向动态模型的实时 kernel 生成与运行时融合策略,核心在“缩短或隐藏编译开销+动态场景算子融合”,对 auto-tuning/代码生成方向有直接参考价值 来源 ↗
2026-03-10arXiv 论文《Fully Symbolic Analysis of Loop Locality》给出符号化局部性分析方法并报告高精度数据搬运预测,可用于指导 loop fusion/调度与内存优化决策 来源 ↗
2026-04-04TensorRT-LLM Releases 页持续可见文档与构建链路更新(含降低 host 开销相关条目),延续此前 1.2.0rc 线后的工程化收敛(follow-up: 2026年4月1日) 来源 ↗
2026-04-04OpenXLA/XLA 公开代码入口仍处持续提交状态,但今日窗口未检索到可独立成条的“新增重大 release/RFC 级”算子编译优化公告(follow-up: 2026年4月3日) 来源 ↗
2026-04-04TVM 主仓公开入口显示持续迭代,但今日未确认到“可单列成新闻”的重大 release 级更新,当前仍以调度/后端适配的连续工程演进为主(follow-up: 2026年4月3日) 来源 ↗
2026-04-04IREE 主仓今日检索结果同样以主干持续提交为主,暂未见独立重大发布说明,属编译栈渐进优化节奏(follow-up: 2026年4月3日) 来源 ↗
▼ ⏰ 12:00
今日暂无新增新闻
▼ ⏰ 17:00
今日暂无新增新闻
▼ 📅 2026年4月3日
▼ ⏰ 08:00
2026-04-03今日暂无新增新闻
▼ ⏰ 12:00
2026-04-03NVIDIA TensorRT 文档主线可见 10.8.0 代际信息(最近更新至 2026-02-04),延续推理算子路径的精度与兼容性演进,属于此前 10.6/10.7 路线后的版本推进(follow-up: 2026年4月2日) 来源 ↗
2026-04-03Triton GitHub Releases 页面显示 3.4.0 版本线索,包含 TensorDescriptor、async TMA、reduction/reshape 等能力增强,对自定义 kernel 代码生成与调优链路有直接价值(follow-up: 2026年4月1日) 来源 ↗
2026-04-03CUTLASS 官方仓库公开信息显示 4.3.5(2026年1月)版本线,继续覆盖 Blackwell 等架构与低精度/混合精度算子模板,属 CUDA kernel 性能工程的持续基线(follow-up: 2026年4月1日) 来源 ↗
2026-03-23arXiv 论文《DRTriton》提出面向 Triton kernel 生成的大规模合成数据+强化学习路线,在 KernelBench Level 2 上报告较高覆盖率加速,属于“自动调优+代码生成”新近研究热点 来源 ↗
2026-04-03今日滚动检索 OpenXLA/XLA、StableHLO、IREE、TVM、PyTorch(Inductor)等主仓公开入口,未确认到“4月3日当天新增且可独立成条的重大 release/RFC 级别更新”,当前更偏连续提交的工程化演进(follow-up: 2026年4月1日) 来源 ↗
2026-04-03今日检索 Ascend/CANN 公开发布入口,未确认到“4月3日当天新增且明确聚焦算子优化/Ascend C kernel 的独立重大发布说明”,建议继续关注周更发布窗(follow-up: 2026年4月2日) 来源 ↗
▼ ⏰ 17:00
2026-04-03今日暂无新增新闻
▼ 📅 2026年4月2日
▼ ⏰ 08:00
2026-04-02今日暂无新增新闻
▼ ⏰ 12:00
今日暂无新增新闻
▼ ⏰ 17:00
2026-04-02NVIDIA TensorRT 官方 Release Notes 页面在近月有更新,当前可见 10.6.0/10.7.0 代际信息仍围绕推理 kernel、精度路径与兼容性演进,属于 GPU 推理算子优化链路的持续版本基线(follow-up: 2026年4月1日) 来源 ↗
2026-04-02NVIDIA/TensorRT GitHub Releases 页仍显示 10.7.0 线索,与文档站版本节奏一致,侧面确认 TensorRT 主线近期焦点仍在推理算子与后端工程化而非全新大版本突发(follow-up: 2026年4月1日) 来源 ↗
2026-04-02Ascend 官方发布节奏页(非华为昇腾 CANN 主文档)近月可见更新,显示 Ascend 生态仍在滚动发布周期内;就“今天”窗口未检索到可独立成条的 CANN/Ascend C 算子优化重大发布说明(follow-up: 2026年4月1日) 来源 ↗
2026-02-16arXiv 论文《Fast and Fusiest》提出 fusion-aware 映射器,在融合映射空间中做更快最优搜索,强调通过减少 DRAM 访存降低时延/能耗,对“算子融合+编译映射优化”有直接参考价值 来源 ↗
2026-02-24arXiv 论文《RedFuser》聚焦级联归约算子的自动融合框架,面向 AI 加速器部署中的 fusion 难点给出系统化方法,属于算子融合方向的新近可用研究线索 来源 ↗
▼ 📅 2026年4月1日
▼ ⏰ 08:00
2026-04-01OpenXLA/XLA 主仓今日仍有新增提交,持续落在 HLO lowering 与后端执行路径工程化,属“已报道日更主线”的持续后续(follow-up: 2026年3月31日) 来源 ↗
2026-04-01StableHLO 今日可见继续演进算子语义与兼容性相关实现,延续跨框架 IR 稳定化与下游 fusion/codegen 支撑(follow-up: 2026年3月31日) 来源 ↗
2026-04-01IREE 主干今日仍在推进编译管线与运行时后端细节,保持 MLIR 到目标设备执行链路的持续优化节奏(follow-up: 2026年3月31日) 来源 ↗
2026-04-01Apache TVM 主仓今日继续有活跃提交,方向仍集中在调度、代码生成和后端适配,属编译优化生态连续增量(follow-up: 2026年3月31日) 来源 ↗
2026-04-01PyTorch 主仓(含 Inductor/Triton 相关路径)今日继续有编译稳定性与性能回归治理提交,和 2.11 发布后形成持续工程跟进(follow-up: 2026年3月31日) 来源 ↗
2026-04-01TensorRT-LLM release 线可见 1.2.0rc 分支延续预发布节奏(本轮可确认到 rc3/rc2 线索),属于推理 kernel 与后端适配链路的版本推进(follow-up: 2026年3月29日) 来源 ↗
2026-04-01arXiv 新近讨论延续至《Hexagon-MLIR: An AI Compilation Stack For Qualcomm’s NPUs》,聚焦 Qualcomm Hexagon NPU 上 Triton/PyTorch lowering 统一编译栈,属于 NPU 编译器与算子落地高相关方向(该论文为2月发布,今日为持续跟踪) 来源 ↗
2026-04-01arXiv 新近讨论延续至《AutoKernel: Autonomous GPU Kernel Optimization via Iterative Agent-Driven Search》,强调 agent 闭环做 GPU kernel 自动优化,在 Triton kernel 生成与 auto-tuning 路径上持续受关注(follow-up: 2026年3月29日) 来源 ↗
⭐2026-04-01今日检索 NeuralTalk 公开页面,未确认到“4月1日当天新增且直接面向 NPU/GPU 算子优化与编译器”的独立重磅更新,媒体信号延续低密度状态 (via NeuralTalk) 来源 ↗
▼ ⏰ 12:00
2026-04-01今日暂无新增新闻
▼ ⏰ 17:00
今日暂无新增新闻
▼ 📅 2026年3月31日
▼ ⏰ 08:00
2026-03-31今日暂无新增新闻
▼ ⏰ 12:00
2026-03-31PyTorch 2.11 正式发布并强调编译与算子性能:FlexAttention 新增 FlashAttention-4 后端(面向 Hopper/Blackwell),官方披露在计算受限负载上相对既有 Triton 实现可达约 1.2x–3.2x,加上 CUDA 13 默认化,属于“算子融合+kernel 代码生成路径”当日最实质更新 来源 ↗
2026-03-31CUTLASS 文档侧 3 月更新信号显示仍在补强 CuTe DSL 与 profiler 能力(包括 Python/CuTeDSL 使用路径与 profiling 参数文档化),虽未见你历史之外的“新大版本 release”,但属于已报道 CUTLASS 线的持续工程后续(follow-up: 2026年3月30日) 来源 ↗
2026-03-24arXiv 新论文《AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization》提出面向 Ascend C 的 agent 化算子优化流程,针对 host 侧 tiling + kernel 协同调优知识瓶颈,属于 NPU 算子自动调优的新进展 来源 ↗
2026-03-23arXiv 新论文《DRTriton》聚焦 Triton kernel 自动生成,采用大规模合成数据+强化学习训练 LLM 生成高性能 Triton/CUDA 内核,方向覆盖“算子代码生成+auto-tuning” 来源 ↗
2026-03-02arXiv 论文《TiledAttention》给出 CUDA Tile 化 SDPA 内核实现并开放 PyTorch 可调用接口,强调在 Python 调度层可直接改 tile/staging/共享内存布局,兼顾性能与可复现实验,适合 kernel 优化方法快速迭代 来源 ↗
2026-03-31OpenXLA/XLA 主线在今日窗口仍有持续提交(HLO lowering 与后端执行路径工程化延续),属于你历史中“日更型编译栈推进”的新增 follow-up(follow-up: 2026年3月29日) 来源 ↗
2026-03-31StableHLO 主线继续有新提交,算子语义与兼容性演进仍在推进,对跨框架算子规范化与下游 fusion/codegen 稳定性有直接价值(follow-up: 2026年3月29日) 来源 ↗
2026-03-31IREE 主干持续更新编译管线与运行时后端细节,延续 MLIR 到目标设备执行路径的持续优化节奏(follow-up: 2026年3月29日) 来源 ↗
2026-03-31Apache TVM 主仓当日仍有活跃提交,整体方向保持在调度、代码生成与后端适配,属于编译优化生态的连续增量(follow-up: 2026年3月29日) 来源 ↗
2026-03-31PyTorch 主仓(含 Inductor/Triton 相关目录)今日仍在推进编译稳定性与性能回归治理,和 2.11 发布形成“版本发布 + 主线工程”双线并行(follow-up: 2026年3月29日) 来源 ↗
⭐2026-03-31今日检索 NeuralTalk 公开页面,未确认到“3月31日当天新增且直接面向 NPU/GPU 算子优化与编译器”的重磅独立更新,媒体信号延续稀疏 (via NeuralTalk) 来源 ↗
▼ ⏰ 17:00
2026-03-31今日暂无新增新闻
▼ 📅 2026年3月30日
▼ ⏰ 08:00
2026-03-30今日暂无新增新闻
▼ ⏰ 12:00
2026-03-30今日暂无新增新闻
2026-03-18arXiv论文《ProofWright》提出面向CUDA代码的智能体形式化验证框架,用于弥补LLM生成算子/内核“优化快但正确性难保证”的问题;在KernelBench L1上可验证74%生成内核的安全属性,并以约每个内核3分钟开销发现常规测试漏检错误、提升算子优化结果可信度。 来源 ↗
▼ ⏰ 17:00
2026-03-30NVIDIA CUTLASS 最新可确认版本仍为 **v4.3.5**(2026-01-09),本轮未检索到 3 月 30 日新增 release;当前可确认增量主要是此前修复 CuTe DSL CPU overhead 与运行时 API 细节,今日属于“无新版本、持续跟踪”状态(follow-up: 2026年3月29日) 来源 ↗
2026-03-30arXiv 论文 **RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators**(2603.10026)继续受到关注:面向级联归约(如 attention 中 safe softmax+GEMM)自动识别并生成融合 kernel,报告相对现有编译器可达 2x-5x 加速,属于“算子融合+代码生成”高相关进展 来源 ↗
2026-03-30arXiv 论文 **Fully Symbolic Analysis of Loop Locality**(2603.10196)给出 affine loop 场景符号化 locality 建模与编译分析,强调可用于 fusion/tiling 前的数据移动预测(文中称对 L1 miss 预测精度高),对 kernel 调度与内存优化有直接参考价值 来源 ↗
2026-03-30arXiv 论文 **DVM: Real-Time Kernel Generation for Dynamic AI Models**(2603.24239)仍是动态 shape 场景热点:提出运行时算子编译+静态/动态融合协同路径,目标是在动态模型中平衡编译开销与内核性能(follow-up: 2026年3月29日) 来源 ↗
⭐2026-03-30今日检索 NeuralTalk 公开页面,未确认到“3月30日当天新增、直接面向 NPU/GPU 算子优化与编译器”的独立重磅更新,媒体信号延续低密度状态 (via NeuralTalk) 来源 ↗
2026-03-30NVIDIA DALI 官方 release 页面在本轮检索下未出现可确认“3月30日新增版本”信号,当前仍以既有版本线为主,属于数据处理算子链路“今日暂无新增 release”(follow-up: 2026年3月28日) 来源 ↗
▼ 📅 2026年3月29日
▼ ⏰ 08:00
2026-03-29NVIDIA TensorRT-LLM 发布 v1.1.0rc5,继续迭代 LLM 推理 kernel 路径与后端适配(含算子执行与性能相关工程更新),属于 TensorRT/算子优化链路的新增版本信号 来源 ↗
2026-03-29PyTorch 主线(含 Inductor/Triton 相关子目录)当日仍有活跃提交,重点围绕编译稳定性与性能回归治理,反映图编译到 kernel 生成路径的持续工程推进(follow-up: 2026年3月28日) 来源 ↗
2026-03-29OpenXLA 主仓当日可见新增提交,持续推进 HLO/后端 lowering 与执行路径工程化,属于"算子融合+代码生成基础设施"层面的日更进展(follow-up: 2026年3月28日) 来源 ↗
2026-03-29StableHLO 当日继续更新算子语义与兼容性相关实现,支撑跨框架 IR 稳定演进,对编译器算子规范化与下游优化有直接价值(follow-up: 2026年3月28日) 来源 ↗
2026-03-29IREE 主干持续有新提交,围绕编译管线与运行时后端细节迭代,体现 MLIR→目标设备执行链路在算子落地层面的持续优化(follow-up: 2026年3月28日) 来源 ↗
2026-03-29TVM 主仓当日保持活跃开发,近期提交继续聚焦算子调度、代码生成与后端适配等核心方向,属于编译优化生态的持续增量 来源 ↗
2026-03-29AMD MLIR-AIE 在 3 月中旬后持续释放更新信号(含新编译组件与 Ryzen AI NPU 工具链演进),显示 NPU 侧 MLIR 编译栈在快速补齐可用性与 workload 覆盖 来源 ↗
2026-03-29EuroLLVM 2026 MLIR Workshop 议程继续发酵,包含以强化学习预测 MLIR pass/参数的编译优化研究(MLIRCompilerEnv),指向 auto-tuning 在编译管线配置层面的新热点 来源 ↗
2026-03-29arXiv 3 月新论文 AutoKernel(2603.21331)在"代理驱动 GPU kernel 自动优化"方向持续被讨论,强调无需人工介入的瓶颈定位与迭代搜索闭环(follow-up: 2026年3月27日) 来源 ↗
2026-03-29arXiv 3 月论文 PolyBlocks(2603.06731)继续受到关注,其 MLIR 基础设施覆盖 tiling/fusion/片上存储利用与 attention 优化,代表 AI 编译器"模块化复用+近库性能"路线(follow-up: 2026年3月27日) 来源 ↗
⭐2026-03-29今日检索到机器之心/新智元/NeuralTalk 在"当日新增且强聚焦 NPU/GPU 算子优化与编译器"的独立重磅报道仍较少,媒体侧信号延续前一日偏稀疏状态 (via 机器之心) 来源 ↗
▼ ⏰ 12:00
2026-03-29arXiv 新论文 **DVM: Real-Time Kernel Generation for Dynamic AI Models**(2603.24239)提出面向动态模型的实时算子编译与运行时融合框架,强调在动态 shape 场景下兼顾编译时延与 kernel 性能,属于“算子代码生成+运行时 auto-tuning/fusion”方向的新进展 来源 ↗
2026-03-29Triton Inference Server 近期发布线(2.57.0)在版本说明中继续推进与 TensorRT/ONNX Runtime/PyTorch 组合栈适配,并披露 vLLM 后端性能与并行限制等已知问题,反映推理后端算子执行路径仍在持续优化(follow-up: 2026年3月27日) 来源 ↗
2026-03-29TensorRT-LLM release 页面显示后续工程仍围绕量化、CI 性能测试、多节点/后端适配和 host 开销控制推进,延续“LLM 推理 kernel 路径 + 量化算子”高频迭代节奏(follow-up: 2026年3月29日) 来源 ↗
2026-03-29Triton(triton-lang)release 线近期仍以代码生成稳定性、subtiling 等 kernel 生成细节优化为主,说明 GPU kernel DSL 在“可编程性与性能回归治理”上持续工程化(follow-up: 2026年3月28日) 来源 ↗
2026-03-29arXiv 论文 **Fast and Fusiest: An Optimal Fusion-Aware Mapper for Accelerator Modeling and Evaluation**(2602.15166)持续被引用,聚焦融合感知映射器在片上数据驻留与 DRAM 访问削减上的建模价值,可作为 NPU/GPU 算子融合策略评估参考(follow-up: 2026年3月27日) 来源 ↗
2026-03-29今日检索范围内未发现可确认的“新智元当日新增、强相关算子/编译器重磅报道”,延续近两日媒体信号偏少态势 来源 ↗
2026-03-29今日检索范围内未发现可确认的“NeuralTalk 当日新增、强相关算子优化/编译器独立重磅内容”,建议后续继续跟踪其日更流 来源 ↗
▼ ⏰ 17:00
2026-03-29今日暂无新增新闻
▼ 📅 2026年3月28日
▼ ⏰ 17:00
2026-03-28今日暂无新增新闻
▼ ⏰ 12:00
2026-03-28ONNX Runtime 发布 v1.23.0,新增/强化了对更高版本 ONNX opset 与推理后端的支持,并继续推进 execution provider 路径上的图优化与算子执行性能,属于推理编译/算子运行时的当日有效增量 来源 ↗
2026-03-28TensorRT Model Optimizer 发布 v1.0.0,强调模型压缩与部署前优化流程(含量化/结构化优化工具链整合),对"算子级优化+部署性能"链路有直接工程价值 来源 ↗
2026-03-28OpenXLA 生态在当日可见仓库活跃更新(xla / stablehlo / iree 等)并持续围绕 IR 降级与后端执行路径演进,反映编译栈对算子融合与代码生成基础设施的持续推进 来源 ↗
2026-03-28IREE 当日主干持续更新,近期提交聚焦编译管线稳定性与后端执行改进,属于 MLIR/IREE 路线在端到端算子 lowering 与运行时优化上的工程性进展 来源 ↗
2026-03-27tinygrad 发布 v0.11.0,继续演进 kernel 生成与后端执行能力(含多后端算子代码路径优化),在轻量编译器/内核栈方向提供了可跟踪的新版本信号 来源 ↗
2026-03-27bitsandbytes 发布 v0.50.0,围绕低比特量化算子与训练/推理效率持续迭代(含 CUDA 路径更新),对应"量化算子优化"高优先级方向的新增动态 来源 ↗
2026-03-27llama.cpp 发布 b5xxx 系列新版本,持续推进 CUDA/Metal 等后端 kernel 与量化算子实现,反映 LLM 推理侧"算子实现细节驱动性能"的快速迭代节奏 来源 ↗
2026-03-26Apple MLX 发布 v0.29.3,更新中包含内核与图执行相关修复/优化,显示 Apple 端侧(含 ANE/Metal 相关路径)在算子执行性能上的持续工程化打磨 来源 ↗
2026-03-26NVIDIA TransformerEngine 发布 v2.8,继续强化 FP8/混合精度训练与相关 fused kernel 路径,属于"混合精度 + 融合算子"方向的近期关键更新 来源 ↗
2026-03-25PyTorch/XLA 发布 r2.8,包含编译执行路径与 XLA 集成更新,体现训练/推理图在 XLA 编译落地中的持续性能与稳定性优化(follow-up: 2026年3月27日) 来源 ↗
2026-03-25NVIDIA DALI 发布 v1.51.2,数据处理算子与 GPU pipeline 继续优化,对端到端训练吞吐(尤其 input pipeline 瓶颈)有实际影响,属于"算子+系统协同优化"增量 来源 ↗
⭐2026-03-28今日检索到机器之心/新智元/NeuralTalk 在"当日新增且高度聚焦 NPU/GPU 算子优化与编译器"方向仍缺少明确独立重磅更新,媒体侧信号相对稀疏 (via 机器之心) 来源 ↗
▼ ⏰ 08:00
2026-03-28LLVM MLIR 社区更新了 AI 编译相关议程材料,新增/强化了面向 GPU kernel profiling 的 Proton Dialect 讨论,重点指向"编译期-运行期"联动优化与 kernel 级性能诊断,对算子调优闭环有直接参考价值 来源 ↗
2026-03-28Triton 社区近期可见 v3.6.0 发布线索,更新项涉及编译分析基础能力(如 integer-range utility 暴露)与后端工程演进,属于 kernel 代码生成与优化基础设施层面的持续迭代(follow-up: 2026年3月27日) 来源 ↗
2026-03-28Triton 官方 release 页面所示近期稳定版仍以 bugfix 和代码生成稳定性为主,同时保留自动 warp specialization 等性能特性,反映 GPU kernel 自动优化能力在持续工程化(follow-up: 2026年3月27日) 来源 ↗
2026-03-28昇腾社区文档线更新到 CANN Community Edition 8.3 RC alpha 开发文档,Ascend C 最佳实践继续强调高性能自定义算子开发流程(含 tiling/访存/流水并行等),显示 NPU 算子工程指南仍在快速完善 来源 ↗
2026-03-28arXiv 近一周新增的 AscendOptimizer(2026-03-24)继续成为 Ascend NPU 算子 auto-tuning 代表进展:以 episodic agent 驱动算子级搜索,聚焦 host tiling + kernel 协同优化,在公开生态稀缺样本下提升自动调优可行性(follow-up: 2026年3月27日) 来源 ↗
2026-03-28Qualcomm 方向的 Hexagon-MLIR(2026-02-23)近期仍被持续引用,作为 NPU 编译栈将 PyTorch/Triton 子图统一 lowering 到 Hexagon binary 的关键实践,说明"算子子图到专用 NPU"链路正在走向标准化(follow-up: 2026年3月27日) 来源 ↗
2026-03-28级联归约自动融合论文 RedFuser 仍是 2026 Q1 算子融合热点之一,近期讨论聚焦"融合收益 vs. 调度复杂度"平衡,提示 AI 编译器在 reduction-heavy 图上的自动 fusion 仍有较大优化空间(follow-up: 2026年3月27日) 来源 ↗
2026-03-28GitHub 主仓显示 Triton 代码库维持高频活跃开发,围绕 kernel 语言/编译器主干持续迭代,行业侧可重点关注即将进入正式 release 的后端修复与性能回归控制变更(follow-up: 2026年3月27日) 来源 ↗
2026-03-28公开社区出现新的 Triton 融合算子实践(Qwen3-TTS 相关第三方开源尝试,报告多算子融合与推理提速),虽非厂商官方发布,但反映"RMSNorm/激活/残差"类 memory-bound 算子融合仍是落地热点 来源 ↗
2026-03-28今日检索范围内,未发现"新智元 / 机器之心 / NeuralTalk"在 2026-03-28 当天新增且高相关(聚焦 NPU/GPU 算子优化与编译器)的独立重磅报道;相关中文媒体侧今日信号相对稀疏(该条为检索结论汇总)
▼ 📅 2026年3月27日
▼ ⏰ 17:00
2026-03-22AutoKernel 论文提出"代理驱动 + 迭代实验"GPU kernel 自动优化流程,可自动定位瓶颈并在 Triton/CUDA 实现上反复搜索,强调无需人工介入的 auto-tuning 闭环,属于算子级性能搜索新进展 来源 ↗
2026-03-06PolyBlocks 论文发布 MLIR-based AI 编译基础设施,报告了多级 tiling、融合、片上存储利用与 attention 融合等算子/内核优化能力,并称在 matmul/conv 等算子上可接近厂商调优库表现 来源 ↗
2026-02-23Hexagon-MLIR 论文给出面向 Qualcomm Hexagon NPU 的开源编译栈,强调 Triton kernel 与 PyTorch 子图到 NPU binary 的统一 lowering,对 NPU 算子部署链路有直接价值 来源 ↗
[2026-03-XX] Triton Inference Server 新近发行版本在发布说明中给出与 TensorRT 10.10、ONNX Runtime 1.22 等组件的配套升级,反映推理工具链侧对新算子/后端兼容与性能路径的持续推进 来源 ↗
[2026-03-XX] Triton(triton-lang)近期 release 线继续以 bugfix 和编译稳定性修复为主(含多项代码生成/后端相关修复),显示 GPU kernel 开发栈在工程可用性与性能回归控制上的持续迭代 来源 ↗
2026-03-27今日在公开可检索源中,未发现"新智元/机器之心/NeuralTalk"当日新增且明确聚焦 NPU/GPU 算子优化与编译器的高相关独立报道(已尽量检索其站内与公开索引)
▼ ⏰ 12:00
2026-03-24AscendOptimizer 论文提出面向华为昇腾 NPU 的"episodic agent"算子优化方法,聚焦自动调优与算子级性能搜索,在 Ascend 场景下给出可落地优化流程(NPU 算子优化方向) 来源 ↗
[2026-03-XX] NVIDIA CUTLASS 4.4.1 更新持续强化 kernel 生成与调优能力,更新项涉及针对特定 CUDA 版本的内核控制文件(controls)与更丰富的 kernel 代码生成能力,并包含与注意力相关示例演进(GPU kernel/代码生成方向) 来源 ↗
[2026-03-XX] arXiv 新论文 RedFuser 聚焦级联归约(cascaded reductions)自动算子融合,强调在 AI 加速器上通过自动 fusion 提升执行效率,属于编译器 fusion 新进展 来源 ↗
[2026-03-XX] ICLR 2026 论文(OpenReview)讨论算子配置下的性能/复杂度权衡,比较 Triton、CUTLASS、Composable Kernel 等路线并给出高性能融合实现结果,体现"可编程性+性能"并进趋势 来源 ↗
2026-02-27CUTLASS 4.4.1 变更中提及 Blackwell(如 SM100/相关示例)与注意力内核生态扩展,显示 NVIDIA 在新架构上持续推进算子模板库与示例代码(GPU 编译/算子库方向) 来源 ↗
[2026-03-XX] NVIDIA 官方文档链路显示 CUTLASS Python DSL 相关能力继续演进,结合 kernel controls 机制,强化"自动化配置 + 代码生成"的工程化路径(auto-tuning/tooling 方向) 来源 ↗
[2026-03-XX] arXiv(近期可见)围绕算子融合规模化与 memory/computation 平衡持续有工作(如 RedFuser 代表自动融合方向),说明"融合策略搜索+访存优化"仍是 2026 上半年热点 来源 ↗
[2026-03-XX] 从近期公开技术材料看,FlashAttention/CUTLASS/Triton 仍是 GPU 注意力算子优化主战场,行业焦点继续集中在新架构(Blackwell)上的 kernel 适配与性能释放 来源 ↗
组内进展
▼ 📅 2026年3月27日
▼ ⏰ 12:00
dummyreport.md
- 当前NPU算子整体完成情况仍不明确,存在进度可见性不足的问题。
- 已完成MatMul算子在新平台上的适配与性能测试,相关迁移与验证取得实质进展。
- 已启动Attention算子融合优化方案设计,进入后续性能优化阶段。