开云体育(中国)官方网站导致已有缓存学习措施加快有限、图像失真彰着-开云「中国」kaiyun体育网址-登录入口

栏目分类开云体育(中国)官方网站导致已有缓存学习措施加快有限、图像失真彰着-开云「中国」kaiyun体育网址-登录入口

你的位置:开云「中国」kaiyun体育网址-登录入口 > 新闻 >

开云体育(中国)官方网站导致已有缓存学习措施加快有限、图像失真彰着-开云「中国」kaiyun体育网址-登录入口

发布日期:2025-09-17 09:54    点击次数:138

开云体育(中国)官方网站导致已有缓存学习措施加快有限、图像失真彰着-开云「中国」kaiyun体育网址-登录入口

面对扩散模子推理速率慢、资本高的问题,HKUST& 北航 & 商汤提议了全新缓存加快决策—— HarmoniCa:考研 - 推理协同的特征缓存加快框架,突破 DiT 架构在部署端的速率瓶颈开云体育(中国)官方网站,得胜结束高性能无损加快。

△HarmoniCa 举座压缩框架

由于现存琢磨并不成十足反应图像后果优劣,因此该团队盘问东谈主员提供了大都可视化后果对比图,更多对比请看原论文。

△PIXART- 图像生成后果图

该责任已被 ICML 2025 继承为 Poster,并开源技俩代码。

Diffusion 加快难在哪?

Diffusion Transformer(DiT)看成高分辩率图像生成主力架构,在推理阶段仍靠近「访佛规划多」「耗时严重」的履行瓶颈。举例,使用 PIXART- α 生成一张 2048 × 2048 图像即需 14 秒,严重影响落地效力。

近期「特征缓存(Feature Caching)」成为加快新想路,但已有措施遍及存在两大重要问题:

前序时刻步无感知:考研阶段忽略缓存历史,推理时则高度依赖先前甘休,二者逻辑断裂;

考研主意错位:考研瞄准中间噪声罪戾,推理激情最终图像质地,优化标的以火去蛾;

这两大错配,导致已有缓存学习措施加快有限、图像失真彰着。缓存机制的基本责任旨趣如下:

△缓存机制 HarmoniCa 缓存学习框架

一句话追溯:主意一致、旅途同步,考研与推理确凿协同优化

该责任提议的 HarmoniCa 框架通过两个重要机制,从压根上措置了以往学习型特征缓存措施中的考研 - 推理脱节问题:

一、Step-Wise Denoising Training(SDT)

淘气去噪考研,模拟推理全进程,罪戾不再层层积聚。

传统措施在考研时仅采样某个时刻步,缓存是空的,十足跳过了"历史缓存影响",而推理时,缓存是从新累积的,考研和推理压根不是一趟事。

进而该责任提议 SDT 来冲破这一不一致:

1)构建完好意思的 T 步去噪过程,与推理一致;

2)熟谙 - 学生结构:学生使用缓存进行去噪,熟谙不使用缓存看成"设想输出";3)每一时刻步的 Router 都被沉寂更新,显式对皆多轮缓存旅途下的输出罪戾;4)学生模子每步将我方的输出看成下一个输入,使得罪戾传播机制靠近确凿推理轨迹。

后果:SDT 权贵指责了时刻步间罪戾积聚,提高最终图像明晰度与闪现性。

△SDT 灵验扼制罪戾彭胀(红色为旧措施,蓝色为 SDT)二、Image Error Proxy Objective(IEPO)

一句话追溯:不是"中间好",而是"临了图像好",优化主意即是甘休本人。

以往措施考研时只对皆每一步的噪声罪戾,而推理的主意是最终图像质地,两者主意严重错配,导致缓存 Router 学出来"看似合理"但后果很差。

该责任提议 IEPO 机制,中枢想想是:

通过代理项 λ ( t ) 来估算"使用缓存 vs 不使用缓存"在时刻步 t 对最终图像 x ₀ 的影响;

越重要的时刻步,其 λ ( t ) 越大,勾通 Router 减少该步缓存复用,保留精度;

每隔几许轮再行生成一批图像,动态更新 λ ( t ) ,保证主意恒久贴合考研景况。

IEPO 的优化主意为:

即在"图像质地"与"加快率"之间结束可控衡量。

实验甘休

该责任在两个典型任务场景中考据了 HarmoniCa 的灵验性:

分类条款生成(DiT-XL/2@ImageNet)

文本生成图像(PIXART- α @COCO,多分辩率)

对比措施包括现时最好的缓存学习措施 Learning-to-Cache ( LTC ) 、启发式缓存措施 FORA / ∆ -DiT,以及多种加快器建立(DDIM 步数缩减、量化剪枝等)。

分类条款生成(DiT-XL/2 256 × 256)

重心论断:

在高压缩率场景(10 步推理)下,HarmoniCa 保执图像质地上风,FID 比 LTC 更低、IS 更高

同期达成更高缓存诈欺率,提高 实质加快后果

文本生成图像(PIXART- α 256 × 256)

即使在 2K 高分辩率下,HarmoniCa 仍保执 1.69 × 实质加快

在 CLIP 语义匹配、FID 等主流琢磨上均跨越 FORA

量化 / 剪枝 VS HarmoniCa

除了与主流缓存措施的对比,该责任也评估了 HarmoniCa 比拟剪枝和量化等压缩时间的弘扬。在调治的 20 步采样建立下,传统决策如 PTQ4DiT、EfficientDM 等固然模子更小,但实质加快依赖硬件支执,极度是一些定制 CUDA 内核在 H800 等新架构上弘扬并不闪现。更进犯的是,量化模子在小步数采样一样常精度下落严重,PTQ4DiT 就出现了彰着的性能下滑。而 HarmoniCa 不依赖底层魔改,无需专用硬件,在各式主流采样器和诞生上都能闪现提速,保执图像质地,是现时更通用、更恰当的部署遴荐。

△与量化 / 剪枝措施的比较

与量化荟萃

该责任还考据了 HarmoniCa 与模子量化时间的高度兼容性。在 PIXART- α 256 × 256 场景下,将 HarmoniCa 应用于 4bit 量化模子(EfficientDM),推理速率从 1.18 × 提高至1.85 ×,FID 仅略增 0.12,真的无感知互异。讲明 HarmoniCa 不仅可沉寂提速,也能看成"加快插件"叠加于量化模子之上,进一步开释性能后劲。曩昔,该责任也策画探索其与剪枝、蒸馏等时间的组合智商,为 DiT 模子的轻量部署设备更多可能。

△HarmoniCa 和量化措施的组合支出分析

除了推理提速和质地提高,HarmoniCa 在考研与推理支出上也展现出极强上风,是确凿能用、敢用、易部署的工业级决策。

△考研支出对比

考研侧:

HarmoniCa 采选无需图像的考研政策,仅基于模子和噪声即可完成优化,不依赖任何突出数据。在同等考研轮次下,其考研时刻比主流决策 LTC 裁汰约 25%,显存占用控制,可在单卡闪现运转,相宜闭源模子加快和快速迭代。

推理侧:

推理端新增 Router 极其轻量,参数仅占 0.03%,规划支出低于总 FLOPs 的 0.001%,真的不影响蒙胧。融合特征缓存,HarmoniCa 在 PIXART- α 上可结束表面加快比 2.07 ×、实测加快 1.69 ×,具备优厚的部署效力与工程可行性。

追溯:缓存加快的新范式,考研推理协同才是正解!

现时 Diffusion 加快旅途中,缓存机制正渐渐成为主流决策,但传统作念法要么依赖手工章程、要么考研主意错位,无法在确凿部署中兼顾性能、效力、适合性。

该责任提议的 HarmoniCa 框架,初度通过:

SDT ——确凿模拟推理轨迹,让缓存行径"可考研";

IEPO ——从甘休起程优化主意,兼顾图像质地与加快比;

无图像考研 / 多模子适配 / 高分辩率通用,让部署更轻松;

在 PIXART、DiT、LFM 等多个模子上,HarmoniCa 都结束了更快的推理、更高的质地、更低的考研门槛,为缓存加快时间注入"可落地"的重要撑执。

论文地址:https://arxiv.org/abs/2410.01723  

代码地址:https://github.com/ModelTC/HarmoniCa

一键三连「点赞」「转发」「留心心」

接待在挑剔区留住你的想法!

—  完  —

� � 点亮星标 � �

科技前沿进展逐日见开云体育(中国)官方网站