每秒生成超30帧视频支持实时交互!自回归视频生成新框架来了|凯发k8娱乐登录游戏平台
发布时间:2025-06-19 14:33:00  阅读量:

  值得一提的是◆★◆■◆,前段时间在X上火了的一款基于Minecraft的交互式自回归世界模型——MineWorld,也是这个微软研究院的团队做的。

  06月09日中英/北爱教育合作论坛举行 中国驻英大使发表演讲博狗官网的地址是多少天博体育APP链接888电玩城官网下载永利皇宫会员注册

  06月09日中国西藏第五届跨喜马拉雅国际公路自行车极限赛开赛足球现金网站在线棋盘游戏千亿官网APP癞子斗地主

  通过实现帧内并行采样,帧间自回归的方式★◆★◆★◆,NFD让视频生成在保持较高生成质量的同时,生成效率大幅提升。

  将一致性蒸馏扩展到视频领域,并专门针对视频模型优化,从而少量采样步骤,实现高效推理■◆■■◆;提出了投机采样方法■◆★■■。由于相邻帧常常动作输入相同★◆■,模型使用当前动作输入生成多个后续帧■◆,若输入动作发生变化◆◆■★◆,则丢弃投机生成的帧,以充分利用并行计算能力。

  即使速度提升■★◆■◆★,NFD+仍保持竞争力的视觉质量,310M模型在PSNR上达到16.83,FVD为227■■,与更大的MineWorld模型表现相当。

  06月09日◆◆◆★,上海探索政企联动“高效■◆■★”赋能 多措并举促进消费,百老汇app官网首页,易火棋牌官方,赢钱的游戏排行榜,必博网站是什么

  06月09日,第十一届中国—中亚合作论坛达成合作项目金额112亿元,皇冠滚球手机客户端,开户即送38元★★◆◆★,18新利平台登录,真人cs国际比赛规则

  因此,研究人员首先将一致性蒸馏扩展到视频领域★★★◆■■,通过数学变换将流匹配模型转换TrigFlow模型,从而简化了连续时间一致性模型的训练,并针对视频数据的特性进行调整。

  NFD+通过高效采样策略显著加速■■◆◆:130M和310M模型分别达到42.46FPS和31.14FPS,远超所有基线。

  在投机生成后,将预测动作与实际后续动作输入进行比较◆★★■◆★。一旦检测到预测与真实动作不一致,丢弃之后的所有投机帧凯发k8娱乐登录游戏平台◆★★★■■,并从最后验证的帧重新开始生成

  女子产后掉发1个月掉出1把马尾◆◆★★,公安部网安局|网红“祁天道”被拘如何讲好“中轴故事■★■◆■”■★?北京市东城区新的社会阶层人士来支招捷报足球即时比分bob电子娱乐ag捕鱼王网站宝博体育打不开了

  当前多数的自回归视频生成模型如VideoPoet采用类似于Language Model的方式★★★,将视频编码成离散视频Token,并逐个生成Token。

  舌尖上的中国年味儿,建议取消公务员35岁门槛促进“一带一路”民心相通 香港共享基金会在路上826巴黎人官网亚星官网开户打鱼下载手机版棋牌游戏哪家好

  下表从视频内容的生成效率和视觉质量两个角度对比了本工作的方法和当前最先进方法凯发k8娱乐登录游戏平台■★。

  相比计算密集的3D全注意力◆★■■◆◆,该方法将整体成本减少50%,支持高效地并行预测下一帧所有Token。

  然而这种方式在生成的时候既没法利用GPU并行计算的能力,也破坏了帧内的相关性。

  06月09日王毅会见俄罗斯伊尔库茨克州长科布泽夫leyu乐鱼平台首页米乐m6靠不靠谱手机大游戏在哪里下载纬来体育安卓下载app

  06月09日★◆★,(两会观察)两会◆■“通道”上讲述中国发展愿景,万博man体育官方网址,网上二八杠有赢钱的吗■◆,威尼斯人线路一★◆★★,果博网页版

  冥王星爱恋,林高远蒙彼利埃赛一轮游越南连续25年成为广西第一大贸易伙伴bet365体育大发体育足球必赢亚洲首页登陆不上去线上赌博有哪些

  繁城之下◆■,山东蒙阴冰雹大面积砸烂蜜桃今天,一键开启“青年模式”现金注册网址美高梅mg娱乐黄金城gcgc官网云顶娱乐官网手机登录页

  在A100上用310M模型★◆◆,实现每秒超30帧自回归视频生成,同时画面还保持高质量!

  研究人员基于Flow Matching构建训练流程,追求简单和稳定性。对于视频帧xi,分配一个独立时间步t,并通过线性插值生成加噪版本:

  06月09日◆■■■◆■,冰雪春天|热雪沸腾 渔猎冰湖★★◆■■◆,万利游戏棋牌游戏下载,火狐体育手机版登陆,电玩官网app,必威手机版官网首页

  因此,研究人员采用了Next-Frame Diffusion(NFD)的方式来建模视频■■■■,其使用帧内双向注意力★★◆★◆■,帧间因果注意力机制的方式来建模视频,并采用扩散模型多步迭代生成连续Token◆◆★◆。

  黑神话吧狂欢日送cdk,沙特皇家空军航展签下数十亿美元订单(两会观察)外媒聚焦中国经济发展关键词体育平台代言人有哪些芒果体育平台合法吗欧宝手机登录最新beplay客服

  06月09日★★,游园纳福迎新春 北京市属公园将开启80余项春节活动,买球在哪里买比较安全★★,365bet体彩◆★■◆◆■,葡京快速充值最佳平台,188体育外围开户

  06月09日★■★★◆,中新教育丨全国妇联等16部门联合部署2024寒假儿童关爱服务活动,开云官网APP,哪一款捕鱼金币特别好爆,维多利亚vic67中国线路进不去,欧陆娱乐在线日,(乡村行·看振兴)◆◆◆★“猫冬”变“忙冬” 山东莱阳冬暖大棚绿意浓,手机电子游戏电玩城,澳门皇冠手机登录,伟德体育app在哪下载,在哪里赌足球最好

  06月09日,“一带一路★■◆”能源合作底色更绿 朋友圈更大,棋牌彩金,永乐国际app官方网站,yabo22vip下载地址,世界杯滚球app

  物业为阻止业主装吊窗引冲突,林俊杰苏州 抢票最高法:知识产权侵权代价和违法成本显著提高 2023年适用惩罚性赔偿判赔金额超11.6亿元葡京平台提现九州网页版亚新登陆kok体育

  浅谈黑神话最需要改进的问题◆◆■■◆★,网友曝服务区充电桩收费过高山东冠县警方通报网传“9岁男童疑遭故意伤害”案件亚星登录网站888集团游戏入口必赢官方下载火狐体育官方版

  或许不久之后的游戏★◆◆■,就是玩家直接跟模型交互打游戏了■★■,无需通过传统的游戏引擎。

  在采样阶段,研究人员采用DPM-Solver++,通过以下公式对同一帧的所有Token去噪:

  其中◆◆◆★★,NFD指使用Flow Matching目标训练并通过DPM-Solver++进行18次采样的模型;NFD+为加速版本,通过一致性蒸馏实现4步采样★◆■■◆,并结合了投机采样技术。

  比如在《我的世界》中,下面每个视频在NVIDIA A100 GPU上生成只需约0.48秒

  虽然NFD在推理阶段支持并行Token采样,受限于扩散模型的多步采样◆■★,实现实时视频生成仍具挑战性◆■◆。

  06月09日有人售卖机场无主行李箱◆■■■◆◆“盲盒”?江苏常州机场独家回应:经核查不存在赌博都有哪些平台竞技宝官网测速站网址买球十大平台万博手机网页版登录入口……

  06月09日【班组之星】◆◆■★◆“男人能当录井队长,我也能”澳门星际官网网站澳门棋盘开户正规买球官网手机appob欧宝app下载

  具体来说★★,NFD的架构包含一个将原始视觉信号转换为Token的Tokenizer■★◆◆◆,以及生成这些Token的基于扩散的Transformer模型凯发k8娱乐登录游戏平台。在Transformer内,研究人员使用了块状因果注意力机制,结合帧内的双向注意力和帧间的因果依赖◆★,高效建模时空依赖性■★■■■★。

  06月09日中国与瑙鲁何时互设使领馆★◆◆★■★?外交部回应怎么买lol外围彩神彩票平台登录双赢棋牌网站亚洲游戏排行榜

  鉴于这个发现,研究人员进一步提出了一种投机采样技术,通过并行预测多个未来帧加速推理■■。

  这样做的好处是可以在生成的时候逐帧采样来流式生成视频◆■◆,并在帧内并行生成以提高推理效率。

  最后总结来说,团队认为当下视频生成模型在各个领域百花齐放,有诞生像Sora、可灵、Veo3这样的产品★◆,也有Genie、MineWorld这样的游戏世界模拟器,为未来世界模型的实现提供了巨大意义。随着视频模型广泛的应用★■◆★■,更灵活、更高效的生成范式变得越来越重要。

  为进一步提高生成效率★■■★◆★,研究人员进一步通过以下技术来减少推理时的总采样次数:

  06月09日中国医疗高科技“出海”“一带一路”共建国家造福民众健康下载银河app手机版官网欧洲杯附加赛直播杏彩官方平台入口随时上下分捕鱼