贵金属交易平台-港中大与字节跳动：AI视频实现声响动作与货品识别多模态协同

此名名字听起来甚拗口，但背后之思路其实相当优雅。

回到刚才彼名护肤品视频之场景。

此四件事——者物长什么样、货品长什么样、说什么声响、做什么动作——缺一不可，而且须天衣无缝地融合于同一段视频里。

整名流水线分三名大阶段运转。

研讨团队与另一种叫做「令牌拼接」之主流法门做之对比，后者会把参考图像之讯息转变为独力之特征令牌插入模型之注意力序列中。

研讨团队还展望之几名值得探求之后续方位，包括引入基于苍生偏好回馈之强化修习来进一步对齐确凿场景、扩操练数据与模型规模、支更丰富之输入样貌（如摄像机运动轨迹或参考视频片段），以及向分钟级长视频合成与实时交互式生成迈进。

为此，研讨团队建立之HOIVG-Bench，一名包含135名精心构建样本之评测基准。

A：现有器物通常只能办理一两种输入机缘，比如只能接受书契描述，或者只能根据一张参考图生成视频，无法同时办理者物参考图、物品参考图、语音音频与姿态动作此四类输入。

先用R2V数据操练再切换到联手数据之预案，音视频齐步也没有改善。

于用户偏好研讨中，研讨团队分别机构之30名评测者对RA2V结局做选边站评测，以及33名评测者对RP2V结局做选边站评测，每次评测20名随机样本。

Q2：门控局部上下文注意力机制为如何实现嘴唇与声响齐步之。

但仅仅提取当前帧对应时刻之音频特征为不够之，因者于发一名音之时候，嘴形往往受到前后音之影响——比如你要发「哦」此名音，嘴唇于发声之前就已始撅起来之。

对于参考图像视频数据，研讨团队一方面从现有视频中提取参考帧，做超分辨率办理，并用算法估量参考图与视频实质之一致性；另一方面还建立之一套合成数据流水线，使用内部之物品图像数据库，通过图像编辑将者物与货品合成于一起，再用内部之图像转视频模型生成对应视频，并经过者工质检筛掉有明显AI痕迹（比如手指变形、细节丢失）之样本。

A：用AI生成图像主要出于两方面考虑。

实在来说，彼等于原来之视频序列前面额外附加之若干名「伪帧」，也就为专门用来承载参考图像讯息之虚拟帧。

为之处置此名疑难，研讨团队于音频注意力之输出上乘以之一名可修习之门控向量，此名向量之初始值被设置为接近零之极小数。

长江经济带发展。

若你一始就试图同时练此三件事，或每件皆学得一塌糊涂。

一、为什么现有器物皆「差彼么一口气」 Waver 1.0原本就有一名设计：为之支「图像生成视频」差事，它会于视频之光阴维度上预留一些槽位，用来放置输入图像之编码讯息。

它之核心贡献于于，证验之可用极小之架构改动（仅增约2.5%之参数）就撬动对四种模态输入之一统办理本领，同时证验之通过权重融合让多模态可控性自发涌现之或性。

者物参考图则为基于视频截图通过Nano Banana生成之风格相似但外貌不同之形象，此样既守护之原始者物之隐私，又保之对模型泛化本领之试炼。

研讨团队用之一名叫做Wav2Vec 2.0之预操练模型来提取音频特征，此名模型能够同时捕捉语音之语义实质与节奏韵律讯息。

接下来为「联手操练阶段」里最有趣之一步：模型融合。

Refactoring。

此项由香港中文大学、字节跳动、莫纳什大学与香港大学联手成之研讨，以预印本样貌发布于2026年4月，论文编号为arXiv:2604.11804v1。

四、先分后合之操练计策：用「零花钱」拼出「大蛋糕」 Q3：HOIVG-Bench评测基准里之者物与物品图片为什么要用AI生成而不直接用确凿照片。

此表明OmniShow之优势于苍生感知层面比单纯之数值指标更为明显，研讨团队认为此主要来自于视频于光阴维度上更流畅之动态表现。

研讨团队还做之一系列「拆零件」实验，逐名去掉某名设计，观察性能降程度，从而反向验证每名设计之必要性。

南柯一梦。

给定单张者物图像与音频，OmniShow可作为音频驱动数术者之器物，生成表情自、口型齐步之动态形象。

提取出音频特征之后，研讨团队用之一种叫「掩码注意力」之机制来限制视频帧与音频特征之间之交互范围。

研讨团队把此名表象称为「涌现本领」——就像两名分别学会之游泳与骑自行车之者融合于一起，竟然无师自通地学会之同时游泳与骑车。

有之此名机制，模型于生成视频时对参考者物与物品外观之保真度大幅提升。

面对此名困境，研讨团队没有选择强行搜集完整数据，而为设计之一套「分开操练、再行合并」之计策，正式名称叫做「解耦-再联手操练」。

研讨团队认为，此背后之缘由为通道注入保留之模型原有之输入架构，免除之引入混合令牌所带来之额外修习负担。

OmniShow构建于一名名为Waver 1.0之根基模型之上，此为字节跳动掘发之一名有120亿参数之视频生成大模型，采用之一种叫做「多模态扩散变换器」之架构。

之后再用步长为4之采样来对齐视频之光阴压缩比例，最终得到一名密集之二维音频特征序列。

要操练一名能办理四种模态输入之模型，理论上需大量同时具备高品质书契描述、者物参考图、物品参考图、配套音频与姿态序列之视频数据。

参考图像经过VAE编码器压缩成特征向量后，就填充到此些伪帧对应之槽位里。

大义凛然。

只有研讨团队提出之先分别操练、再融合、再联手微调之完整计策，才于参考一致性与音视频齐步之间取得最佳均衡。

为之攻克此名难题，彼等提出之一名名为OmniShow之体系，此为目前第一名能够同时接受书契描述、者物与物品参考图片、语音音频、以及姿态动作序列此四类输入，并将它们融合生成高品质视频之端到端框架。

于RA2V设置下，超过51%之评测者认为OmniShow之视频品质优于HuMo-17B，约42%认为参考一致性更好，约42%认为音视频齐步更好。

OmniShow为此专门设计之「门控局部上下文注意力」机制，分三名层次来处置此名疑难。

巧妇难为无米之炊。

于仅用书契与参考图像生成视频之场景下，OmniShow于者脸相似度上与专门做此件事之Phantom-14B相当，而于物品一致性（NexusScore）与视频品质指标上则表现更优，于书契对齐与动作品质两项上也达到之参赛法门中之最高分。

一名者于说话时，嘴唇之形状、下巴之幅度、头部之微微抖动，皆要精确地对应到音频流里之每一名音素。

通过于工流中插入姿态提取步骤，可从现有视频中提取者物之动作序列，再结合一名新之物品参考图，生成一段者物手持新物品之视频，实现「物品替换」效果。

此正为当今视频生成领域最棘手之应战之一。

现有之AI视频器物大多只擅长其中一两件事：有些能让者物「看起来像彼名者」，有些能让嘴唇跟上音频节奏，有些能让身体按照指定姿势运动，但几乎没有任何一名器物能同时把此四件事皆做好。

相比之下，HuMo等同类法门引入音频本领后参数量增之约21.4%，效能差距相当显著。

简来说，模型于操练时不仅要学会生成视频，还要学会从彼些伪帧里重修出参考图像本身。

Metaverse。

两名模型于各自之专属数据上进行之充分之专项操练，每名模型皆掌握之一套独力之本领。

于音频注意力模块之消融实验中，去掉音频上下文打包（即滑动窗口机制）之后，Sync-D指标变差，说明上下文讯息对于捕捉时序连贯性至关重要。

于RP2V设置下，超过52%之评测者认为OmniShow之视频品质更好，超过56%认为姿态精度更好。

此名发觉本身就为一名颇具启发意义之研讨断语：通过权重融合，模型之可控本领可自发涌现，而不必依赖专门之联手操练数据。

可把此名根基模型体谅为一台精密之视频生成机器，它已经过大量操练，具备之从书契或图片出生成流畅视频之本领。

你需一名确凿可信之者物形象出镜，手里握之彼瓶护肤品，用符合货品调性之语气介绍它，身体之动作还要自流畅，嘴唇之开合要精确地跟上旁白之每一名音节。

OmniShow为目前第一名能够同时接受此四类输入并生成高品质视频之端到端框架，生成之视频中者物与物品之外观高度保真，嘴唇动作与音频齐步，身体动作符合指定姿态。

然后通过掩码约束，强制每帧视频只能关注自己光阴段内之音频，免除串扰。

对于音频视频数据，核心工为做音视频齐步估量，专门筛选出语音与视觉动作高度吻合之片段。

彼等发觉，于模型之「双流注意力块」区域，门控向量之数值明显高于「单流注意力块」区域，而且前者会随操练步数延续增益，后者则相待低平。

二为物品参考图需模拟确凿用场景，即参考图中之物品与视频中之物品有所不同，不能直接从视频帧中截取，需通过AI修改纹理与细节来构造差异化之参考样本。

去掉注意力图之帧级约束之后，Sync-C从9.023骤降到2.201，Sync-D从7.419恶化到13.01，此为整名消融表格里最戏剧性之降，直观地说明帧级精确对齐为音视频齐步之核心机制，缺之它整名音频注入几乎失效。

研讨团队体系梳理之现有法门之局限性。

每名样本皆配备之详细之书契描述、一张者物参考图、一张物品参考图、一段语义匹配之语音音频，以及一段连贯之姿态序列。

继往开来。

为之捕捉此种前后文关系，研讨团队采用之一名大小为5之滑动窗口，把每名时刻前后各两帧之音频特征堆叠于一起，形成一名更丰富之上下文音频表示。

此就像给每帧视频戴上之一副耳罩，让它只能听到属于自己彼一刻之声响，而不会被其他时刻之声响所干扰。

OmniShow之宗旨，正为成为彼名能调和所有乐手、把完整乐曲演奏出来之指挥。

于偏激之大幅度运动或多模态信号相互抵触之情况下，生成视频有时仍会现模糊或伪影，此为前景需进一步攻克之方位。

于提出处置预案之同时，研讨团队还意识到，此名领域缺乏一名专门之评测基准。

研讨团队指出，级联法门之口型办理模块于遭遇手部遮挡嘴巴之情况时格外易产生模糊与伪影，而端到端之OmniShow因于生成阶段就已整顿之音频讯息，能够更自地办理此类繁遮挡情况。

评测基准中之者物参考图均为AI生成，与完全确凿之照片相比存必之域偏移，此或使评测结局与确凿部署场景之间存些许差距。

六、评测标准：填补领域空白马奇上周末没有参加比赛，他为不为遇到之什么顿挫。

受任于败军之际，奉命于危难之间。

七、实验结局：OmniShow之成绩单评测维度涵盖五名方面：书契语义对齐（用VideoReward预测书契对齐分数）、参考一致性（用者脸相似度FaceSim与统合一致性评分NexusScore衡量）、音视频齐步（用Sync-C与Sync-D两名指标，前者越高越好，后者越低越好）、姿态精度（用平均枢纽点距离AKD与正确枢纽点比例PCK衡量）、视频品质（用VBench之美学与画质评分，以及VideoReward之整体视觉品质与动作品质评分）。

第一名层次为音频特征之丰富化。

Q1：OmniShow与现有之AI视频生成器物有什么本原区别。

视觉与听觉之齐步，为整名体系里最精妙也最难搞定之部分。

专注于「参考图像到视频」之器物，比如Phantom与SkyReels，能够较好地保留者物外观，但它们对音频一无所知，生成之视频为彻底「沉默」之，嘴唇不会随声响变化。

结局显示，OmniShow于所有11项指标上全面逾越之此名级联法门，格外为于视频品质（VQ为11.06对10.05）与动作品质（MQ为5.88对3.91）上有较大幅度之提升。

数据稀缺为此名研讨面临之最棘手疑难之一。

一为隐私与合规守护，直接用确凿者物照片涉及肖像权与名者讯息守护疑难，公掘发布会面临法典险情。

OmniShow针对此三名困境分别提出之革新性之处置预案，并通过大量实验验证之其有效性。

此外，研讨团队还验证之OmniShow于更宽泛应用场景下之灵活性。

说到底，OmniShow处置之为一名于技艺层面长期悬而未决、于实际应用层面又有确凿强烈需求之疑难。

五、数据工厂：从零始建造操练原料更进一步，研讨团队还给此些伪帧加上之一名「重修损失」之操练宗旨。

研讨团队还通过观察此名门控向量之数值变化，得到之一名意外收获。

最后用初始值接近零之可修习门控向量控制音频信号之影响力度，确保操练初期模型不被随机初始化之音频模块干扰，随之操练推进才逐渐敞开音频之影响。

当前之评测仅覆盖5秒时长之片段，而模型实际上能生成长达10秒之视频，更长光阴之全面评测尚待成。

于操练计策之消融实验中，直接于完整之参考加音频数据上操练（不做分阶段）之模型，音视频齐步表现最差（Sync-D高达13.11）。

此样一来，两路视觉讯息——参考图像与姿态——皆通过同一套通道拼接之机制进入之模型，模型不需为此修习全新之交互方式，它只需于熟悉之框架下稍加随顺。

所有样本还经过之者工审核，过滤掉有明显AI感之图像，确保基准贴近确凿数据分布。

第一阶段为镜头切割：从一名庞大之内部者物视频库出发，用场景切割算法把长视频拆解成连续之单一镜头片段，确保每名片段实质连贯、没有跳切。

三、门控局部注意力：让声响与画面「对上口型」 A：此名机制分三步工。

研讨团队面对之不仅为技艺难题，还有三重现状困境：如何于让AI受到更多控制之同时不让生成品质降、如何于操练数据极度匮乏之情况下让模型学会办理四种模态之讯息、以及如何建立一套公平可靠之评测标准来衡量此类差事之表现。

于同时办理参考图像与音频之场景下，OmniShow于物品一致性、音视频齐步之Sync-C、视频美观度、画质、视觉品质与动作品质此六项指标上均居先对手，只于书契对齐一项上略低于HuMo-17B，但HuMo-17B之参数量为OmniShow之约1.38倍。

支持。

为之支撑上述操练计策，研讨团队构建之一套大规模之异构数据收集流水线，最终积攒之约百万量级之视频片段，累计时长约3500小时。

然而此样之「五合一」数据于现状中极难找到——任何一名机缘没达标，此条视频就要被丢弃。

互联网大会。

同时，为之适配前面新增之伪帧，研讨团队还对音频特征做之补零办理，确保伪帧位置不会意外地与某段音频产生过失之对应关系。

研讨团队发觉，与其引入全新之模块来办理参考图像与姿态，不如沿用此套已有之槽位机制，只为把它扩展一下。

实验结局印证之此名设计之优越性。

此相当于给模型施加之一名额外之压力：你须仔细记住参考图像里之每一名细节，因待会儿要考你。

还有一些工尝试把音频与参考图像结合起来，比如HuMo与HunyuanCustom，但此类法门忽视之姿态控制，而姿态对于展示者物如何拿之货品、如何做出特定手势至关重要——此些细节为纯书契描述根本说不清楚之。

姿态被放于最后引入，为为之防备模型过度依赖此名强督察信号——若过早引入，模型或会「偷懒」，完全靠之姿态信号来决定所有动作，而不去充分修习参考图像与音频所提供之讯息。

此样一来，于操练初期，音频模块之输出几乎被完全压制，模型仍然按照原来之方式运作；随之操练进行，门控向量之数值会逐渐增大，音频讯息之影响也逐渐渗透进来，整名历程平滑自，不会造成冲击。

实在来说，每一帧视频之特征，只被允许关注它所对应彼名光阴窗口内之5名音频特征，而不能去关注其他帧对应之音频。

研讨团队还专门进行之者工审核，过滤掉有明显AI感之图像，确保基准贴近确凿数据分布。

融合之后之模型展现出之一名令研讨团队惊喜之表象：即便还没有经过任何专门之「音频加参考图像」联手操练，此名模型就已能够自发地生成既敬重参考图像、又跟随音频节奏之视频。

与此相待，彼些专门做「音频驱动视频」之体系，比如Hallo3与OmniAvatar，虽能让嘴唇跟上声响，但它们通常只接受一张初始帧图片作为参考，无法同时办理者物图片与货品图片两名参考对象。

研讨团队将两名专项模型之权重进行加权平均，实在做法为承袭A2V模型中之音频模块（此为新增之架构，R2V模型里没有），然后对两名模型共有之其余参数按照0.6（A2V）与0.4（R2V）之比例进行线性插值。

二、一统通道：让四路信号不打架地进入同一扇门第三阶段为针对不同子差事之专项办理。

于「解耦操练阶段」，研讨团队分别操练之一名专注于参考图像到视频差事之R2V模型，以及一名专注于音频驱动视频差事之A2V模型。

此种精确之对应关系，为实现清晰口型齐步之枢纽。

数据构建历程严格遵循之几名原则。

第二名层次为精确之帧级对齐。

当然，此项研讨也坦承之一些局限性。

为之模拟确凿之生成场景，物品参考图不为直接从视频中截取，而为用Google之Nano Banana模型对原始物品进行纹理与色彩之修改，并添加更多细节，形成与原物有所区别但同类别之参考图。

所有测试一统于5秒时长、720p分辨率之竖屏视频上进行，以确保与只支短片生成之基准法门做公平对比。

八、深挖一步：消融实验告诉吾等什么去掉参考重修损失之后，者脸相似度从0.707降到0.678，物品一致性评分也有所降，证验此名额外之重修约束对保真度有实质贡献。

把通道注入方式换成令牌拼接之后，者脸相似度进一步降到0.601，物品一致性也更低，印证之通道注入对于差事一统模型之优越性。

与此同时，姿态骨架图被渲染成RGB格式之视频，同样经过VAE编码后，通过通道拼接之方式与原始视频特征合并于一起。

此说明音频讯息主要于双流注意力块中发挥作用。

前者使用专门之参考图像视频数据集操练，不包含任何音频模块；后者使用音频视频数据集操练，按照常见范式将第一帧图像作为附加机缘。

视频素材从内部视频库中精选，要求时长超过4秒、包含清晰之者物物品交互、并且于者物属性（性别、年龄、族裔）与物品类别（日用品、器物等）上尽量多样。

权重比例之选择依据一名重要观察：音频齐步依赖于精细之时序对齐，对权重扰动极为敏感，因此更多地保留A2V模型之权重；而视觉外观保真度依赖之为全局特征，对权重扰动之容忍度更高，因此R2V模型之权重可占据较小比例。

研讨团队还专门测试之只经过音频视频操练阶段之OmniShow-A2V模型，于一名叫做EMTD之专门音频驱动视频基准上，此名模型之Sync-C得分达到6.49，超过之MultiTalk之6.34，成为当前最优结局之一，验证之门控局部上下文注意力机制于单独之音频视频差事上也有角逐力。

制度自信。

对此项研讨感兴趣之读者，可通过arXiv编号2604.11804v1找到完整论文，也可访问论文中提到之课题主页查看视频演示。

此套计策之思路可用一名日常场景来体谅：设想你想学会同时用左手弹钢琴之旋律声部、右手弹与声声部，还要用脚踩踏板。

设想你正为一款新上市之护肤品拍摄一条推广视频。

研讨团队把此类需求总括为一名新之差事类型，称之为「者物与物体交互视频生成」，英文缩写为HOIVG。

音频则通过两阶段合成：先用GPT-4o生成一段介绍宗旨物品之口播书契，再由GPT-4o剖析者物参考图中之性别与年龄，最后用ElevenLabs合成匹配音色之语音。

此名决策使得整名模型因音频模块而增之参数量仅为约3亿，整体模型规模从120亿增到约123亿，增幅仅约2.5%。

研讨团队将OmniShow与六名主流法门进行之对比，涵盖之不同规模之模型变体。

稍有偏差，者眼立刻能察觉到彼种「配音奇怪」之不适感。

当一名新之模块（音频注意力层）被随机初始化并插入一名已操练好之大模型时，初期此名新模块之输出为噪声，直接加入到模型之特征流里会严重干扰原有之生成本领，导致操练崩溃或者花甚长光阴才能复原稳固。

另外，AnchorCrafter、DreamActor-H1与HunyuanVideo-HOMA等针对者物与物体交互场景之专用法门虽更贴近实际需求，但它们要求额外提供物体遮罩、轨迹点或身体网格模板等苛刻之输入机缘，用门槛甚高，而且同样不支音频驱动。

Design Patterns。

此两名发觉，对于整名视频生成领域之后续研讨皆有必之法门论启示身价。

首先用滑动窗口把每帧对应时刻前后之音频特征聚合于一起，让模型体谅发音之前后文关系。

反分裂国家法。

办理参考图像与姿态信号之预案，研讨团队称之为「一统通道式机缘注入」。

感兴趣之读者可通过此一编号于arXiv平台上查阅完整论文。

于RAP2V此名最完整之四路输入场景下，目前没有其他法门支此种设置，因此研讨团队构造之一名级联基准法门（先用VACE生成带姿态之视频，再用LatentSync做口型后办理）来做对比。

先用A2V数据操练再切换之预案则参考一致性最弱。

OmniShow之操练历程正为遵循此名逻辑。

换句话说，整名领域就像一支乐队，每名乐手只练好之自己之彼一段，但没有者能把整首曲子完整地演奏下来。

随后，此名融合后之模型先于完整之参考图像加音频数据集上进行联手微调，进一步提升自度与美学品质；最后才于一名高品质之包含姿态讯息之子集上引入姿态机缘，成最终之全模态一统。

OmniShow要做之，为于不打坏此台机器原有精密架构之先决下，给它安装上三套新之「感知肢体」，让它同时能听音频、识姿态、认参考图像。

于为彼等做出之一名精简之决策：只于双流注意力块中插入音频注意力层，而跳过单流注意力块。

去掉自随顺门控之后，视频美观度指标降，验证之门控机制对操练稳固性之守护作用。

Computational Finance。

设想你用某名现有器物生成之视频，你或会遇到此样之结局：者物脸为对之，但货品被贴于之身上一名奇怪之位置，大小也不对劲，像为被粗暴地PS上去之；或者嘴唇确实于动，但身体完全僵于彼里，像一名被施之定身术之蜡像；又或者动作甚流畅，但货品换之名色彩或形状，完全认不出来之。

结局显示，于者脸相似度、物体一致性与视频美观度等多名指标上，OmniShow之通道注入法门皆取得之更好之成绩。

于用参考图像与姿态序列生成视频之场景下，OmniShow于物品一致性、正确枢纽点比例与画质三项上居先，但于者脸相似度上低于VACE，此一点研讨团队解释为：于严格之姿态约束下，视角与面部形态会生较大变化，导致基于者脸检测之相似度评分天然偏低，并不能准确反映实际生成品质。

最后，于此部分高品质数据之根基上，用DWPose器物逐帧提取者体姿态骨架，形成带姿态标注之最终微调数据集。

第二阶段为多维度过滤：对每名片段从视频分辨率、画面美观度、运动强度、以及水印书契之密集程度等多名维度进行自动评分，去掉低品质样本。

此就像一名已熟悉接受信件之邮筒，不需拆掉重修，只需稍微扩一下投信口，就能同时接收两种规格之信封。

更慧之法门为先专心练好右手旋律，再专心练好左手与声，然后再把两手合于一起练，最后才加入踏板之练习。

第三名层次为自随顺门控。

对于同时包含参考图像与音频之高品质数据，则叠加上述所有标准，并加入者工专家筛选环节，对每条视频进行独力审查。

现有之各类评测集要么只关注书契与姿态、要么只关注书契与图像，没有一名能够同时估量书契、者物图像、物品图像、音频、姿态此五类输入协同效果之基准。

此为一名极其巧妙之操练稳固性设计。

通过分别从不同来源提取姿态、物品参考图与者物参考图，还可合成出一段全新之、者物与物品皆来自不同原始素材之融合视频，实现「视频重混」之创作效果。

上一篇：沪产者形机器者员工进厂“转正” 破解“招工难” 下一篇：托起百姓福活情满华夏年丨增进民生福祉

港中大与字节跳动：AI视频实现声响动作与货品识别多模态协同 - 朴茨茅斯

相关推荐