竞猜大厅-甲级职业联赛-英雄联盟官方网站-腾讯游戏那么实质发扬能否合适描画?底下蚁集实例逐个拆解-竞猜大厅-甲级职业联赛-英雄联盟官方网站-腾讯游戏
腾讯版 Sora竞猜大厅-甲级职业联赛-英雄联盟官方网站-腾讯游戏,发布即开源!
130 亿参数,成为现时参数目最大的开源视频生成模子。模子权重、推理代码、模子算法等全部上传 GitHub 与 Hugging Face,少许没藏着。
实质遵守如何呢?
不瞒你们说,我果真看见一只大熊猫,在跳广场舞、吃暖锅、打麻将,请看 VCR:
到底是来自四川的猫!
现时该模子已上线腾讯元宝 APP,用户可在 AI 欺诈中的" AI 视频"板块肯求试用。
API 同步敞开测试,拓荒者可通过腾讯云接入。
腾讯混元视频生成主打四大特色:
超写实画质,模子生成的视频内容具备高清质感、信得过感,可用于工业级生意场景举例告白宣传、创意视频生成等生意欺诈。
高语义一致,用户可以进行深奥的描画,举例生成主体的细节,东谈主物宗旨的组合等。模子可以准确的抒发出文本的内容。
明白画面灵通,可生成大幅度的合理明白,明白镜头灵通、合适物理限定,不易变形。
原生镜头颐养,模子原生具备自动生成多视角同主体的镜头切换画面,增强画面叙事感。
那么实质发扬能否合适描画?底下蚁集实例逐个拆解。
领先是冲浪题材,波及到画面大幅度明白,水的物理模拟等难点。
教唆词中还迥殊指定了录像头的明白,腾讯混元发扬出灵通运镜的才气,仅仅在"终末定格在…"这个条目上稍显不及。
教唆词:超大波澜,冲浪者在浪花上起跳,完成空中转体。照相机从波澜里面穿越而出,捕捉阳光透过海水的已而。水花在空中造成完满曲线,冲浪板划过水面留住轨迹。终末定格在冲浪者穿越水帘的完满已而。
镜子题材,纯属模子对光影的相识,以及镜子表里主体明白是否能保捏一致。
教唆词中的白床单位素又加大了难度,波及到的布料模拟,也合适物理限定。
不外东谈主们设想中的阴灵一般莫得脚,AI 似乎没学到,又或者是舞蹈波及大量腿部作为,产生了突破。
穿戴白床单的阴灵靠近着镜子。镜子中可以看到阴灵的倒影。阴灵位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料遮拦的产品。阁楼的场景照耀在镜子中。阴灵在镜子前舞蹈。电影氛围,电影打光。
接下来是腾讯混元视频生成主推的功能之一,在画面主角保捏不变的情况下自动切镜头,据了解是业界大部分模子所不具备的才气。
一位中国好意思女穿戴汉服,头发飞舞,布景是伦敦,然后镜头切换到特写镜头。
再来一个玄虚型的复杂教唆词,对主角外貌、作为、环境王人有深奥描画,画面中还出现其他东谈主物,腾讯混元发扬也可以。
特写镜头拍摄的是一位 60 多岁、留着髯毛的灰发男人,他坐在巴黎的一家咖啡馆里,千里念念着天地的历史,他的眼睛聚焦在画外来往的东谈主们身上,而他我方则基本一动不动地坐着,他身穿羊毛大衣西装外衣,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有素养仪态,片尾他闪现一点奥秘的闭嘴含笑,仿佛找到了生命之谜的谜底,灯光迥殊具有电影感,金色的灯光,布景是巴黎的街谈和城市,景深,35 毫米电影胶片。
终末附上来自官方的写 prompt 小 tips:
用法 1:教唆词 = 主体 + 场景 + 明白
用法 2:教唆词 = 主体 ( 主体描画 ) + 场景 ( 场景描画 ) + 明白 ( 明白描画 ) + ( 镜头谈话 ) + ( 氛围描画 ) + ( 作风抒发 )
用法 3:教唆词 = 主体 + 场景 + 明白 + ( 作风抒发 ) + ( 氛围描画 ) + ( 运镜花式 ) + ( 明后 ) + ( 景别 )
多镜头生成:教唆词 = [ 场景 1 ] + 镜头切换到 [ 场景 2 ]
两个作为生成:教唆词 = [ 主体描画 ] + [ 作为描画 ] + [ 然后、过了一会等明白词 ] + [ 作为描画 2 ]
怎样样,你学会了吗?
更多腾讯混元生成的视频,以及与 Sora 同教唆词 PK,还可以望望。
看完遵守,再望望本事层面有哪些亮点。
领先从官方评估畛域看,混元视频生成模子在文本视频一致性、明白质地和画面质地多个维度遵守进步。
然后从现时公开尊府看,腾讯混元视频生成模子还有三个亮点。
1、文本编码器部分,照旧适配多模态大模子
当下行业中多数视觉生成模子的文本编码器,适配的主如果上一代谈话模子,如 OpenAI 的 CLIP 和谷歌 T5 及各式变种。
腾讯在开源图像生成模子 Hunyuan-DiT 中适配的是 T5 和 CLIP 的蚁集,此次更进一步,径直升级到了新一代多模态大谈话模子(Multimodal Large Language Model)。
由此八成获取更重大的语义扈从才气,体当今八成更好地应酬画面中存在的多个主体,以及完成指示中更多的细节。
2、视觉编码器部分,复古搀和图片 / 视频查考,提高压缩重建性能
视频生成模子中的视觉编码器,在压缩图片 / 视频数据,保留细节信息方面起着要道作用。
混元团队自研了 3D 视觉编码器复古搀和图片 / 视频查考,同期优化了编码器查考算法,显耀提高了编码器在快速驱动、纹理细节上的压缩重建性能,使得视频生成模子在细节发扬上,迥殊是常人脸、高速镜头等场景有显然提高。
3、重新到尾用 full attention(全贯注力)的机制,没灵验时空模块,提高画面灵通度。
混元视频生成模子选拔调处的全贯注力机制,使得每帧视频的延续更为灵通,并能终了主体一致的多视角镜头切换。
与"分离的时空贯注力机制"分手关遏制频中的空间特征和时分特征,比较之下,全贯注力机制则更像一个纯视频模子,发扬出更优胜的遵守。
更多细节,可以参见完整本事线路~
官网:https://aivideo.hunyuan.tencent.com
代码:https://github.com/Tencent/HunyuanVideo
模子:https://huggingface.co/tencent/HunyuanVideo
本事线路:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf
— 完 —
「MEET2025 智能明天大会」
火热报名中
定档 12 月 11 日!李开复博士、周志华素养、智源筹议院王仲远院长王人来量子位MEET2025 智能明天大会探讨行业破局之谈了!
,不雅众报名通谈已开启!接待来到 MEET 智能明天大会,期待与您一谈料到智能科技新明天
傍边滑动检验最新嘉宾声势
点这里� � 慈祥我,紧记标星哦~
一键三连「点赞」、「共享」和「在看」
科技前沿进展日日再会 ~
上一篇:竞猜大厅真人本次股票上市类型为股权激发股份;股票认购容颜为网下-竞猜大厅-甲级职业联赛-英雄联盟官方网站-腾讯游戏 下一篇:竞猜大厅这篇著作黎天鸿博士后是论文的一作-竞猜大厅-甲级职业联赛-英雄联盟官方网站-腾讯游戏