国产Sora来了,4K 视频破纪录60帧15秒! 海外短剧市场已经煽动了500亿美元
目前,Sora已经完全升温了AI视频场景。
不但Video立即推出了公测,Pika也立即推出了Lipeo。 Sync功能,用于同步视频的口型,并能根据内容自动生成声音的声音效果。
另一方面,LTX推出了集视频生成、剪辑、剪辑、旁白于一体的电影制作平台。
而且国内的步伐也紧随其后。
在超讯通讯
这是它背后的工具,Etna 不但实现了破纪录 15 秒视频长度,还实现了 60 FPS 超高帧率,大大提高了视频的流畅度和观看体验。
相比之下,其他的 AI 最高视频只能达到每一秒。 30 帧。
无论是水母、鲸鱼、章鱼、螃蟹、斑马、火烈鸟、冲浪者、潜艇员还是滑雪者,他们都实现了高清细节、连贯动作甚至超高分辨率。
这种美丽而优雅的维多利亚冠鸽,头冠上的羽毛花边清晰可见,眼睛栩栩如生,羽毛的纹理和色彩都被细腻地还原。
夜晚的女孩迷人地看着镜头。
Etna的出现意味着国内现有文森特视频技术的重大突破。 现有的短视频创作模式很可能被彻底颠覆!
一大波4K AI视频来袭!
这波埃特纳火山示威让我们充分释放了想象力,还原了我们心中最奇怪的想象。
维多利亚冠鸽向镜头炫耀自己的羽毛,头上闪耀着五颜六色的皇冠。
一位戴着墨镜的酷女孩站在街上。
漂亮的姑娘,长长的金发,身着比基尼站在海浪中。
一个女孩走过黑暗的丛林,只留下一个神秘的身影。
在喝咖啡的时候,两艘海盗船突然在一条狭窄的道路上相遇。
阳光透过热带雨林斑驳的影子照射进来。
魔法森林里的精灵,被发光植物包围着。
两个哈士奇高兴地戴上泳镜,潜入海底打卡,开心地对着镜头微笑,摆出合照。 右边的人眼里闪过一丝骄傲。
这只小熊猫居然出现在鱼缸里,整个画面形成了一个引人注目的生态奇观。
怎样重现Sora?
从上图可以看出,与市场上现有的模型相比,Etna在时长、清晰度高、细节丰富生动、语义理解能力强等方面保持着巨大的优势。
为什么七火山可以成为国内第一家重现索拉的公司?
Sora的关键创新在于能够灵活地处理不同维度的数据:
1. 时空压缩器将原始视频转换为潜在空间。
2. 视觉(ViT)该模型将处理已分割的潜在表示,并在去除噪声后输出潜在表示。
3. 类似于 CLIP 根据用户指令(已通过大型语言模型增强)和潜在视觉提示,模型的系统指导扩散模型生成具有特定风格或主题的视频。 经多次去噪处理后,可以得到生成视频的潜在表达,然后通过相应的解码器映射回像素空间。
埃特纳火山模型基于相关领域的技术积累,迅速抓住了索拉的精髓,并引入了许多创新。
创新的技术结构
因为视频的时空特性,DiT在这一领域的应用面临的主要挑战是:
(1)如何将视频压缩到空间和时间的潜在空间,实现高效的噪音去除;
如何转换和输入压缩后的潜在空间;
如何处理远距离的时空依赖,确保内容的一致性。
为了达到这个目的,Etna模型已经在主要网络上建立起来,同时在更大的数据集上进行了类似Sora的模型。 试验与适应结构。
为了达到这个目的,Etna模型已经在主要网络上建立起来,同时在更大的数据集上进行了类似Sora的模型。 试验与适应结构。
Etna结合了模型和模型的优点,通过这种结合,形成了一种高效、先进的新模型架构。
它不但提高了模型生成的效率,而且保证了生成内容的高质量和一致性。
理解空间和时间的能力
第二,Etna模型将时空卷积层和注意层插入到语言模型和图像模型中,可以处理视频数据,即考虑图像序列中的时间连续性。
这就是说埃特纳火山有一定的时间和空间理解能力,所以它能够理解和生成具有时间维度的视频内容。
优化视频时长和帧率
Etna模型支持生成8-15秒的视频,而且视频非常流畅,最多可以达到每秒60帧。
Etna生成的视频不仅内容丰富,而且视觉上流畅自然,大大提升了用户的观看体验。
深刻理解语义的能力
对于指导文本转视频模型的制作,文本提示非常重要,既有视觉冲击,又能准确满足用户创作视频的需要。
例如,提示包括人物的动作、设定、人物的外貌,甚至是预期的情感和场景气氛。
而且这种精心制作的文字提示,也保证了Sora生成的视频与预期的视觉效果十分一致。
无独有偶,Etna 模型背后的技术结构也特别强调对输入文本的深刻理解。
借鉴Sora模型的成功经验,Etna可以更准确地捕捉文本信息并将其转换为视频内容,使生成的视频不仅忠于文本的初衷,而且丰富了文本中微妙的情感和场景。文本。
例如,冠鸽的开头是:
这张维多利亚冠鸽的特写照片展示了它引人注目的蓝色羽毛和红色胸部。 它的冠状是由精致的蕾丝羽毛制成的,它的眼睛是醒目的红色。 鸟头微微向一侧倾斜,给人一种皇帝威严的印象。 背景变得模糊,将人们的注意力吸引到鸟儿引人注目的外表上。
可以看出,埃特纳火山生成的冠鸽不仅对鸟头非常忠诚,而且有一种鸟头微微点头的感觉,有一种帝王威严的感觉。 同时也显示出其细腻的控制能力。
清晰度高,细节丰富
相对于早期的视频生成模型,Etna 显著提高了视频清晰度和图像细节。
这就意味着埃特纳火山可以制作出高质量的视频内容,每一个场景的细节都得到了精细的呈现,给观众带来了身临其境的视觉体验。
高质量的训练数据
最终,Etna模型特别注重训练数据的质量,以视频代替静态图片为主要训练材料,并通过高效的处理方法优化学习效率。
常规模型主要采用静态图像作为训练数据,而Etna模型则更符合其生成目标的性质。
Etna模型通过优化补丁处理方法,可以更有效地理解和模拟训练过程中的动态场景,从而提高最终视频的自然性和真实性。
具体而言,Etna模型对大型视频数据集进行了充分的训练,采用了包括LDS大规模训练、HPO超参数优化和DPO微调在内的先进深度学习技术策略,确保了模型强大的性能和生成能力。
改变整个产业链的短视频
什么是2024年最热门的事? 这部短剧无疑是一个备受好评的答案。
对于这一点,拥有多年技术积累的七火山也进行了全链路布局。
如今,人们真正感受到了AI多模式的巨大潜力,奇火山也成为了头部平台的AI内容战略合作伙伴。
其产品形式兼具toB和toC模式,集成AI系统能力,全面进入AI短剧制作领域。
除埃特纳火山、熔岩、布罗莫火山外,七座火山的AI多模态布局还包括火山。
在这些系统中,Lava是一个短剧AI翻译系统,可以完成人物变脸、对话配音、字幕翻译。
这是一个AI短剧海外发行平台。
汇集AI短剧内容,与平台共同探索海外输出内容的新模式。
图像超级分析工具Bromo。 它的图像能达到10K的超高分辨率,符合商业海报标准。
向左或向右滑动即可查看。
AI视频将颠覆整个行业
现在,七火山已经获得了上市公司的超讯通信战略投资,成为单一大股东,持有30%的股份。
自去年年初以来,超讯通信一直在寻找AIGC垂直品类的尖端企业进行布局。 联系了一系列AI多模式和AIAPP公司后,决定投资七火山。 所以,七火山山在计算能力方面也能得到充分的支持。
这部短片风靡国内外的那一年,《七火山》也受到了几家大公司的青睐。
第一,奇火山与小米达成AI视频合作,充分发挥其丰富的短视频创作、海外短剧本地化、剧本创作、视频优化等方面的经验和优势。
另外,奇火山、快手也在海外进行了合作。 它们将利用前沿的AI技术对内容进行本地化,为海外用户带来丰富多彩的短剧。
近年来,随着短视频、Reels等平台的兴起,短视频迅速普及,成为当今数字生态系统中最受欢迎、最重要的内容之一。
无论是在快节奏的现代生活中容易吸引人们注意力的优势,还是病毒传播的可能性,其影响力日益增强。
很多业内人士都认识到,短视频是网络内容的未来。 在这些人中,短剧更是创造了一个又一个爆款奇迹。 今年的市场规模将超过500亿。
去年,中国的海外小品在海外“疯狂”,成为掘金队的新蓝海赛道。 根据国海证券的调查,短剧海外输出的长期潜力可以达到360亿美元。
从这个角度来看,七火山绝对是一个前景无限的潜力股。
参考:免责声明:本站所有信息均来源于互联网搜集,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻删除。