美国人工智能初创公司OpenAI于今日宣布,将从周四太平洋时间早晨10点(北京时间周五凌晨2点)开始,开启为期12天的创新发布周期。公司在推文中写道:“12天、12场直播,一堆大大小小的新东西,OpenAI的12天活动期从明天开始。”
OpenAI的首席执行官山姆·奥特曼(Sam Altman)透露,这次活动将以每日一场直播的形式展开,每个工作日发布一个新产品或样品。据科技媒体 The Verge 援引知情人士透露,这些新产品中包含用户们期待已久的文字转视频工具 Sora 和一款新的推理模型。前 OpenAI 首席技术官 Mira Murati 在 3 月份告诉 《华尔街日报》 ,Sora 将于今年年底上市。
除此之外,OpenAI 可能会给 ChatGPT 语音模式增加一个「圣诞老人」语音,已经有用户在代码里发现语音模式的按钮可以变成雪花的形状。
图片来源于山姆·奥特曼 X官方
▍核心亮点:可能发布的产品及功能
根据熟悉OpenAI内部计划的消息人士及外界推测,本次活动可能推出以下产品和功能:
l Sora:文本转视频工具,支持高质量视频生成,为创作者带来新可能性。
l O1推理模型:增强版推理模型,或成为GPT-4的继任者。
l 新图像模型:可能替代现有的DALL-E技术,进一步提升图像生成能力。
l 语音模式增强:包括高品质语音合成和更自然的语音交互功能。
l 开发者工具升级:通过改进API接口,拓展AI在软件开发中的应用。
l 全新代理框架:“操作员”框架,或支持用户在日常操作中使用AI进行自动化管理。
图片来源于网络
▍Sora发布:开创AI内容创作新范式
综合 OpenAI 的创新历史和用户反馈,此次活动的亮点之一就是Sora的推出。这款文本转视频工具此前已进入Alpha测试阶段,并受到数百名艺术家的试用。尽管Sora此前因测试过程中的版权争议而受到一些批评,其正式发布仍备受关注。
Sora通过结合图像、音频和动态场景的生成能力,Sora为艺术创作者、教育机构和影视制作团队提供了全新的工具,可生成长达1分钟的高清视频,将显著提升了内容制作的效率与创意空间。
▍更多生成式AI视频工具:是否准备好
自从今年SORA发布之后,就在生成式AI视频赛道产生了很大的波澜,甚至不断有AI视频工具在发布新功能时要和SORA产生关联。Sora在生成长度、多样性和技术创新方面具有显著优势,促使其他工具之后在特定功能和应用场景中不断增加自己独特的优势来迎接SORA带来的冲击。
目前主流的AI视频工具:
1. 谷歌 Veo
谷歌于12月3日推出了Veo,宣称是谷歌版“SORA”,官方称其是谷歌最强大的视频生成模型,生成的视频更精准、更逼真。从放出的视频来看,图生视频和文生视频的效果都很高清并且细节上处理的很细致。
图片来源于谷歌
2. Meta Movie Gen
Meta于10月5日发布了Movie Gen,这是一款AI视频生成工具,号称META版Sora,Sora有的它都有,可创建不同宽高比的高清长视频,支持1080p、16秒、每秒16帧。Sora没有的它还有,能生成配套的背景音乐和音效、根据文本指令编辑视频,以及根据用户上传的图像生成个性化视频。Meta表示,这是“迄今为止最先进的媒体基础模型(Media Foundation Models)”。只需一句“把灯笼变成飞向空中的泡泡”,就能替换视频中的物体,同时透明的泡泡正确反射了背景环境。与Sora只有演示和官网博客不同,Meta在92页的论文中把架构、训练细节都公开了。
3. Adobe Firefly Video Model
Adobe于10月宣布即将发布其生成式AI视频创作工具Firefly Video Model。将与今年早些时候推出的OpenAI的Sora竞争,该工具可根据文本描述和静态图像生成短视频片段,并提供可定制的摄像机控制。Adobe强调,Firefly经过训练,可避免版权问题。
虽然Adobe目前没有宣布任何正式客户,但百事可乐旗下的佳得乐公司将在一个网站上使用它的图像生成模型为客户定制瓶子,美泰公司也一直在使用Adobe工具辅助设计其芭比娃娃系列的包装。
4. Runway Gen-3
Runway的Gen-3模型可以根据文本、图像或视频提示生成短视频片段,支持多种风格和场景。该模型自主学习3D动态,能够生成照片级真实的视频,特别适用于艺术家的创作过程。是目前用户使用最广泛的主流AI工具,目前Runway还推出相机控制(Camera Control)功能,现在视频能以任意角度运镜,模拟像人拍摄一样的手法
5. Pika
Pika Labs推出的Pika工具允许用户通过文本或图像提示生成3D动画、动漫、卡通或电影风格的视频。Pika 1.5版本引入了"Pikaffects"特效库,增强了视频内容的专业质感和创意效果。
6. PixVerse
爱诗科技的PixVerse支持文本生成视频、图片转视频等功能,用户可以快速制作短视频片段。PixVerse V2版本采用Diffusion+Transformer架构,提升了视频的分辨率、细节和动作幅度。
7. 字节跳动的即梦AI
字节跳动的即梦AI应用能够根据文本提示生成视频,提供订阅服务,用户每月可生成约168个AI视频。该应用由字节跳动旗下的Faceu Technology开发,已在多个平台上线。但目前在写实画面上还是相对弱一些还不能和RUNWAY的效果相比。
8. 智谱AI的清影
智谱AI的视频模型清影不但支持生成5秒和10秒的视频,分辨率可达768P,并支持16帧生成能力。背后的CogVideoX模型更懂复杂prompt,能够保持人物等主体的连贯性,效果更逼真。该模型在11月的新版本还集成了CogSound音效模型,可生成与画面匹配的音效。如此一来,AI已经具备了制作像上面这样微电影(或短视频)的全要素,而且在操作上也是非常简单。该功能在SORA上甚至还没有实现。
9. Luma AI的Dream Machine
Luma AI在今天发布了最新的视频生成模型Luma Ray 2,同样和SORA一样最高支持生成1分钟的一致性视频,营销点也是新LUMA版SORA,生成速度只需10秒。本次Luma AI的新模型,已被亚马逊Amazon Bedrock平台抢先集成。从效果上看也是非常震撼,嘴唇的纹路、头发丝的质感、一根根睫毛、甚至是皮肤表皮细胞都很清晰。
图片来源于LUMA X官方
10. Stable Diffusion
Stable Diffusion是Stability AI推出的开源文本生成图像模型,广泛应用于艺术创作和设计领域。通过扩散模型,Stable Diffusion能够生成高质量、风格多样的图像,但在视频生成SVD目前能力还比较有限,主要还是在图片生成和控制领域。
11. VIDO
VIDO是生数科技推出的文生视频模型,支持文本生成视频和图片转视频功能,提供写实和动画两种风格。VIDO采用Diffusion Transformer架构,能够生成4秒至8秒的视频片段,生成速度较快,界面设计具有电影放映机的风格。
其在11月增加了多主体一致性的功能,这个功能支持上传1~3张参照,来实现对多主体的控制。可以根据明确地点、人物、行为、形象,就能实现精准控制和编辑。未来“只要上传一张角色图+一张环境图”就可以创作连续的视频故事。
图片来源于VIDU X官方
12. 腾讯混元大模型
腾讯混元大模型是腾讯推出的多模态AI模型,其在12月3日开源了所有功能并宣称为腾讯版SORA,130亿参数,成为目前参数量最大的开源视频生成模型。官方描述其有超写实画质,模型生成的视频内容具备高清质感、真实感,可用于工业级商业场景例如广告宣传、创意视频生成等商业应用。目前用户真实反馈还不是很多。
13. 可灵
可灵是快手推出的文生视频大模型,能够生成大幅度合理运动,模拟物理世界特性,生成的视频分辨率达1080p,时长最长可达2分钟。并在最新的1.5版本增加了运动笔刷功能和RUNWAY的笔刷功能类似。可灵采用类似Sora的DiT结构,对模型中的隐空间编/解码、时序建模等模块进行升维,实现部分绝对真实世界观的数据支持。是目前国内用户反馈相对比较高的AI视频生成工具。
图片来源:量子位
在激烈的行业竞争背景下,不难看出大部分公司都在更新产品的功能来突出优势增加产品力,但似乎很多公司被束缚在SORA的框架里,更新功能也要和SORA产生关联来证明自己的产品竞争力,这次SORA似乎真的要来了,是不是可以真实的PK一下了。
来源:第一电动网
作者:永娟
免责声明:本站登载此文仅出于信息分享,并不意味着赞同其观点及其描述,不承担侵权行为的连带责任。如涉及版权等问题,请与我们联系(联系QQ:26887486),我们将及时删除处理。
本文链接:https://www.yunlianauto.com/article/51/50151.html