TikTok背后的科技巨头字节跳动(ByteDance)刚刚在人工智能视频生成军备竞赛中发起了雷鸣般的攻势,该公司的云部门推出了两款视频生成器:PixelDance和Seaweed。
上周在深圳的一次活动中发布的发电机仍处于内测阶段,仅对有限数量的用户可用。然而,YouTuber Tim Simmons声称,这些模型可能会在下个月公开,具体取决于美国大选的结果,他专注于为内容创作者提供人工智能工具。
他在一份声明中说:“我确实和(一位匿名消息人士)谈过这件事,我能说的最好的话就是,在11月之后不要屏住呼吸,因为……政治。” 视频回顾 的模型。
演示视频首先在一个中国网站上播放, 伟鑫 .
PixelDance专注于人工智能驱动的角色动画,生成10秒的视频,展现出惊人逼真的人类动作。该模型提供了流畅、自然的表现——角色行走、转弯、捡起物体,并以以前认为人工智能不可能的方式与环境互动。
但PixelDance的真正魔力在于它的多镜头功能。该模型在不同的相机角度下保持了角色外观、比例和场景细节的显著一致性。该功能解决了人工智能视频生成中的一个主要难题,即保持镜头之间的视觉连贯性长期以来一直是一个难题。这就是为什么大多数最先进的视频生成器都专注于在一个视频序列中生成流体运动。
PixelDance的相机控制也与Pika、Runway的Gen 3或Kling等其他主要型号相当,这使其成为人工智能电影摄影的一个很好的补充,几乎没有妥协。通过一个简单的文本提示,用户可以编排复杂的相机动作,如360度平移、缩放、跟踪镜头等。
例如,以下视频的提示大致翻译为: 在黑白照片中,相机围绕着戴墨镜的女人拍摄,从她的侧面移动到前面,最后聚焦在女人脸上的特写镜头上。
在其他型号中,相机控制是通过UI界面进行的,带有按钮和滑块。
海藻,PixelDance的兄弟姐妹,在环境生成和一致性方面突破了极限。该模型将视频生成时间延长到整整30秒,并可能延长到近2分钟的连续镜头。
字节跳动的时机非常具有战略性。自2月份OpenAI的Sora宣布以来,人工智能视频生成领域一直处于兴奋状态。Sora声称能够从文本提示中生成长达60秒的高质量视频,这在科技界引起了轩然大波。然而,Sora尚未向公众发布,其他公司正在竞相填补这一空白。
另一家中国科技巨头快手(Kuaishou)在6月推出了克林人工智能(克林AI),该模型在人工智能视频质量方面排名第一。集成到快手的视频编辑应用程序中, Kling AI 还可以生成两分钟的视频,甚至超过了Sora的能力。该工具迅速积累了260多万用户,他们总共生成了2700万个视频。然而,它产生了单镜头拍摄,在质量方面与Bytedance的产品相当,但在功能方面则不那么通用。
周二,Pika Labs——生成视频领域的另一个O.G.——发布了新的Pika 1.5模型,增强了其已经很好并被广泛采用的视频生成器的功能。Pika Labs在一条官方推文中表示:“随着更逼真的动作、大屏幕拍摄和令人兴奋的派克效应打破了物理定律,派克比以往任何时候都更受欢迎。”
Pika 1.5可用于测试 Pika官方网站 社交媒体上已经充斥着视频,展示皮卡如何通过压碎和爆炸人和物体来疯狂地改变场景,或者切开它们来展示里面的虚拟蛋糕。
字节跳动基于专有的文档图像转换器(DiT)架构,在豆瓣系列基础模型上构建了最新的视频应用程序。据信,它们与Sora的技术有相似之处。该公司声称已经为商业应用优化了DiT,这可能会降低人工智能视频创作的成本门槛。
豆瓣AI家族自5月推出以来的爆炸性增长突显了这些模型的潜力。每日代币处理量从1200亿飙升至1.3万亿,反映出使用量增长了十倍。据报道,豆瓣现在每天处理超过5000万张图片和85万小时的语音 Kr亚洲 .
字节跳动激进的定价策略推动了这一增长。自5月以来,该公司 大幅削减成本 每1000个代币的价格跌至几分之一,引发了阿里巴巴和腾讯等主要参与者之间的激烈价格战。
显然,字节跳动的战略——在TikTok上大量依赖人工智能生成算法——正在取得成效。TikTok及其中文版抖音一直是 增长最快的社交媒体平台 近年来,它们被一家中国科技公司拥有,这一事实已经 关于 西方国家。
目前尚不清楚字节跳动是否会将其生成式人工智能模型整合到其应用程序中——类似于Meta将其基于Llama的LLM和生成器整合到Instagram和WhatsApp中——更不确定的是,一旦这些模型公开发布,美国公民是否可以访问它们。
编辑人 安德鲁·海沃德
微信里点“发现”,扫一下二维码便可将本篇文章分享至朋友圈
发布者:币下载 转转请注明出处:https://www.paipaipay.cn/348095.html