作者:Cheyenne Dong

上周,快手在世界人工智能大会(WAIC)上,向公众展示了其先进的文本到视频生成模型——可灵AI。该模型不仅能够生成长达10秒的视频,还带来了一系列令人瞩目的新功能。在WAIC现场,观众纷纷排队体验这款目前仅限受邀用户使用的Sora工具,用户只需输入简单的文本提示,如”熊猫吃三文鱼”或”蒙娜丽莎戴眼镜”,即可生成视频。

作为中国短视频平台抖音的主要竞争者,快手在2023年推出了其AI战略。首席执行官程一笑强调,生成式AI为内容平台带来了”非常丰富的业务场景组合和巨大的价值潜力”。快手正致力于通过一系列自研大模型,包括语言模型KuaiYii、图像处理模型Kolors以及视频中心模型Kling,以期在与字节跳动的抖音和TikTok的竞争中获得优势。

快手高级副总裁贾昆在WAIC论坛上透露,已有超过50万用户申请参与可灵AI的测试,迄今为止生成的视频数量已突破700万大关。Sora工具的受欢迎程度之高,以至于在X上,可以看到用英文发布的帖子,教授其他地区的用户如何申请使用可灵AI。

这些由AI生成的视频迅速在中国互联网上走红,人们利用可灵AI创作了一系列历史人物与现代场景结合的有趣片段,同时也催生了众多表情包。其中,一段以《还珠格格》中的经典角色容嬷嬷喂食主角的视频在社交平台上走红,视频中,容嬷嬷在喂紫薇吃鸡腿,这一场景源自剧中容嬷嬷用针刺紫薇的经典桥段,再次证明了可灵AI的强大功能。

在WAIC的活动中,快手提供了实用的提示,建议用户使用简洁的词汇和句子结构,避免复杂的语言。同时,快手也指出其模型对数字的识别可能不够敏感。例如,如果输入提示是”海滩上的10只小狗”,生成的视频内容中小狗的数量可能并不总是一致。

快手的大型语言模型团队的一名成员向TechNode透露,虽然不便公开训练可灵AI使用的数据,但可以确认这些数据是开源的。快手在WAIC上宣布,其图像生成模型Kolors也将开源,旨在为文本生成图像社区带来更加繁荣的生态系统。

快手在研发上的投入于过去四年里增长了四倍,从2019年的29亿元人民币增加到2023年的123亿元人民币。这一增长体现了快手对于技术创新和AI研发的重视。通过这些举措,快手不仅展示了其在AI领域的雄心,也为中国短视频行业带来了新的活力和创新潮流。

编辑按:“Landing AI”是由TechNode策划的一系列专题报道,专注于人工智能领域的最新动态。通过深入探讨AI在中国的发展轨迹及其背后的行业故事,我们将带领读者更全面地理解在新一轮AI浪潮中一切可能发生的变化与机遇。

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com