经济导报记者 刘勇
这个春节假期什么最火?那肯定是Sora!OpenAI发布的人工智能文字生成视频大模型。
美国当地时间2024年2月15日,OpenAI正式发布文生视频模型Sora,并发布了48个文生视频案例和技术报告,正式入局视频生成领域。
Sora能够根据提示词可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频,视频中可包含多个角色、特定的动作、主题和背景,在单个视频中Sora还可创建多个镜头,多角度保留角色和视觉的风格。“碾轧”了行业目前大概只有平均“4s”的视频生成长度。
此外,还可以使用Sora连接两个输入视频,在具有完全不同主题和场景组成的视频之间实现无缝过渡。
百度百科的解释是,Sora继承了DALL-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频。该模型可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景,能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。
Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能,其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步,也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。
针对此次Sora所带来的讨论,360创始人周鸿祎在社交网络上也分享了自己的看法。他认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。
谈到Sora最大的优势,周鸿祎表示,以往文字视频软件都是在2D平面上对图形元素进行操作,可以把视频看成多个真实图片的组合,并没有真正掌握这个世界的知识。但Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况,“一旦人工智能接上摄像头,把所有的电影都看一遍,把各视频平台的视频都看一遍,对世界的理解将远远超过文字学习。一幅图胜过千言万语,而视频传递的信息量又远远超过一张图,这就离AGI真的不远了,不是10年20年的问题,可能一两年很快就可以实现。”
而在业内专家看来,认为AGI能在一两年内实现的观点过于乐观。中国人工智能产业联盟安全治理委员会专委会副主委、浙江大学教授潘恩荣认为,AGI在一两年内实现不能作为一种真实的预测。“因为我们讲的通用人工智能往往指的是‘人’作为主体所作用的能力,然而现在人工智能能实现的事情,更像是‘物’的能力。”
不过也有人担心,Sora大面积使用,AGI的实现也是必然,只是时间长短的问题。那么一旦AGI到来,是否会真的出现电脑的自我意识觉醒?毕竟人类是通过视觉感知认知世界,才能把一个具体的世界(画面)和大脑里的文字等抽象概念进行连接的。也就是说画面视频和文字是互相对应的。而sora已经解决了抽象到具体表象,也能表象到抽象!这是什么意思?它已经能理解人类世界了。这就是他自我意识的觉醒。
那么问题来了,一旦AGI实现,真的会出现电影中的情景——人工智能的自我意识觉醒吗?