“王炸”AI模型来了！谷歌全面对标OpenAI，究竟谁更胜一筹

来源：潮新闻

2024-05-15 17:51:23

新一轮的大模型之争开始了。

24小时以前，OpenAI抢先发布GPT-4o，通过实时的语音、视频和文本交互刷屏社交网络，震撼着全世界。仅仅过了一天，科技巨头谷歌顶着压力，全面反击OpenAI。

5月15日凌晨，在一年一度的“科技界春晚”Google I/O 开发者大会上，谷歌展示了十来款新品和升级，其中就有由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo，以及在硬件方面发布的第六代Tensor处理器单元（TPU）Trillium芯片，还将搜索业务做了最彻底的AI改造。

谷歌首席执行官桑达尔・皮查伊（Sundar Pichai）介绍，谷歌所有的工作都围绕生成式AI模型Gemini来做。一年前，谷歌首次分享了原生多模态大模型 Gemini的计划，现在已经有超过150万开发者正在使用谷歌的人工智能Gemini，“今天，我们希望每个人都能从Gemini的技术中受益。”

谷歌发布语音助手Astra，能力上全面对标GPT-4o

这次大会，谷歌揭幕了一款名为Project Astra的通用人工智能系统，旨在与OpenAI的GPT-4o展开竞争。

谷歌DeepMind首席执行官兼联合创始人Demis Hassabis亲自展示了Astra模型。这款模型通过智能手机的摄像头捕捉并分析周围环境，还能与用户进行实时对话。

在演示中，用户手持手机，将摄像头对准办公室的不同角落，并通过语言与系统进行交互。例如，当用户发出指令“请告诉我智能眼镜在哪里”时，Astra能够迅速识别物体，并与用户进行实时的语音交流。同时，它能成功地识别出代码序列、为电路图提出改进建议、通过镜头“看到”伦敦国王十字区等等。

谷歌发布语音助手Astra。图源：谷歌年度开发者I/O大会现场

大会上，谷歌官方演示了这款系统与AR眼镜的结合使用，预示着它在日常生活场景中的广泛应用潜力。目前该应用仍处于原型阶段，但谷歌表示，计划在今年晚些时候正式推出。

据介绍，谷歌在Gemini的基础上开发了Astra的原型，可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中以实现更快地处理信息。通过语音模型，谷歌也强化了智能助手的说话能力，让其能够给出更快速地回应。

不过，在演示视频中，谷歌AI助手的回应速度似乎还是会比GPT-4o稍慢一些，语音所表现出的感情色彩也平淡一些。

前一天发布的GPT-4o多模态大模型，相较于GPT-4 Trubo速度更快、价格也更便宜。直播过程中，两位OpenAI的员工向大家展示了GPT-4o的更新细节，比如它能感知用户情绪、具备不同情绪的声音、实时视觉功能和更即时的语音交互。其中，ChatGPT-4o还能通过前置摄像头观察用户的面部表情，检测其情绪。

有评论称，这个演示显示，GPT-4o让聊天机器人不再那么机械冷漠，而是更加接近真实人类，能够理解并表达情绪，还可以读取人类的情绪，但读取还有一点困难。

有业内人士评价，从演示上看，Astra的视觉理解能力确实让人印象深刻，但在交互体验上要比GPT-4o实时演示的能力要差许多。无论是响应时长、语音的情感丰富度、可打断等方面，GPT-4o的交互体验似乎更自然。

发布视频生成模型Veo反击Sora，视觉效果颇为惊艳

在AI生成视频方面，谷歌宣布推出视频生成模型 Veo，能够生成分辨率最高达1080p的高质量视频，时长可以超过一分钟，涵盖多种电影和视觉风格。

据谷歌介绍，Veo在理解视频内容、渲染高清图像、模拟物理原理等方面都有所突破，能精准捕捉“延时摄影”、“航拍风景”等电影术语，并将其转化为生动的视觉表达。并具有更高的连贯性和一致性，人物、动物和物体的动作也更加逼真，视觉效果颇为惊艳。

Veo生成的视频

本着“打不过就加入”原则，很多艺术家已在尝试这个项目。谷歌展示了与电影制片人唐纳德·格洛弗（Donald Glover）及其创意工作室吉尔加（Gilga）的一些合作，以及艺术家Wyclef Jean，Marc Rebillet和词曲作者Justin Tranter在音乐AI沙盒的帮助下发布的新演示录音。

早前OpenAI发布首个文生视频模型Sora，在网上迅速刷屏，不少网友跃跃欲试。Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频，呈现“具有多个角色、特定类型的动作，以及主题和背景的准确细节”的复杂场景。

但OpenAI表示，Sora存在不成熟之处，可能难以理解因果关系。多位人工智能领域人士表示，该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题，但无法根治。想要真正突破最底层逻辑上的问题，因果关系是一条必经之路。

对于Veo用户，可以通过点击“扩展”按钮，持续增加视频的时长，最终达到了1分10秒，超过了Sora的时长。至于它有哪些不足之处，目前暂无定论，还有待用户体验。

目前，Veo已经开始在谷歌官网开放试用。此外，谷歌还在积极探索更多功能，使Veo能够制作故事板和更长的场景，进一步拓展其应用场景和创作空间。

完全聚焦于AI的这场主题演讲总共提到了121次AI。图源：谷歌年度开发者I/O大会现场

在这次Google I/O开发者大会上，AI依旧是所有话题的中心，几乎每一个功能更新都与AI紧密相关。例如，谷歌升级搜索引擎，还更新升级了Gemini1.5Pro版本，同时推出Gemini1.5Flash轻量化小模型。

根据发布会最后的官方统计，这场长达 110 分钟的主题演讲中，谷歌总共提到了121次AI。生成式AI的竞争，在此刻达到新的高潮。

这场AI的大角逐到底谁能最后胜出？目前尚无定论。从本次发布会的展示来看，谷歌和OpenAI之间的差距似乎正在逐渐缩小。两家公司不仅在AI领域进行激烈的角逐，并且都在努力推动AI应用于更广泛的场景。

尽管我们从谷歌的搜索产品、模型产品上看到了谷歌的疲态和创新的缺失，外界评论称，和GPT-4o不到30分钟的发布会相比，谷歌“缺乏惊喜”。但从生态和用户积累上，谷歌依然具有先天优势。

责任编辑：李文智