“王炸”AI模型来了!谷歌全面对标OpenAI,究竟谁更胜一筹
来源:潮新闻
2024-05-15 17:51:23
新一轮的大模型之争开始了。
24小时以前,OpenAI抢先发布GPT-4o,通过实时的语音、视频和文本交互刷屏社交网络,震撼着全世界。仅仅过了一天,科技巨头谷歌顶着压力,全面反击OpenAI。
5月15日凌晨,在一年一度的“科技界春晚”Google I/O 开发者大会上,谷歌展示了十来款新品和升级,其中就有由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo,以及在硬件方面发布的第六代Tensor处理器单元(TPU)Trillium芯片,还将搜索业务做了最彻底的AI改造。
谷歌首席执行官桑达尔・皮查伊(Sundar Pichai)介绍,谷歌所有的工作都围绕生成式AI模型Gemini来做。一年前,谷歌首次分享了原生多模态大模型 Gemini的计划,现在已经有超过150万开发者正在使用谷歌的人工智能Gemini,“今天,我们希望每个人都能从Gemini的技术中受益。”
谷歌发布语音助手Astra,能力上全面对标GPT-4o
这次大会,谷歌揭幕了一款名为Project Astra的通用人工智能系统,旨在与OpenAI的GPT-4o展开竞争。
谷歌DeepMind首席执行官兼联合创始人Demis Hassabis亲自展示了Astra模型。这款模型通过智能手机的摄像头捕捉并分析周围环境,还能与用户进行实时对话。
在演示中,用户手持手机,将摄像头对准办公室的不同角落,并通过语言与系统进行交互。例如,当用户发出指令“请告诉我智能眼镜在哪里”时,Astra能够迅速识别物体,并与用户进行实时的语音交流。同时,它能成功地识别出代码序列、为电路图提出改进建议、通过镜头“看到”伦敦国王十字区等等。
谷歌发布语音助手Astra。图源:谷歌年度开发者I/O大会现场
大会上,谷歌官方演示了这款系统与AR眼镜的结合使用,预示着它在日常生活场景中的广泛应用潜力。目前该应用仍处于原型阶段,但谷歌表示,计划在今年晚些时候正式推出。
据介绍,谷歌在Gemini的基础上开发了Astra的原型,可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中以实现更快地处理信息。通过语音模型,谷歌也强化了智能助手的说话能力,让其能够给出更快速地回应。
不过,在演示视频中,谷歌AI助手的回应速度似乎还是会比GPT-4o稍慢一些,语音所表现出的感情色彩也平淡一些。
前一天发布的GPT-4o多模态大模型,相较于GPT-4 Trubo速度更快、价格也更便宜。直播过程中,两位OpenAI的员工向大家展示了GPT-4o的更新细节,比如它能感知用户情绪、具备不同情绪的声音、实时视觉功能和更即时的语音交互。其中,ChatGPT-4o还能通过前置摄像头观察用户的面部表情,检测其情绪。
有评论称,这个演示显示,GPT-4o让聊天机器人不再那么机械冷漠,而是更加接近真实人类,能够理解并表达情绪,还可以读取人类的情绪,但读取还有一点困难。
有业内人士评价,从演示上看,Astra的视觉理解能力确实让人印象深刻,但在交互体验上要比GPT-4o实时演示的能力要差许多。无论是响应时长、语音的情感丰富度、可打断等方面,GPT-4o的交互体验似乎更自然。
发布视频生成模型Veo反击Sora,视觉效果颇为惊艳
在AI生成视频方面,谷歌宣布推出视频生成模型 Veo,能够生成分辨率最高达1080p的高质量视频,时长可以超过一分钟,涵盖多种电影和视觉风格。
据谷歌介绍,Veo在理解视频内容、渲染高清图像、模拟物理原理等方面都有所突破,能精准捕捉“延时摄影”、“航拍风景”等电影术语,并将其转化为生动的视觉表达。并具有更高的连贯性和一致性,人物、动物和物体的动作也更加逼真,视觉效果颇为惊艳。
Veo生成的视频
本着“打不过就加入”原则,很多艺术家已在尝试这个项目。谷歌展示了与电影制片人唐纳德·格洛弗(Donald Glover)及其创意工作室吉尔加(Gilga)的一些合作,以及艺术家Wyclef Jean,Marc Rebillet和词曲作者Justin Tranter在音乐AI沙盒的帮助下发布的新演示录音。
早前OpenAI发布首个文生视频模型Sora,在网上迅速刷屏,不少网友跃跃欲试。Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频,呈现“具有多个角色、特定类型的动作,以及主题和背景的准确细节”的复杂场景。
但OpenAI表示,Sora存在不成熟之处,可能难以理解因果关系。多位人工智能领域人士表示,该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题,但无法根治。想要真正突破最底层逻辑上的问题,因果关系是一条必经之路。
对于Veo用户,可以通过点击“扩展”按钮,持续增加视频的时长,最终达到了1分10秒,超过了Sora的时长。至于它有哪些不足之处,目前暂无定论,还有待用户体验。
目前,Veo已经开始在谷歌官网开放试用。此外,谷歌还在积极探索更多功能,使Veo能够制作故事板和更长的场景,进一步拓展其应用场景和创作空间。
完全聚焦于AI的这场主题演讲总共提到了121次AI。 图源:谷歌年度开发者I/O大会现场
在这次Google I/O开发者大会上,AI依旧是所有话题的中心,几乎每一个功能更新都与AI紧密相关。例如,谷歌升级搜索引擎,还更新升级了Gemini1.5Pro版本,同时推出Gemini1.5Flash轻量化小模型。
根据发布会最后的官方统计,这场长达 110 分钟的主题演讲中,谷歌总共提到了121次AI。生成式AI的竞争,在此刻达到新的高潮。
这场AI的大角逐到底谁能最后胜出?目前尚无定论。从本次发布会的展示来看,谷歌和OpenAI之间的差距似乎正在逐渐缩小。两家公司不仅在AI领域进行激烈的角逐,并且都在努力推动AI应用于更广泛的场景。
尽管我们从谷歌的搜索产品、模型产品上看到了谷歌的疲态和创新的缺失,外界评论称,和GPT-4o不到30分钟的发布会相比,谷歌“缺乏惊喜”。但从生态和用户积累上,谷歌依然具有先天优势。
责任编辑:李文智