天涯论坛

 找回密码
 立即注册
搜索
查看: 6|回复: 4

全面叫板OpenAI!谷歌发布多模态大模型整家桶:从AI助手到文生视频模型

[复制链接]

3123

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99108624
发表于 2024-7-30 19:38:01 | 显示全部楼层 |阅读模式

被OpenAI抢先一天后,科技巨头谷歌不甘示弱,推出了自己的最新多模态AI(人工智能)制品

当地时间5月14日,在谷歌I/O研发者大会上的主题演讲中,谷歌展示了由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo,以及在硬件方面发布的第六代Tensor处理器单元(TPU)Trillium芯片。按照发布会最后的官方统计,完全聚焦于AI的这场主题演讲总共说到了121次AI。

完全聚焦于AI的这场主题演讲总共说到了121次AI。 源自:谷歌I/O主题演讲

谷歌CEO桑达尔·皮查伊(Sundar Pichai)暗示,谷歌的所有工作都在围绕生成式AI模型Gemini展开,“咱们期盼每一个人都能从Gemini所做的事情中受益”。

14日当天,谷歌(Nasdaq:GOOGL)股价收于每股171.93美元,涨0.6%,总市值2.12万亿美元。

AI搜索支持视频输入,Gemini、Gemma上新

做为搜索引擎巨头,AI搜索正是谷歌所做工作中的一部分。

据介绍,在最新Gemini的加持下,谷歌搜索将具备多过程推理能力,能够一次性处理带有多个限制要求的长问题、帮忙用户进行头脑风暴,并支持视频搜索,让用户经过拍摄视频来搜索处理方法。这些功能将先在美国推出,谷歌预计会在今年年底前将其带给超过10亿人。

谷歌AI搜索将具备多过程推理能力。源自:谷歌

谷歌的Gemini以超长的上下文窗口而出名。在大会上,谷歌重点强调了大模型Gemini 1.5 Pro的多模态和长文本能力,为其推出一系列更新。谷歌将向全世界150多个国家地区的Gemini Advanced订阅者供给最新模型、持有100万个token的Gemini 1.5 Pro,支持超过35种语言,定价为每100万token 3.5美元。

据皮查伊介绍,Gemini 1.5会供给“迄今为止所有基本模型中最长的上下文窗口”。Gemini 1.5 Pro将在今年晚些时候将会把窗口进一步扩大至200万token,拓展同步处理多模态信息的边界。

从今年夏天起始,Gemini将支持语音实时交互,并在今年晚些时候上线实时视频交互。将来几个月内,谷歌将推出类似于GPTs的自定义AI助手功能,名为Gems,能够与整套“谷歌整家桶”联动。

另一针对有些需要快速响应的场景,谷歌推出了Gemini 1.5 Flash模型。Flash将是API中速度最快的Gemini模型,针对大规模、大批量的高配任务进行了优化,拥有100万token的长上下文窗口。

谷歌在发布会上带来了旗下开源大模型Gemma的最新版本Gemma 2。据介绍,Gemma 2采用全新架构,参数上达到27B,持有突破性的性能和效率。

AI助手Project Astra叫板GPT-4o

在OpenAI推出能够实现人类级别响应的智能助手GPT-4o后,谷歌的AI智能体项目Project Astra重磅登场。

在演示视频中,Astra能够经过手机摄像头或智能眼镜看到的内容来分析响应语音命令。它成功地识别出代码序列、为电路图提出改进意见、能够经过镜头“看到”伦敦国王十字区,并提醒用户智能眼镜的安置位置。

Project Astra是谷歌针对将来AI助手的展望。源自:谷歌

谷歌AI助手将能够经过智能眼镜和用户一块观察世界。源自:谷歌

据介绍,谷歌在Gemini的基本研发了Astra的原型,能够经过连续编码视频帧、将视频和语音输入组合到事件时间线中以实现更快地处理信息。经过语音模型,谷歌强化了智能助手的说话能力,让其能够给出更快速的回复

不外,在演示视频中,谷歌AI助手的回复速度似乎还是会比GPT-4o稍慢有些,语音所表现出的感情色彩平淡有些

皮查伊暗示,谷歌计划从今年起始将Astra的功能添加到其Gemini应用程序及其制品中。不外,他强调,虽然最后目的是“让Astra在机构的软件中实现无缝连接”,但该制品将被小心推出,并且“商场化之路将由质量驱动”。

除了在AI助手行业的竞争外,谷歌还经过文生视频模型Veo来反击OpenAI的Sora。Veo能够按照文字、照片和视频的提示来生成高质量的1080p视频,创作“一致且连贯”的镜头,用户能够对光照、镜头语言、视频颜色风格等进行自定义设置。不外,谷歌宣布Veo的详细推出时间。

源自:谷歌I/O主题演讲

另外,谷歌还宣布了一系列与图像、音乐相关的生成式AI工具,包含能够表现更高细节水平的文生图工具Imagen 3,还有与Youtube以及音乐家合作的AI音乐工具“AI音乐沙盒”。

在硬件方面,谷歌将于今年晚些时候推出交付第六代数据中心AI芯片TPU Trillium。皮查伊暗示,每块芯片的计算性能将比第五代提高4.7倍,谷歌经过扩大芯片的矩阵乘法单元(MXU)和加强整体时钟速度来实现这一目的另外,第六代将比第五代芯片节能67%,谷歌还将Trillium芯片的内存带宽加强了一倍。

发布会后,著名AI学者吴恩达(Andrew Ng)对谷歌暗示祝贺,叫作个人很期待“持有200万个token的上下文窗口以及对设备上AI进行更好支持的Gemini”,认为其会为应用程序构建者带来新的机会。

英伟达高级科研专家范麟熙(Jim Fan)暗示:“谷歌正在做的一件事是正确的:她们最终在认真将AI整合到搜索中......谷歌最强大的护城河是分销。Gemini不必定作为最好的模型,而是能够作为世界上最常用的模型。”

此前,在5月9日播出的一档节目中,谷歌CEO桑达尔·皮查伊接受采访时谈及机构与微软和OpenAI的竞争。他暗示,尽管谷歌在聊天设备行业的起步较晚,但他对机构长时间竞争力并不担忧,AI浪潮尚处初期

4月25日,谷歌母机构Alphabet发布了截止3月31日的2024年第1季度财报。财报表示,Alphabet第1季度实现营收805.39亿美元,同比增长15%,是自2022年初败兴机构营收增长最快的一个季度。非美国通用会计准则下(Non-GAAP)净利润为236.62亿美元,同比增长57%;摊薄后每股收益为1.89美元,高于市场预期的1.51美元。





上一篇:环球视角:谷歌首次公开密钥的采用率数据 叫作达到十亿次运用
下一篇:态度趋向强硬!谷歌YouTube团队发布声明,将封杀宣传拦截软件
回复

使用道具 举报

0

主题

1万

回帖

1

积分

新手上路

Rank: 1

积分
1
发表于 2024-8-24 18:10:16 | 显示全部楼层
在遇到你之前,我对人世间是否有真正的圣人是怀疑的。
回复

使用道具 举报

0

主题

886

回帖

4

积分

新手上路

Rank: 1

积分
4
发表于 2024-9-9 14:18:23 | 显示全部楼层
这夸赞甜到心里,让我感觉温暖无比。
回复

使用道具 举报

3070

主题

3万

回帖

9915万

积分

论坛元老

Rank: 8Rank: 8

积分
99158931
发表于 2024-11-5 07:21:51 | 显示全部楼层
论坛外链网  http://www.fok120.com/
回复

使用道具 举报

3061

主题

3万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99139052
发表于 2024-11-9 12:20:31 | 显示全部楼层
我完全赞同你的观点,思考很有深度。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 00:47 , Processed in 5.438016 second(s), 39 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.