全面叫板OpenAI！谷歌发布多模态大模型整家桶：从AI助手到文生视频模型-天涯论坛

4zhvml8 发表于 2024-7-30 19:38:01

全面叫板OpenAI！谷歌发布多模态大模型整家桶：从AI助手到文生视频模型

被OpenAI抢先一天后，科技巨头谷歌不甘示弱，推出了自己的最新多模态AI（人工智能）制品。
当地时间5月14日，在谷歌I/O研发者大会上的主题演讲中，谷歌展示了由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo，以及在硬件方面发布的第六代Tensor处理器单元（TPU）Trillium芯片。按照发布会最后的官方统计，完全聚焦于AI的这场主题演讲总共说到了121次AI。<img src="https://p3-sign.toutiaoimg.com/tos-cn-i-axegupay5k/16d03411cb224aa7bc5856eef5782eee~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1722921943&x-signature=DR40VHYsybRRM1R01dE0o6XEpu8%3D" style="width: 50%; margin-bottom: 20px;">
完全聚焦于AI的这场主题演讲总共说到了121次AI。 源自：谷歌I/O主题演讲
谷歌CEO桑达尔·皮查伊（Sundar Pichai）暗示，谷歌的所有工作都在围绕生成式AI模型Gemini展开，“咱们期盼每一个人都能从Gemini所做的事情中受益”。
14日当天，谷歌（Nasdaq：GOOGL）股价收于每股171.93美元，涨0.6%，总市值2.12万亿美元。
AI搜索支持视频输入，Gemini、Gemma上新
做为搜索引擎巨头，AI搜索正是谷歌所做工作中的一部分。
据介绍，在最新Gemini的加持下，谷歌搜索将具备多过程推理能力，能够一次性处理带有多个限制要求的长问题、帮忙用户进行头脑风暴，并支持视频搜索，让用户经过拍摄视频来搜索处理方法。这些功能将先在美国推出，谷歌预计会在今年年底前将其带给超过10亿人。<img src="https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/54852206dd4af75cc772197b22e775ba~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1722921943&x-signature=KUmnfr%2BY%2FdFoSGIrtW%2FgtryJFpg%3D" style="width: 50%; margin-bottom: 20px;">
谷歌AI搜索将具备多过程推理能力。源自：谷歌
谷歌的Gemini以超长的上下文窗口而出名。在大会上，谷歌重点强调了大模型Gemini 1.5 Pro的多模态和长文本能力，为其推出一系列更新。谷歌将向全世界150多个国家地区的Gemini Advanced订阅者供给最新模型、持有100万个token的Gemini 1.5 Pro，支持超过35种语言，定价为每100万token 3.5美元。
据皮查伊介绍，Gemini 1.5会供给“迄今为止所有基本模型中最长的上下文窗口”。Gemini 1.5 Pro将在今年晚些时候将会把窗口进一步扩大至200万token，拓展同步处理多模态信息的边界。
从今年夏天起始，Gemini将支持语音实时交互，并在今年晚些时候上线实时视频交互。将来几个月内，谷歌亦将推出类似于GPTs的自定义AI助手功能，名为Gems，能够与整套“谷歌整家桶”联动。
另一，针对有些需要快速响应的场景，谷歌推出了Gemini 1.5 Flash模型。Flash将是API中速度最快的Gemini模型，针对大规模、大批量的高配任务进行了优化，亦拥有100万token的长上下文窗口。
谷歌亦在发布会上带来了旗下开源大模型Gemma的最新版本Gemma 2。据介绍，Gemma 2采用全新架构，参数上达到27B，持有突破性的性能和效率。
AI助手Project Astra叫板GPT-4o
在OpenAI推出能够实现人类级别响应的智能助手GPT-4o后，谷歌的AI智能体项目Project Astra亦重磅登场。
在演示视频中，Astra能够经过手机摄像头或智能眼镜看到的内容来分析响应语音命令。它成功地识别出代码序列、为电路图提出改进意见、能够经过镜头“看到”伦敦国王十字区，并提醒用户智能眼镜的安置位置。<img src="https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/de5b95a266babd59aeb566a264ad117d~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1722921943&x-signature=uTPDNj1DLpES6pJ1gEIcopDHv%2FQ%3D" style="width: 50%; margin-bottom: 20px;">
Project Astra是谷歌针对将来AI助手的展望。源自：谷歌<img src="https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/40bfa56af8883ee0544307d4b67b21c9~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1722921943&x-signature=N5cDdQH9GGBjCrSKTfyZsMXMNc8%3D" style="width: 50%; margin-bottom: 20px;">
谷歌AI助手将能够经过智能眼镜和用户一块观察世界。源自：谷歌
据介绍，谷歌在Gemini的基本上研发了Astra的原型，能够经过连续编码视频帧、将视频和语音输入组合到事件时间线中以实现更快地处理信息。经过语音模型，谷歌亦强化了智能助手的说话能力，让其能够给出更快速的回复。
不外，在演示视频中，谷歌AI助手的回复速度似乎还是会比GPT-4o稍慢有些，语音所表现出的感情色彩亦平淡有些。
皮查伊暗示，谷歌计划从今年起始将Astra的功能添加到其Gemini应用程序及其制品中。不外，他亦强调，虽然最后目的是“让Astra在机构的软件中实现无缝连接”，但该制品将被小心推出，并且“商场化之路将由质量驱动”。
除了在AI助手行业的竞争外，谷歌还经过文生视频模型Veo来反击OpenAI的Sora。Veo能够按照文字、照片和视频的提示来生成高质量的1080p视频，创作“一致且连贯”的镜头，用户能够对光照、镜头语言、视频颜色风格等进行自定义设置。不外，谷歌无宣布Veo的详细推出时间。<img src="https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/e0cbb9fc1bd5f50783467c94f95f3ccc~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1722921943&x-signature=Za40z%2F1E8FzNBgani4LMVjAA%2FVM%3D" style="width: 50%; margin-bottom: 20px;">
源自：谷歌I/O主题演讲
另外，谷歌还宣布了一系列与图像、音乐相关的生成式AI工具，包含能够表现更高细节水平的文生图工具Imagen 3，还有与Youtube以及音乐家合作的AI音乐工具“AI音乐沙盒”。
在硬件方面，谷歌将于今年晚些时候推出交付第六代数据中心AI芯片TPU Trillium。皮查伊暗示，每块芯片的计算性能将比第五代提高4.7倍，谷歌经过扩大芯片的矩阵乘法单元（MXU）和加强整体时钟速度来实现这一目的。另外，第六代将比第五代芯片节能67%，谷歌还将Trillium芯片的内存带宽加强了一倍。
发布会后，著名AI学者吴恩达（Andrew Ng）对谷歌暗示祝贺，叫作个人很期待“持有200万个token的上下文窗口以及对设备上AI进行更好支持的Gemini”，认为其会为应用程序构建者带来新的机会。
英伟达高级科研专家范麟熙（Jim Fan）暗示：“谷歌正在做的一件事是正确的：她们最终在认真将AI整合到搜索中......谷歌最强大的护城河是分销。Gemini不必定要作为最好的模型，而是能够作为世界上最常用的模型。”
此前，在5月9日播出的一档节目中，谷歌CEO桑达尔·皮查伊接受采访时谈及机构与微软和OpenAI的竞争。他暗示，尽管谷歌在聊天设备人行业的起步较晚，但他对机构的长时间竞争力并不担忧，AI浪潮尚处初期。
4月25日，谷歌母机构Alphabet发布了截止3月31日的2024年第1季度财报。财报表示，Alphabet第1季度实现营收805.39亿美元，同比增长15%，是自2022年初败兴机构营收增长最快的一个季度。非美国通用会计准则下（Non-GAAP）净利润为236.62亿美元，同比增长57%；摊薄后每股收益为1.89美元，高于市场预期的1.51美元。

流星的美 发表于 2024-8-24 18:10:16

在遇到你之前，我对人世间是否有真正的圣人是怀疑的。

明月几时有 发表于 2024-9-9 14:18:23

这夸赞甜到心里，让我感觉温暖无比。

nykek5i 发表于 2024-11-5 07:21:51

论坛外链网http://www.fok120.com/

j8typz 发表于 2024-11-9 12:20:31

我完全赞同你的观点，思考很有深度。

页: [1]

天涯论坛's Archiver

全面叫板OpenAI！谷歌发布多模态大模型整家桶：从AI助手到文生视频模型