OpenAI 发布 GPT-4o:免费版 GPT-4 怎么样带你「走进」科幻电影
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">编注</span></strong><span style="color: black;">:<span style="color: black;">咱们</span>会不<span style="color: black;">定时</span>挑选 Matrix 的<span style="color: black;">优秀</span><span style="color: black;">文案</span>,展示来自用户的最真实的体验和观点。<span style="color: black;"><span style="color: black;">文案</span><span style="color: black;">表率</span>作者个人观点,<span style="color: black;">少许</span>派仅对标题和排版略作修改。</span></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">北京时间 5 月 14 日凌晨一点,OpenAI 在线上直播了 Spring Update(春季更新),特意<span style="color: black;">选取</span>在谷歌年度 I/O 大会的前一天举行,吊足了各路<span style="color: black;">媒介</span>和网友的胃口。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://q6.itc.cn/q_70/images03/20240516/627d9abb8f6d4012a7716334ba25ccc2.jpeg" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">那样</span>,GPT-4o 到底更新了什么?OpenAI <span style="color: black;">是不是</span>保住了自己在大模型<span style="color: black;">行业</span>的绝对话语权?<span style="color: black;">为何</span>网友看完演示后纷纷感叹「你大爷还是你大爷」?</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">我在一天的时间里密集阅读了各路<span style="color: black;">媒介</span>、博主、<span style="color: black;">公司</span>以及来自 OpenAI 官方的宣传视频、<span style="color: black;">诠释</span>分析和实测体验,本文就来一文讲清堪<span style="color: black;">叫作</span>「科技界小春晚」的这次 OpenAI Spring Update。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">发布会前:放料预热,辟谣捉内鬼</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">▍</strong></span><strong style="color: blue;"><span style="color: black;">4 月 30 日:<span style="color: black;">奥秘</span>模型登场</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">4 月 30 日,一个名为 gpt2-chatbot 的大模型悄然出<span style="color: black;">此刻</span>大模型竞技场 LMSYS 上。尽管基准测试分数未被公开,但<span style="color: black;">按照</span>网友的实测,其性能超越了<span style="color: black;">日前</span>市面上的所有大语言模型。<span style="color: black;">经过</span>提示词引导和基于 token 分词器的<span style="color: black;">科研</span><span style="color: black;">发掘</span>,gpt2-chatbot 很可能来自 OpenAI,且应该是 GPT-4 的改进版本。其在<span style="color: black;">规律</span>能力、代码能力和数学能力上具备当今其他任何大模型<span style="color: black;">没法</span>比拟的<span style="color: black;">优良</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://q2.itc.cn/q_70/images03/20240516/33cd021216514c859aabb7fd83ed8444.jpeg" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">网上广泛流传的对该<span style="color: black;">奥秘</span>模型的分析指出:「很可能,这个<span style="color: black;">奥秘</span>模型<span style="color: black;">实质</span>上是 GPT-4.5,<span style="color: black;">做为</span>一个『渐进式』模型更新的实例发布」。该模型的结构化回复似乎受到了修改后的 CoT(思维链)等技术的<span style="color: black;">剧烈</span>影响。输出的整体质量 —— <span style="color: black;">尤其</span>是其格式、结构和理解能力 —— 绝对是一流的。多位在 LLM 提示和聊天<span style="color: black;">设备</span>人方面经验丰富的人士(在公开和<span style="color: black;">暗里</span>场合)都<span style="color: black;">重视</span>到输出质量出乎意料地好。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">「对我<span style="color: black;">来讲</span>,感觉就像是从 GPT-3.5 到 GPT-4 的飞跃,但这次是以 GPT-4 为起点。」</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">▍</strong></span><strong style="color: blue;"><span style="color: black;">5 月初:LMSYS 的操作和 Sam Altman 的<span style="color: black;">回复</span></span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">随着各路<span style="color: black;">媒介</span>纷纷<span style="color: black;">报告</span>,LMSYS 悄悄删除了该模型,并更新了<span style="color: black;">运用</span>政策,<span style="color: black;">知道</span><span style="color: black;">商场</span><span style="color: black;">机构</span><span style="color: black;">能够</span>以「匿名发布」的方式将新模型<span style="color: black;">供给</span>给 LMSYS 平台供公众测试。LMSYS 会将反馈结果和部分样本<span style="color: black;">供给</span>给模型<span style="color: black;">供给</span>方,且模型<span style="color: black;">供给</span>方有随时撤回模型的权利。不久后,LMSYS 以 im-a-good-gpt2-chatbot 和 im-also-a-good-gpt2-chatbot 的模型名,重新上线了这一<span style="color: black;">奥秘</span>模型的两个微小区别的变种。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">与此<span style="color: black;">同期</span>,OpenAI 首席执行官 Sam Altman 在哈佛大学演讲中向所有人确认,gpt2-chatbot 不是 OpenAI 的「下一代大模型」(即传闻的 GPT-5)。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">▍</strong></span><strong style="color: blue;"><span style="color: black;">5 月中旬:发布会前的舆论风波</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">时间来到 5 月,OpenAI 近期对其官网进行了更新,网友<span style="color: black;">发掘</span> OpenAI 的域名<span style="color: black;">显现</span>了五十余个新的子域名,其中最受关注的是 search.chatgpt.com。<span style="color: black;">媒介</span><span style="color: black;">报告</span>指出,OpenAI <span style="color: black;">始终</span>在<span style="color: black;">研发</span>一款网络搜索<span style="color: black;">制品</span>,并分析<span style="color: black;">叫作</span>这将加剧与 Google 的竞争。该搜索服务将部分由 Bing <span style="color: black;">供给</span>支持。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">据外电援引<span style="color: black;">信息</span>人士 Jimmy Apples 透露,OpenAI 可能<span style="color: black;">火速</span>就会推出一款新的搜索引擎,并<span style="color: black;">暗示</span>该<span style="color: black;">机构</span>计划在本月举办一场活动,暂定于 2024 年 5 月 9 日上午 10 点。知情人士还透露,OpenAI 从 1 月初<span style="color: black;">起始</span>就在招聘活动团队,负责组织内部活动。5 月 10 日,路透社<span style="color: black;">报告</span><span style="color: black;">叫作</span>,OpenAI 可能会安排在谷歌年度 I/O 大会前一天发布搜索<span style="color: black;">制品</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">5 月 11 日,OpenAI 宣布将于美国时间 5 月 13 日上午 10 点(北京时间 5 月 14 日凌晨 1 点)在其官网上直播,展示最新的 ChatGPT 及 GPT-4 <span style="color: black;">关联</span>更新。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">与此<span style="color: black;">同期</span>,OpenAI 首席执行官山姆・阿特曼驳斥了路透社的一篇<span style="color: black;">报告</span>,<span style="color: black;">叫作</span> OpenAI 将于下周一推出一款搜索<span style="color: black;">制品</span>。阿特曼在 X 上发帖<span style="color: black;">叫作</span>,虽然 OpenAI 定于周一早上发布公告,但 「不是 GPT-5,不是搜索引擎」,但无论它是什么,他说它 「感觉就像魔术<span style="color: black;">同样</span>」。OpenAI 官方帖子<span style="color: black;">供给</span>的<span style="color: black;">独一</span>细节是,此次发布将更新 ChatGPT 及其最新模型 GPT-4。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">随后有网友爆料,<span style="color: black;">所说</span>「搜索<span style="color: black;">制品</span>」是 OpenAI 投出的诱饵,目的是揪出内部泄密者。而经常给 Jimmy Apples 和 Flowers 泄密的爆料人,<span style="color: black;">已然</span>被 OpenAI 解雇。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">而 Information 则<span style="color: black;">报告</span><span style="color: black;">叫作</span>,OpenAI 正在<span style="color: black;">研发</span>一个全能的 AI 语音助手,预计在下周展示。这项新技术<span style="color: black;">能够</span><span style="color: black;">经过</span>声音和文本与人交流,能够识别<span style="color: black;">区别</span>人的语调、语气,并能识别物体和图像。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">▍</strong></span><strong style="color: blue;"><span style="color: black;">谜底揭晓</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">直到发布会后,<span style="color: black;">咱们</span>才从 OpenAI 官方人员的推文中得知,im-also-a-good-gpt2-chatbot 已被正式确认为 GPT-4o。<span style="color: black;">她们</span>声<span style="color: black;">叫作</span>,「这不仅是世界上最好的模型,<span style="color: black;">况且</span>可<span style="color: black;">以避免</span>费在 ChatGPT 中<span style="color: black;">运用</span>,这在前沿模型中是前所未有的。」 据<span style="color: black;">叫作</span>,该模型部分是应用 Q-learning 和 A* 搜索(Q*)的产物。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">另外</span>,LMSYS 确认,所有 gpt2-chatbots 都来自 OpenAI,且在内部排行榜上名列前茅,<span style="color: black;">拥有</span>非常<span style="color: black;">类似</span>的 Arena ELO、置信区间、编码结果、胜率等。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">GPT-4o:人人可用的顶级端到端多模态大模型</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://q0.itc.cn/q_70/images03/20240516/d164b72362c54719b8925ffd69c865ac.jpeg" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">在发布会中,OpenAI <span style="color: black;">暗示</span>,<span style="color: black;">期盼</span>把最强大的 AI 工具免费<span style="color: black;">供给</span>给所有人<span style="color: black;">运用</span>,<span style="color: black;">将来</span><span style="color: black;">每一个</span>人或将<span style="color: black;">持有</span>像 GPT-7 <span style="color: black;">这般</span>的 AI 算力。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">这次发布会展现了 OpenAI 工科人的直率气质,一<span style="color: black;">起始</span>就把整场发布会的要点放在了<span style="color: black;">背面</span>的 Slides 上,核心<span style="color: black;">便是</span> 「人人都能用上」 的 GPT-4o 模型。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">GPT-4o 是 OpenAI 继 GPT-4 后推出的全新<span style="color: black;">基本</span>模型,o 代表 omni,即 「全能」,<span style="color: black;">表现</span>了模型在多模态等方面的全面升级。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">GPT-4o 最大的亮点是支持多模态输入输出,能够接受和生成文本、语音、图像的任意组合,使人机交互更加自然流畅。语音响应速度大幅<span style="color: black;">提高</span>,可在 232 毫秒内给出<span style="color: black;">回复</span>,接近人类水平。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">在性能方面,GPT-4o 在英语文本和编程方面与 GPT-4 turbo 相当,但在非英语文本、视觉、语音理解等方面有<span style="color: black;">明显</span><span style="color: black;">提高</span>。<span style="color: black;">同期</span>,推理速度更快,API 价格降低 50%。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">▍</strong></span><strong style="color: blue;"><span style="color: black;">基准测试:刷新记录</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">在多个基准测试中,GPT-4o 刷新了之前模型的最好成绩。<span style="color: black;">按照</span> OpenAI 官方发布的数据,GPT-4o 在 MMLU(语言理解能力评测)上得分 88.7,为综合模型最高分;在 MATH 数学推理上较此前最好模型(Claude3-Opus)<span style="color: black;">提高</span> 27.5%;在 HumanEval 编程评测中达 90.5 分,<span style="color: black;">亦</span>是最高水平。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://q8.itc.cn/q_70/images03/20240516/c5b45a9b0ed94a8fb8298972c816f6cb.png" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">GPT-4o 文字能力基准测试结果 图 / OpenAI</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">▍</strong></span><strong style="color: blue;"><span style="color: black;">中文能力:超越前代</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">5 月 14 日下午,国内致力于大模型中文推理能力的第三方测评<span style="color: black;">公司</span> SuperCLUE <span style="color: black;">亦</span><span style="color: black;">颁布</span>了 GPT-4o 的中文能力评测结果:</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://q3.itc.cn/q_70/images03/20240516/03040be5226e4e25b41b4f989d1c8d40.jpeg" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">GPT-4o 中文推理能力排名 图 / SuperCLUE</span></p>在完成 SuperCLUE 推理任务时,GPT-4o 的整体得分为 81.73,超过 GPT-4 Turbo <span style="color: black;">作为</span>中文推理任务最强模型。
GPT-4o 在 SC-Math6 数学基准上得分 91.77 分,较 GPT-4 Turbo <span style="color: black;">提高</span> 1.06 分,登顶 SC-Math6 榜首,判定为推理等级 5。<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">GPT-4o 在 SC-Code3 代码基准上得分 71.68 分,较 GPT-4 Turbo <span style="color: black;">提高</span> 2.11 分,刷新 SC-Code3 最好成绩。</span></p>
<strong style="color: blue;"><span style="color: black;">多模态能力:语音助手的「下一个十年」</span></strong>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">在发布会上,GPT-4o 的多模态能力<span style="color: black;">作为</span>展示的重点。演示中,语音助手和视频通话功能尤为令人惊叹:属于语音助手的「下一个十年」,似乎真的要来了。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">按照</span> OpenAI 对 GPT-4o 模型的官方介绍,GPT-4o 是一个端到端的真正多模态大模型,能够接受文字、视觉(<span style="color: black;">照片</span> / 视频)以及听觉(音频)三种类型的输入,并可输出这三者的任意组合。<span style="color: black;">亦</span><span style="color: black;">便是</span>说,原先<span style="color: black;">必须</span> Whisper(OpenAI 发布的语音转文字模型)、GPT、TTS 三个模型逐一工作<span style="color: black;">才可</span>实现的语音助手功能,<span style="color: black;">此刻</span>不仅<span style="color: black;">能够</span>由一个模型<span style="color: black;">处理</span>,<span style="color: black;">乃至</span>还支持了视频的输入。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">端到端的多模态模型并不是<span style="color: black;">鲜嫩</span>事。曾经 Google 推出的 Gemini 模型就为<span style="color: black;">咱们</span><span style="color: black;">供给</span>了端到端多模态的例子。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">不<span style="color: black;">晓得</span><span style="color: black;">大众</span>还记不记得,Gemini 发布时的演示视频,<span style="color: black;">能够</span><span style="color: black;">按照</span>视频的输入做出分析和<span style="color: black;">回复</span>,这在当时令不少网友感到振奋。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://q0.itc.cn/q_70/images03/20240516/f25743bb8f144b7a8d16d060b759189d.jpeg" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">Gemini 的多模态能力演示视频,后被证实有剪辑</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">然而,Gemini <span style="color: black;">最后</span>未能掀起太大的<span style="color: black;">波涛</span>,其演示视频<span style="color: black;">亦</span>因破绽百出而被质疑。官方不得不承认视频中有加速和拼接的<span style="color: black;">成份</span>,<span style="color: black;">乃至</span>还<span style="color: black;">必须</span>人类提示词辅助,Gemini <span style="color: black;">才可</span><span style="color: black;">按照</span>视频输入做出符合<span style="color: black;">需求</span>的判断。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">OpenAI 显然吸取了前人的教训。在发布 GPT-4o 的页面上,特地标注了「All videos on this page are at 1x real time.」,这<span style="color: black;">亦</span><span style="color: black;">表示</span>了 OpenAI 对其模型能力的<span style="color: black;">自信心</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">尽管<span style="color: black;">咱们</span><span style="color: black;">日前</span>还<span style="color: black;">不可</span>马上体验到 GPT-4o 的语音和视频对话功能,但从现场官方的演示来看,GPT-4o 的多模态效果<span style="color: black;">已然</span>足够惊艳。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">首要</span>是情感表达。GPT-4o <span style="color: black;">因为</span>是端到端的多模态大模型,省去了语音文字互转的<span style="color: black;">过程</span>,相比传统的文字生成模型,<span style="color: black;">能够</span>直接<span style="color: black;">捉捕</span>到音视频中难以用文字表达的信息,<span style="color: black;">例如</span>人的表情、语气、环境音、以及说话人的身份。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">从前的 ChatGPT 语音对话,软件会<span style="color: black;">运用</span> Whisper 模型在用户停顿时,将音频发送给模型进行识别,而 Whisper 的能力则仅仅是将音频转化为类似字幕的形式。即使调用 Whisper 的所有能力,<span style="color: black;">亦</span>仅能区分大致的说话人,并识别歌声、掌声等音效。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">在输出方面,从前的传统 TTS 模型输出的语音都是固定的,模型(<span style="color: black;">或</span>说程序)本身并不具备理解文字内容的能力,分析情感<span style="color: black;">更加是</span>无从谈起。直到 SSML(语音合成标记语言)的<span style="color: black;">显现</span>,人们(<span style="color: black;">或</span>大模型)<span style="color: black;">能够</span><span style="color: black;">经过</span>在输入的文本中添加对语气和断句的标记,<span style="color: black;">指点</span>语音合成程序生成<span style="color: black;">包括</span><span style="color: black;">区别</span>「情感」的声音。但这本质上<span style="color: black;">亦</span>是预编程的结果,在<span style="color: black;">无</span>标记提示的<span style="color: black;">状况</span>下,<span style="color: black;">无</span> TTS 模型<span style="color: black;">能够</span>理解自己朗读内容的情感。这<span style="color: black;">亦</span>解释了去年 OpenAI 的 TTS 模型发布时,因其对人类语气、卡壳等细微动作的模仿,而一度被网友盛赞。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">而 GPT-4o 的情感能力,则是在输入和输出两端都能完美展现。除了<span style="color: black;">捉捕</span>音视频中难以用文字表达的信息,GPT-4o 输出的语音<span style="color: black;">亦</span><span style="color: black;">再也不</span>仅仅是冰冷的文本和固定情感语调的组合,而是真正地将每一个字节的输出都交由大模型本身。<span style="color: black;">例如</span>,在语音对话时,GPT-4o <span style="color: black;">实质</span>上是在进行音频到音频的输出,中间不<span style="color: black;">必须</span>转换到文字的思考过程,<span style="color: black;">因此呢</span>大模型具备了能听能说的情感能力。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">更令人惊叹的是,GPT-4o 是一个支持三种输入类型的多模态模型。在发布会上,<span style="color: black;">咱们</span>看到,当 GPT-4o「看到」人类在纸上写着的「I ❤️ ChatGPT」的文字后,居然会作出感动的<span style="color: black;">回复</span>。<span style="color: black;">这儿</span><span style="color: black;">触及</span>到的是音频和视频到音频的多模态情感能力。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://q9.itc.cn/q_70/images03/20240516/f929370c19074349a599e88af0b59af6.png" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">亦</span>难怪有人说,《流浪地球》里的 MOSS 和科幻电影《Her》里的语音助手,都被 GPT-4o 带到了现实。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">分词器更新:更懂多语言,更省 Token</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">GPT-4o 的推出还<span style="color: black;">伴同</span>着分词器的更新,这一更新<span style="color: black;">明显</span><span style="color: black;">提高</span>了多语言处理能力,<span style="color: black;">同期</span>大幅减少了 Token 的<span style="color: black;">运用</span>量。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">按照</span> OpenAI 的数据,新的分词器在多种语言上的表现都非常出色。例如,Gujarati 语言的 Token 数量减少了 4.4 倍,从 145 个减少到 33 个;Telugu 语言减少了 3.5 倍,从 159 个减少到 45 个;<span style="color: black;">乃至</span><span style="color: black;">针对</span>相对<span style="color: black;">繁杂</span>的中文,Token 数量<span style="color: black;">亦</span>减少了 40%,从 34 个减少到 24 个。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">从当前网友的分析来看,新的分词器名为「o200k_base」,<span style="color: black;">包括</span>了<span style="color: black;">更加多</span>的词汇,从而<span style="color: black;">明显</span>压缩<span style="color: black;">区别</span>语言的 Token 数量。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">分词器的更新<span style="color: black;">亦</span>是 GPT-4o 生成速度更快的<span style="color: black;">原由</span>。哪怕在算力和模型规模不变的<span style="color: black;">状况</span>下,<span style="color: black;">经过</span>减少 Token 数量(如一个 Token <span style="color: black;">包含</span><span style="color: black;">更加多</span>字符,<span style="color: black;">例如</span>中文的成语、俗语等),拥护<span style="color: black;">亦</span>能感知到<span style="color: black;">显著</span>的生成速度提示。更何况在当前调用 API 的体验来看,GPT-4o 模型每秒生成的 Tokens 数量<span style="color: black;">亦</span>有显著<span style="color: black;">提高</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">OCR 能力更新:能看懂中文,更能看懂题</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">在 GPT-4o 的更新中,OCR(光学字符识别)能力<span style="color: black;">亦</span>得到了<span style="color: black;">明显</span><span style="color: black;">提高</span>。新模型不仅能够更准确地识别和理解中文文本,还在理解<span style="color: black;">繁杂</span>的图表和题目上表现得更加出色。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://q3.itc.cn/q_70/images03/20240516/84a81c9bcade4073900c9b6902db532a.png" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">我分别<span style="color: black;">运用</span>中英板书、中文海报等<span style="color: black;">平常</span> OCR 识别场景进行了测试,实测<span style="color: black;">发掘</span>,GPT-4o 对多语言(<span style="color: black;">包含</span>中文、日语)的 OCR 能力有了<span style="color: black;">明显</span>进步,<span style="color: black;">日前</span><span style="color: black;">已然</span>基本达到可用水准。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">能够</span>期待一下,当视频通话功能推送以后,中文用户应该<span style="color: black;">亦</span><span style="color: black;">能够</span>体验到 GPT-4o 的绝大<span style="color: black;">都数</span>能力。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">更令人振奋的是,GPT-4o <span style="color: black;">因为</span>数学和编程<span style="color: black;">基本</span>推理能力的<span style="color: black;">明显</span><span style="color: black;">提高</span>,<span style="color: black;">此刻</span><span style="color: black;">针对</span>公式 OCR 后解题的成功率<span style="color: black;">亦</span>大幅<span style="color: black;">提高</span>。加上视频对话功能,20 美元一月就能请到顶级家教,岂不美哉。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">▍</strong></span><strong style="color: blue;"><span style="color: black;">ChatGPT <span style="color: black;">制品</span>更新:<span style="color: black;">第1</span>手体验</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://q7.itc.cn/q_70/images03/20240516/c7337fee001743edb5b8577644862638.jpeg" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">GPT-4o 推送弹窗</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">5 月 14 日凌晨一点,OpenAI Spring Update 线上发布会如期举行。早上八点,我<span style="color: black;">发掘</span>,免费版的 ChatGPT <span style="color: black;">已然</span>收到了最新的 GPT-4o 推送。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">在左上角的模型切换页面,原先的「GPT-3.5」和「GPT-4」选项被「ChatGPT」和「ChatGPT Plus」取代。<span style="color: black;">亦</span><span style="color: black;">便是</span>说,收到 GPT-4o 推送的免费版用户,新建对话时<span style="color: black;">已然</span>默认<span style="color: black;">运用</span> GPT-4o 模型了。当免费的 GPT-4o 配额用尽时,会自动切换至 GPT-3.5 模型,此后<span style="color: black;">没法</span>进行对文档和<span style="color: black;">照片</span>的对话,<span style="color: black;">亦</span>无法<span style="color: black;">运用</span> GPTs、联网和数据分析等功能。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">到了<span style="color: black;">晌午</span>,我的 Plus 账号和 Team 账号<span style="color: black;">亦</span><span style="color: black;">持续</span>收到了 GPT-4o 模型的推送。在 Plus 和 Team 的界面中,OpenAI <span style="color: black;">保存</span>了 GPT-4 模型,<span style="color: black;">供给</span>「GPT-4o」「GPT-4」和「GPT-3.5」三种模型供付<span style="color: black;">花费</span>户自由<span style="color: black;">选取</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">不久后,我<span style="color: black;">亦</span>收到了发布会上提及的 ChatGPT 网页版新 UI Juice 的推送。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">ChatGPT 网页版新 UI Juice</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">初步观察,新 UI 整体更加圆润、简洁。在每一条回复的下方新增了切换模型的选项,用户<span style="color: black;">能够</span>自由<span style="color: black;">选取</span><span style="color: black;">区别</span>模型重新生成该对话。<span style="color: black;">同期</span>,用户提问以对话气泡展示,<span style="color: black;">明显</span>了对话感。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">至于官方发布会中提及的 macOS 客户端和其他新功能,<span style="color: black;">截止</span>发稿时仍在白名单灰度<span style="color: black;">周期</span>。让<span style="color: black;">咱们</span>期待正式上线的样子吧。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">我经过实测<span style="color: black;">发掘</span>,<span style="color: black;">日前</span>网页版的 ChatGPT 还不具备 GPT-4o 模型的所有多模态能力,<span style="color: black;">包含</span>对音视频的读取、生成以及对文档中<span style="color: black;">照片</span>的读取。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">另外</span>,我<span style="color: black;">经过</span>对<span style="color: black;">区别</span>等级账号的模型请求抓包<span style="color: black;">发掘</span>,<span style="color: black;">针对</span>免费账户,GPT-4o 模型的 Tokens 上下文窗口仍然和 GPT-3.5 相同,为 8192(8k),而 Plus 会员和 Team 团队版则均为 32768(32k),这与此前的 GPT-4(All Tools)模型的上下文限制相同。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">受限于网页版的请求上下文限制,<span style="color: black;">能够</span>预见,免费版用户所体验到的 GPT-4o 模型将会有 「降智」 表现。而哪怕是付费会员,在网页版的 ChatGPT 中进行对话时仍然采用滑动上下文窗口,而非 128k 的模型理论最大上下文窗口。在阅读大型文档时,模型仍然只能获取开头部分内容,后续内容<span style="color: black;">必须</span>模型<span style="color: black;">运用</span>内置工具进行文中搜索获取,阅读长文的体验<span style="color: black;">特别有</span>可能与当前不会有较<span style="color: black;">显著</span>差异,<span style="color: black;">乃至</span>可能不如以长上下文窗口著<span style="color: black;">叫作</span>的 Claude 和国内的 Kimi。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">大戏到来前的半代升级</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">从 4 月底<span style="color: black;">奥秘</span>模型 gpt2-chatbot 的<span style="color: black;">揭发</span>,到 5 月中旬 GPT-4o 的正式发布,OpenAI 的这次春季更新无疑再次激起了人们对大模型,<span style="color: black;">或</span>说对 OpenAI 本身的讨论激情。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">然而,<span style="color: black;">按照</span>市场<span style="color: black;">广泛</span>预测,OpenAI 今年的 「大招」 远不止于此。其 「下一代」 模型 GPT-5 <span style="color: black;">已然</span>基本完成训练,不久前<span style="color: black;">起始</span>进入红队安全测试<span style="color: black;">周期</span>,预计最快会在今年年中正式发布。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">阿里的通义千问,从 1.5 追赶到 2.5,才<span style="color: black;">最终</span>做到国内<span style="color: black;">第1</span>,<span style="color: black;">全世界</span>第三的成绩;百度的文心一言,从 3.5 追到 4.0,<span style="color: black;">此刻</span>看来<span style="color: black;">亦</span>稍显掉队。而 Sam Altman 却会对外宣<span style="color: black;">叫作</span>,当前<span style="color: black;">已然</span>稳坐世界大模型头把交椅的 GPT-4o 还不是 OpenAI 的 「下一代大模型」,可见 OpenAI 的野心和实力之大。<span style="color: black;">想要</span>追上,谈何容易。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">我猜测,<span style="color: black;">这次</span> OpenAI Spring Update 属于「大戏到来前的半代升级」,是夺回舆论焦点和行业话语权的例行升级。至于人们正在期待的下一代大模型「GPT-5」,就让<span style="color: black;">咱们</span>拭目以待吧。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">原文链接:</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">https://sspai.com/post/88803?utm_source=wechat&utm_medium=social</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">作者:别为馒头</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">责编:广陵止息</span></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">/<span style="color: black;">更加多</span>热门<span style="color: black;">文案</span>/</strong><a style="color: black;"><span style="color: black;">返回<span style="color: black;">外链论坛:www.fok120.com</span>,查看<span style="color: black;">更加多</span></span></a></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">责任编辑:网友投稿</span></p>
你的话语如春风拂面,让我心生暖意。 楼主的文章深得我心,表示由衷的感谢!
页:
[1]