天涯论坛

 找回密码
 立即注册
搜索
查看: 75|回复: 8

OpenAI 用 26 分钟改变世界!免费版 GPT-4 来了,视频语音交互快进到科幻片

[复制链接]

3123

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99108625
发表于 2024-8-19 07:10:49 | 显示全部楼层 |阅读模式

今天凌晨,一场 26 分钟的发布会,将又一次大大改变 AI 行业和咱们将来的生活,会让无数 AI 初创机构焦头烂额。

这真不是标题党,由于这是 OpenAI 的发布会。

刚才,OpenAI 正式发布了 GPT-4o,其中的「o」表率「omni」(即全面、全能的意思),这个模型同期具备文本、照片、视频和语音方面的能力,这乃至便是 GPT-5 的一个未完成版。

更重要的是,这个 GPT-4 级别的模型,将向所有用户免费供给,并将在将来几周内向 ChatGPT Plus 推出。

咱们先给大众一次性总结这场发布会的亮点,更加多功能解析请接着往下看。

发布会要点

新的 GPT-4o 模型:打通任何文本、音频和图像的输入,相互之间能够直接生成,无需中间转换GPT-4o 语音延迟大幅降低,能在 232 毫秒内回复音频输入,平均为 320 毫秒,这与对话中人类的响应时间类似。 GPT-4 向所有用户免费开放GPT-4o API,比 GPT4-turbo 快 2 倍,价格便宜 50%惊艳的实时语音助手演示:对话更像人、能实时翻译,识别表情,能够经过摄像头识别画面写代码分析图表ChatGPT 新 UI,更简洁一个新的 ChatGPT 桌面应用程序,适用于 macOS,Windows 版本今年晚些时候推出

这些功能早在预热周期就被 Altman 形容为「感觉像魔法」。既然全世界 AI 模型都在「赶超 GPT-4」,那 OpenAI 要从武器库掏出点真家伙。

免费可用的 GPT-4o 来了,但这不是它最大的亮点

其实在发布会前一天,咱们发掘 OpenAI 已然悄悄将 GPT-4 的描述从「最先进的模型」,修改为「先进的」。

便是为了迎接 GPT-4o 的到来。GPT-4o 的强大在于,能够接受任何文本、音频和图像的组合做为输入,并直接生成以上这几种媒介输出。

寓意着人机交互将更接近人与人的自然交流。

GPT-4o 能够在 232 毫秒内回复音频输入,平均为 320 毫秒,这接近于人类对话的反应时间。此前运用语音模式与 ChatGPT 进行交流,平均延迟为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。

它在英文和代码文本上与 GPT-4 Turbo 的性能相匹敌,在非英语语言文本上有明显改进,同期在 API 上更快速且价格便宜 50%。

而与现有模型相比,GPT-4o 在视觉和音频理解方面表现尤为出色。

你在对话时能够随时打断能够按照场景生成多种音调,带有人类般的心情和情感直接经过和 AI 视频通话让它在线解答各样问题

从测试参数来看,GPT-4o 重点能力上基本和日前最强 OpenAI 的 GPT-4 Turbo 处在一个水平。

过去咱们和 Siri 或其他语音助手的运用体验都不足理想,本质上是由于语音助手对话要经历三个周期

语音识别或「ASR」:音频 -> 文本,类似 Whisper;LLM 计划下一步要说什么:文本 1 -> 文本 2;语音合成或「TTS」:文本 2 -> 音频,想象 ElevenLabs 或 VALL-E。

然而咱们平常的自然对话基本上却是这般

在听和说的同期思虑下一步要说什么;在适当的时刻插进「是的,嗯,嗯」;预测对方讲话结束的时间,并立即接管;自然地决定打断对方的谈话,而不会导致反感;在听和说的同期思虑下一步要说什么;在适当的时刻插进「是的,嗯,嗯」;优雅地处理并打断。

此前的 AI 语言助手没法很好处理这些问题,在对话的三个周期每一步都有很强延迟,因此呢体验不良同期会在过程中丢失非常多信息,例如没法直接观察语调、多个说话者或背景噪音,没法输出笑声、歌唱或表达情感。

当音频能直接生成音频、图像、文字、视频,全部体验将是跨越式的。

GPT-4o 便是 OpenAI 为此而训练的一个全新的模型,而要时间跨越文本、视频和音频的直接转换,这需求所有的输入和输出都由同一个神经网络处理。

而更令人惊喜的是,ChatGPT 免花费户就能运用 GPT-4o 能够体验以下功能:

体验 GPT-4 级别的智能从模型和网络获取响应分析数据并创建图表聊一聊你拍的照片上传文件以获取摘要、写作或分析帮忙运用 GPTs 和 GPT Store经过 Memory 构建更加有帮忙的体验

而当你看完 GPT-4o 下面这些演示,你的感受或许将更加繁杂

ChatGPT 版「贾维斯」,人人都有

ChatGPT 不但能说,能听,还能看,这已然不是什么鲜嫩事了,但「船新版本」的 ChatGPT 还是惊艳到我了。

睡觉搭子

以一个详细的生活场景为例,让 ChatGPT 讲一个关于设备人和爱的睡前故事,它几乎不消太多思考,张口就能说出一个带有情感和戏剧性的睡前故事。

乃至它还能以唱歌的形式来讲述故事,简直能够充当用户的睡觉搭子。

做题能手

,在发布会现场,让其演示怎样给线性方程 3X+1=4 的求解供给帮忙,它能够一步步贴心地引导并给出正确答案。

当然,以上还是有些「小儿戏」,现场的编码困难才是真正的考验。不外,三下五除二的功夫,它都能容易处理

借助 ChatGPT 的「视觉」,它能够查看电脑屏幕上的一切,譬如与代码库交互并查看代码生成的图表,咦,不对劲?那咱们以后的隐私岂不是要被看得一清二楚了?

实时翻译

现场的观众给 ChatGPT 提出了有些刁钻的问题。

从英语翻译到意大利语,从意大利语翻译到英语,无论怎么折腾该 AI 语音助手,它都游刃有余,看来不必花大价钱去买翻译机了,在将来,指不定 ChatGPT 可能比你的实时翻译机还可靠

暂时没法在飞书文档外展示此内容

实时翻译(官网案例)

感知语言的心情还只是第1步,ChatGPT 还能诠释人类的的面部心情

在发布会现场,面对摄像头拍摄的人脸,ChatGPT 直接将其「误认为」桌子,正当大众伙以为要翻车时,原来是由于最先打开的前置摄像头瞄准了桌子。

不外,最后它还是准确描述出自拍面部的心情,并且准确识别出脸上的「灿烂」的笑脸。

有趣的是,在发布会的尾声,发言人不忘 Cue 了英伟达和其创始人老黄的「鼎力支持」,属实是懂人情世故的。

对话语言界面的想法拥有令人难以置信的预见性。

Altman 这里前的采访中暗示期盼最后研发出一种类似于 AI 电影《Her》中的 AI 助理,而今天 OpenAI 发布的语音助手切实是有走进现实那味了。

OpenAI 的首席运营官 Brad Lightcap 前不久曾预测,将来咱们会像人类交流同样与 AI 聊天设备人对话,将其视为团队中的一员。

此刻看来,这不仅为今天的发布会埋下了伏笔,同期咱们将来十年生活的生动注脚。

苹果在 AI 语音助手「兜兜转转」了十三年的时间都没能走出迷宫,而 OpenAI 一晚上之间就找到出口。可预见的是,在不久的将来,钢铁侠的「贾维斯」将再也不是幻想。

《她》来了

虽然 Sam Altman 没在发布会上显现,但他在发布会后就发布了一篇博客,并且在 X 上发了一个词: her。

这显然在暗指那部同名的经典科幻电影《她》,这般是我观看这场发布会的演示时,脑子里最先联想的画面。

电影《她》里的萨曼莎,不只是制品乃至比人类更懂人类,更像人类自己 ,你真的能在和她的交流中逐步忘记,她原来是一个 AI 。

寓意着人机交互模式可能迎来图像界面后真正的革命性更新,如同 Sam Altman 在博客中暗示

新的语音(和视频)模式是我运用过的最好的计算机界面。它感觉像电影中的人工智能;况且我仍然有点惊讶它是真实的。达到人类级别的响应时间和表现力原来是一个很大的改变。

之前的 ChatGPT 让咱们看到自然用户界面初露端倪:简单性高于一切:繁杂性是自然用户界面的敌人。每一个交互都应该是不言自明的,不必须说明手册。

但今天发布的 GPT-4o 则完全区别,它的几乎无延迟的相应、聪明、有趣、且实用,咱们和计算机的交互从未真正体验过这般的自然顺畅。

这儿面还藏着巨大可能性,当支持更加多的个性化功能和与区别终端设备的协同后,寓意咱们能够利用手机、电脑、智能眼镜等计算终端做到非常多以往没法实现的事情。

AI 硬件不会再试累积,当下更令人期待的,便是倘若下个月苹果 WWDC 真的官宣与 OpenAI 达成合作,那样 iPhone 的体验提高或许将比近几年任何一次发布会都大。

英伟达高级可专家 Jim Fan 认为,号叫作史上最大更新 iOS 18 ,和 OpenAI 的合作可能会有三个层面:

放弃 Siri,OpenAI 为 iOS 提炼出一个纯粹在设备上运行的小型 GPT-4o,可选取付费升级运用云服务。原生功能将摄像头或屏幕流输入到模型中。芯片级支持神经音视频编解码器。与 iOS 系统级操作 API 和智能家居 API 集成。运用 Siri 快捷方式,然则是时候复兴了。这可能会作为起始持有十亿用户的 AI 代理制品。这对智能手机来讲,就像特斯拉那样的全尺寸数据飞轮。

说到这儿不得不心疼明天要举办发布会的 Google 一秒。

作者:李超凡 莫崇宇

#欢迎关注爱范儿官方微X公众号:爱范儿(微X号:ifanr),更加多精彩内容第1时间为您奉上。

爱范儿|原文链接· ·外链博客





上一篇:chatgpt,灵力AI等三款热门AI工具免费了,且无限制运用!
下一篇:OpenAI 官方上线桌面端 ChatGPT 安装包,能够避免费白嫖GPT-4o模型了
回复

使用道具 举报

3047

主题

3万

回帖

9606万

积分

论坛元老

Rank: 8Rank: 8

积分
96065852
发表于 2024-8-20 01:13:31 | 显示全部楼层
你的努力一定会被看见,相信自己,加油。
回复

使用道具 举报

0

主题

1万

回帖

1

积分

新手上路

Rank: 1

积分
1
发表于 2024-8-27 15:30:07 | 显示全部楼层
期待你更多的精彩评论,一起交流学习。
回复

使用道具 举报

1

主题

826

回帖

-1

积分

限制会员

积分
-1
发表于 2024-9-8 14:28:30 | 显示全部楼层
我完全赞同你的观点,思考很有深度。
回复

使用道具 举报

1

主题

659

回帖

-4

积分

限制会员

积分
-4
发表于 2024-9-25 04:54:10 | 显示全部楼层
太棒了、厉害、为你打call、点赞、非常精彩等。
回复

使用道具 举报

3061

主题

3万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99139052
发表于 2024-9-27 00:46:23 | 显示全部楼层
我完全同意你的看法,期待我们能深入探讨这个问题。
回复

使用道具 举报

3047

主题

3万

回帖

9606万

积分

论坛元老

Rank: 8Rank: 8

积分
96065852
发表于 2024-10-5 01:16:48 | 显示全部楼层
感谢楼主的分享!我学到了很多。
回复

使用道具 举报

3047

主题

3万

回帖

9606万

积分

论坛元老

Rank: 8Rank: 8

积分
96065852
发表于 2024-10-13 12:46:19 | 显示全部楼层
系统提示我验证码错误1500次 \~゛,
回复

使用道具 举报

2986

主题

3万

回帖

9956万

积分

论坛元老

Rank: 8Rank: 8

积分
99569168
发表于 2024-10-16 04:01:34 | 显示全部楼层
谷歌外链发布 http://www.fok120.com/
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 05:59 , Processed in 0.119776 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.