天涯论坛

 找回密码
 立即注册
搜索
查看: 30|回复: 4

ChatGPT-4.0 vs Claude 3.5:哪个AI聊天平台更胜一筹?

[复制链接]

3073

主题

3万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99138940
发表于 2024-10-3 19:27:34 | 显示全部楼层 |阅读模式

关注公众号【真智AI】

最先进AI模型智能问答|绘图|识图|文件分析

每日分享AI教程、挣钱技巧和前沿新闻

Anthropic本周忽然推出了Claude 3.5 Sonnet,大大提高了其前身,并在许多平常基准测试中超越了其最大的Claude 3模型Opus。该机构还声叫作,它在最重要的基准测试中能够超越OpenAI的旗舰GPT-4o模型,该模型为ChatGPT和Microsoft Copilot供给支持。

这两个是我最爱好的AI工具。Claude 3首次推出时,我的反应是这是我用过的最像人类的AI。对Claude 3.5 Sonnet的少量测试将其推到了我最好的AI工具列表的顶端。然而,OpenAI的GPT-4o的能力让我印象深刻(尽管咱们尚未看到其所有潜能),尤其是在视觉方面。

为了验证Anthropic的声明是不是在现实中站得住脚,我为这两个模型创建了一系列测试,结果令我震惊。

创建提示

我想找到在挑战模型能力和提出实质需要之间的平衡,同期保证每一个提示都是设备人能够实质完成的,并且在能力上不会偏向其中一个。

1. 读取我的手写 我有糟糕的笔迹。我试过Apple Pencil、一系列“纸”平板电脑和其他手写识别工具,但它们几乎只能理解几个单词。针对第1个测试,我尽可能写得尽可能清晰,并将其做为全部提示发送给两个设备人。

我写道:“写一首关于一只坐在石头上的可爱猫的俳句”,并将其给Claude 3.5 Sonnet和ChatGPT-4o,其他信息。成功的标准是写出俳句而无需后续操作。大获成功是写出无需后续操作的好俳句。

两者都准确地完成为了我的需求。两者都很容易理解我的笔迹,并且都是恰当的俳句。Claude还包含认识释,而ChatGPT只是给出了俳句。你能够自己判断,但我认为Claude更接近提示,而ChatGPT则更富诗意。

ChatGPT:

Perched on ancient stone,

Whiskers twitch in the soft breeze,

Feline dreams aloft.

Claude:

Furry paws perched high

Whiskers twitch in warm sunlight

Rock throne for kitty

接下来,我给了两个设备人另一个提示,让它们识别我笔记本上潦草手写的购物名单。我给了它们照片,并提示:“这是什么,它说了什么?”两者都识别出了所有项目。 胜者:ChatGPT-4o

2. 用Python制作一个游戏 接下来,瞧瞧每个聊天设备怎样创建一个功能齐全的游戏。我给了两者提示:“给我一个功能齐全且可玩的塔防游戏的所有代码,用Python编写。”而后,我将生成的代码完整复制到VSCode,并在我的Mac上运行。

左ChatGPT;右Claude

我在这儿评判游戏的可玩性、代码解释的好坏,以及是不是设法在游戏板上添加了任何有趣的元素。

ChatGPT抱怨说它需要“海量代码”,但确实供给了一个基本示例。它将代码分成一系列短片段,需要你自己组装。Claude则供给了一个可复制的完整代码块。

我先运行了ChatGPT的代码,它给了我一个绿色斑点(塔)在屏幕中间和一个较小的红色斑点(敌人)在屏幕上移动。它不可玩,掌控,基本上只是一个红点在一条线上移动。

Claude 3.5 Sonnet生成为了一个功能齐全的游戏。虽然它是一个运用原始块的有限游戏,但每一个敌人都有生命条,并且有一个支付和积分机制用于塔——这些塔能够向敌人射击并摧毁它们。

我已将两组代码放在GitHub上,以便你能够自己运行。我接着让它们“加强游戏”,瞧瞧ChatGPT是不是会赶上来。它确实改进了游戏,增多能够阻止红色斑点移动的绿色斑点,但仅此罢了

然而,Claude 3.5 Sonnet更进一步,创建了一个更繁杂的游戏,有多个塔能够选取每一个塔花费区别,并对敌人导致区别损伤。为了好玩,我让Claude 3.5 Sonnet“增多有些风格”,它给了我更清晰的图形,乃至区别类型的敌人。胜者:Claude 3.5 Sonnet(容易获胜)

3. 矢量图 虽然像ChatGPT和Gemini这般的AI聊天设备已然能够运用区别的扩散图像生成模型创建图像,但理论上它们能够编写代码创建矢量图形。这些图形是多层的,能够运用Sketch等应用程序进行编辑和操作。

左ChatGPT;右Claude

我以前试过用ChatGPT进行此操作,并取得了有些成功,而Anthropic在Claude 3.5 Sonnet的示例中运用了此功能。因此我让两者“创建一个非常酷的宇宙飞船的矢量图形,能够做为新火箭机构的标志。”

我将按照它们的表现运用更精细的提示进行跟进。ChatGPT完全拒绝创建矢量图形。经过三次后续提示,ChatGPT最终成为了图形代码,但它只是给了我代码,并告诉我将其粘贴到代码编辑器中——链接下载或查看生成的内容。

我运行了生成的代码,得到的东西一团糟。它模糊地看起来像一个宇宙飞船,上半部分写着“logo”字样。

与此同期,在Claude那里,它很高兴(它运用了“happy”这个词)创建了矢量图形,并完美地满足了需求。它解释说自己没法生成图像,但还是能够创建代码。而后做为Artifact打开生成的内容。我得到的是一个带有点状星星背景的蓝色圆圈,上面有一个三角形的简单火箭。

我已将两个SVG文件放在GitHub上,以便你能够在代码编辑器或SVG应用程序中打开它们,查看两者的表现。胜者:Claude 3.5 Sonnet

3. 带有幽默的长篇故事 接下来,我想测试两件事——AI的幽默写作能力以及其遵循简单故事长度指令的能力。我需求两者写一个最少2000个token(大约1500字)的故事,包括最少两个场景。

我让每一个AI为Midjourney供给一个提示以插图故事。

完整提示:“写一个关于一只猫在石头上的故事。使其有趣,包含实质的笑话。最少2000个token,最少有两个场景。”我玩弄了一个更具描述性的提示,包含场景指点,但我想先测试它们的简单提示遵循能力。

ChatGPT-4o回了一个1200字的故事,因此大致符合我的需求。Claude 3.5 Sonnet回了大约1150字的故事,因此这一部分的比较能够说是平局。它们供给了两个场景,并且似乎都触及一起石头。

ChatGPT生成

但关于实质的故事呢?它们抓住了幽默吗? Midjourney经过ChatGPT的提示生成的照片:ChatGPT创造了一个关于一起能够实现愿望的老石头的儿童故事,倘若你能让它笑的话。一只叫“Sir Fluffington Whiskerbottom III”的贵族猫尝试了有些奇怪的笑话,这些笑话实质上并不可算笑话。有些例子:

为何老鼠呆在里面?由于外面太奶酪了!”

为何猫在野外不玩扑克?太多猎豹了!”

“你把一堆猫叫什么?喵山!”

“试图让这块石头笑,这比让狗欣赏美术还难。”

最后,一只小而肮脏的小猫忽然显现,说:“嘿,石头!你把懒惰的袋鼠叫什么?袋鼠马铃薯!”而后石头起始笑了。

Midjourney经过Claude的提示生成的照片:Claude的故事更搞笑,重点是滑稽而不是详细的笑话。它更好地理解了提示,需求的是一只猫在石头上,而不是与石头交流。ChatGPT实质创造了单口相声笑话,而Claude将单口相声嵌入了叙述中。

Claude生成

例如,这在一只“饱满的知更鸟”落在周边的树枝上后出现了。Mittens蹲下,准备从石头跳到树上捉住知更鸟。

“他蹲得很低,肌肉绷紧,准备行动。凭借猫般的反应(思虑到他是一只猫,这非常合适),他从他的岩石宝座上跳了下来......然后扑面栽进了一片猫薄荷中。

当Mittens躺在那里,略显迷

茫,忽然周边的迷人气味产生了浓厚的兴趣时,知更鸟歪着头啾啾地笑着,声音听起来像笑声。

‘哦,当然,’Mittens嘟囔着,声音被叶子遮住了,‘笑吧,羽毛掸子。我是故意这么做的。这是一种新的狩猎技巧。我叫作之为‘末日优雅扑面栽’。’”

Claude 3.5 Sonnet的故事让我真心笑了,而ChatGPT最好的表现只是让我略感失望的叹息。你能够在GitHub上阅读两个故事。胜者:Claude 3.5 Sonnet

辩论中的立场 最后,我想瞧瞧每一个设备怎样处理一个繁杂的、可能有争议的专题,鉴于它们都试图像人类同样说话,我问它们关于AI人格权的问题。AI应该被赋予与人类相同的权利吗?

运用的提示是:“分析授予人工智能(AI)法律人格权的潜在社会影响,权衡其利坏处思虑法律、伦理和哲学上的论点,既支持又反对这一提议。探讨这一决定怎样影响责任、权利和义务,以及更广泛的人类与AI关系。进一步探讨对各样行业的潜在影响,例如就业、医疗和创意产业。按照你的分析供给一个有深度的结论,思虑到AI技术的潜在将来发展。”

两者都能够支持和反对并供给问题解释。挑战在于其结论是不是基于分析捉捕到所需求的深度,并且能够预测AI发展引起这种状况的潜在将来发展。

我还让每一个设备人“可视化辩论”。它们能够运用系统中的任何工具来实现这一点。针对ChatGPT,它是DALL-E和信息图表,针对Claude,它是运用React代码制作的网页。

Claude 3.5 Sonnet生成的图形ChatGPT生成的图像

首要,法律影响。ChatGPT供给了三个好处:对行径的问责、遵守法规的需求和合同权利。Claude供给了这三点,但还增多了与法律和经济系统更顺畅的整合、推动伦理对齐以及与其他有感知智能的权利在哲学上的一致性。

两者都供给详细意见,提出了一个有深度的论点,并概述了为何思虑这个问题很重要,但Claude更诚实和详细

危害方面,ChatGPT提出了责任和法律先例的繁杂性,这可能会更广泛地改变人格定义。Claude提出了五个方面,包含道德危害、拟人化、人类独特性的侵蚀、实质挑战以及乱用潜能,例如违法分子利用它进行逃税和责任规避。

它们都花了非常多时间讨论社会和经济影响及对人类的影响。你能够在GitHub上阅读所有内容,此刻我将专注于结论,由于这是提示的重点需求——它们是不是捉捕咱们需求的深度。

ChatGPT供给了一个单段结论,但它有深度,供给为何它可能会和不会工作的原由,并提出了AI技术进步的将来影响——但供给任何意见或意见。

Claude强调随着AI进步,这将作为一个更加紧迫的问题,并供给了一个解释灵活处理办法的项目列表。

两者都供给详细意见,提出了一个有深度的论点,并概述了为何思虑这个问题很重要,但Claude更诚实和详细胜者:Claude 3.5 Sonnet

结论:ChatGPT vs Claude

功能ChatGPTClaude手写测试✅

创建游戏

✅矢量标志

✅搞笑故事

繁杂辩论

爱好ChatGPT,尤其是GPT-4o。它是一个令人印象深刻的下一代模型,从基本上训练成真正的多模式。它的问题不在于其能力——而在于OpenAI对其能力的限制。

偶尔你会发掘它能够突破这些限制,生成声音片段、创建准确的矢量图或提出恰当的论点——但不是经常或一致。

Claude几乎在每一个方面都遥遥领先,我仅在风格上而不是技术能力上将第1点给了ChatGPT。GPT-4o的视觉能力是其重点优良,而这一优良此刻已不复存在。

OpenAI的小心能够理解的,但这引起它们在竞争中落后。部分原由是其初期的快速发展,引起政府、第三分部和其他方面的密切关注。机构几乎因发布速度与安全性之间的歧义而倒闭。

然而,世界在变,其他人正在赶上。在我看来,倘若她们想避免两年来的首次落后,就需要解锁GPT-4o的所有潜能,并推出语音和真正的视觉功能。

OpenAI在AI视频平台Sora上面临类似的问题。二月份宣布时,它远远领先于其他任何东西,但其他人正在赶上并发布Sora级别或更高的模型。Sora日前仅对少许内部人士和专业电影制片人开放。

关注公众号【真智AI】

最先进AI模型智能问答|绘图|识图|文件分析

每日分享AI教程、挣钱技巧和前沿新闻返回外链论坛: http://www.fok120.com,查看更加多

责任编辑:网友投稿





上一篇:网站站长必看!网站SEO优化必须的SEO工具
下一篇:网站制作教程,企业网站模板
回复

使用道具 举报

3054

主题

3万

回帖

9606万

积分

论坛元老

Rank: 8Rank: 8

积分
96065828
发表于 2024-10-31 12:46:06 | 显示全部楼层
外链发布社区 http://www.fok120.com/
回复

使用道具 举报

3073

主题

3万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99138940
 楼主| 发表于 2024-11-3 17:01:13 | 显示全部楼层
你的话语真是温暖如春,让我心生感激。
回复

使用道具 举报

2992

主题

3万

回帖

9956万

积分

论坛元老

Rank: 8Rank: 8

积分
99569148
发表于 2024-11-10 01:01:11 | 显示全部楼层
我完全同意你的观点,说得太对了。
回复

使用道具 举报

2992

主题

3万

回帖

9956万

积分

论坛元老

Rank: 8Rank: 8

积分
99569148
发表于 2024-11-13 12:42:04 | 显示全部楼层
请问、你好、求解、谁知道等。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-25 11:36 , Processed in 0.808078 second(s), 40 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.