天涯论坛

 找回密码
 立即注册
搜索
查看: 79|回复: 3

体验完杨植麟企业的新模型,发掘这Kimi Chat连家谱都敢读了

[复制链接]

3077

主题

148

回帖

9911万

积分

论坛元老

Rank: 8Rank: 8

积分
99118886
发表于 2024-8-22 09:32:19 | 显示全部楼层 |阅读模式

作者

油醋

邮箱zhuzheng@pingwest.com

完了,又多了一个大模型能看懂我身份证了?

近期,杨植麟的创业机构月之暗面(Moonshot AI)发布了新版本模型moonshot-v1-20231225。

长长长长长的 Kimi Chat 第1次上新了。

图源:Kimi Chat

点开Kimi Chat发掘,它回复速度好似比以前快了,网页端多了个浅色模式(月之亮面?),但最重要的是,它能读PDF扫描件了!

啥意思呢,便是我把我身份证的照片发给他,它直接给我把家庭住址择出来了,你要让它按姓名、出生日期...列成张表,它还能给你整的挺规矩。

月之暗面自己的描述是这般

咱们实现了从扫描件(文档、合同、白板等等)提取文字的功能。日前已支持 PDF 格式的扫描文件上传解析。

例如能够提取白板上的手写内容。

在一段演示视频里,运用者给Kimi Chat发了一张关于它这次新功能介绍的草图,而后Kimi chat看着这个手写草稿,直接转换成为了一个信息表格。

在这之前,Kimi Chat的人设是“长”,能一口气读20万汉字。此刻它能读扫描件了,论文、手稿、盗版书(不是),想象空间又变大了。

这么说吧,做扫描全能王起家的那家机构,去年营收10个亿,今年要在上交所上市了。

但这能力到底有说的这么好,得试试。我先扔了一份浙江省高院发布的《关于规范律师调查令制度的办法》的扫描件给它,看Kimi Chat能不可帮我理一下这份20页文件的大致内容,效果还不错:

图源:Kimi Chat

接着我继续问,这份文件里“浙江省高级人民法院关于规范律师调查令制度的办法”目录下,第五条写的是什么。先说谜底:

图源:《关于规范律师调查令制度的办法》

Kimi Chat找到了精确位置,第1遍没答完整,第二遍就全对了:

图源:Kimi Chat

严肃的测试到此为止,而后我扔给了它一张即刻用户@我有猫之狸宝儿de麻麻贴出的手稿,让它帮我整理成一份更清晰的表格:

图源:即刻用户@我有猫之狸宝儿de麻麻

这手稿讲的什么,肯定有人一眼就能看出来。倘若没看出来的话,跟着Kimi Chat的思路试试:

图源:Kimi Chat

它一眼就看出这是一份家族谱系了,而后我顺着继续问它怎样理解这份族谱。让我惊讶的是,它已然隐约判断出这是一个文学作品中的虚构家族,并且在其中看到了世代传承的繁杂性,乃至有些悲剧元素。

恰当猜测,Kimi Chat可能已然背面对这些名字完成为了有些搜索的动作,但这族谱到底出自何处,它给出判断:

图源:Kimi Chat

不外,当我告诉它这份族谱出自一个“文学名著”,有个这个关键的限定词,它完全推理出了准确答案(我很可疑它早就晓得了)——《百年孤独》:

图源:Kimi Chat

到这儿我、或许有有些人会有疑问,针对大模型来讲,读照片(JPEG)和读PDF的区别到底是啥,谁更难?

我拿这个问题问GPT-4,针对GPT-4所有基于文本预训练的大模型来讲,处理PDF文件比JPEG文件更加直接和简单,下面是GPT-4的回答:

针对GPT-4这般的大型语言模型来讲,处理JPEG文件和PDF文件在技术上存在明显差异,况且难度区别

处理JPEG文件:

GPT-4本身是一个以文本为基本的模型,它并不直接处理图像数据。因此呢针对JPEG这般的图像文件,GPT-4没法直接诠释图像内容。

倘若要让GPT-4处理JPEG文件,就需要先将图像内容转换为文本描述。这一般触及运用计算机视觉模型来识别图像中的元素并将它们转换为文本描述,而后这个描述能够被GPT-4处理。

处理PDF文件:

PDF文件处理针对GPT-4来讲相对更直接,由于PDF文件一般包括海量的文本内容。GPT-4能够处理这些文本信息,进行理解、生成回复或进行其他文本关联的任务。

然而,倘若PDF文件中包括图像、表格或繁杂的格式化布局,这些非文本元素就可能难以被GPT-4直接处理。在这种状况下,可能需要运用OCR技术将非文本内容转换为文本,进行特定的格式处理,才可有效地利用GPT-4。

因此在难度上,针对大语言模型来讲,直接处理PDF文件还在模型的直接能力范围里,处理JPEG文件需要图像到文本的转换,这需要多模态能力的介入,使得全部处理过程更为繁杂和曲折。

能解释为何当我尝试给Kimi Chat一张照片,它好似仍然在用读“文档”的规律理解这张图。我拍了一张Manner咖啡的杯套,照片这般的:

图源:油醋

Kimi Chat完全读懂了这个杯套上的文字内容,并且从这些字眼里推测出了这个物件来字咖啡或饮品店的杯状饮品身上:

图源:Kimi Chat

但它没法识别图案,就没法识别这到底是一家咖啡店还是奶茶店的杯套——它似乎本能的跳过了符号化的部分。但当我给了它一点“观察图中符号”的倾向,它起始重视力放在画面里的图形部分,最后——在Manner的标志里找到了“Manner”这几个字:

图源:Kimi Chat

Bingo!

给Kimi Chat累够呛,便是咖啡凉了。





上一篇:活动预告 | Coffee Chat:读DBA是一种怎么样的人生体验?
下一篇:活动预告 | 商学院大百科Coffee Chat:明天去哪里读EMBA/DBA?
回复

使用道具 举报

1

主题

676

回帖

3

积分

新手上路

Rank: 1

积分
3
发表于 2024-9-25 08:33:42 | 显示全部楼层
seo常来的论坛,希望我的网站快点收录。
回复

使用道具 举报

3139

主题

3万

回帖

9996万

积分

论坛元老

Rank: 8Rank: 8

积分
99968622
发表于 2024-10-6 12:44:09 | 显示全部楼层
外链论坛的成功举办,是与各位领导、同仁们的关怀和支持分不开的。在此,我谨代表公司向关心和支持论坛的各界人士表示最衷心的感谢!
回复

使用道具 举报

3070

主题

3万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99138950
发表于 2024-10-30 03:31:18 | 显示全部楼层
论坛的成果是显著的,但我们不能因为成绩而沾沾自喜。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 16:44 , Processed in 0.152933 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.