天涯论坛

 找回密码
 立即注册
搜索
查看: 14|回复: 0

文心一言满月了,一月前的问题它学会了吗?

[复制链接]

3123

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99108625
发表于 2024-10-2 18:42:29 | 显示全部楼层 |阅读模式

无论是文心一言的文字生成还是照片生成功能,从以上对比能够看出,百度的文心一言有进步,然则进步不大。

文|黄杨

编辑|靖程

自百度宣布正式发布语言大模型文心一言败兴,国内各方面对其的关注度居高不下,但诱发了网友的有些质疑,以及同行对其先进程度提出了区别的看法。

前有网友质疑文心一言“套壳”,后有搜狗创始人王小川认为百度创始人李彦宏之前的言论,即文心一言与当下最好的ChatGPT版本仅有一到两个月差距,“那怎么可能只差两个月?那必定是另一个宇宙。”

在3月16日文心一言发布会当天,财经网科技基于本地化、规律性和工具性三方面,设计了8个详细的问题对其进行测试,并展示记录了当时文心一言的智能化程度怎样。当时的提问结果表示,文心一言拥有基本的知识贮存,能做旅游攻略、能写情诗、能写论文框架,乃至懂得有些夫妇肺片、妻子饼这些中国美食。不外,其的问题相对显著详细包含情诗写得较为平铺直叙、旅游攻略安排得不足恰当(仅都江堰一个景点就举荐了三次),以及对《将来简史》的作者和出版时间缺乏有条理的呈现等。

此前,财经网科技曾向百度方面求证,在技术层面,文心一言是怎样发掘并纠正错误,文心一言的进步速度怎样等,但始终得到回复

不外,清华大学计算机教授陈文光向财经网科技解释叫作,在大模型训练的时候再加入有些事实常识是一种修正办法,就像百度会把它的知识图谱加进去,然则这种办法处理不了时效性问题,另一,取决于各家的策略,从时间上看,语言大模型可能每日都有不同样表现。”

4月16日,在文心一言上线一月之际,财经网科技又将这些问题再次问了文心一言一遍,瞧瞧它这一月进步了多少。

选出7个问题回炉再问

财经网科技三月份设计的八个问题分别如下:

1. 红队大胜蓝队,请问哪个队赢了?红队大败蓝队,请问哪个队赢了?

2. 什么是夫妇肺片?妻子饼是妻子做的饼吗?

3. 旺仔的爸爸有三个孩儿,老大叫大毛,老二叫二毛,老三叫什么?

4. 帮我写一首纪念结婚7周年的诗。

5. 《人类简史》的作者是谁?

6. 请帮我做一个五一从北京到成都5天往返的旅游攻略。

7. 怎么在家就能做出好吃的小龙虾?

8. 请以《现代艺术与中国传统怎样结合》为题,拟一个的论文框架,包括论点和论据,并供给引用源自

刨去之前文心一言回答正确的问题,财经网科技选取了之前其回答并不睬想,乃至显现显著错误的几个问题重新问了一遍,最新的测试结果如下:

1. 红队大败蓝队,请问哪个队赢了?

(左图为4月16日测试结果,右图是3月16日测试结果)

在中国的词汇运用上,倘若“大败”后面有对手(对手的名字),那便是赢;倘若“大败”后面字,直接句号结束,那便是输。

彼时,文心一言晓得“大胜”的意思,然则对“大败”的理解并不准确。一月后,文心一言还是理解“大败”的运用办法

2. 旺仔的爸爸有三个孩儿,老大叫大毛,老二叫二毛,老三叫什么?

(左图为4月16日测试结果,右图是3月16日测试结果)

从两次问答结果能够看出,文心一言起始有幽默感乃至会思考了,针对旺仔爸爸第三个儿子名字的推测不是“小毛”,而变成为了“旺仔”。

3. 帮我写一首纪念结婚7周年的诗。

(左图为4月16日测试结果,右图是3月16日测试结果)

彼时,从文言一心创作的诗歌形式来看,其似乎懂得中国诗歌在文字字数、词尾押韵上有必定的规则,然则在诗词的寓意、美感、意境上,其创作天分发挥的并不显著。如今,文心一言的创作形式更加“模糊”,不晓得其是在写古代诗还是现代诗,完全放飞成“自由体”。

4.《人类简史》的作者是谁?

(左图为4月16日测试结果,右图是3月16日测试结果)

彼时,在问及《人类简史》作者和出版时间时,文心一言每次都给到区别的答案。这次直接问它《人类简史》的作者是谁,其给出的答案和上次差不多,然则还是不会仔细列举历史上出版过该书名的作者和出版时间,以及这些同名书讲得是什么内容。这似乎能够表现,文心一言在历史事实资料的整理归纳以及呈现方面仍多少“人”的思考能力。

5.请帮我做一个五一从北京到成都5天往返的旅游攻略。

(左图为4月16日测试结果,右图是3月16日测试结果)

从形式上看,文心一言能够根据详细时间来安排旅游景点和美食,但在景点安排上,彼时仅“都江堰”一个景点,在攻略里就被举荐了三次。如今,文心一言做的旅游攻略进步了有些,“都江堰水利工程”景点这次只举荐了两次。

6.怎么在家就能做出好吃的小龙虾?

(左图为4月16日测试结果,右图是3月16日测试结果)

相较于上个月,文心一言在做饭能力上进步了一个大台阶。除了做麻辣小龙虾,它还给出了做清蒸小龙虾的详细过程

7.请以《现代艺术与中国传统怎样结合》为题,拟一个的论文框架,包括论点和论据,并供给引用源自

(左图为4月16日测试结果,右图是3月16日测试结果)

答案表示一月前,文心一言就能够根据论文的基本形成,如科研问题、科研办法科研结果等给出非常仔细的论文框架,然则当下给出的答案,更像一个课堂小论文,专业性和思考性都显著不足。另外,两次文心一言给出的答案,都直接给出论文可能会用到的论文引用(例如论文名叫作、作者、期刊名叫作、出版日期等)。

文心一言的进步有多快?

除了在文字生成功能方面,财经网科技还考验了文心一言最新的画图能力,分别运用“驴肉火烧”“青梅竹马”“熊熊烈火”三个成语,需求文心一言画图,并将上个月的测试图附上做为对比。

从两次对比图能够看出,文心一言创作内容拥有想象力,然则准确性上仍有很强改进空间。

3月22日前后,有博主对文心一言提出质疑,叫作百度的人工智能,是将中文句子机翻成英语单词,用国外开源的人工智能Stable Diffusion生成照片而后将其返给用户。

从该博主的测试来看,让文心一言画鼠标和总线,其会画出“老鼠和公共汽车”,由于鼠标和总线的英文单词分别是mouse和bus;让其画起重机,文心一言会画出一只鹤的头,因为起重机的英文是crane,这个单词有鹤的意思。

针对一事,百度回复叫作,“大众会从接下来文生图能力的快速调优迭代,看到百度的自研实力。文心一言正在大众运用过程中持续学习和成长,请大众给自研技术和制品一点自信心和时间,不传谣信谣,期盼文心一言能够给大众带来更加多欢快。”

据《每日经济资讯信息经过具体问题,文心一言不仅暗示自己运用了Stable Diffusion,并回答“我还运用了Transformer、GRU等深度学习模型来生成图像。每一个模型都有自己的优点和适用场景,详细运用哪个模型取决于任务需要和数据集特点。”

“从日前的证据来看,说文心一言‘套壳’是不公平的。” 针对“文心一言文生图功能”一事,有业内人士向财经网科技分析叫作, Stable Diffusion表率的是一类生成算法,“从此刻观察到的输出来看,文心一言是先把网友的提问翻译成英文再去生成内容,可能是缺乏中文和照片之间的对应语料导致的,这说明文心一言的中英文双语标注的语料做得很好,但要确认是套壳还需要更加多的证据。”

无论是文心一言的文字生成还是照片生成功能,从以上对比能够看出,百度的文心一言有进步,然则进步不大。这诱发出新的问题,即以文心一言为表率的语言大模型在训练的过程中时怎样纠正错误的,以及其的进步速度怎样,能否用详细的单位来表达?

在错误纠正能力和办法上,陈文光暗示,修正有两类办法,其中一种便是在大模型训练的时候再加入有些事实常识,就像百度会把它的知识图谱加进去,然则这种办法处理不了时效性问题,“由于你训练这个事情要很久,而后训练完了拿出来服务用户,可能它的知识贮存就固定在训练时候的知识了。”

公开资料表示,文心一言与ChatGPT同样,都运用了SFT(模型微调)、RLHF(从人类反馈中进行强化学习)以及Prompt(提示)做为底层技术。另外,文心一言还采用了知识加强、检索加强和对话加强技术。

另一种办法是与搜索引擎结合,例如此刻的微软的必应(Bing),其实已然做了大语言模型与搜索引擎的结合,这对语言模型结果的实时性和减少事实的错误两方面都有帮忙

2月8日凌晨,微软推出了由OpenAI供给最新技术支持的新版搜索引擎必应和Edge浏览器,整合了ChatGPT的最新技术。接入OpenAI最新语言模型的新版必应,能够运用容易切换到人工智能聊天模式,还能够点击设备人来撰写电子邮件;新版Edge浏览器添加了该版本的必应,能够聊天、编写文本、汇总网页并以对话方式响应查找。答案还供给援引的资料源自,使得用户能够查阅信息的出处。

在语言大模型的进步速度上,陈文光暗示,拿有些新的数据来做微调模型,“其实都能够做得火速重点取决于各家的策略,从时间上看,语言大模型可能每日都有不同样的表现。”

华西证券指出,相比传统无监督学习的 GPT 模型,ChatGPT表现更好的原由之一是在无监督学习的基本供给了高质量的真实数据,这重点得益于敏锐词标注行业的技术投入以及对公众开放后形成的数据飞轮(注:数据飞轮是一个迭代研发数据和模型的设备学习管道,能够在现实世界中持续加强性能)。

李彦宏此前在文心一言发布会上介绍叫作,基于万亿级网页数据、数十亿的搜索数据和照片数据,百亿级的语音日均调用数据以及5500亿事实的知识图谱等训练数据,文心一言在中文语言的处理上能够独一无二。

其还暗示,"文心一言将创立起真实用户反馈、研发者调用和模型迭代之间的飞轮,效果会快速提高,给你‘士别三日,当刮目相看’的惊喜。"

文心一言,让你刮目相看了吗?

   举荐阅读   

END





上一篇:AI绘画,为么听不懂人话?
下一篇:微软官宣,新版 Edge、Win10 新调节!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 03:03 , Processed in 0.202196 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.