天涯论坛

 找回密码
 立即注册
搜索
查看: 102|回复: 6

大道至简:这一轮人工智能(AI)突破的原由其实很「简单」

[复制链接]

3073

主题

3万

回帖

9915万

积分

论坛元老

Rank: 8Rank: 8

积分
99158921
发表于 2024-7-1 00:40:11 | 显示全部楼层 |阅读模式

大道至简,本文用通俗易懂的语言解释了Transformer的核心原理,针对咱们这种基本的普通人,是能快速理解的,能对当前的大模型有更深入的认识。

过去几年中,人工智能(AI)技术的澎湃发展引领了一场前所未有的工业和科技革命。在这场革命的前沿,以OpenAI的GPT系列为表率的大型语言模型(LLM)作为科研和应用的热点。

IDC近期颁布颁布的《全世界人工智能和生成式人工智能支出指南》表示,2022年全世界人工智能(AI)IT总投资规模为1324.9亿美元,并有望在2027年增至5124.2亿美元,年复合增长率(CAGR)为31.1%。

而带来这一轮人工智能科技革命的技术突破是来自2017年的一篇论文《Attention is All You Need》,在这篇论文中,首次提出了Transformer架构,这个架构是日前大语言模型的核心技术基本。GPT中的T便是Transformer的缩写。

下面,我先带大众简明认识下这个突破性架构的核心原理(原文:What Are Transformer Models and How Do They Work?),其实大道至简,原理繁杂针对咱们这种基本的普通人,是能快速理解的,能对当前的大模型有更深入的认识。

顺便抛出一个问题,为何这轮技术变革不是来自Google、Meta、百度阿里这般的「传统」AI强势机构,而是初创机构OpenAI引领的呢?

Transformer是设备学习中最令人兴奋的新发展之一。它们首次在论文《Attention is All You Need》中被介绍。Transformer能够用来写故事、论文、诗歌,回答问题,进行语言翻译,与人聊天,乃至经过有些对人类来讲很难的考试!但它们到底是什么呢?你会高兴地发掘,Transformer模型的架构并不繁杂,它实质上是有些非常有用的组件的组合,每一个组件都有其特定的功能。在这篇博客文案中,你将认识所有这些组件。

这篇文案包括了一个简单的概念性介绍。倘若你想认识更加多关于Transformer模型及其工作原理的仔细描述,请查看Jay Alammar在Cohere颁布的两篇出色的文案

The illustrated transformer 《图解Transformer》 How GPT3 works 《GPT3是怎样工作的》

简单来讲,Transformer都做些什么呢?

想象一下你在手机上写短信。每打一个词,手机可能会举荐给你三个词。例如,倘若你输入“Hello, how are”,手机可能会举荐“you”“your”做为下一个词。当然,倘若你继续选取手机举荐的词语,你会火速发掘这些词语构成的信息毫道理倘若瞧瞧每组连续的三四个词,它们可能听起来有点道理,但这些词并连贯地构成道理的句子。这是由于手机中的模型不会携带全部信息的上下文,它只是预测在近期的几个词之后,哪个词更可能显现。而Transformer则区别,它们能够跟踪正在写的内容的上下文,这便是为何它们写出的文本一般都是有道理的。

手机能够对短信中运用的下一个单词给出意见,但生成连贯文本的能力

必要得说,当我第1发掘Transformer是一次生成一个词来构建文本的时候,我简直不敢相信。首要,这不是人类形成句子和思想的方式。咱们一般先形成一个基本的思想,而后起始细化它,添加词汇。这不是设备学习模型处理其他事情的方式。例如,图像的生成就不是这般的。大都数基于神经网络的图形模型会先形成图像的粗略版本,而后慢慢细化或增多细节,直到完美。那样为何Transformer模型要一词一词地构建文本呢?一个答案是,由于这般做效果非常好。更令人满意的答案是,由于Transformer在跟踪上下文方面实在是太厉害了,因此选取的下一个词正是继续推进一个想法所必须的。

那样,Transformer是怎样被训练的呢?必须海量的数据,实质上是互联网上的所有数据。因此,当你在Transformer输入句子“Hello, how are”时,它就晓得,基于互联网上的所有文本,最好的下一个词是“you”。倘若你给它一个更繁杂的命令,例如说,“write a story.”,它可能会想出来下一个合适的词是“Once”。而后它将这个词添加到命令中,发掘下一个合适的词是“upon”,依此类推。一词一词地,它将继续写下去,直到写出一个故事。

命令:Write a story.

回复:Once

下一个命令:Write a story. Once

回复:upon

下一个命令:Write a story. Once upon

回复:a

下一个命令:Write a story. Once upon a

回复:time

下一个命令:Write a story. Once upon a time

回复:there

等等。

此刻咱们晓得了Transformer都做些什么,让咱们瞧瞧它的架构。倘若你见过Transformer模型的架构,你可能像我第1次看到它时同样惊叹,它看起来相当繁杂!然而,当你把它分解成最要紧的部分时,就没那样难了。

Transformer重点有四个部分:

分词(Tokenization) 嵌入(Embedding) 位置编码(Positional encoding) Transformer块(好几个这般的块) Softmax

其中,第4个部分,即Transformer块,是所有部分中最繁杂的。这些块能够被连在一块每一个包括两个重点部分:重视力机制和前馈组件。

咱们逐个学习这些部分。

1、Tokenization(分词)

分词是最基本的过程。它涵盖了一个庞大的词汇库,包含所有的单词、标点符号等。分词过程会处理每一个单词、前缀、后缀以及标点符号,并将它们转换为词库中已知的词汇。

举例来讲倘若句子是“Write a story.”,那样对应的4个token将是,返回外链论坛:http://www.fok120.com/,查看更加多

责任编辑:网友投稿





上一篇:别慌!AI大跌的原由找到了,国防军工可能不是“一日游”
下一篇:巴菲特股东大会实录:谈抛售苹果股票原由,直言对“AI一没所知”
回复

使用道具 举报

3130

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99108601
发表于 2024-8-22 08:58:02 | 显示全部楼层
seo常来的论坛,希望我的网站快点收录。
回复

使用道具 举报

7

主题

654

回帖

198

积分

注册会员

Rank: 2

积分
198
发表于 2024-9-8 07:45:14 | 显示全部楼层
外链发布论坛学习网络优化SEO。
回复

使用道具 举报

2992

主题

3万

回帖

9956万

积分

论坛元老

Rank: 8Rank: 8

积分
99569148
发表于 2024-10-21 04:47:55 | 显示全部楼层
祝福你、祝你幸福、早日实现等。
回复

使用道具 举报

3130

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99108601
发表于 2024-10-21 19:49:39 | 显示全部楼层
外贸B2B平台有哪些?
回复

使用道具 举报

3130

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99108601
发表于 2024-10-28 13:01:49 | 显示全部楼层
我完全同意你的观点,说得太对了。
回复

使用道具 举报

2953

主题

3万

回帖

9997万

积分

论坛元老

Rank: 8Rank: 8

积分
99979403
发表于 2024-11-5 09:53:01 | 显示全部楼层
期待与你深入交流,共探知识的无穷魅力。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-25 00:24 , Processed in 0.109850 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.