nykek5i 发表于 2024-7-3 22:09:10

2023年AI十大展望:GPT-4领衔大模型变革,谷歌拉响警报,训练数据告急


    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">新年伊始,大模型的<span style="color: black;">专题</span>热度不减。2022年11月底,ChatGPT展现的惊人能力将大模型<span style="color: black;">科研</span>和应用热度推向高潮,人们激烈讨论着这个高级“物种”的推出<span style="color: black;">寓意</span>着什么,<span style="color: black;">例如</span><span style="color: black;">是不是</span>会颠覆搜索引擎市场格局。踏入2023年,这不禁让<span style="color: black;">咱们</span>对GPT-4的<span style="color: black;">颁布</span>充满遐想,它会比ChatGPT更上一层楼吗?会有<span style="color: black;">那些</span>不<span style="color: black;">同样</span>的惊喜?</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">岁末年初之际,科技圈的年度盘点<span style="color: black;">不堪</span>枚举,<span style="color: black;">关联</span>技术预测倒是不多。本文作者Rob Toews<span style="color: black;">颁布</span>了2023年AI发展的十大预测,整体来看,大部分预测都离不开“大模型”这个<span style="color: black;">重要</span>词,<span style="color: black;">详细</span>分析<span style="color: black;">亦</span>有其道理。当然,其中的文生图、人形<span style="color: black;">设备</span>人等<span style="color: black;">行业</span>的发展<span style="color: black;">亦</span>举足轻重。2023,让<span style="color: black;">咱们</span>拭目以待。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">作者|Rob Toews</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">翻译|杨婷、徐佳渝</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">1. 重磅事件:GPT-4将在年初<span style="color: black;">颁布</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">GPT-4是OpenAI的新一代生成语言模型,它有着强大的功能,<span style="color: black;">近期</span>到处流传着它的<span style="color: black;">信息</span>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">GPT-4预计将在2023年年初<span style="color: black;">颁布</span>,相较于GPT-3和3.5,GPT-4的性能有着跳跃式的<span style="color: black;">提高</span>。尽管<span style="color: black;">近期</span><span style="color: black;">相关</span>ChatGPT的讨论正在火热朝天地进行,但相比GPT-4,这只是前奏<span style="color: black;">罢了</span>,让<span style="color: black;">咱们</span>拭目以待!</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">GPT-4 会是什么样子的呢?与人们的直觉<span style="color: black;">区别</span>,<span style="color: black;">咱们</span>预测它不会比其前身GPT-3大太多。在今年早些时候<span style="color: black;">发布</span>的一篇有影响力的<span style="color: black;">科研</span>论文(<a style="color: black;">https://arxiv.org/pdf/2203.15556.pdf)中,DeepMind<span style="color: black;">科研</span>人员<span style="color: black;">叫作</span><span style="color: black;">此刻</span>的大型语言模型</a><span style="color: black;">实质</span>上比本来应该有的<span style="color: black;">体积</span>还要大。为了能在给定的有限计算预算中<span style="color: black;">得到</span>最佳模型性能,<span style="color: black;">此刻</span>的模型应该用更少的参数在更大的数据集上进行训练。<span style="color: black;">亦</span><span style="color: black;">便是</span>说,训练数据比模型<span style="color: black;">体积</span><span style="color: black;">要紧</span>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">当今大<span style="color: black;">都数</span><span style="color: black;">重点</span>语言模型都是在约3000亿个token的数据语料库上训练的,<span style="color: black;">例如</span>说OpenAI的GPT-3(1750 亿个参数)、AI21 Labs的Jurassic(1780 亿个参数)和微软/英伟达的Megatron-Turing(5700 亿个参数)。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">咱们</span>预测,GPT-4的数据集要比上面<span style="color: black;">说到</span>的大一个数量级,<span style="color: black;">亦</span><span style="color: black;">便是</span>说它可能在10万亿个token的数据集上进行训练。<span style="color: black;">同期</span>它的参数将比Megatron-Turing的要少。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">据述</span>,GPT-4有可能是多模态的,除文本生成之外,它还<span style="color: black;">能够</span>生成<span style="color: black;">照片</span>、视频以及其他数据类型的输入。这<span style="color: black;">寓意</span>着GPT-4能够像DALL-E<span style="color: black;">同样</span><span style="color: black;">按照</span>输入的文本提示词(prompt)生成图像,<span style="color: black;">或</span>是<span style="color: black;">能够</span>输入视频<span style="color: black;">而后</span><span style="color: black;">经过</span>文本的形式回答问题。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">多模态GPT-4的<span style="color: black;">颁布</span>可能是一个重磅<span style="color: black;">信息</span>。<span style="color: black;">然则</span>它更可能和以前的GPT模型<span style="color: black;">同样</span>是纯文本模型,它在语言任务上的表现将重新定义SOTA。<span style="color: black;">详细</span><span style="color: black;">来讲</span>GPT-4会是什么样的呢?那<span style="color: black;">便是</span>它在记忆(<span style="color: black;">保存</span>和参考前期对话信息的能力)和摘要(提取和精简大规模文本的能力)这两个语言<span style="color: black;">行业</span>的性能会有跨越式<span style="color: black;">提高</span>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2. 训练大型语言模型将<span style="color: black;">逐步</span><span style="color: black;">起始</span>耗尽数据</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">数据是新时代的石油这种说法早就<span style="color: black;">已然</span>是陈词滥调了,但<span style="color: black;">这般</span>说还不足以<span style="color: black;">显示</span>数据的<span style="color: black;">要紧</span>性:<span style="color: black;">由于</span>石油和数据都是有限的,都有消耗殆尽的一天,在AI<span style="color: black;">行业</span>,语言模型对数据的需求量最大,数据耗尽的压力<span style="color: black;">亦</span>更大。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">正如前面<span style="color: black;">说到</span>的,DeepMind的Chinchilla work等<span style="color: black;">科研</span><span style="color: black;">已然</span><span style="color: black;">显示</span>,构建大型语言模型(LLM)最有效的方式不是把它们做得更大,而是在<span style="color: black;">更加多</span>的数据上对其进行训练。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">然则</span>世界上有多少语言数据呢?更准确地说有多少语言数据达到了<span style="color: black;">能够</span>用来训练语言模型的<span style="color: black;">需求</span>呢?<span style="color: black;">实质</span>上,<span style="color: black;">此刻</span>网络上大<span style="color: black;">都数</span>的文本数据并<span style="color: black;">无</span>达到<span style="color: black;">需求</span>,<span style="color: black;">不可</span>用来训练大型语言模型。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">针对</span>这个问题,<span style="color: black;">咱们</span>很难给出确切的答案,<span style="color: black;">然则</span><span style="color: black;">按照</span>一个<span style="color: black;">科研</span>小组(<a style="color: black;">https://arxiv.org/pdf/2211.04325.pdf)给出的</a>数据,<span style="color: black;">全世界</span>高质量文本数据的总存量在4.6万亿到17.2万亿个token之间。这<span style="color: black;">包含</span>了世界上所有的书籍、科学论文、<span style="color: black;">资讯</span><span style="color: black;">文案</span>、维基百科、公开代码以及网络上经过筛选的达标数据,例如网页、博客和社交<span style="color: black;">媒介</span>。<span style="color: black;">近期</span>的另一项<span style="color: black;">科研</span>数据(https://www.lesswrong.com/posts/6Fpv</p>




情迷布拉格 发表于 2024-8-22 11:50:39

外链发布社区 http://www.fok120.com/

游过一群鸭 发表于 2024-9-7 08:26:24

我们有着相似的经历,你的感受我深有体会。

qzmjef 发表于 2024-10-13 20:14:43

我们有着相似的经历,你的感受我深有体会。

qzmjef 发表于 2024-11-6 00:32:34

哈哈、笑死我了、太搞笑了吧等。
页: [1]
查看完整版本: 2023年AI十大展望:GPT-4领衔大模型变革,谷歌拉响警报,训练数据告急