知乎 AI 革命：智能搜索与实时问答的融合

nqkk58 · 发表于 2024-6-30 14:23:31

在生成式人工智能（Generative AI）的信息技术跃迁背景下，怎样看待知乎当下和将来，有三个基本的视角：

它是大语言模型预训练中文语料最要紧源自之一，例如近期现象级的大模型聊天应用 Kimi Chat，就以知乎为要紧的训练资料源自（乃至是 80% 以上的源自）。

每一个在知乎上提问的用户，其实都是在发 prompt（提示词）；而每一个知乎的答主，基本都相当于基于个人知识和经验（语料）、价值观和思考规律（算法和思维链）的人肉语言模型。基于此，基于大语言模型的 " 数字人答主 " 会在知乎持续显现。

鉴于 " 提问——回答 " 是知乎做为内容社区运转的基本规律，亦是一系列大语言模型工具运转的基本逻辑，还是搜索引擎 20 年连续进化的主线—— Google、百度，还有新型的 AI 问答聚合工具 Perplexity，近期所做的一切，实质都是搜索引擎的 AI 化。因此呢，知乎的搜索属性——基于 AI 的搜索，将得到强化。

基于这三个视角，在 AI 的众声喧哗之侧的知乎，有以下可能拥抱生成式人工智能浪潮的方式：

做更好的中文预训练语料供给商，作为高质量中文语料的永动机，供给更高质量的、由人而不是设备创造的中文内容，让这些内容有更加多被采集、运用和预训练的可能。参与国家级中文语料库建设，作为要紧的语料建设者。

全部社区的激进 AI 化。AI 进行提问，更负责回答。知乎社区将显现海量的 AI 数字人做为独立的 IP ——历史的、科技的、医学的、文学的垂直行业数字人，让她们回答用户的提问，给出用户想要的答案。

以搜索为突破，以知乎自己的大模型能力（知海图 AI）为依托，让大模型参与部分问题答案的生成和总结，提示用户追问，引导用户在知乎社区内进行 " 多轮对话 "，从而吸引更加多的答主，让大模型作为激发用户活跃度的催化剂。

以上三个路径，第1个保守，第二个激进，第三个是前两者的结合。知乎选取哪条路径，取决于知乎是什么，它在大语言模型生态产业链其中的角色是什么，以及它善于什么。

3 月 20 日的 " 发掘大会 " 上，知乎推出了三个与 AI 关联功能——

一个是搜索，帮忙用户找到社区的 " 共识 "。

它其实相当于知乎站内的 Perpelexity ——用户提出问题，知海图 AI 模型基于社区内的内容，生成用户必须的答案。并不是所有的内容都能在知乎上找到答主生成的答案，非常多时候，一个有深度的、必须专业知识支撑的问题，必须很久才可有专业行业的答主供给高质量的答案。但这般的问题，散落在社区各个角落的答主们针对其它问题的各条高质量答案，是能够做为参考依据的。这个时候，倘若 AI 能经过搜索和生成，将这些答案里的有价值信息提炼出来，进行有效的推理，就能为一个 " 鲜嫩出炉 " 的专业问题供给一个立等可取的答案，提问的用户就能够能为快，而后再等其它的专业答主持续赶到，下场答题。

在灰度测试这个功能的时候，知乎消费电子行业的专业答主 Navis Li 提出过一个专业问题：俄罗斯或前苏联好似有一个著名的镜头能够实现旋转的焦外虚化效果，镜头详细是什么？讲真，面对这种极度偏门专业的冷知识，等人来答必须花很长的时间，亦可能等不到。但基于 AI 搜索，知乎其它专业答主和社区创作者在其它问题下面的答案经过提炼、分析和推理，给出了一个准确的答案。

第二个是实时问答，用于完成公共编辑。

它相当于 AI 生成的站内维基百科。一个高质量的提问下面可能有成百乃至上千的答案，其中的高赞答案可能亦不下几十个。是不是每一个人都有时间和耐心读完所有的答案，再形成一个自己必须的知识输出？这恐怕不太现实。它必须一个基于创作者的答案的 " 最佳答案 "，亦便是最佳答案的提炼、萃取的维基百科功能。早年的知乎是有这个功能的，大众经过公共编辑，对所有的回答进行总结，" 众创 " 出一个最佳回答。这个初衷是理想的，现实却有些骨感。它反倒成为了知乎颇受争议的功能。由于人的主观、偏见和倾向是难以避免的，是容易制造更大冲突、对立和争议的，以至于知乎不得不下线了这个功能。

真正适合做 " 维基百科 " 工作的，是 AI。AI 的偏见不可说无，但能够经过强化训练得到约束和掌控。AI 的提炼和推理能力是呈指数级提高的。因此呢，基于创作者回答的 " 最佳回答 "，此刻有了更好的生成者——大语言模型。这个实时问答其实是基于 AI 的公共编辑，让用户得到一个简单、直接和有效答案的路径更直接、更快速。

第三个是持续提问和追问的功能，乃至能够不必须提示词。

知乎长时间是一个比较单向度的制品：一问多答。尽管有算法举荐的相关提问，但它不是同一个用户实时提出的问题，未必折射了一个提问者内心最大的好奇心和疑惑。此刻看完了一个问题的回答，能够基于这个回答和提炼出来的 " 最佳答案 " 进行追问——追问乃至不必须主动输入提示词，而是 AI 自动生成。它其实在鼓励用户在知乎社区里进行 " 多轮对话 " ——就像一个人在 ChatGPT 和 Kimi Chat 上做的哪些事同样。针对用户的追问，AI 能够给出它的答案，答主们亦应该会持续赶到现场。

这般，知乎做为一个 " 问答社区 " 的形态，就有可能从 " 一问多答 " 向 " 多问多答 " 演进。在一个基于问答的内容社区里，提问是最大的供给侧。过去的提问重点依靠的是人们的好奇心和求知欲，此刻能够有 AI 加持和赋予的灵感。这么做的好处当然亦很直观——产生更加多的问题，以及相应的更加多的答案。

一个搜索，一个实时问答，一个追问，它们暗地里都基于知乎的 AI，知乎把这个三合一的 AI 功能叫 " 发掘 · AI 搜索 "，在首页的左侧给了一个 " 四芒星 " 的 logo。

看上去，它有搜索，但不是一个专门的搜索框。它有大模型对话，但不以对话界面的方式呈现。它能够追问，但 AI 不是独一的答主。它看上去还是那个知乎，还必须海量有好奇的提问者，还必须高质量的专业答主。而后，AI 站在她们的身侧。

在前面的知乎拥抱 AI 的三条路径里，知乎选取的是第三条。这条路径的最后指向，是知乎做为一个知识问答社区最重要的命脉——用户的活跃、连续持续的高质量问题，以及高质量的可信赖的答案。

知乎相信 " 发掘 · AI 搜索 " 会作为知乎社区的活水，但它高度警觉全部社区的激进 AI 化——海量的 AI 生成问题，海量的 AI 回答问题。社区里充满了设备人和数字人的提问者和答主，海量乃至大都数问题和答案都是 AI 生成的。

在硅星人与知乎创始人、CEO 周源近期的一次对话中，周源对 "NPC 答主 " 的态度高度审慎：" 平台不该该主动做这个事儿，平台为何要让自己的体系里面产生这么多 NPC 呢？"

他认为知乎的 "AI 搜索 " 是一个 " 不依赖原来的信息流，换了一种基于大模型的能力和交互的方式，而对后续产生数据反馈非常直接 " 的功能。这个 " 数据的直接反馈 "，指的是向活生生的 " 人 " 的，而不是 AI 的。做为提问者，能够更快、更直接得到她们想到的答案；做为答主，能够让自己的回答被更频繁地搜索、调取、索引和再度生作为新的内容。做为普通的浏览型用户，能够换一个界面和交互，用 " 搜索 " 和 " 发掘 " 到更加多过去必须下拉非常多次信息流才可找到的问题和答案，这针对一个社区的活跃度是非常要紧的事。它们将产生更加多的内容，亦是大语言模型训练所用的语料。

"AI 本身是一个语言模型，不会遇到问题。仅有人才会在社会中遇到问题。你失恋了，下岗了，人才会有这种痛苦和欲望。人产生的问题和相应的内容才是可信的。AI 能够辅助你，然则倘若把这层光明层去掉，AI 只是自循环的，我觉得就无太大价值了 "，周源对硅星人说。

基于这个认知，他反对让 "AI 搜索 " 生成的答案和问题，以设备人的 IP 形式显现，而保持只让它们出此刻 " 四芒星 " 的角标里面，以私聊的方式显现，只属于用户个人，而不呈此刻由提问者和答主这些真正的 " 创作者 " 显现的信息流里。

面对 AI，知乎真正要回答的问题是：人类怎样与 AI 共享智慧，又保持对人类原创性的尊重和鼓励。这不是一个新问题，但必须一个新的解法。日前，它给出答案是：透过 AI，让人们发掘人类创造的更大的世界，人类创作的更加多的内容，而不是用 AI 发掘更加多 AI 生成的内容。

它指向了一个更为重要的问题：当世界上越来越多的内容是由于 AI 生成的，人类的经验和人类创造的内容，会不会变成一种日益边缘化的稀缺资源？AI 生成内容的前提和基本是人类经验生成的语料——即人类经过历史、社会、经济、科技实践创造的内容——没论它们是文案、数据、图像、声音、视频还是代码。但倘若人类创造的内容在 AI 生成的几何级增长 " 挤压 " 下变成一种稀缺资源，将来 AI 生成内容的经验从何而来，语料又从何而来？

这对每一个人都很要紧，对事实上已作为全世界中文语料的要紧资源库——知乎来讲，更加是一个必答题。

" 人工智能发展离不开芯片、模型、数据三个要紧原因。芯片确实卡脖子，但芯片是一个工程学的问题，只要有了必定的规模，就能够迭代起来，咱们工程师还是很厉害的。模型有开源优良，进化速度亦不会慢。仅有数据是不可再生资源，况且还没办法马上持有。没论投 10 亿美金还是投 100 亿美金，都不可能在短期里创立一个 UGC 社区，语料是一种不可再生资源 "，周源认为。

" 你把语料当成静态的，即便他是这般的，那亦得把它看成是一片土地。你不可在一起土地上把玉米割了，而后去另一一个地区营销，不管这片土地明天有无虫灾，" 周源认为，全世界的语料都存在着一种贫瘠化乃至枯竭化的可能，就像石油同样。

因此呢，让数据的供给和消费的飞轮能够转起来，让更加多的数据变成大模型训练的语料，被 AI" 消费 " 的同期，更加多的语料能够被反哺、AI 能激发人类再创造更好的内容，变成更有价值的语料，就变成为了知乎在生成式人工智能浪潮下寻求答案的最有价值求解——尤其在它已然是全世界中文互联网语料中绕不外去的存在的状况下。

作为可再生的连续供给的全世界最大中文语料库有什么价值？来自美国的答案是：Google 已然向美国最要紧的内容社区 Reddit 累计支付了 6000 多万美元，用于购买高质量的语料。

来自中国的答案是什么？在数据交易市场已然在政府和市场的双轮驱动下已然日臻成熟的状况下，中文语料将作为要紧的可被交易的数据资源。谁是最要紧的中文语料库，将作为继芯片和算力之后，另一种稀缺但要紧的 " 水 "。谁都晓得，AI 的发展，常常是 " 卖水 " 的人最先赚到钱。

源自：品玩返回外链论坛：http://www.fok120.com/，查看更加多

责任编辑：网友投稿

youxijiasuqi · 发表于 2024-8-28 14:24:46

我深受你的启发，你的话语是我前进的动力。

sinowatcher · 发表于 2024-9-9 02:10:14

祝福你、祝你幸福、早日实现等。

		自动登录	找回密码
密码			立即注册