腾讯文档AI助手技术架构设计剖析

5ep9lzv · 发表于 2024-9-28 19:12:44

▼近期直播超级多，预约保你有收获

—1—

文档 AI 助手总体技术架构剖析

腾讯文档（https://docs.qq.com/）相信大众都运用过，在大模型的新时代，腾讯文档亦推出了 AI 大模型助手应用，如下图所示：

腾讯文档的 AI 大模型助手总体架构如下图所示，包含6大模块：AICopilot、AIServer、AIAgent、AIEngine、AIOperation、AIExtension。

AICopilot 模块：供给 AI 侧边栏对话功能，负责意图识别、对话管理、缓存及存档等功能。AIServer 模块：供给各类别定制化的浮层助手服务。AIAgent 模块：做为 AI 智能代理，集成并供给各类别的文档处理工具，由上层服务调用识别意图后驱动。AIEngine 模块：做为文档 AI 引擎，统一抽象并封装各项 AI 能力（例如：文生文、文生图、语音转写、语音识别、图像识别、嵌入式 AI 等），实现能力间无感切换。AIOperation 模块：负责文档 AI 灰度发布策略、隐私守护办法以及运营操作。AIExtension 模块：扩展 AI 服务，支持AI应用落地所需的支持能力，例如：文本搜索、照片搜索、Python 执行环境等。

—2—

文档问答场景技术架构剖析

文档制品的关键能力在于有效传达信息，其中，运用 AI 大模型进行信息问答是重要应用场景，尤其针对 Word、PPT、Sheet、思维导图、数据收集表及知识库等多种内容形态的问题解答。构建文档 AI 大模型应用的核心挑战在于创立基本的问答系统架构。解决这一困难的关键，在于怎样使 AI 大模型精细把握并理解各类文档的行业知识内容。

一般有两种处理方法

：行业知识经过微调（Fine-tuning）记忆到大模型中、经过 Prompt 的方式把行业知识即时给到大模型。

用户文档信息本质上是用户个人数据的整合，重点用于个性化服务。因为用户文档常更新且注重时效性，没法每次变更都重新训练模型；同期出于隐私守护原则，用户数据不可用于模型训练。因此呢，针对每位用户单独训练模型的方法并不现实可行。

因此呢选择第二种 RAG 加强的方法。

RAG 检索加强生成的技术方法由以下模块串联完成：

第1、文档加载：定义统一的 Document 数据模型，将实现默认典型的数据源加载实现，业务方亦能够按照接口自定义实现自己所需文档数据源。第2、文档分片：大模型上下文体积有必定限制，需要将海量数据进行分割操作。第3、文档 Embedding：Embedding 过程将对应文本向量化，以供给更好的语义表达。第4、文档向量存储：运用向量数据库存储文档向量数据。第5、文档召回：按照用户输入的问题召回和问题最关联的文档信息。第6、问题解答：按照召回文档资料 + 用户输入问题供给给大模型进行知识问答。为处理以下两种场景，在原有架构上规划进行进一步的升级。第1、处理元数据问答、总结、非总结类问题。第2、处理触及多模态文档的问答。

为了帮忙朋友们彻底把握大模型 Agent 智能体、知识库、向量数据库、 RAG、知识图谱的应用研发、安排、生产化，今天我会开4场直播和朋友们深度剖析，请朋友们点击以下预约按钮免费预约。

参考：https://mp.weixin.qq.com/s/MNY6647V4hPByNzghyDUfQ

—3—

!送！AI大模型研发直播课程

大模型的技术体系非常繁杂，即使有了知识图谱和学习路线后，快速把握并不易，咱们打造了大模型应用技术的系列直播课程，包含：通用大模型技术架构原理、大模型 Agent 应用研发、企业私有大模型研发、向量数据库、大模型应用治理、大模型应用行业落地案例等6项核心技能，帮忙朋友们快速把握 AI 大模型的技能。

nykek5i · 发表于 2024-10-6 14:00:57

软文发布论坛开幕式圆满成功。 http://www.fok120.com

		自动登录	找回密码
密码			立即注册