在“精细举荐者得民心”的今天,举荐系统已作为各大互联网机构的标配。但因为现实中非常多数据是非欧氏空间生成的(例如,社交网络、信息网络等),一些繁杂场景下的业务需要很难经过协同过滤等基于历史行径挖掘用户或制品类似性的传统算法来满足。图神经网络做为一种约束性较少、极其灵活的数据表征方式,在深度学习各重点领域中崭露头角,一系列图学习模型涌现并得到越来越多的应用。
网易云音乐在举荐行业的探索 做为百姓级的音乐App,网易云音乐很久之前就将定位从传统的音乐工具软件转移到音乐内容社区,致力于联结泛音乐制品与用户,打造最懂用户的音乐 App。在音乐内容社区中,直播能够说是用户参与度极高的场景了,云音乐内部投入了大量的人力物力以求将匹配度更高的主播举荐给用户,但仍然面临多重严峻的挑战。
怎样破解历史行径稀疏的用户冷起步问题 众所周知,举荐系统的整体框架重点包含召回、粗排和精排3个部分。其中,最底层的召回模型拥有举足轻重的功效,而成功的召回推理需要依赖充足的历史数据。但在云音乐的业务场景中,经过站内宣传看到直播举荐的用户很大比例是直播功能的新用户,即无产生过观看直播行径数据的用户。怎样向这类数据稀疏的用户举荐合适的内容成为了亟待处理的困难,这类问题亦一般被叫作为冷起步。
大规模图模型怎样训练? 云音乐现有计算资源已全面实现容器化安排,针对各个业务团队来讲,计算资源都是有限的,需要以最有效恰当的方式利用有限的资源。如安在有限的分布式资源调控策略下低本有效地完成大规模图神经网络的模型训练,作为必须解决的困难。
PGL图神经网络助力举荐场景落地 为认识决以上问题,网易云音乐的开发团队调研了海量开源方法,最后选取了对大规模图训练更加友好的百度飞桨分布式图学习框架PGL,做为云音乐的基本框架。
基于PGL的行径域知识迁移处理冷起步问题 云音乐直播场景的新用户中,有非常多在音乐、歌单、Mlog 等业务中产生过较丰富的历史行径,能否经过将这部分历史行径知识映射到直播行业,来处理“行径”数据不足的问题呢?带着疑问,云音乐引入了图模型结构,以多种区别类型的实体(如歌曲、DJ、Query、RadioID 等)为节点,经过用户与主播、用户与歌曲、Query与主播等历史行径关系,构建了一张统一的图关系网络。而后,基于飞桨图学习框架 PGL对图模型进行训练。先采用 DeepWalk、Metapath2Vec、GraphSage等模型学习出足够强大的Graph Embedding暗示来建模实体ID;再经过向量召回,将用户在歌曲、Query等处的行径迁移到主播行业,达到召回合适主播的目的。
基于PGL通用的分布式能力进行训练 云音乐的数据规模非常庞大,数据关系即使经过裁剪亦高达亿级别以上。在常用的硬件资源配备状况下,此等量级规模的数据早已作为某些开源的图神经网络框架的瓶颈,需要运用极其昂贵的计算资源才可处理。针对数据规模必将连续增大的云音乐来讲,相较于运用什么类型的模型,能否在这种数据规模下训练出模型才是优先要思虑的关键问题,亦是网易云音乐与PGL成功牵手的关键原因!百度飞桨深度学习平台PaddlePaddle 2019年开源的分布式图学习框架PGL,原生支持图学习中较为独特的分布式图存储(Distributed Graph Storage)和分布式采样(Distributed Sampling),能够方便地经过上层Python接口,将 图的特征(如Side Feature等)存储在区别的Server上,亦支持通用的分布式采样接口,将区别子图的采样分布式处理,并基于PaddlePaddle Fleet API来完成份布式训练(Distributed Training),实此刻分布式的“瘦计算节点”上加速计算。这些能力对云音乐内容社区直播举荐遇到的训练问题来讲,极具魅力!实验对比表示,在主播举荐场景采用图计算带来有效观看大幅提高,尤其在新用户和新主播冷起步上引入其它域数据后有了显著提高。
想认识更加多落地细节和实战经验? 3月16日,网易云音乐设备学习平台与框架负责人段石石,将在飞桨B站直播间分享深度学习实战进阶课程《图神经网络在云音乐业务落地》。除了上面说到的数据稀疏性、冷起步召回和大规模分布式训练等业务困难的处理方法,段老师还将分享云音乐怎样应对训练数据质量、瘦计算节点等技术挑战。3月17日,百度高级算法工程师苏炜跃将分享《分布式图学习框架PGL及其举荐应用》,重点介绍图学习算法的理论基本、图学习框架PGL的特点和优良;同期将经过演示经典大规模举荐场景的图学习训练过程,帮忙大众快速学习和实现产业级的图模型实践。
扫描下方二维码,加入技术交流群
想认识更加多落地细节和实战经验,3月16、17日20:10-21:30锁定AI快车道x网易云音乐直播课,咱们不见不散!
飞桨图学习框架PGL PGL是业界首个提出通用信息并行传递机制,支持百亿规模巨图的工业级图学习框架。PGL基于飞桨动态图全新升级,极重提高了易用性,原生支持异构图,覆盖30+图学习模型,包含图语义理解模型ERNIESage等,历经海量真实工业应用验证。另一,基于飞桨深度学习框架的分布式Fleet API,创立分布式图存储及分布式学习算法,实现灵活、有效地搭建前沿的大规模图学习算法。
更加多资料请关注
PGL图学习框架Github代码仓库:https://github.com/PaddlePaddle/PGL
飞桨举荐系统:https://github.com/PaddlePaddle/paddlerec
飞桨分布式:https://fleet-x.readthedocs.io/en/latest/
飞桨深度学习框架Github代码仓库:https://github.com/PaddlePaddle/Paddle
针对想要认识图神经网络及其分布式应用的小伙伴,能够围观PGL团队倾力研发的图神经网络课程,带你七天有效入门:https://github.com/PaddlePaddle/PGL/tree/main/course
如感觉不错,欢迎“Star”;如需交流,欢迎“Issue”,咱们将即时反馈;如您有基于飞桨的产业落地案例,欢迎发送至邮件paddle-up@baidu.com。
|