天涯论坛

 找回密码
 立即注册
搜索
查看: 8|回复: 5

2500页文档曝谷歌搜索黑幕:用户数据被挪用、设白名单机制

[复制链接]

3028

主题

210

回帖

9777万

积分

论坛元老

Rank: 8Rank: 8

积分
97779018
发表于 2024-7-30 20:56:15 | 显示全部楼层 |阅读模式

编译 | 陈骏达

编辑 | 李水青

智东西5月29日信息近期,据市场和受众科研机构SparkToro在官网博客发布的文案,一位匿名信息人士(后证实为搜索引擎优化行业资深从业者Erfan Azimi)向SparkToro机构的CEO Rand Fishkin供给了来自谷歌搜索API的海量泄密文档,这些文档揭示了谷歌搜索引擎内部排名算法的仔细信息。

这次泄密文档中的部分内容与谷歌公开表态的信息以及2023年的美国司法部起诉谷歌的反垄断案件中的证词相矛盾。例如,谷歌曾一再否认运用点击导向的排名机制,否认子域名在排名中被单独思虑,否认收集或思虑域名的年限等等。但泄密文档证实,这些原因都是谷歌搜索引擎排名机制中的一环。

此次泄密的谷歌搜索API文档共计2500余页,共包括14014个属性特征。这些文档据叫作是谷歌内部“Content API Warehouse”的一部分,并在代码托管平台GitHub上不小心公开了一段时间。

博客作者Rand Fishkin在多位前谷歌员工的沟通中确认,泄密的文档具备谷歌内部API文档的特征。Rand Fishkin与和技术seo(搜索引擎优化)专家Mike King进行交流,并再次验证了这些文档的真实性。

这些文档的泄密可能对搜索营销行业产生深远的影响,由于它们供给了对谷歌搜索引擎内部工作机制的前所未有的洞察,包含怎样运用点击数据、浏览器点击流、白名单、质量评定员反馈和链接质量来影响搜索结果排名。

1、泄密文档3月底便已公开,谷歌前员工确认文档真实性

5月24日,Rand Fishkin与爆料者Erfan Azimi进行了视频通话。Erfran Azimi一起始决定以匿名的形式爆料这事,但在5月28日他决定公开自己的身份。Erfan Azimi在通话中详细展示了这次泄露的谷歌搜索API文档。按照文档的提交历史记录,这些文档于2024年3月27日上传到代码托管平台GitHub,直到2024年5月7日才被删除。

这些文档是谷歌“Content API Warehouse”的一部分,能够被视为谷歌搜索引擎团队成员的指南,就像图书馆中的书籍名单或卡片目录,告诉需要认识的员工有那些资源可用以及怎样获取这些资源。

然则与公共图书馆区别,谷歌搜索是世界上最为奥密、守卫最严密的黑箱之一。在过去的20数年里,谷歌搜索分部里从未出现过规模如此之大、内容如此之仔细泄密事件。

需要重视的是,文档并不包括搜索排名算法中特定元素的权重等内容,不可证明排名系统中运用那些元素。然则,它确实表示非常多关于谷歌收集的数据的仔细信息。以下是文档格式的示例:

在向Rand Fishkin介绍了其中的有些API模块后,Erfan Azimi解释了他的动机。他期盼提高谷歌搜索排名机制的透明度,让谷歌对自己的行径承担责任。Erfan Azimi期盼Rand Fishkin能发布一篇文案分享这次泄密,揭示其中包括的许多有趣的数据,并驳斥有些谷歌员工数年始终在传播的“谎言”。

为了验证泄密文档的真实性,Rand Fishkin联系了有些前谷歌员工,向她们分享了泄密的文档,并询问了她们的想法。最后,有两位谷歌前员工对文档的真实性发布了看法:

“当我在谷歌工作时,我没法拜访这些代码。但文档看起来肯定是符合谷歌内部规范的。”

“它拥有Google内部API的所有特征。”

“这是一个基于Java的API。能够看出,写这些文档的人花了非常多时间遵守谷歌内部关于文档和命名的标准。”

“我需要更加多时间才可确定,但这与我熟练的内部文档相符。”

“从我简要的审查来看,发掘任何不符合谷歌内部规范的迹象。”

2、谷歌搜索引擎黑幕揭发,官方表态与泄密文档自相矛盾

为进一步诠释这次泄密的文档,Rand Fishkin联系了知名技术SEO专家,数字营销公司iPullRank的创始人Mike King。Mike King在iPullRank的官网博客上仔细分析了泄密文件的内容,而Rand Fishkin综合爆料者透露的信息和Mike King的分析,总结出了以下5个初期发掘

1、谷歌在排名算法中运用用户交互数据

2017年,谷歌搜索关系团队(Search Relations team)的负责人John Mueller在一次采访中说道,谷歌直接在搜索排名算法中运用点击量数据和用户行径数据。然而2023年9月,曾在谷歌搜索质量和排名分部工作了17年的谷歌前员工Eric Lehman却在谷歌的反垄断调查听证会上作证说:“几乎所有人都晓得咱们(谷歌)正在搜索排名中运用点击量数据”。

这次泄密的文档进一步坐实了这一点。文档内容表示,谷歌已然将点击量数据在文档中进行了命名和描述,这说明这些数据已然作为了搜索排名算法中的衡量标准之一。

2、谷歌创建Chrome正是为了海量收集数据,优化搜索排名

John Mueller在2022年的一场活动中被问到,谷歌是不是运用Chrome收集用户数据并对搜索结果进行排名。John Mueller的回复是据他所知,谷歌不会这么做。

然而,Erfan Azimi声叫作,早在2005年,谷歌就期盼得到数十亿互联网用户的所有点击流(clickstreams,即用户拜访网站时留下的轨迹数据)。而有了Chrome,她们此刻已然得到了这些数据。泄密的API文档表示,谷歌会计算几种类型的指标,这些指标能够运用与单个页面和全部关联的Chrome视图来调用。

Rand Fishkin指出,谷歌可能会使用Chrome浏览器中页面的点击次数,并运用它来确定网站上最受欢迎最重要的URL,这些URL将用于计算要包括在附加链接功能中的URL。

例如,在上方的谷歌搜索截图中,谷歌会经过跟踪数十亿Chrome用户点击流,来对网站内部的页面进行排序。

Mike King在他的分析文案指出,泄密文件中一个与页面质量评分关联的模块包括一个基于Chrome浏览量的站点级衡量标准。另一个似乎与生成站点链接关联的模块拥有一个与Chrome关联的属性。

一份泄密的谷歌内部演示文稿表示,早在2016年5月Chrome数据就有计划被引入谷歌搜索。

3、谷歌在某些行业执行白名单机制,值得信任的域名将得到更高排名

这次泄露的文档中,有一个叫做优秀旅游网站的模块。这一模块说明谷歌在旅游行业存在一个白名单,但日前的信息还不可证明这一白名单机制是专门针对旅游关联的搜索,还是更为广泛的网络搜索。这次泄密的文档内还有有些标签,例如“isCovidLocalAuthority”和“isElectionAuthority”。这些标签进一步说明谷歌正在将特定域名加入白名单。这可能是为了在执行有些极具争议性的查找时,供给更为准确的信息。

4、谷歌雇佣的质量评定员正直接影响搜索结果排序

谷歌长时间败兴始终有一个名为EWOK的质量评级平台。这次泄密的文档显示,谷歌在搜索系统中运用了质量评定器中的有些元素。EWOK的质量评定者生成的分数和数据可能直接参与谷歌的搜索系统,而不仅是实验的训练集。这些数据在注释和模块细节中被尤其说到了。

上方照片中的内容说到了“人类评级(例如来自EWOK的评级)”,并指出它们“一般只填充在评定管道中”,这显示它们可能重点是该模块中的训练数据。

泄密的文档中表示,谷歌调用了“每一个文档的关联性评级”,该评级来自经过EWOK进行的评定。Rand Fishkin认为,虽然文档中仔细的标注,但能够想见这些人类评级到底有多重要。

5、谷歌运用点击数据确定链接权重

Erfan Azimi指出,谷歌根据三个层级(低、中、高质量)来归类她们的链接索引。点击量数据被用于确定文档所属的链接图索引层。倘若一个链接得到的点击量很小,它将进入低质量索引,这寓意着链接将被忽略。但倘若一个链接持有来自可验证设备的海量点击量,它就会被归入高质量索引,这一链接会表现出高排名信号。来而自低质量链接索引的链接不会影响网站的排名。这些链接仅仅是会被忽略。

3、泄密文件颠覆传统搜索引擎优化模式,中小企业做SEO性价比很低

谷歌这次泄密的文档展现了谷歌搜索排名算法中不为人知的一面,这对搜索引擎优化界的从业者有很好的借鉴道理

Rand Fishkin指出,这次泄密的文档显示,在谷歌的搜索排名算法中,品牌比什么都重要。谷歌有多种办法能够识别实体、对实体进行排序、排名和过滤。

这些实体包含品牌,例如品牌名叫作、品牌官方网站和社交媒介账号。谷歌目前正在将海量的流量传送给主导网络的大品牌,而非规模较小的独立网站和企业。

针对都数中小型企业和较新的创作者与出版商来讲,在创立信誉、导航需要和在相当大的受众中创立良好的声誉之前,SEO的报答可能会很差。

另外,经验、专业知识、权威性和可信度(E-E-A-T)在谷歌的排名系统中并不那样重要。

日前泄密的文档中独一说到专业知识的行业是谷歌地图评论贡献度中的一条注释。其它触及E-E-A-T的标记都是隐匿的、间接的,很难发掘。这些原因或许并非谷歌搜索排名系统中的特定元素。

泄密的文档表示,谷歌搜索中经典的排名原因例如PageRank(谷歌初期衡量网页的重要性和排名的算法)、锚文本链接和文本匹配的重要性数年始终在减弱,然则页面标题仍然非常重要。

PageRank虽然在搜索索引和排名中占有一席之地,但几乎能够肯定的是,它是从1998年的原始论文演变而来的。泄密的文档里包括数年来创建和丢弃的多个版本的PageRank。锚文本链接虽然存在于泄密文件中,但似乎并尤其重要。

另外,用户的交互(例如点击)在搜索排名中扮演主导性的功效。当存在清晰的用户交互模式时,内容和链接都是排名系统中的次要原因

结语:泄密文件揭秘谷歌排名运作机制,透明度仍是谷歌的软肋

尽管谷歌多次强调其算法的公平性和中立性,但这次泄密的文件再次诱发了人们对谷歌透明度的质疑。

Rand Fishkin指出,谷歌是这个星球上信息和商场传播中最强大、最有影响力的力量之一。

做为搜索引擎巨头,谷歌的排名机制直接影响着互联网上的信息流动,关乎着言论自由和公平竞争。然而,谷歌内部不透明的运作方式,无疑加剧了人们对其中立性的可疑

谷歌日前尚未对这一泄密事件作出任何回复,但这一事件已然在SEO从业者群体中掀起了轩然大波。日前这些泄密文档已然颁布在文件托管网站HexDocs上,或许之后会有更加多细节浮出水面。

源自:SparkToro





上一篇:2023年谷歌搜索排名规则揭秘,Google排名机制
下一篇:什么样的企业能源源连续创新?谷歌的人才管理法则
回复

使用道具 举报

3126

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99108615
发表于 2024-9-30 17:28:05 | 显示全部楼层
“板凳”(第三个回帖的人)‌
回复

使用道具 举报

3091

主题

3万

回帖

9909万

积分

论坛元老

Rank: 8Rank: 8

积分
99098764
发表于 2024-10-1 09:56:07 | 显示全部楼层
认真阅读了楼主的帖子,非常有益。
回复

使用道具 举报

3070

主题

3万

回帖

9915万

积分

论坛元老

Rank: 8Rank: 8

积分
99158931
发表于 2024-10-13 01:29:43 | 显示全部楼层
我赞同你的看法,你的智慧让人佩服,谢谢分享。
回复

使用道具 举报

3049

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99109039
发表于 2024-10-20 06:20:00 | 显示全部楼层
回顾历史,我们感慨万千;放眼未来,我们信心百倍。
回复

使用道具 举报

3070

主题

3万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99138950
发表于 2024-10-24 16:07:18 | 显示全部楼层
我们有着相似的经历,你的感受我深有体会。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 15:31 , Processed in 0.114601 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.