天涯论坛

 找回密码
 立即注册
搜索
查看: 83|回复: 1

学会链接分析,快速定位网站SEO问题

[复制链接]

3138

主题

3万

回帖

9996万

积分

论坛元老

Rank: 8Rank: 8

积分
99968624
发表于 2024-7-4 02:23:21 | 显示全部楼层 |阅读模式

点击上方蓝色字 [ 关注

咱们 ]

知识 | 产品 | 新闻 | 职场 | 资源 五大版块

国内最专业的SEM学习交流社区

【本文重点内容】

(1)查询是不是有黑链显现——从日志分析,百度蜘蛛抓取了网站的那些预期外的页面,是不是存在黑链。(这个可能要先卖个关子,由于这又是个大工程啦,本期专题会说到有些

(2)百度站长工具外链分析——查看是不是有垃圾外链、黑链等,以及链向的站内什么地区怎样处理。(本期里面有所触及

(3)百度站长工具链接分析——三大死链(内链死链、链出死链、链入死链),批量下载数据,合并数据,excel操作,按规律归类,定位问题,处理问题。(定位和处理,材料不足由于好多已然处理过了,材料了= =|||||)

(4)从分析这些数据,得到的与seo效果关联的其他信息(垃圾搜索引擎、垃圾外链带来的用抓取,浪费资源配额,怎样拒绝。)

(5)怎样自动化地运用shell脚本,定位到被百度蜘蛛抓取到的死链,并进行复查,而后将确定为死链的URL进行自动化提交。(本期专题内容太多,留作下期专题用)

(6)分析工具介绍(firefox设置,插件,excel,windows命令提示符批处理)

【你许会学到的新姿势】

(1)批量下载百度站长工具中的表格数据(活学活用地去下载其他网站的有些东西,只要你爱好例如5118什么的。5118的站长会不会打我呀?)

(2)合并有些平常的文档,例如txt、csv之类的文本,方便数据分析和处理。

(3)分析死链数据、定位问题的一点基本思路

【本文重点运用到的工具

(只是结合例子中,倘若有其他类似功能的工具,请结合自己习惯运用就可

【浏览器】火狐(Firefox)浏览器,版本所说

【插件】:Launch Clipboard

功能:一键打开剪切板中存在的URL。(重视URL中只能有英文数字标点,倘若有中文可能法被识别)。快捷键:alt + shift +K(先复制好单个多个URL)

设置:打开选项设置,选取好下载文件自动保留的位置(我这儿选取了桌面,你能够单独创建一个文件夹,好对批量下载的文件进行归类)

【表格处理】:Microsoft Office 2013 Excel

【文本处理】:Notepad++

【批量处理】:Windows自带命令提示符

起始讲解啦】

来到百度站长工具链接分析。咱们看到有两大板块,死链分析与外链分析。

1、咱们能够先看一下外链分析。

分析外链数据的重点目的是,找出垃圾外链,主动去封堵垃圾外链可能对网站导致卑劣影响。最后目的:1、找到垃圾外链的域名,进行防盗链处理(针对源自为垃圾域名的,直接返回404状态码);2、处理站内可能存在问题的页面。

这儿,我会重点讲解第1点;第二点比较简单,我会讲解得比较粗略。

1、定位出垃圾域名。

图注:能够看到这是一个显著不正常的趋势图

咱们能够下载外链数据,来进行初步分析。

图注:下载得到的表格文件(csv逗号分隔符)

然则这般一份原始数据,是很难进行分析的。因此呢咱们必须根据必定规律对其进行分析——便是根据【被链接的网页url】进行归类

首要咱们能够快速浏览一下,进行直观判断,这些页面大部分是什么页面呢?

针对咱们网站的状况来讲,外链数据分为两类,正常外链与垃圾外链。

而垃圾外链又分为两种:站内搜索结果页面(垃圾搜索词)以及被黑客入侵移植的黑链(已然处理为死链)。

咱们进行数据处理的目的有两个:识别出那些是正常外链,那些是垃圾外链,并按照垃圾外链的关联数据,进行有些处理,守护好网站;并且必须使被垃圾链接指向的页面,不被搜索引擎抓取(浪费抓取资源配额)以及被收录/索引(保准网站词库不受污染,不为网站带来形象与重要词方面的消极影响)。

第1步,筛选出网站的搜索结果页面

图注:筛选数据、复制到新的sheet中,删除原始sheet中的筛选数据,来归类数据

还有几类搜索链接格式,都以相同方式进行处理。

而后把原始sheet中剩下的数据进行去重(空白行),得到剩余的链接信息。

图注:对剩余数据进行简单的去重处理。

而后咱们必须对黑链进行筛选。黑链的数据,通常必须先从网站日志中分析得到(这般是最全面的,为了保准效率,会必须运用到shell脚本来自动运行,然则触及篇幅太多,我将在以后的专题中进行讲解)。

当然能够对表格中【被链接的网页url】这一列根据次序排序后,挨着分析得到(自己去打开,同期黑客会运用有些特殊手段,妨碍咱们去识别真正的会被搜索引擎识别到的垃圾内容,最平常状况便是运用js这般咱们经过浏览器拜访时,会看到完全不同样的内容,而搜索引擎抓取时,则下载到了垃圾内容。)

此时咱们必须运用一款firefox插件【No Script】,旨在屏蔽网站上的js,看到与搜索引擎类似的内容。

图注:屏蔽浏览器中java script的插件

另一还有一种不是很可靠的甄选办法,在搜索引擎里面去搜:【site:域名 博彩】之类的重要词,把不符合网站预期的重要词拿去搜,就能够得到非常多链接了。(这儿必须运用有些办法,把链接全都批量导出,在今后的专题中,我会继续讲解的)

筛选过程我就只能省略啦,能够结合视频看一看。

图注:筛选出来的网站黑链

咱们因此要这么辛苦地找出垃圾外链,目的便是要把这些垃圾外链的域名记录下来,避免这些垃圾域名被黑客重复利用,拿去制作新的垃圾链接,从而在第1时间拒绝掉这些垃圾外链,使百度蜘蛛从垃圾外链拜访咱们网站上内容时,法获取到任何信息(便是返回404状态码,被识别成死链),久而久之,这些垃圾域名的权重就会越来越低(由于导出了死链,影响搜索引擎的正常抓取工作),这般咱们不仅守护了自己,处罚了敌人。

详细办法是,把垃圾页面找出来——从搜索结果页面和黑链的两个sheet中,把外链页面整合到一块。如sheet3所示。

图注:合并垃圾外链页面

接下来的处理会运用到一款小工具,来快速获取这些链接的主域名。

https://www.benmi.com/getdomain.html

图注:将链接复制到左边红框里,点击本地提取,就会出此刻右侧红框

如此一来,咱们就得到了这些垃圾外链页面的主域名,咱们必须咱们服务器上配置一下防盗链,禁止refer(源自)为这些域名的拜访(返回404http状态码)就可

2、从站内对搜索结果页面进行处理(黑链处理我保存在下一次专题,由于海量结合linux的shell脚本):

权重比较高的网站的站内搜索,必定重视antispam(反垃圾)。倘若不加以防范的话,一旦被黑客利用,那样可能会导致海量搜索页面被百度抓取,黑客利用高权重网站的资源,快速做好黄赌毒行业的重要词排名。然则针对咱们网站来讲,则是噩梦般的打击。不作处理的话,可能会引起如下几方面的问题:浪费海量的蜘蛛抓取配额,去抓取垃圾页面;垃圾页面被搜索引擎收录,网站词库被黑客污染,使得网站的行业词和品牌词排名不睬想;对网站形象导致损失……等。

在进行这类反垃圾策略的时候,咱们必须关注四个方面:站内用户能够正常运用;不准许搜索引擎抓取这类页面;拒绝垃圾外链的拜访;页面上不得显现垃圾重要词。

既然有了知道目的那样相应的应对方法就出来了,那便是

A 限制源自,拒绝掉所有非站内源自的搜索

B 页面上的TKD等重要位置,不对搜索词进行调用

C 指定敏锐词库过滤规则,将敏锐所有替换为星号*(有必定技术研发需求

D 在robots.txt声明,不准许抓取

E 在页面源代码head区间添加meta robots信息,声明该页面不准许创立索引(noindex)

进行以上处理,能够处理掉大部分站内搜索页面(不局限于该类页面,乃至其他的页面只要不期盼搜索引擎抓取以及创立索引的话,都能够这般处理)容易显现的问题。

2、咱们再来看一下死链分析。

死链,在站长工具的死链提交工具帮忙文档中已然有详尽的阐释,我仅仅进行有些弥补就可

死链通常有如下几种:内部死链、外边死链。

内部死链,便是咱们网站上显现的,因为种种原由使得百度蜘蛛抓取链接时,法获取到内容而被识别的死链。大部分状况下,针对咱们来讲,这种死链是能够经过有些方式进行避免的,因此是可控的。同期因为链向死链的页面,都是咱们网站上的页面,并且链出了死链的页面,对搜索引擎非常不友好,因此即时处理的话,极有可能使搜索引擎法顺利地对网站上有价值页面进行抓取,从而间接引起“局部降权”(抓取有些页面的周期变得越来越长,快照更新缓慢,排名上不去之类)。

内部死链问题比较严重,因此应当优先处理内部的死链。

咱们能够放慢地百度站长工具中获取死链数据,并根据必定规律方式进行整理和划分,定位问题,接下来我将围绕进行死链数据分析进行讲解。

经过在页面上对死链信息进行预览,谁都会,我就不必须太多说明了。而死链问题,不必须每日都去下载表格进行分析,而只必须每日大致看一下数据,是不是忽然显现的死链,找到原由并处理(通常大范围显现,比较容易被察觉到,必须紧急处理的);其次咱们必须定时进行一次较为彻底的死链数据分析,瞧瞧是不是有平时关注到的死链问题(通常显现范围小,会比较难以察觉,然则任由其长时间发展下去的话,可能会导致大问题)。

图注:通常忽然显现海量死链,很容易被察觉,比较好确定原由

图注:这是初期定位到的问题,虽然提交了处理意见,但被程序员忽略掉,而后近期忽然爆发出来,因此呢即使小问题,应当导致足够注意因为出现后处理即时显现过于严重的问题)

接下来,我来简单说一下,批量下载百度站长工具中的死链数据,以及合并数据进行统一处理。

内链死链(子域名A指向子域名A)和链出死链(子域名A指向子域名BCD……),通常来讲比较容易分析,咱们来针对链入死链(子域名BCD……指向子域名A)来进行有些批量处理吧。

图注:能够对数据进行下载,格式为csv(逗号分隔符),能够方便地运用excel进行处理;并且下方有官方的帮忙文档。

这儿,你能够试着点击【下载数据】,这般火狐浏览器就会自动把文件下载到你设置好的位置。

这儿告诉大众一个小技巧,能够点击下载列表中的对应文件,复制下载链接,而后粘贴出来。

http://zhanzhang.baidu.com/inbound/deadlist?site=http://www.abc.com/&download=1&type=3&day=2016-02-30&f=dead_link&key=

相信长得帅的伴侣已然看出来了,site=http://www.abc.com/便是指定你的网站域名,而day=2016-02-30便是指定你必须的日期了。type=3便是指定下载【链入死链】的数据,而type=2是链出死链,type=1是内链死链。而其他参数不必须太多认识

脑洞大开的伴侣必定会想,倘若我把日期参数做一下处理,是不是能够批量地直接下载这些文件了呢?没错,能够的。这儿必须借助一下excel强大的功能。

先手动做好两行URL,而后选中,左键按住从右下角,往下拉你就发掘excel已然自动帮你对URL进行了补完。非常方便。

松开左键,就得到了想要的结果

而后,你就能够复制下这些URL,而后到火狐浏览器中,用咱们之前安装好的Launch Clipboard插件,运用其快捷键alt + shift +K批量打开上图中的链接,而后咱们的火狐浏览器就会自动把这些文件下载存储到咱们指定好的位置。

来,咱们看一看收获的成果吧:

好似能够的样子哦?然则,这么多表格难道要我一个一个地打开吗?

当然不。咱们来看一看某一个表格长什么样子吧。看到了吗?这儿有记录时间的。

便是说,倘若咱们能想办法把这些文件都合并起来的话,是有办法区分日期的。

好吧,说干就干。

(1)打开你的命令提示符:Windows + R,输入cmd,回车

(2)在命令提示符中,输入cd再敲入空格,再到保留csv文件的位置,去把文件夹全部拖拽到命令提示符中,就可自动补完路径。

倘若不输入cd空格的话,会报错,如下图。(cd的意思是目录到指定目录)

当成功后,你就能够把csv文件都合并起来啦,输入命令:

copy *.csv..\ok.csv

意思是,拷贝出所有以后缀名为csv的文件,输出到上一级目录下的ok.csv文件中。

这般就完成为了合并。

咱们打开ok.csv瞧瞧?接下来就能够进行简单的去重处理。

图注:简单去重后,咱们依然能够大致浏览一下。

咱们发掘,死链前链中,有许多来自于区别域名的类似目录下的页面。咱们不妨把这些页面单独存起来。

图注:筛选出所有zx123.cn子域名下包括xiaoqu目录的页面

而后咱们发掘,还有有些包括baidu.com/的页面,这些页面通常是经过推送数据来进行抓取的,因此暂时归类到一边。

图注:百度的抓取数据

剩下的数据中,还剩下外边死链,而外边死链中还包括有些垃圾链接,咱们必须把这些垃圾链接找出来。

图注:根据死链链接排序

把垃圾死链单独归为一类,剩下的便是真正的外链死链了。

图注:检验成果的时候到啦。

咱们把数据根据必定规律关系分成为了四类,分别是【外边死链】【垃圾链接】【百度】【子域名(属于内部死链)】

咱们必须重点关注的是,【子域名】显现的死链。由于子域名咱们的网站的一部分啊,这些页面上显现了死链,势必对这些页面的SEO效果有害必须尽快知道原由

经过与技术分部沟通,我确认到该类问题显现原由重点咱们网站的服务器之间同步数据时不成功,服务器之间连接偶然断开导致。这类问题暂时难以避免,因此呢只能让技术人员将由于这种状况显现的404(永久不可拜访)状态码改为返回503(临时不可拜访)状态码了。

而【百度】显现的死链,理由和上面的一致。只不外蜘蛛的抓取途径,是来自于主动推送方式。返回503状态码后,状况有所改善。

【垃圾链接】,我已然在外链分析中做出过必定程度的说明了,能够参考一下。

外边死链】,这个其实能够不必过于关注,会受到死链影响的不是咱们网站,而是导出了死链的网站。然则有时候分析瞧瞧,总能发掘有些有趣的现象。

比方说,我此刻看到的数据的共性是,死链链接都不完整,要么中间用点号来省略了,要么尾部被强行截断了。咱们打开死链前链,发掘死链链接是做为明链接(锚文本)出此刻页面上。而死链前链的页面,大都数都类似于搜索引擎结果页面,并且这些结果页面上对锚链接都以nofollow进行了掌控

图注:这些都是垃圾搜索引擎,目的是抓取其他网站的信息为己所用,制造垃圾站群

能够看出,【垃圾链接】和【外链死链】中的大部分,依然是抱着恶意目的而来的。此时咱们可能就必须思虑运用反爬虫策略,来禁止有些垃圾搜索引擎对咱们网站进行恣意妄为的抓取行径了。(关于反爬虫策略专题,我将来打算尝试一下)

好啦,这期的内容差不多便是这般咱们来总结一下吧。

(1)分析链接数据的目的:保准搜索引擎对网站正常抓取和索引;防止被恶意人士利用而受到损失。

(2)分析链接数据的手段:有些工具,再加上简单的规律

(3)养成良好工作习惯与认识每日大致关注一下这些数据,定时仔细分析一下数据,对这些环节有掌控地进行操作。

作者:响1亮2的3名4字 源自:百度站长平台

更加多SEO知识,请点击阅读:

01、揭秘竞价SEM与快照SEO千丝万缕的关系

02、百度搜索(SEO)移动站友好度诠释(四维度)

03、服务器对SEO的影响有那些?(服务器怎样设置对SEO友好)

04、SEO的这9个搜索引擎算法 你get了吗

05、SEO外链专员,怎样评定一个外链的价值?

06、SEO能手怎样更新网站文案的?

07、SEO怎样正确处理网站死链?

08、SEO的春天来了?百度的回复依然有许多不确定性

09、SEO入门必看 详解搜索引擎优化原理

十、SEO怎样分析竞争对手网站

11、SEO之网站域名的选择规则

12、SEO实战 | 怎样挖掘重要词?

13、SEO中重要词密度多少比较合适?

14、夫唯:必定晓得的SEO基本知识

15、讲讲SEO怎样布局重要词?

16、电商平台SEO的八大重要原因,你认识了吗?





上一篇:怎么查看自己的网站被百度蜘蛛抓取的频率和时间?
下一篇:SEO优化怎么样进行网站日志分析
回复

使用道具 举报

3125

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99108619
发表于 2024-10-30 07:20:29 | 显示全部楼层
楼主的文章非常有意义,提升了我的知识水平。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 08:07 , Processed in 0.117077 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.