天涯论坛

 找回密码
 立即注册
搜索
查看: 38|回复: 6

Zac:爬行、抓取、索引、收录,指的都是什么?

[复制链接]

3032

主题

312

回帖

9909万

积分

论坛元老

Rank: 8Rank: 8

积分
99099078
发表于 2024-8-25 16:32:56 | 显示全部楼层 |阅读模式

一位读者在蜘蛛抓取配额是什么这篇帖子留言:

不对呀,这个index标签,指的是告诉蜘蛛能够抓取该页面,那样noindex不便是准许抓取该页面吗?!那样为何文案最后的几个说明里有“noindex标签不可节省抓取份额。搜索引擎要晓得页面上有noindex标签,就得先抓取这个页面,因此并不节省抓取份额。”

留言说明,这位读者并太明白什么是抓取,什么是索引,index和noindex标签的道理又是什么。noindex标签不是不准许抓取该页面,是不准许索引该页面,这两者是区别的意思,有区别的功能。

seo相关博客和论坛时能感觉到,非常多SEO并理解爬行、抓取、索引、收录这些概念到底指的是什么,区别在哪,noindex、nofollow、robots文件的功能又是什么。对这些概念精细理解,处理大型网站结构,决定什么页面需要被抓取,什么需要被索引,那些页面需要禁止抓取、索引等等状况时,就很难明白该怎么做。乃至就像抓取配额那篇帖子的非常多留言说的,说到这些状况的处理时,基本看不懂在说什么。

这么基本、重要,又比较容易混淆的SEO概念,我以为以前在博客里写过了,看了留言,翻翻以前帖子才晓得,原来以前没写过。SEO实战秘码书里是有写的,但SEO每日一贴里并写过。今天补上。

爬行是什么?

爬行指的是搜索引擎蜘蛛从已知页面上解析出链接指向的URL,而后沿着链接发掘新页面(便是链接指向的URL)的过程。当然,蜘蛛并不是发掘新URL马上就爬过去抓取新页面,而是把发掘的URL存放到待抓位置库中,蜘蛛根据必定次序位置库中提取要抓取的URL。

抓取是什么?

抓取是搜索引擎蜘蛛从待抓位置库中提取要抓的URL,拜访这个URL,把读取的HTML代码存入数据库。蜘蛛的抓取便是像浏览器同样打开这个页面,和用户浏览器拜访同样会在服务器原始日志中留下记录。

索引是什么?

索引指的是将一个URL的信息进行整理,存入数据库,便是索引库,用户搜索时,搜索引擎从索引库中提取URL信息并排序展现出来。索引的英文是index。索引库是用于搜索的,因此被索引的URL是能够被用户搜索到的,被索引的URL用户在搜索结果中是看不到的。

重视的是,所说“一个URL的信息“,并不限于蜘蛛从URL上抓取来的内容,还有来自其它源自的信息,如外边链接、链接的锚文字等。有的时候,索引库中关于这个URL的的信息,基本从这个URL抓取来的内容,但搜索引擎晓得这个URL的存在,并且有有些其它信息。

抓取和索引不是一回事。

收录是什么?

我个人觉得收录和索引区别。只不外收录是从搜索用户方向看的,搜索时能找到这个URL,便是这个URL被收录了。从搜索引擎方向看,URL被收录了,便是这个URL的信息在索引库中存在。英文并收录这个词,和索引用的是同一个词index。

noindex的功效是什么?

页面头信息中放上meta noindex标签是告诉搜索引擎不要索引这个URL,便是用户搜索时找不到这个URL的信息,这个URL不会返回在搜索结果列表中。

noindex不是告诉搜索引擎不要抓取这个URL,实质上,noindex要起功效,这个URL是必须先被抓取的,否则搜索引擎怎么看到页面HTML代码中有noindex标签呢?

robots文件的功效是什么?

robots文件是告诉搜索引擎,某些URL不要抓取。重视这儿说的是不要抓取,没说不要索引。和noindex是正相反的。

nofollow的功效是什么?

给链接加上nofollow属性是告诉搜索引擎,不要沿着这个链接爬行,就当这个链接不存在。重视,nofollow只是告诉蜘蛛不要爬这个链接,说不要抓取链接指向的URL,说不要索引链接指向的URL,nofollow既没禁止抓取,没禁止索引。

概念说过后,指出几个SEO们经常弄不明白的状况

被抓取的页面是能够被索引的

便是说,蜘蛛拜访和抓取这个页面(例如被robots文件禁止抓取),这个页面却有信息存在索引库中,用户搜索时还能看到。

例如,淘宝全部网站用robots文件禁止百度蜘蛛抓取,但用noindex禁止索引(如上面说的,禁止抓取后,就没办法禁止索引了,不抓取,就看不到noindex标签了),因此即使百度拜访和抓取淘宝页面,但淘宝非常多页面是被百度索引的,用户能够搜到的:

百度从网上那样多链接晓得淘宝首页的存在,经过链接的锚文字晓得这个页面标题大概是淘宝之类的,当然更晓得百度口碑里的评估数。因此即使百度蜘蛛抓取淘宝首页,用户还是能搜到,并且表示有些百度晓得的信息。

想要百度不可返回淘宝首页该怎么办呢?取消robots文件的禁止抓取,页面上用noindex禁止索引。

被抓取的页面是能够不被索引的

平常便是上面说过的,页面头信息运用noindex禁止索引,页面被抓取,读到noindex后,不被索引,不会在搜索结果中返回。

还有可能是由于页面内容是抄袭、转载、低质量的,搜索引擎虽然抓取了页面,索引过程中检测出这些内容问题,被丢弃,被索引。因此页面被收录,一般要先检测原始日志,瞧瞧是不是被抓取过,倘若被抓取过,可能是内容质量问题,倘若基本没被抓取,意见瞧瞧网站结构是不是有问题。

加了nofollow的链接目的页面能够被抓取和索引

前面说了,nofollow既不禁止抓取,不禁止索引。nofollow的功效是告诉蜘蛛不要跟着这个链接爬,就当这个链接不存在,但nofollow只对这个链接起功效,对别的链接没功效,这个链接加了nofollow,不寓意着别的地区正常的指向这个URL的链接,只要别的地区显现了没加nofollow的链接,目的URL还是会被发掘、抓取(假设没被robotx文件禁止)、索引(假设没加noindex )。

上面这些概念和应用在SEO中是很重要的,倘若还没看懂,我不知道该怎么再解释了,只能意见再多读几遍。

End -

文∣昝辉(Zac)

已授权于"互联网十八般武艺"首发!

  按住二维码,加我微X交流!





上一篇:学会链接分析,快速定位网站SEO问题
下一篇:3分钟,教你快速把握搜索引擎抓取原理
回复

使用道具 举报

0

主题

1万

回帖

1

积分

新手上路

Rank: 1

积分
1
发表于 2024-9-2 17:34:53 | 显示全部楼层
楼主继续加油啊!外链论坛加油!
回复

使用道具 举报

3048

主题

2万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99109040
发表于 2024-9-28 08:42:49 | 显示全部楼层
seo常来的论坛,希望我的网站快点收录。
回复

使用道具 举报

3089

主题

3万

回帖

9909万

积分

论坛元老

Rank: 8Rank: 8

积分
99098770
发表于 2024-10-11 12:29:17 | 显示全部楼层
说得好啊!我在外链论坛打滚这么多年,所谓阅人无数,就算没有见过猪走路,也总明白猪肉是啥味道的。
回复

使用道具 举报

3089

主题

3万

回帖

9909万

积分

论坛元老

Rank: 8Rank: 8

积分
99098770
发表于 2024-10-11 14:21:17 | 显示全部楼层
一看到楼主的气势,我就觉得楼主同在社区里灌水。
回复

使用道具 举报

3138

主题

3万

回帖

9996万

积分

论坛元老

Rank: 8Rank: 8

积分
99968624
发表于 2024-10-16 09:09:38 | 显示全部楼层
论坛的成功是建立在我们诚恳、务实、高效、创新和团结合作基础上,我们要把这种精神传递下去。
回复

使用道具 举报

2996

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99109194
发表于 2024-11-7 02:38:45 | 显示全部楼层
顶楼主,说得太好了!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 02:22 , Processed in 0.119454 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.