ikkhksvu 发表于 2024-8-25 16:32:56

Zac:爬行、抓取、索引、收录,指的都是什么?


    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">一位读者在蜘蛛抓取配额是什么这篇帖子留言:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">不对呀,这个index标签,<span style="color: black;">指的是</span>告诉蜘蛛<span style="color: black;">能够</span>抓取该页面,<span style="color: black;">那样</span>noindex不<span style="color: black;">便是</span>不<span style="color: black;">准许</span>抓取该页面吗?!<span style="color: black;">那样</span><span style="color: black;">为何</span><span style="color: black;">文案</span>最后的几个说明里有“noindex标签<span style="color: black;">不可</span>节省抓取份额。搜索引擎要<span style="color: black;">晓得</span>页面上有noindex标签,就得先抓取这个页面,<span style="color: black;">因此</span>并不节省抓取份额。”</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">留言说明,这位读者并<span style="color: black;">无</span>太明白什么是抓取,什么是索引,index和noindex标签的<span style="color: black;">道理</span>又是什么。noindex标签不是不<span style="color: black;">准许</span>抓取该页面,是不<span style="color: black;">准许</span>索引该页面,这两者是<span style="color: black;">区别</span>的意思,有<span style="color: black;">区别</span>的功能。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">看SEO<span style="color: black;">相关</span>博客和论坛时能感觉到,<span style="color: black;">非常多</span>SEO并<span style="color: black;">无</span>理解爬行、抓取、索引、收录这些概念到底指的是什么,区别在哪,noindex、nofollow、robots文件的功能又是什么。对这些概念<span style="color: black;">无</span><span style="color: black;">精细</span>理解,处理大型网站结构,决定什么页面需要被抓取,什么需要被索引,<span style="color: black;">那些</span>页面需要禁止抓取、索引等等<span style="color: black;">状况</span>时,就很难明白该怎么做。<span style="color: black;">乃至</span>就像抓取配额那篇帖子的<span style="color: black;">非常多</span>留言说的,<span style="color: black;">说到</span>这些<span style="color: black;">状况</span>的处理时,<span style="color: black;">基本</span>看不懂在说什么。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这么基本、重要,又比较容易混淆的SEO概念,我以为以前在博客里写过了,看了留言,翻翻以前帖子才<span style="color: black;">晓得</span>,原来以前没写过。SEO实战<span style="color: black;">秘码</span>书里是有写的,但SEO<span style="color: black;">每日</span>一贴里并<span style="color: black;">无</span>写过。今天补上。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><strong style="color: blue;"><span style="color: black;">爬行是什么?</span></strong></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">爬行指的是搜索引擎蜘蛛从已知页面上解析出链接指向的URL,<span style="color: black;">而后</span>沿着链接<span style="color: black;">发掘</span>新页面(<span style="color: black;">亦</span><span style="color: black;">便是</span>链接指向的URL)的过程。当然,蜘蛛并不是<span style="color: black;">发掘</span>新URL马上就爬过去抓取新页面,而是把<span style="color: black;">发掘</span>的URL存放到待抓<span style="color: black;">位置</span>库中,蜘蛛<span style="color: black;">根据</span><span style="color: black;">必定</span><span style="color: black;">次序</span>从<span style="color: black;">位置</span>库中提取要抓取的URL。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><strong style="color: blue;"><span style="color: black;">抓取是什么?</span></strong></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">抓取是搜索引擎蜘蛛从待抓<span style="color: black;">位置</span>库中提取要抓的URL,<span style="color: black;">拜访</span>这个URL,把读取的HTML代码存入数据库。蜘蛛的抓取<span style="color: black;">便是</span>像浏览器<span style="color: black;">同样</span>打开这个页面,和用户浏览器<span style="color: black;">拜访</span><span style="color: black;">同样</span>,<span style="color: black;">亦</span>会在服务器原始日志中留下记录。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><strong style="color: blue;"><span style="color: black;">索引是什么?</span></strong></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">索引指的是将一个URL的信息进行整理,存入数据库,<span style="color: black;">亦</span><span style="color: black;">便是</span>索引库,用户搜索时,搜索引擎从索引库中提取URL信息并排序展现出来。索引的英文是index。索引库是用于搜索的,<span style="color: black;">因此</span>被索引的URL是<span style="color: black;">能够</span>被用户搜索到的,<span style="color: black;">无</span>被索引的URL用户在搜索结果中是看不到的。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">要<span style="color: black;">重视</span>的是,<span style="color: black;">所说</span>“一个URL的信息“,并不限于蜘蛛从URL上抓取来的内容,还有来自其它<span style="color: black;">源自</span>的信息,如<span style="color: black;">外边</span>链接、链接的锚文字等。有的时候,索引库中关于这个URL的的信息,<span style="color: black;">基本</span><span style="color: black;">无</span>从这个URL抓取来的内容,但搜索引擎<span style="color: black;">晓得</span>这个URL的存在,并且有<span style="color: black;">有些</span>其它信息。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">抓取和索引不是一回事。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><strong style="color: blue;"><span style="color: black;">收录是什么?</span></strong></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">我个人觉得收录和索引<span style="color: black;">无</span>区别。只<span style="color: black;">不外</span>收录是从搜索用户<span style="color: black;">方向</span>看的,搜索时能找到这个URL,<span style="color: black;">便是</span>这个URL被收录了。从搜索引擎<span style="color: black;">方向</span>看,URL被收录了,<span style="color: black;">亦</span><span style="color: black;">便是</span>这个URL的信息在索引库中存在。英文并<span style="color: black;">无</span>收录这个词,和索引用的是同一个词index。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><strong style="color: blue;"><span style="color: black;">noindex的<span style="color: black;">功效</span>是什么?</span></strong></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">页面头信息中放上meta noindex标签是告诉搜索引擎不要索引这个URL,<span style="color: black;">亦</span><span style="color: black;">便是</span>用户搜索时找不到这个URL的信息,这个URL不会返回在搜索结果列表中。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">noindex不是告诉搜索引擎不要抓取这个URL,<span style="color: black;">实质</span>上,noindex要起<span style="color: black;">功效</span>,这个URL是必须先被抓取的,<span style="color: black;">否则</span>搜索引擎怎么看到页面HTML代码中有noindex标签呢?</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;"><strong style="color: blue;">robots文件的<span style="color: black;">功效</span>是什么?</strong></span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">robots文件是告诉搜索引擎,某些URL不要抓取。<span style="color: black;">重视</span>,<span style="color: black;">这儿</span>说的是不要抓取,没说不要索引。和noindex是正相反的。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><strong style="color: blue;"><span style="color: black;">nofollow的<span style="color: black;">功效</span>是什么?</span></strong></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">给链接加上nofollow属性是告诉搜索引擎,不要沿着这个链接爬行,就当这个链接不存在。<span style="color: black;">重视</span>,nofollow只是告诉蜘蛛不要爬这个链接,<span style="color: black;">无</span>说不要抓取链接指向的URL,<span style="color: black;">亦</span><span style="color: black;">无</span>说不要索引链接指向的URL,nofollow既没禁止抓取,<span style="color: black;">亦</span>没禁止索引。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">概念说过后,指出几个SEO们经常弄不明白的<span style="color: black;">状况</span>:</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;">无</span>被抓取的页面是<span style="color: black;">能够</span>被索引的</strong></span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">亦</span><span style="color: black;">便是</span>说,蜘蛛<span style="color: black;">无</span><span style="color: black;">拜访</span>和抓取这个页面(<span style="color: black;">例如</span>被robots文件禁止抓取),这个页面却有信息存在索引库中,用户搜索时还能看到。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">例如</span>,淘宝<span style="color: black;">全部</span>网站用robots文件禁止百度蜘蛛抓取,但<span style="color: black;">无</span>用noindex禁止索引(如上面说的,禁止抓取后,就没办法禁止索引了,不抓取,就看不到noindex标签了),<span style="color: black;">因此</span>即使百度<span style="color: black;">无</span><span style="color: black;">拜访</span>和抓取淘宝页面,但淘宝<span style="color: black;">非常多</span>页面是被百度索引的,用户<span style="color: black;">能够</span>搜到的:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="http://mmbiz.qpic.cn/mmbiz_jpg/P5rwNx8qkB3ia77m4nJ27Uuz8bqIpgjcJUf9ZEcZ2xg40ORxMyjtQ7ouxibdFriavDBQILwDGOyKUYibuPmyvS1zIw/640?wx_fmt=jpeg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;"></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">百度从网上<span style="color: black;">那样</span>多链接<span style="color: black;">晓得</span>淘宝首页的存在,<span style="color: black;">经过</span>链接的锚文字<span style="color: black;">亦</span><span style="color: black;">晓得</span>这个页面标题大概是淘宝之类的,当然更<span style="color: black;">晓得</span>百度口碑里的<span style="color: black;">评估</span>数。<span style="color: black;">因此</span>即使百度蜘蛛<span style="color: black;">无</span>抓取淘宝首页,用户还是能搜到,并且<span style="color: black;">表示</span><span style="color: black;">有些</span>百度<span style="color: black;">晓得</span>的信息。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">想要</span>百度<span style="color: black;">不可</span>返回淘宝首页该怎么办呢?取消robots文件的禁止抓取,页面上用noindex禁止索引。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><strong style="color: blue;"><span style="color: black;">被抓取的页面是<span style="color: black;">能够</span>不被索引的</span></strong></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">最<span style="color: black;">平常</span>的<span style="color: black;">便是</span>上面说过的,页面头信息<span style="color: black;">运用</span>noindex禁止索引,页面被抓取,读到noindex后,不被索引,不会在搜索结果中返回。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">还有可能是<span style="color: black;">由于</span>页面内容是抄袭、转载、低质量的,搜索引擎虽然抓取了页面,索引过程中检测出这些内容问题,被丢弃,<span style="color: black;">无</span>被索引。<span style="color: black;">因此</span>页面<span style="color: black;">无</span>被收录,<span style="color: black;">一般</span>要先<span style="color: black;">检测</span>原始日志,<span style="color: black;">瞧瞧</span><span style="color: black;">是不是</span>被抓取过,<span style="color: black;">倘若</span>被抓取过,可能是内容质量问题,<span style="color: black;">倘若</span><span style="color: black;">基本</span>没被抓取,<span style="color: black;">意见</span>先<span style="color: black;">瞧瞧</span>网站结构<span style="color: black;">是不是</span>有问题。</p>
    <h2 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;"><strong style="color: blue;">加了nofollow的链接<span style="color: black;">目的</span>页面<span style="color: black;">能够</span>被抓取和索引</strong></span></h2>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">前面说了,nofollow既不禁止抓取,<span style="color: black;">亦</span>不禁止索引。nofollow的<span style="color: black;">功效</span>是告诉蜘蛛不要跟着这个链接爬,就当这个链接不存在,但nofollow只对这个链接起<span style="color: black;">功效</span>,对别的链接没<span style="color: black;">功效</span>,这个链接加了nofollow,不<span style="color: black;">寓意</span>着别的<span style="color: black;">地区</span>就<span style="color: black;">无</span>正常的指向这个URL的链接,只要别的<span style="color: black;">地区</span><span style="color: black;">显现</span>了没加nofollow的链接,<span style="color: black;">目的</span>URL还是会被<span style="color: black;">发掘</span>、抓取(假设没被robotx文件禁止)、索引(假设没加noindex )。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">上面这些概念和应用在SEO中是很重要的,<span style="color: black;">倘若</span>还没看懂,我<span style="color: black;">亦</span>不知道该怎么再解释了,只能<span style="color: black;">意见</span>再多读几遍。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">-&nbsp;</span><span style="color: black;">End</span><span style="color: black;">&nbsp;-</span></strong></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">▼</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">文∣昝辉(Zac)</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">已授权于"互联网十八般武艺"首发!</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="http://mmbiz.qpic.cn/mmbiz_jpg/P5rwNx8qkB201PGe2HmBtCRTEYhTMKKfF19fZnsV9ibZuwibJYeuzl092Ym4AMx9jWRpRdwWAcPYZicsk4AGUhMgA/640?wx_fmt=jpeg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1" style="width: 50%; margin-bottom: 20px;"></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">&nbsp; 按住二维码,加我<span style="color: black;">微X</span>交流!</strong></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="http://mmbiz.qpic.cn/mmbiz_gif/P5rwNx8qkB0iaWiaKiaTcKHCGOib9yMBVLJadgCiboXmUVvGvsDKupiaMxrvTQsxAqJaJibQREjWocMFlEdDKPicyNcC5A/0?wx_fmt=gif&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1" style="width: 50%; margin-bottom: 20px;"></p>




流星的美 发表于 2024-9-2 17:34:53

楼主继续加油啊!外链论坛加油!

1fy07h 发表于 2024-9-28 08:42:49

seo常来的论坛,希望我的网站快点收录。

nqkk58 发表于 2024-10-11 12:29:17

说得好啊!我在外链论坛打滚这么多年,所谓阅人无数,就算没有见过猪走路,也总明白猪肉是啥味道的。

nqkk58 发表于 2024-10-11 14:21:17

一看到楼主的气势,我就觉得楼主同在社区里灌水。

m5k1umn 发表于 2024-10-16 09:09:38

论坛的成功是建立在我们诚恳、务实、高效、创新和团结合作基础上,我们要把这种精神传递下去。

7wu1wm0 发表于 2024-11-7 02:38:45

顶楼主,说得太好了!
页: [1]
查看完整版本: Zac:爬行、抓取、索引、收录,指的都是什么?