天涯论坛

 找回密码
 立即注册
搜索
查看: 49|回复: 2

尖叫青蛙网络爬虫软件

[复制链接]

2995

主题

330

回帖

9919万

积分

论坛元老

Rank: 8Rank: 8

积分
99199238
发表于 2024-8-25 17:50:27 | 显示全部楼层 |阅读模式

Screaming Frog seo Spider for Mac是一款专门用于抓取网址进行分析的网络爬虫研发工具,你能够经过这款软件来快速抓取网站中可能显现的损坏链接和服务器错误,或是识别网站中临时、永久重定向的链接循坏,同期还能检测出网址、网页标题、说明以及内容等信息中心可能显现的重复问题。爱好这款软件吗?

软件介绍

Screaming Frog SEO Spider for Mac是一个网站爬虫,准许你抓取网站的网址,并获取关键要素,分析和审计技术和现场搜索引擎优化。

功能特殊

1、找到断开的链接

立即抓取网站并找到损坏的链接(404s)和服务器错误。批量导出错误和源URL以进行修复,或发送给研发人员。

2、审核重定向

查询临时和永久重定向,识别重定向链和循环,或上传URL列表以在站点迁移中进行审核。

3、分析页面标题和元数据

在抓取过程中分析页面标题和元描述,并识别网站中过长,短缺,缺失或重复的内容。

4、发掘重复内容

运用md5算法检测发掘完全重复的URL,部分重复的元素(如页面标题,描述或标题)以及查询低内容页面。

5、运用XPath提取数据

运用CSS Path,XPath或regex从网页的HTML中收集任何数据。这可能包含社交元标记,其他标题,价格,SKU或更加多

6、审查设备人和指令

查看被robots.txt,元设备人或X-Robots-Tag指令阻止的网址,例如noindex或nofollow,以及规范和rel =“next”和rel =“prev”。

7、生成XML站点地图

快速创建XML站点地图和图像XML站点地图,经过URL进行高级配置,包含上次修改,优先级和更改频率。

8、与Google Analytics集成

连接到Google AnalyticsAPI并针对抓取功能获取用户数据,例如会话或跳出率和转化次数,目的,交易和针对目的网页的收入。

9、抓取JavaScript网站

运用集成的Chromium WRS渲染网页,以抓取动态的,饱含JavaScript的网站和框架,例如Angular,React和Vue.js.

十、可视化站点架构

运用交互式爬网和目录强制导向图和树形图站点可视化评定内部链接和URL结构。

快速摘要

错误 - 客户端错误,例如链接断开和服务器错误(无响应,4XX,5XX)。

重定向 - 永久,临时重定向(3XX响应)和JS重定向。

阻止的网址 - robots.txt协议不准许查看和审核网址。

阻止的资源 - 在呈现模式下查看和审核被阻止的资源。

外边链接 - 所有外边链接及其状态代码。

协议 - URL是安全的(HTTPS)还是不安全的(HTTP)。

URI问题 - 非ASCII字符,下划线,大写字符,参数或长URL。

重复页面 - 哈希值/ MD5checksums算法检测完全重复的页面。

页面标题 - 缺失,重复,超过65个字符,短,像素宽度截断,与h1相同或多个。

元描述 - 缺失,重复,超过156个字符,短,像素宽度截断或多个。

元关键字 - 重点供参考,由于它们不被谷歌,必应或雅虎运用

文件体积 - 网址和照片体积

响应时间。

最后修改的标题。

页面(抓取)深度。

字数。

H1 - 缺失,重复,超过70个字符,多个。

H2 - 缺失,重复,超过70个字符,多个。

设备人 - 索引,无索引,跟随,nofollow,noarchive,nosnippet,noodp,noydir等。

元刷新 - 包含目的页面和时间延迟。

规范链接元素和规范HTTP标头。

X-Robots-Tag中。

分页 - rel =“next”和rel =“prev”。

关注&Nofollow - 在页面和链接级别(真/假)。

重定向链 - 发掘重定向链和循环。

hreflang属性 - 审核缺少的确认链接,不一致和不正确的语言代码,非规范的hreflang等。

AJAX - 选取遵守Google现已弃用的AJAX抓取方法

渲染 - 经过在JavaScript执行后抓取渲染的HTML来抓取像AngularJS和React这般的JavaScript框架。

Inlinks - 链接到URI的所有页面。

Outlinks - URI链接到的所有页面。

锚文本 - 所有链接文本。从带有链接的图像中替换文本。

图像 - 拥有图像链接的所有URI和来自给定页面的所有图像。图像超过100kb,缺少替代文字,替代文字超过100个字符。

用户代理切换器 - 抓取Googlebot,Bingbot,Yahoo!Slurp,移动用户代理或您自己的自定义UA。

自定义HTTP标头 - 在请求中供给任何标头值,从Accept-Language到cookie。

自定义源代码搜索 - 在网站的源代码中找到您想要的任何内容!无论是谷歌分析代码,特定文本还是代码等。

自定义提取 - 运用XPath,CSS路径选取器或正则表达式从URL的HTML中删除任何数据。

Google Analytics集成 - 连接到Google AnalyticsAPI并在抓取过程中直接提取用户和转化数据。

Google Search Console集成 - 连接到Google Search Analytics API并针对网址收集展示次数,点击次数和平均排名数据。

外边链接度量标准 - 将Majestic,Ahrefs和Moz API中的外边链接指标拖入爬行以执行内容审核或配置文件链接。

XML站点地图生成 - 运用SEO蜘蛛创建XML站点地图和图像站点地图。

自定义robots.txt - 运用新的自定义robots.txt下载,编辑和测试网站的robots.txt。

渲染的屏幕截图 - 获取,查看和分析已爬网的渲染页面。

存储和查看HTML和呈现的HTML - 分析DOM的必要要求

AMP抓取和验证 - 运用官方集成的AMP Validator抓取AMP网址并对其进行验证。

XML站点地图分析 - 单独爬网XML站点地图或爬行的一部分,以查询丢失的,不可索引的和孤立的页面。

可视化 - 运用爬网和目录树强制导向图和树图分析网站的内部链接和URL结构。

结构化数据和验证 - 按照Schema.org规范和Google搜索功能提取和验证结构化数据。

举荐理由

Screaming Frog SEO Spider for Mac能够帮忙您从区别的网页上选取需要抓取的内容,软件拥有网页蜘蛛功能,您能够让蜘蛛在网页上持续的搜索需要的资源,能够设置搜索的一个重点网页位置,并设置自定义分析扩展页面的功能。





上一篇:玩大数据必定用得到的19款Java开源Web爬虫
下一篇:33款可用来抓数据的开源爬虫软件工具(举荐保藏)
回复

使用道具 举报

0

主题

1万

回帖

1

积分

新手上路

Rank: 1

积分
1
发表于 2024-9-8 07:21:05 | 显示全部楼层
太棒了、厉害、为你打call、点赞、非常精彩等。
回复

使用道具 举报

3051

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99109030
发表于 2024-10-3 06:00:44 | 显示全部楼层
楼主节操掉了,还不快捡起来!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 19:59 , Processed in 0.108473 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.