7.1 网页结构
网页结构 ,即网页内容的布局。创建网页结构,实质上便是对网页内容的布局进行规划。网页结构的创建是页面优化的要紧环节之一,会直接影响页面的用户体验及关联性。况且,还在必定程度上影响网站的整体结构及页面被收录的数量(请查看第 8 章)。
认识网页结构,一般从认识网页的构成元素起始。
有人说“互联网中有50%以上的流量是爬虫”,第1次听这句话亦许你会觉得这个说法实在太夸张了,怎么可能爬虫比用户还多呢?毕竟会爬虫的相对与不会爬虫的简直少之又少。
然则非常多爬虫工程师或反爬虫工程师讲了实话:50%?你在逗我?就这么少的量?而后他举出例子:
某个机构的某个页面的某个接口,每分钟拜访量是1.2万上下,这儿面有都少正常用户呢?50%?60%?正确答案是:500个以下,那咱们来算算爬虫占比:(12000-500)/12000=95.8% 没错95.8%,这是一位反爬虫工程师给出的爬虫占比!!!那这么多的爬虫它们在互联网上做什么呢?答案当然是:孜孜不倦的爬取爬取网页信息。今天咱们就来讲讲构成互联网的要紧部分之一:HTML网页。
1、起源与发展
前面咱们介绍HTTP的时候,给大众讲过是万维网的发明者,互联网之父计算机专家蒂姆·伯纳斯·李,在他最初的构想构成中就有:提出运用HTML超文本标记语言(Hypertext Markup Language)做为创建网页的标准。
大众千万记住HTML并不是一种编程语言,而是一种标记语言 (markup language),由W3C(万维网联盟)制定标准,而后由个大浏览器厂商自己去实现支持! 下面咱们来瞧瞧HTML标准的发展历史:
2、构成部分
咱们常说的网页便是HTML页面,而形成HTML页面的东西有非常多,如:html标签、数据、css样式、js等,那咱们就简单的讲讲以下这几个构成部分。
1.HTML标签
HTML标签是形成HTML页面的重点构成部分,咱们来看一个HTML实质例子: <!--注册页--><html> <!--网页头--><head> <meta
|