爬虫基础篇——之理论篇

爬虫

发布日期: 2021-04-25

更新日期: 2021-05-16

文章字数: 733

阅读时长: 2 分

阅读次数:

1.网络爬虫又称网络蜘蛛、网络机器人是一种按照一定的规则，自动抓取万维网信息的程序或脚本

2.搜索引擎就是通用网络爬虫，如：google、百度（通用爬虫）通用爬虫具有一定的局限性
3.网络爬虫类型：通用网络爬虫、聚集网络爬虫、分布式网络爬
4.爬虫主要步骤：

通用爬虫需要遵守一定规则（nofollow 协议或 Robots 协议），全称是网络爬虫排除标准
通用爬虫只能抓取 HTML、PDF、word、wps、XLP、PPT、TXflash、音频、脚本程序
HTTP 协议（Hyper Text Transfer Protocl，超文本传输协议）是面的规则
HTTPS 协议（Hypertext Transfer Protocl oVer Secure Socket Laye层（安全套接层）主要用于安全传输协议，在网络传输层进行加密

11.客户端 HTTP 请求：

12.HTTP 请求主要分为 get 和 postGet 请求：

Get请求：是从服务器上获取页面信息
Post 请求：是向服务器提交数据并获取页面信息
Get 请求参数都显示在 URL 上，服务器根据请求 URL 的参数产生响的一部分
Post 请求参数在请求体中，消息长度没有限制而且隐式方式进行在 URL 中，而是在请求体中因此 Get 请求方式不安全，而 Post 请求方式相对来说比较安全

13.请求报头

14.响应报头

Cache-Control:must-revalidate,no-cache,Private
Connection:Keep-alive
Content-Encoding:gzip
Content-Type:text/html;charset = utf-8
Date:sun,21 sep 2017.01:06.21 GMT
服务器端发送资源时的时间，不同时区在相互请求资源时间混乱，http 协议中发送时间都
是 GMT
Server : Tengine/1.4.6
服务器和相对应的版本，只是告诉浏览器服务器的信息
Transfer-Encoding:chunked