爬虫基础篇——之理论篇


1.网络爬虫又称网络蜘蛛、网络机器人是一种按照一定的规则,自动抓取万维网信息的程序或脚本

2.搜索引擎就是通用网络爬虫,如:google、百度(通用爬虫) 通用爬虫具有一定的局限性
3.网络爬虫类型:通用网络爬虫聚集网络爬虫分布式网络爬
4.爬虫主要步骤:

  • 1.对爬取目标的 url 定义

  • 2.对网页数据分析与协议获取对应 HTML

  • 3.对页面进行提取 HTML 页面有价值的数据
    在这里插入图片描述

  1. 通用爬虫需要遵守一定规则(nofollow 协议或 Robots 协议),全称是网络爬虫排除标准
  2. 通用爬虫只能抓取 HTML、PDF、word、wps、XLP、PPT、TXflash、音频、脚本程序
  3. HTTP 协议(Hyper Text Transfer Protocl,超文本传输协议)是面的规则
  4. HTTPS 协议(Hypertext Transfer Protocl oVer Secure Socket Laye层(安全套接层)主要用于安全传输协议,在网络传输层进行加密
  • HTTP 的端口号:80
  • HTTPS 的端口号:443
  1. HTTP 请求与响应:浏览器发送请求等待服务器响应并返回数流程图 浏览器 发送请求数据 响应并返回数据
    在这里插入图片描述
  2. 统一资源定位符 URL:如 http://www.baidu.com:8080/a
    在这里插入图片描述

11.客户端 HTTP 请求:

  • 浏览器发送一个 HTTP 请求到服务器
  • 请求格式: 请求行、请求头、空行.请求数据
  • GET: http:// www.baidu.com/HTTP/1.1
  • Host::www.baidu.com
  • User-Aget: Mozilla/chrome
  • Cookie:

12.HTTP 请求主要分为 get 和 postGet 请求:

  • Get请求:是从服务器上获取页面信息
  • Post 请求:是向服务器提交数据并获取页面信息
  • Get 请求参数都显示在 URL 上,服务器根据请求 URL 的参数产生响的一部分
  • Post 请求参数在请求体中,消息长度没有限制而且隐式方式进行在 URL 中,而是在请求体中因此 Get 请求方式不安全,而 Post 请求方式相对来说比较安全

13.请求报头

  • Host(主机和端口号)
  • UPgrade-lnsecure-Reuqusts(升级为 HTTPS 请求)
  • User-agent(浏览器名称)
  • Accept(传输文件类型)
  • Referer(页面跳转来源)
  • Accept-Encoding(文件编解码格式)
  • Accept-Language(语言类型)
  • Accept-charset(字符编码)
  • CookieContent-Type(Post 数据类型)
  • 服务端 HTTP 响应

14.响应报头

  • Cache-Control:must-revalidate,no-cache,Private
  • Connection:Keep-alive
  • Content-Encoding:gzip
  • Content-Type:text/html;charset = utf-8
  • Date:sun,21 sep 2017.01:06.21 GMT
    服务器端发送资源时的时间,不同时区在相互请求资源时间混乱,http 协议中发送时间都
    是 GMT
  • Server : Tengine/1.4.6
    服务器和相对应的版本,只是告诉浏览器服务器的信息
  • Transfer-Encoding:chunked
  1. 响应状态码:
  • 200:访问成功正常
  • 404:访问失败,没有找到请求信息
  • 500:服务器端出现错误,请求未完成

文章作者: Gera Tear
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Gera Tear !
评论
  目录