当前位置：首页 > news >正文

Python学习笔记-网络爬虫基础

news 来源：原创 2024/11/17 7:36:01

一、网络爬虫概述

网络爬虫又称网络蜘蛛、网络机器人，在某社区中经常被称为网页追逐者。

网络爬虫可以按照指定规则自动浏览或抓取网络中的信息，python可以很轻松的编写爬虫程序或脚本。

网络爬虫基本工作流程：

Python实现Http网络请求的三种常见方式：rullib、urllib3和requests模块。

urllib是python的自带模块，提供urlopen()方法，通过指定URL发送网络请求获取数据。

rullib模块的子模块

模块名称	描述
urllib.request	定义打开url（主要为http）的方法和类，例如：身份验证，重定向，cookie等
urllib.error	定义异常类，基本的异常为URLError
urllib.parse	分为两大类：URL解析和URL引用
urllib.robotparser	用于解析robots.txt文件