当前位置: 首页 > news >正文

Python学习笔记-网络爬虫基础

一、网络爬虫概述

    • 网络爬虫概述

网络爬虫又称网络蜘蛛、网络机器人,在某社区中经常被称为网页追逐者。

网络爬虫可以按照指定规则自动浏览或抓取网络中的信息,python可以很轻松的编写爬虫程序或脚本。

网络爬虫基本工作流程:

    • 网络爬虫的常用技术

2.1 Python的网络请求

Python实现Http网络请求的三种常见方式:rullib、urllib3和requests模块。

2.1.1 urllib模块

urllib是python的自带模块,提供urlopen()方法,通过指定URL发送网络请求获取数据。

rullib模块的子模块

模块名称

描述

urllib.request

定义打开url(主要为http)的方法和类,例如:身份验证,重定向,cookie等

urllib.error

定义异常类,基本的异常为URLError

urllib.parse

分为两大类:URL解析和URL引用

urllib.robotparser

用于解析robots.txt文件

通过urllib.request模块发送请求:

相关文章:

  • 山东网站制作推荐/职业培训机构哪家最好
  • 做社交网站多少钱/长沙seo推广
  • 如何将公司网站做的更好看/武汉百度推广公司
  • 做二手手机的网站有哪些/谷歌广告优化
  • 嘉兴制作网站/营销策略分析
  • 做品牌设计网站/百度信息流优化
  • 如何快速删除CSV、Excel、Markdown表格的重复行?
  • CRMEB开源商城部署在腾讯云2
  • 第三章 熟悉的气息
  • 阿里云服务器安装图形界面
  • 接口幂等性设计
  • Rancher 2022 关键主题与新年展望
  • Servlet 之 Requests
  • Python matplotlib库绘制3D图
  • 列表元素的查找,插入和删除
  • 上午摆摊,下午写代码,35岁程序员的双面人生超爽!
  • 【强训】Day07
  • aloam学习笔记(四)