当前位置：首页 > news >正文

Python3，爬虫有多简单，一个库，一行代码，就OK，你确定不来试试？

news 来源：原创 2024/11/27 11:48:42

爬虫进阶库：Scrapeasy

1、引言
2、Scrapeasy
- 2.1 简介
- - 2.1.1 Scrap
  - 2.1.2 Scrapeasy
- 2.2 安装
- 2.3 代码示例
3、总结

1、引言

小屌丝：鱼哥，我最近在练习写爬虫，你有没有什么便捷的方式…
小鱼：比如呢？
小屌丝：比如，一句话就可以搞得定爬取整个网站。
小鱼：我不是写过挺多的爬虫案例嘛，你咋还问这个问题，
小屌丝：你写的哪些教程，像我这种比较懒散的人，不适用!
小鱼：我擦~ ~ 你这…
小屌丝：鱼哥，你就像这篇《只用1行代码就下载全网视频》，就一行代码，我保证妥妥的会。
小鱼：Let me 想一下。
在这里插入图片描述

2、Scrapeasy

按照小屌丝的想法，我想到了一个库：Scrapeasy
小屌丝：这是不是第三方库。
小鱼：必须的，python自带库，能有这么强大的功能吗？
在这里插入图片描述

2.1 简介

2.1.1 Scrap

关于Scrapeasy 大家可能了解的不多，
但是 Scrap 爬虫大佬肯定了解。
那什么是Scrap呢?

Scrapy

Scrapy是一个功能强大的网络爬虫类库，通过命令pip install scrapy进行安装，爬取的海量数据可以通过MongoDB进行存储。

我上一个架构图：

在这里插入图片描述
关于Scrap的其他功能，
可以移步 Scrap官网进行阅读，这里不做过多介绍。

2.1.2 Scrapeasy

我们再来了解 Scrapeasy。
Scrapeay 是Python的一个第三方库，主要功能：

可以抓取网页数据；
- 从单网页提取数据；
- 多网页提取数据；
可以从PDF和HTML表格中提取数据；

听着是很牛的样子，
接下来，我们就去代码中实践，看看到底有多牛。

2.2 安装

涉及到第三方库，肯定就需要安装
老规矩，pip 安装

pip install scrapeasy

其它安装方式，直接看这两篇:

《Python3，选择Python自动安装第三方库，从此跟pip说拜拜！！》
《Python3：我低调的只用一行代码，就导入Python所有库！》

2.3 代码示例

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2022-10-31
# @Author : Carl_DJ

'''
实现功能：
    通过scrapeasy 来实现爬取数据

'''

from scrapeasy import Website,Page

#创建网站对象

#这里我就以我博客的地址为例子
webs = Website("https://blog.csdn.net/wuyoudeyuer?type=blog")

#获取所有子链接
urls = webs.getSubpagesLinks()
#输出信息
print(f'打印所有链接信息:{urls}')


#查找图片

images = webs.getImages()

print(f'打印所有的图片信息：{images}')

#下载图片
webs.download('img','./data')

#下载pdf
webs.download('pdf','./data')


#获取链接
main_urls = webs.getLinks(intern=False,extern=False,domain=True)

#获取链接域
domain = webs.getLinks(intern=False,extern=True,domain=False)

# 下载其他类型的文件
cal_urls = webs.get("php")