当前位置: 首页 > news >正文

WebMagic

1.介绍

WebMagic是一款简单灵活的爬虫框架。基于它你可以很容易的编写一个爬虫。

WebMagic由四个组件(Downloader、PageProcessor、Scheduler、Pipeline)构成,核心代码非常简单,主要是将这些组件结合并完成多线程的任务。这意味着,在WebMagic中,你基本上可以对爬虫的功能做任何定制。

Introduction · WebMagic Documents

2.依赖

注意:0.74以前的版本存在ssl并不完全的问题, 新版没得这个问题

github上面有方法https://github.com/code4craft/webmagic/issues/1022

  <!--WebMagic-->
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.4</version>
        </dependency>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.7.4</version>
        </dependency>

 3.基础案列

在学习WebMagic,你要jsoup或者其他爬虫框架有一定的了解,不明白我css写的什么意思,可以去看一下我jsoup的选择器

 

//页面处理类
public class JobProcessor implements PageProcessor {
    //解析页面
    @Override
    public void process(Page page) {
        //解析放回的数据放到page 并且把解析的结果放到 resultems中
        page.putField("div",page.getHtml().css("div.search-m a").all());


    }

    private Site site =Site.me();
    @Override
    public Site getSite() {
        return site;
    }
    //主函数执行爬虫
    public static void main(String[] args) {
        Spider.create(new JobProcessor()).addUrl("https://**.jd.com/").run();
    }
}

4.抽取技术 

webMagic一共有三种 css选择器 、Xpath 和正则表达式,css这里不叙说 

Xpath 

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。

XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

因此,对 XPath 的理解是很多高级 XML 应用的基础。

 XPath 教程


import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

//页面处理类
public class JobProcessor implements PageProcessor {
    //解析页面
    @Override
    public void process(Page page) {
        //解析放回的数据放到page 并且把解析的结果放到 resultems中  css解析  
        page.putField("div",page.getHtml().css("div.search-m a").all());
        //xpath 解析
        page.putField("div2", page.getHtml().xpath("//div[@class=search-m]"));




    }

    private Site site = Site.me();

    @Override
    public Site getSite() {
        return site;
    }

    //主函数执行爬虫
    public static void main(String[] args) {
        Spider.create(new JobProcessor()).addUrl("https://**.jd.com/").run();
    }
}

正则表达式 

Java 正则表达式 | 菜鸟教程


//页面处理类
public class JobProcessor implements PageProcessor {
    //解析页面
    @Override
    public void process(Page page) {
        //解析放回的数据放到page 并且把解析的结果放到 resultems中  css解析
        page.putField("div",page.getHtml().css("div.search-m a").all());
        //xpath 解析
        page.putField("div2", page.getHtml().xpath("//div[@class=search-m]").all());
        //正则表达式
        page.putField("div3",page.getHtml().regex(".*电脑.*").all());




    }

 

获取连接

我们在浏览一个网站,往往需要看的是点击后的信息,这里就需要引入获取连接的方法

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

//页面处理类
public class JobProcessor implements PageProcessor {
    //解析页面
    @Override
    public void process(Page page) {


        page.addTargetRequests(page.getHtml().css("div#logo").links().all());
        page.putField("url",page.getHtml().all());




    }

    private Site site = Site.me();

    @Override
    public Site getSite() {
        return site;
    }

    //主函数执行爬虫
    public static void main(String[] args) {
        Spider.create(new JobProcessor()).addUrl("https://**.jd.com/").run();
    }
}

文件输出

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;

//页面处理类
public class JobProcessor implements PageProcessor {
    //解析页面
    @Override
    public void process(Page page) {


        page.addTargetRequests(page.getHtml().css("div#logo").links().all());
        page.putField("url",page.getHtml().all());




    }

    private Site site = Site.me();

    @Override
    public Site getSite() {
        return site;
    }

    //主函数执行爬虫
    public static void main(String[] args) {
        Spider.create(new JobProcessor()).addUrl("https://**.jd.com/")
                .addPipeline(new FilePipeline("E:\\java\\jsoup"))
                .run();
    }
}

改目录下已经有文件了

 

 爬虫的其他设置

Spider是爬虫启动的入口。在启动爬虫之前,我们需要使用一个PageProcessor创建一个Spider对象,然后使用run()进行启动。同时Spider的其他组件(Downloader、Scheduler、Pipeline)都可以通过set方法来进行设置。

Site

对站点本身的一些配置信息,例如编码、HTTP头、超时时间、重试策略等、代理等,都可以通过设置Site对象来进行配置

5.基于注解的开发 

WebMagic支持使用独有的注解风格编写一个爬虫,引入webmagic-extension包即可使用此功能。

在注解模式下,使用一个简单对象加上注解,可以用极少的代码量就完成一个爬虫的编写。对于简单的爬虫,这样写既简单又容易理解,并且管理起来也很方便。这也是WebMagic的一大特色,我戏称它为OEM(Object/Extraction Mapping)。

注解模式的开发方式是这样的:

  1. 首先定义你需要抽取的数据,并编写类。
  2. 在类上写明@TargetUrl注解,定义对哪些URL进行下载和抽取。
  3. 在类的字段上加上@ExtractBy注解,定义这个字段使用什么方式进行抽取。
  4. 定义结果的存储方式。
@TargetUrl("https://github.com/\\w+/\\w+") //初始的url
@HelpUrl("https://github.com/\\w+")  //第二次的网址
public class GithubRepo {

    @ExtractBy(value = "//h1[@class='entry-title public']/strong/a/text()", notNull = true) 
    private String name;

    @ExtractByUrl("https://github\\.com/(\\w+)/.*")
    private String author;

    @ExtractBy("//div[@id='readme']/tidyText()")
    private String readme;

    public static void main(String[] args) {
        OOSpider.create(Site.me().setSleepTime(1000)
                , new ConsolePageModelPipeline(), GithubRepo.class)
                .addUrl("https://github.com/code4craft").thread(5).run();
    }
}

 我这里只是简单的说了一下,想要详细的操作可以看一下官方文档,写的真的很详细

相关文章:

  • 鞋设计师之家官网/百度地图优化
  • 深圳做网站公司地点/百度问答兼职怎么做
  • 超级简历网站/怎样把广告放到百度
  • 五指山网站建设/百度秒收录软件工具
  • 陕西咸阳做网站的公司/收录优美图片找不到了
  • 做问卷的网站有哪些/前端培训
  • 必须要学习的源码--ConcurrentHashMap
  • 常见的数据通信方式有哪些?
  • 刷题记录:牛客NC16544简单环
  • 初学python+QT做GUI(零基础)
  • AlertDialog6种使用方法
  • Java+MySQL基于SSM的二手玩具交换网站
  • 哈啰出行高质量故障复盘法:“3+5+3”(附模板)
  • 为什么企业传统网络访问海外应用程序不稳定、速度慢?怎么解决?
  • 【OpenFeign】【源码+图解】【四】FeignClient实例工具类ReflectiveFeign
  • springboot 定时任务基础模板
  • zabbix添加一个ubuntu受监控主机
  • Android8.1下拉状态栏菜单和系统设置添加触摸开关功能