当前位置: 首页 > news >正文

wget爬虫方法

文章目录

    • 1. 使用wget下载父目录下的整个子目录
    • 2. 使用wget下载一个目录下的所有文件
    • 3. 使用wget下载整个网站或特定目录
    • 4. 常见参数

1. 使用wget下载父目录下的整个子目录

wget -r --level=0 -E --ignore-length -x -k -p -erobots=off -np -N https://youtube.com(网站URL)

这条命令会下载远程服务器的整个文件夹到当前文件目录下。

2. 使用wget下载一个目录下的所有文件

wget -r -np -nH -R index.html https://youtube.com(网站URL)

-r:遍历所有子目录
-np:不到上一层子目录去
-nH:不要将文件保存到主机名文件夹
-R index.html:不下载index.html文件

3. 使用wget下载整个网站或特定目录

需要下载某个目录下面的所有文件:

wget -c -r -np -k -L -p https://youtube.com`(网站URL)

在下载时,有用到外部域名的图片或链接,如果需要同时下载就要用-H参数:

wget -np -nH -r --span-hosts https://youtube.com(网站URL)

4. 常见参数

-c:断点续传
-r:递归下载,下载指定网页某一目录下(包括子目录)的所有文件
-nd:递归下载是不创建一层一层的目录,把所有文件下载到当前目录
-np:递归下载时不搜索上层目录
-k:将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数
-L:递归时不进入其他主机
-p:下载网页所需的所有文件
-A:指定要下载的文件样式列表,多个样式用逗号分隔
-i:后面跟一个文件,文件内指明要下载的URL

相关文章:

  • 零基础学做网站/seo网站优化培训要多少钱
  • 做速卖通要关注的几个网站/统计工具
  • 酒店网站建设策划方案/网络营销网站
  • Mysql之增强查询
  • Rockchip开发系列 - 9.watchdog看门狗开发
  • DRG简介
  • C/C++之(五)洛谷刷题基础题 --- 新年好
  • 【异常】记一次因修复漏洞扫描导致SpringSecurity出现的循环依赖问题
  • 使用SpringBoot创建web项目,并使用外部Tomcat
  • 【地铁上的Redis与C#】数据类型(七)--List类型
  • java 探花交友项目实战 day3 完善个人信息 阿里云OSS文件存储 百度人脸识别
  • 【代码随想录】动态规划:关于01背包问题,你该了解这些!(滚动数组)
  • 如何有效的增加 shopee 的流量?
  • springMVC讲解(上)
  • 最大子数组和 最长递增子序列 最长公共子序列 编辑距离之复习dp