爬虫基础知识
一、Scrapy
1、cookie设置
目前cookie的设置不支持在headers进行设置, 需要通过以下三种方式进行设置:
第一种:setting文件中设置cookie
- 当
COOKIES_ENABLED
是注释的时候,scrapy默认没有开启cookie。 - 当
COOKIES_ENABLED
没有注释设置为False的时候,scrapy默认使用了settings里面的cookie。 - 当
COOKIES_ENABLED
设置为True的时候,scrapy就会把settings的cookie关掉,使用自定义cookie。
注意:
- 当使用settings的cookie的时候,又把
COOKIES_ENABLED
设置为True,scrapy就会把settings的cookie关闭,而且也没使用自定义的cookie,会导致整个请求没有cookie,导致获取数据失败。- 如果使用自定义cookie就把
COOKIES_ENABLED
设置为True- 如果使用settings的cookie就把
COOKIES_ENABLED
设置为False
第二种:middlewares中设置cookie
在middlewares中的downloadermiddleware中的process_request中配置cookie,配置如下:
request.cookies=
{'Hm_lvt_a448cb27ae2acb9cdb5f92e1f0b454f3': '1665643660',
' _ga': 'GA1.1.755852642.1665643660'
}
注意:cookie内容要以键值对的形式存在
第三种:在spider爬虫主文件中,重写start_request方法,在scrapy的Request函数的参数中传递cookies
重载start_requests方法
def start_requests(self):
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) Gecko/20100101 Firefox/44.0"
}
# 指定cookies
cookies =
{
'Hm_lvt_a448cb27ae2acb9cdb5f92e1f0b454f3': '1665643660',
' _ga': 'GA1.1.755852642.1665643660'
}
2、Get请求带参数
yield scrapy.FormRequest(
url=url,
method='GET',
formdata=params,
callback=self.parse_result
)
参考资料
https://www.jianshu.com/p/de3e0ed0c26b