Python crawler学习笔记(处理反爬虫程序),应对

发表时间:2020-02-27

1.爬虫被网站识别的特征:

  • 爬取几次后需要进行验证
  • 响应时间、速度变慢了
  • 返回错误的状态码

2.规避反爬虫

  • 加入user-agent、cookie、referer等信息
  • 减缓爬虫速度,降低请求频率,设置下载等待时间
  • 使用 C hrome Headless模拟浏览器访问
  • 拒绝遵守Robot协议:ROBOTSTXT_OBEY = False
  • 减小并发请求数
  • 使用分布式爬虫
  • 使用代理或代理池

文章来源互联网,如有侵权,请联系管理员删除。邮箱:417803890@qq.com / QQ:417803890

微配音

Python Free

邮箱:417803890@qq.com
QQ:417803890

皖ICP备19001818号
© 2019 copyright www.pythonf.cn - All rights reserved

微信扫一扫关注公众号:

联系方式

Python Free