Python Selenium简介|模拟浏览器操作,解决登陆加密,异步加载,JS内容混淆

发表时间:2019-12-12

1_hdbXQfve5Yfuo0qEnS8K9Q.png

Selenium有什么用

Selenium可以驱动浏览器抓取数据。诸如Chrome,Firefox,IE等,较为真实的模拟人自动去点击网站的各个按钮,翻页,填写表单等。

它是多语言的,不只是Python,还支持Java,C#,Ruby等等。



Selenium网络爬虫

写爬虫繁琐的3个地方:

  1. 登陆
  2. 异步加载,
  3. JS内容混淆。

Selenium直接运行在浏览器上,自动根据你的程序设定操作浏览器,它能自动把账号密码填入到登陆框里,自动点击登陆按钮,完成登陆,无需研究登陆加密过程。

有些网站,当你的鼠标向下拖动时,下面的内容才会加载,你可以让Selenium模拟鼠标向下拖动,让它加载内容,不用再去分析Ajax。

有些网站的html源代码文字内容可能是一大串乱码,在浏览器里能正确显示,但抓出来的html是乱码,这就是网站通过JS把内容混淆了,如果你有了Selenium不用愁这个问题。

JS内容混淆



Selenium缺点

主要是慢,加载的时候慢,打开页面时也慢,等它把页面资源加载完了,要好几秒。但这也带来了一个好处,就是这样是完全模拟人的行为,所以对方网站不易发现你是爬虫。

另一个缺点就是不太稳定,长时间运行会异常退出,所以要处理好容错。

文章来源互联网,尊重作者原创,如有侵权,请联系管理员删除。邮箱:417803890@qq.com / QQ:417803890


Python Free

邮箱:417803890@qq.com
QQ:417803890

皖ICP备19001818号
© 2019 copyright www.pythonf.cn - All rights reserved

微信扫一扫关注公众号:

联系方式

Python Free