各位做爬虫的对selenium应该都很熟悉了,我们经常会拿selenium进行自动登录来搭建cookie池,对于不想自己网站被爬的站主/开发人员来说,防止自动化脚本操作网站自然是反爬必须要做的工作。那么,他们究竟有哪些手段来检测用户是否是selenium呢?今天就来总结一下常见的识别selenium的方法以及各种解决之道。
最广为人知的识别是否是selenium的方法就是window.navigator.webdriver,当浏览器被打开后,js就会给当前窗口一个window属性,里面存放着用户的各种”信息”。话不多说直接上图
正常用户访问时的webdriver为undefined
selenium访问时为true
明白了这个属性,我们来一段简单的js来反爬
1 | <script> |
现在把这段代码保存到HTML中分别正常打开和selenium打开
selenium打开
正常打开
其实,不只是webdriver,selenium打开浏览器后,还会有这些特征码:
1 | webdriver |
只要识别到这些,那么该用户就是selenium无误了,目前针对selenium的反爬,都是从这些特征码下手的,那么该怎么反反爬呢?
- 使用火狐浏览器
大家先别急着笑,很多时候selenium+谷歌打不开目标网站,都可以用火狐试试。因为selenium只是一个控制浏览器的工具,而chromedriver和geckodriver都不是selenium官方发布的(鬼知道谁发布的),因此在控制浏览器方面会有不同的差异,具体原理不再赘述,总之很多网站不能用selenium+chrome就可以试试firefox。
(理论上IE也可能会达到相应效果,但IE内核实在太烂了,selenium+IE=龟速爬虫)
\2. 给webdriver的options增加参数
谷歌浏览器的设置中有一个参数名为excludeSwitches,它的值是一个数组,向里面添加chrome的命令就可以在selenium打开chrome后自动执行数组内的指令,我们向里面添加一个enable-automation
1 | from selenium import webdriver |
此时运行这段代码,发现可以拿到正确的信息
右上角会跳出提示,不要管它,更不要点停用
如果你觉得右上角的提示太碍眼,可以参考这篇教程禁用此提示
彻底禁用Chrome的“请停用以开发者模式运行的扩展程序”提示www.jianshu.com
\3. 中间人代理mitmproxy
爬过app的朋友应该对这玩意儿不陌生,简单介绍一下吧。mitmproxy其实和fiddler/charles等抓包工具的原理有些类似,作为一个第三方,它会把自己伪装成你的浏览器向服务器发起请求,服务器返回的response会经由它传递给你的浏览器,你可以通过编写脚本来更改这些数据的传递,从而实现对服务器的“欺骗”和对客户端的“欺骗”。具体原理和使用见此
使用 mitmproxy + python 做拦截代理blog.wolfogre.com
下面提供一个防屏蔽selenium的简单demo
1 | # my_demo.py |
然后我们使用如下命令行启动脚本
1 | mitmdump.exe -S my_demo.py |
然后通过selenium就可以正常访问一些屏蔽selenium的网站了
\4. pyppeteer
先简单介绍一下puppeteer,这玩意儿是一个基于node.js的chrome官方框架,主要用于操作谷歌无头模式进行各种操作,pyppeteer则是puppeteer的python版本。
它的作用和selenium是类似的,通过脚本操作无头谷歌,但是它并不会有selenium那么多的特征字符串,可以做到完全把“自己”当作真人操作。当然,它还是有缺点的.虽然puppeteer一直在更新,但是pyppeteer已经停止更新将近一年了,所以无法保证它以后是否可用。同样因为它是基于谷歌无头的,因此它只能用于谷歌无头,不想selenium一样,编写完脚本只需改变少量代码,便可以在多种浏览器中运行。下面是pyppeteer的官方文档:
Pyppeteer’s documentationmiyakogi.github.io
下面是一个简单的demo
1 | import asyncio |
如果你电脑中没有chromium,执行这段代码后会自动帮你安装,然后再运行这段代码,但是非常慢,所以建议自己网上下载chromium后再执行脚本
\5. 编译后的chromedriver
鬼知道为什么又是chrome……最近发现的一个比较有趣的chromedriver,与一般chromedriver不同的是它经过了一些底层的修改,可以直接使用它来登录一些对selenium有检测的网站(比如某宝),有兴趣的可以私聊我获取
目前个人已知的就这几种解决方法,欢迎补充更新~
https://zhuanlan.zhihu.com/p/85663187
这里提供了防淘宝检测的简单demo视频版及源码(已失效),编译后的chromedriver,大家可以参考一下,编译后的chromedriver的网盘链接也在文末,大家自行获取~
转载:看起来是不是很凶