目标网站反爬虫很严要怎么解决?

前言

在网站的采集过程中,每天都要面对网站的各种反爬虫技术,然而我们要想拿到数据,就需要针对性的制定很多方法来突破他们的反爬。例如,在采集数据过程中目标网站能识别出你的 UserAgent ,那你在采集的时候就需要添加很多的 UserAgent 来进行伪造,躲避它们的识别。有些网站能通过 cookie 来进行识别,所以 cookie 也是需要加上。它限制你的 ip 请求次数,那么你就需要限制你的 ip 速度或者换 ip 。更严的是会用验证码来识别你是人还是机器,那么你就需要模拟人的行为来进行突破。

  就以我现在采集的项目为例,有个项目是需要采集大众点评的数据,相信大家都知道这个网站很难采集的, ip 的请求次数限制的很严,但是我又需要很多的数据,如果是通过降低我爬虫的速度那肯定是不行的,这样的话数据不知道要猴年马月才能采集完。所以我只能通过不停的切换动态 ip 来应对。那我需要在很短的时间内采集大量的数据,不能把时间用在管理 ip 池,验证他们的可用性上,所以我需要可以在 java 中可以实现自动切 ip ,这样我才可以把时间用在数据的采集上。

在网上找了很多的代理,大多都是提供的 api 模式的,需要我自己管理 ip 池,我时间紧数据量又大,这个显然不适合。找到了几家提供动态转发模式的,也测试了几家,可能是因为这个网站的特殊性也可能是因为他们的代理不稳定效果都不是很理想。最近找了一家比较新的代理商叫亿牛云,也有提供动态转发模式,据他们客服说他们还是业务独享模式的,这个不知道真假,但是想着既然是业务独享那我采集的这个网站就是我一个人在使用他们的 ip 池。那感觉应该可以,所以就以他们家的测试为例。但是使用的时候需要先修改下程序,一开始觉得比较麻烦,不怎么愿意测试,但是想着找了那么多家都达不到要求,那就花点时间修改下吧,还好修改的不是很多,而且他们有提供接入文档。

  亿牛云接入文档范例

亿牛云官网有提供 java 的示例代码

JAVA

HttpClient3.1

import   org.apache.commons.httpclient.Credentials ; import   org.apache.commons.httpclient.HostConfiguration ; import   org.apache.commons.httpclient.HttpClient ; import   org.apache.commons.httpclient.HttpMethod ; import   org.apache.commons.httpclient.HttpStatus ; import   org.apache.commons.httpclient.UsernamePasswordCredentials ; import   org.apache.commons.httpclient.auth.AuthScope ; import   org.apache.commons.httpclient.methods.GetMethod ;

import   java.io.IOException ;

public   class   Main  {

     private   static   final  String PROXY_HOST = “t.16yun.cn” ;

     private   static   final   int  PROXY_PORT = 31111 ;

 

     public   static   void   main (String[] args) {

        HttpClient client = new  HttpClient();

        HttpMethod method = new  GetMethod( “https://httpbin.org/ip” );

 

        HostConfiguration config = client. getHostConfiguration ();

        config. setProxy (PROXY_HOST, PROXY_PORT);

 

        client. getParams (). setAuthenticationPreemptive ( true );

 

        String username = “16ABCCKJ” ;

        String password = “712323” ;

        Credentials credentials = new  UsernamePasswordCredentials(username, password);

        AuthScope authScope = new  AuthScope(PROXY_HOST, PROXY_PORT);

 

        client. getState (). setProxyCredentials (authScope, credentials);

 

         try  {

            client. executeMethod (method);

 

             if  (method. getStatusCode () == HttpStatus. SC_OK ) {

                String response = method. getResponseBodyAsString ();

                System. out . println ( “Response = ”  + response);

            }

        } catch  (IOException e) {

            e. printStackTrace ();

        } finally  {

            method. releaseConnection ();

        }

    }}

这个 demo 是直接复制使用的,里面的代理的配置部分是购买的代理信息里面提供的,对应的配置进去就可以运行。

 

注意事项

亿牛云的动态转发是按照每秒的请求量进行的,这个需要根据自己的数据量对应的进行购买使用。还有就是他们有提供标准和加强版,好像是 ip 池大小不一样,这个需要具体的向客服了解。根据自己的实际需求进行使用。

最后

程序这个东西都是一通百通的,亿牛云提供的代码示例是可以直接使用在我们的程序里面运行,那其他提供相同模式的代理平台的提供的示例应该也可以使用,但是建议大家还是自己编写程序进行测试,这样亲自实践的东西才会真正的掌握在自己的手上。

    原文作者:mmz_77
    原文地址: http://blog.itpub.net/31522063/viewspace-2637120/
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞