java吧 关注:1,248,626贴子:12,731,037
  • 11回复贴,共1

来与各位讨论一个关于爬虫遇到的问题

只看楼主收藏回复

我们访问一个页面时很多数据都是在js执行完之后再添加的,用httpclient和jsoup怎么样才能获取到这个加载完之后的页面呢。 我用htmlunit可以获取到这个页面。但是用httpclient+jsoup并不能。各位有什么好的建议吗。
或者可以像firedug那样获取每次的js请求记录也行。这个数据包怎么来抓取呢。


1楼2014-12-27 15:46回复
    模拟执行js


    IP属地:湖北2楼2014-12-27 16:23
    收起回复
      抓网络请求


      IP属地:上海来自iPhone客户端3楼2014-12-27 16:36
      收起回复
        @夏搁浅123 问问这个大神


        IP属地:北京来自Android客户端4楼2014-12-27 20:22
        收起回复
          没天理


          IP属地:上海来自iPhone客户端5楼2014-12-28 01:33
          收起回复
            我完全不懂楼主说得什么,但感觉好高端的样子firedug


            IP属地:四川来自iPhone客户端7楼2014-12-28 05:59
            收起回复