scrapy吧
关注: 365 贴子: 558

  • 目录:
  • 个人贴吧
  • 0
    各位老哥,为什么我的scrapy在windows里安好了之后pycharm里面这里还会报错
    NTR小子 11-3
  • 2
  • 1
    由于某个网站用的动态加载需要不停滚轮才能获取所有我想要的urls,所以我索性把所有urls的关键信息直接人工整理到了某个excel表格里面。问题就是如何让scrapy从这个excel表格里面获取url信息并拼接成我想要的url进行访问呢?求大神
    偷着笑 11-9
  • 0
    不过是一个下载图片的小程序,我作为一个新手实在是无能为力。。请大佬帮吗 import scrapy from scrapy import Request from avdownloads.items import (AvdownloadsItem) class AvSpider(scrapy.Spider): name = "av" allowed_domains = ["bejav.net"] start_urls = ["https://bejav.net"] def parse(self, response): for titles in response.xpath('//*[@id="main"]/div/div[1]/div[2]'): img_urls = titles.xpath('./div/ div[1]/a/img/@src').extract() for img_url in img_urls: yield Request(url=img_url, callback=self.download_pic) def
  • 4
    今早用scrapy爬取东西,在将数据写入my sql的时候,报了错,大家帮忙看看什么原因: __init__() takes 1 positional argument but 6 positional arguments (and 1 keyword-only argument) were given
  • 0
    网上各种版本,安照教程做了不成功 哪位大佬给个项目看看
  • 4
    import scrapy class FirstSpider(scrapy.Spider): name = 'first' # allowed_domains = ['careers.tencent.com'] start_urls = ['https://careers.tencent.com/search.html?pcid=40001'] def parse(self, response): r = response.xpath('//div[@class="correlation-degree"]/div').extract() print(r)
  • 2
    高级Python web逆向工程师师测试题 (请本文件发送到: SpiderTestQuestion@163.com 并附带简历) 1、 用yield写一个斐波那契数列的生成器函数。 2、 放一段scrapy项目parse函数的代码(解析列表页,使用分组提取,解析字段)。 3、 遇到过哪些反爬策略,如果突破? 4、 scrapy各个模块启动顺序(Spider, Middleware, Pipeline的加载、实例化、Open、Close的顺序)。 5、 使用过哪些抓包工具,各有什么优点。 6、 有没有自己博客,贴一下网址。 7、 字体加密反爬机制及分类。 8、 遇到
    鸢公子 10-15
  • 1
    root@ubuntu:~# scrapy startproject ZhipinSpider Traceback (most recent call last): File "/data/tools/Python3.9/bin/scrapy", line 5, in <module> from scrapy.cmdline import execute File "/data/tools/Python3.9/lib/python3.9/site-packages/scrapy/__init__.py", line 12, in <module> from scrapy.spiders import Spider File "/data/tools/Python3.9/lib/python3.9/site-packages/scrapy/spiders/__init__.py", line 116, in <module> from scrapy.spiders.crawl import CrawlSpider, Rule File "/data/tools/Python3.9/lib/python3.9/site-packages/scrapy/spiders/crawl.p
  • 1
    我想用css类选择器爬一个标签,用response.css(".someClass")爬不到内容,用xpath选择器response.xpath("//*[@class='someClass']")就爬到了这个标签,哪位大佬见过类似的问题,是怎么回事?
  • 1
    *** 已写入如下代码 进 scrapy settings ***** import os import sys import django sys.path.append(os.path.dirname(os.path.abspath('.'))) os.environ['DJANGO_SETTINGS_MODULE'] = 'index00.settings' # index00 为django项目名 django.setup() 但运行爬虫后,仍出现错误 : ModuleNotFoundError: No module named 'index00' 求解
  • 0
    终风且曀,不日有曀。寤言不寐,愿言则嚏。
  • 0
    关于scrapy使用xpath的问题。 这几天写了个爬京东商品的程序,事先用txt保存好了一些待搜索项用readlines读取搜索。 在程序运行过程中用xpath搜同一个位置的同个标签里的值(商品页数)有的时候会返回空值,而且每一轮循环返回空值的搜索项并不是同一个。(如某个商品第一次页数为空,第二次又有值) 一开始以为是response的问题,再返回空值的时候就print了response的body 但是打印结果是正常界面,能在里面找到xpath路径的值而且核对路径没有出错(//*[
  • 0
    有没有大神指导一下,这个提交post请求后,我去这个的value啊
  • 3
    为什么什么也没爬到爬虫就关闭了呢,有没有热心的朋友可以帮忙看一下,谢谢了
  • 3
    如图,已经安装成功了,初始化项目也没有问题,但是会报这个饮用失败的错误。命令行下 同样报错。 如图 弄了两个个小时,看了各种方案都没解决,希望各位提供解决思路,如果解决,红包奉上
  • 0
    学习scrapy可以加我的公主号,每周不定期更新python和scrapy小知识,从零开始没有基础也可以学。 公众号名称:凡大哥随笔
    Fish武器 5-27
  • 7
    今天学到爬虫框架,用anaconda安装scrapy时发现一直报名冲突,最新的scrapy是1.8版本,不冲突的只能是1.5的,因为想用新点的框架,conda重新创建一个环境后,选择1.8版本,新环境里居然还是冲突,想问问大家怎么解决的, 下面是冲突的代码,我粘贴到txt里
  • 0
    有没有大佬会爬取卖花网站的文字和内容,以及本地存储和mysql存储,求代码,呜呜😭
  • 4
    本人刚学习scrapy爬虫,准备爬取企查查企业信息 链接都获取到了,但是访问却报405 日志如下: 我在请求时更改了method还是不行,懵逼状态 yield SplashRequest(self.start_urls[0], args={'images': 0, 'timeout': 3}, meta={"cookiejar":"chrome"}, method="get") 希望大神指导一下,感谢!!!
  • 3
    初学scrapy,想爬取某论坛所有用户的回帖数据,结果各种受挫。。。 第一个parse函数用了上图所示的循环进行把当页每个帖子的url爬下来传递给下一个parse_url函数进行处理 第二个parse_url函数用了上图所示进行做每个帖子翻页的处理,并把下一页的url提交给parse_url进行回调,这里判断回掉的依据是因为每页的回帖上限是20,我就设置了当回帖数刚好20的时候就翻页,但是也有可能最后一页刚好20个回帖,这个时候我要怎么判断终止呢?(parse_url函数第一
  • 1
    scrapy+xpath如何实现爬取网页的时候点击进入词条查看详情?
  • 0
    反扒 post 浏览器可获取数据 scrapy数据为空 目标地址:http://www.ccgp-gansu.gov.cn/web/article/128/0/index.htm 此网站为post提交,返回html文本,详细的可以看我的代码 想爬取的内容:列表中的项目 问题:scrapy获取的body中没有列表的数据 ul中没有li 曾尝试解决,用cookiejar:True,还是没有数据 希望有能力的小伙伴,能给予一点提示,不胜感激 spider源文件 ``` # -*- coding: utf-8 -*- import re import scrapy import scrapy_splash from demo.items import DemoItem from datetime import datetime class GgzyfwSpider(scrapy.Spider)
  • 0
    有毒吧?不让提问题吗?
  • 0
    不就是放个源文件吗?怎么了?
  • 0
    python scrapy 怎么判断是否需要输入验证码
  • 0
    scrapy如何获取跟浏览器一样的临时cookie? 比如lv都官网,他的单品页面数据需要首先获取临时cookie才能访问到数据。但是scrapy和requests获取到的cookie跟浏览器的不一样,访问会被拒绝。有没有大神知道他们cookie之间的差别,怎么解决
  • 0
    啊啊啊啊为哈呀我把【@...】删了结果就能出来 为什么呢
  • 5
    求大神指点下哈 感激不尽!!!
    ssf170 2-17
  • 0
    def parse(self, response li=response.xpath("/html/body/div[3]/div/div[2]/div[1]/div[2]/ul/li[3]/div[2]/div[1]/text()").extract_first() print(li) /html/body/div[3]/div/div[2]/div[1]/div[2]/ul/li[3]/div[2]/div[1]/a xpath路径是复制的可是为什么print打出来是none呢 真小白求帮助
  • 0
    请问一下,scrapy,怎么让它一直执行。不关闭呢? start_urls有很多网址,想结束后,重新自动爬
    Lucas 2-14
  • 5
    刚开始学这个框架,按照网上这样说的,获取不到json格式的...求DALAO解决
  • 0
    scrapy css如何选取标签内容为"下一页"的标签
  • 0
    关于vscode调试scrapy的问题,我已经用命令行建好了项目,也写了一点代码,然后用命令行是可以运行的,但是用vscode就提示,Unknown command:crawl怎么搞啊
    灯火灰凰 12-18
  • 0
    有人做过ntlm吗? 给个样子 也好让我这样初学者学习一下。
    willtools 11-4
  • 0
    http://tieba.baidu.com/p/6318324774?share=9105&fr=share&
    二十而慄 10-31
  • 3
    这两本书用的Python几啊,有看过的大佬知道么
    myShir 10-27
  • 2
    这是我想爬取的网页的源代码,我想知道xpath如何取到这些p标签下的所有的文本

  • 发贴红色标题
  • 显示红名
  • 签到六倍经验

赠送补签卡1张,获得[经验书购买权]

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!

本吧信息 查看详情>>

会员: 会员

目录: 个人贴吧