scrapy吧-百度贴吧

- 本吧吧主火热招募中，点击参加
0
scrapy为什么在pycharm里面报错了
NTR小子 2024-11
各位老哥，为什么我的scrapy在windows里安好了之后pycharm里面这里还会报错
NTR小子 11-3
2

Scrapy 使用LinkExtractor提取链接进行深度爬取
偷着笑
2023-11

git@gitee.com:Ac1998/myscrapy.git

偷着笑 2-6

1

[新人求助] 如何让scrapy从某个excel表格获取url清单进行爬取
的的大duce
2023-10

由于某个网站用的动态加载需要不停滚轮才能获取所有我想要的urls，所以我索性把所有urls的关键信息直接人工整理到了某个excel表格里面。问题就是如何让scrapy从这个excel表格里面获取url信息并拼接成我想要的url进行访问呢？求大神

偷着笑 11-9
0

AI也找不到错误的代码，很简单，但是又很复杂。
国宝级恶魔 2023-09

不过是一个下载图片的小程序，我作为一个新手实在是无能为力。。请大佬帮吗 import scrapy from scrapy import Request from avdownloads.items import (AvdownloadsItem) class AvSpider(scrapy.Spider): name = "av" allowed_domains = ["bejav.net"] start_urls = ["https://bejav.net"] def parse(self, response): for titles in response.xpath('//*[@id="main"]/div/div[1]/div[2]'): img_urls = titles.xpath('./div/ div[1]/a/img/@src').extract() for img_url in img_urls: yield Request(url=img_url, callback=self.download_pic) def

国宝级恶魔 9-18
1

怎么直接判断链接被scrapy自动去重没
抱走同志...
2023-09

贴吧包打听 9-12
4

今早用scrapy爬取东西，在将数据写入my sql的时候，
巨帅巨帅
2021-10

今早用scrapy爬取东西，在将数据写入my sql的时候，报了错，大家帮忙看看什么原因: __init__() takes 1 positional argument but 6 positional arguments (and 1 keyword-only argument) were given

高级ip顾问 7-21
0

最新的scrapyredis是怎么写的
专坑你de爹 2022-06

网上各种版本，安照教程做了不成功哪位大佬给个项目看看

专坑你de爹 6-23
1
有无大佬指点一下 xpath没有输出
阿鼠 2022-05
茗人堂灬... 6-9

2
有大佬知道我这运行为啥没有结果嘛，xpath都是直接复制下来的
贴吧用户_... 2022-04
车掠过後... 4-17
4

scrapy框架 response.xpath返回r为什么为空列表？
勿忘心安... 2021-08

import scrapy class FirstSpider(scrapy.Spider): name = 'first' # allowed_domains = ['careers.tencent.com'] start_urls = ['https://careers.tencent.com/search.html?pcid=40001'] def parse(self, response): r = response.xpath('//div[@class="correlation-degree"]/div').extract() print(r)

茗人堂灬... 12-26
0
OSError: could not get source code 打包怎么办
小小钟 2021-10
小小钟 10-26
2

高级Python web逆向工程师师测试题
鸢公子 2021-10

高级Python web逆向工程师师测试题 (请本文件发送到: SpiderTestQuestion@163.com 并附带简历) 1、用yield写一个斐波那契数列的生成器函数。 2、放一段scrapy项目parse函数的代码(解析列表页，使用分组提取，解析字段)。 3、遇到过哪些反爬策略，如果突破？ 4、 scrapy各个模块启动顺序(Spider, Middleware, Pipeline的加载、实例化、Open、Close的顺序)。 5、使用过哪些抓包工具，各有什么优点。 6、有没有自己博客，贴一下网址。 7、字体加密反爬机制及分类。 8、遇到

鸢公子 10-15
3
求助如何用css提取器取出不在标签内的文本
赭红橡皮
2020-04
比如我想取出后三个0
FuturePython10 10-3
1

scrapy运行报错，求大神
sonylyq 2020-12

root@ubuntu:~# scrapy startproject ZhipinSpider Traceback (most recent call last): File "/data/tools/Python3.9/bin/scrapy", line 5, in <module> from scrapy.cmdline import execute File "/data/tools/Python3.9/lib/python3.9/site-packages/scrapy/__init__.py", line 12, in <module> from scrapy.spiders import Spider File "/data/tools/Python3.9/lib/python3.9/site-packages/scrapy/spiders/__init__.py", line 116, in <module> from scrapy.spiders.crawl import CrawlSpider, Rule File "/data/tools/Python3.9/lib/python3.9/site-packages/scrapy/spiders/crawl.p

FuturePython10 10-3

6
scrapy框架爬取 http://pic.netbian.com/
希望之火 2020-02
共 8 张
FuturePython10 10-3
1

为什么css选择器莫名挂掉？
Miyuukki 2021-05

我想用css类选择器爬一个标签，用response.css(".someClass")爬不到内容，用xpath选择器response.xpath("//*[@class='someClass']")就爬到了这个标签，哪位大佬见过类似的问题，是怎么回事？

FuturePython10 10-3
1

【求助】scrapy与Django结合配置问题
萌新00
2019-09

*** 已写入如下代码进 scrapy settings ***** import os import sys import django sys.path.append(os.path.dirname(os.path.abspath('.'))) os.environ['DJANGO_SETTINGS_MODULE'] = 'index00.settings' # index00 为django项目名 django.setup() 但运行爬虫后，仍出现错误： ModuleNotFoundError: No module named 'index00' 求解

FuturePython10 10-3
0
终风且曀，不日有曀。寤言不寐，愿言则嚏。
北海的海 2021-08
终风且曀，不日有曀。寤言不寐，愿言则嚏。
北海的海 8-11
0
为什么获取不到文本，获取到的类似编号的东西？大神解答下
枫叶T泪痕
2020-09
枫叶T泪痕 9-14
0

关于scrapy使用xpath的问题。这几天写了个爬京东商品
泪翼哥哥
2020-08

关于scrapy使用xpath的问题。这几天写了个爬京东商品的程序，事先用txt保存好了一些待搜索项用readlines读取搜索。在程序运行过程中用xpath搜同一个位置的同个标签里的值（商品页数）有的时候会返回空值，而且每一轮循环返回空值的搜索项并不是同一个。（如某个商品第一次页数为空，第二次又有值）一开始以为是response的问题，再返回空值的时候就print了response的body 但是打印结果是正常界面，能在里面找到xpath路径的值而且核对路径没有出错（//*[

泪翼哥哥 8-5

0
有没有大神指导一下，这个提交post请求后，我去这个的val
ud4d93j73h26d2 2020-07
有没有大神指导一下，这个提交post请求后，我去这个的value啊
ud4d93j73h26d2 7-30
3
本人小白，看了网上的视频自学，怎么什么也没爬到就关闭了啊
Vicoo2 2020-05
为什么什么也没爬到爬虫就关闭了呢，有没有热心的朋友可以帮忙看一下，谢谢了
千星书屋 7-19
3
mac 系统 import scrapy 报错问题请教
码段子的... 2020-05
如图，已经安装成功了，初始化项目也没有问题，但是会报这个饮用失败的错误。命令行下同样报错。如图弄了两个个小时，看了各种方案都没解决，希望各位提供解决思路，如果解决，红包奉上
淡燃一夏V5 6-5
0

学习scrapy可以加我的公主号，每周不定期更新python和scrapy
Fish武器 2020-05

学习scrapy可以加我的公主号，每周不定期更新python和scrapy小知识，从零开始没有基础也可以学。公众号名称：凡大哥随笔

Fish武器 5-27
7
anaconda安装scrapy包冲突
公琉星追 2020-03
今天学到爬虫框架，用anaconda安装scrapy时发现一直报名冲突，最新的scrapy是1.8版本，不冲突的只能是1.5的，因为想用新点的框架，conda重新创建一个环境后，选择1.8版本，新环境里居然还是冲突，想问问大家怎么解决的，下面是冲突的代码，我粘贴到txt里
莆田鞋子p... 5-18
0

有没有大佬会爬取卖花网站的文字和内容，以及本地存储和mysq
莆田鞋子p... 2020-05

有没有大佬会爬取卖花网站的文字和内容，以及本地存储和mysql存储，求代码，呜呜😭

莆田鞋子p... 5-12

4

使用scrapy框架爬虫出现Crawled (405)响应被拒
孤影_柒 2019-06

本人刚学习scrapy爬虫，准备爬取企查查企业信息链接都获取到了，但是访问却报405 日志如下：我在请求时更改了method还是不行，懵逼状态 yield SplashRequest(self.start_urls[0], args={'images': 0, 'timeout': 3}, meta={"cookiejar":"chrome"}, method="get") 希望大神指导一下，感谢！！！

泰晤士的... 3-24
3
scrapy第二个回调函数循环终止问题外加一个xpath匹配？
xonlinex 2018-05
初学scrapy，想爬取某论坛所有用户的回帖数据，结果各种受挫。。。第一个parse函数用了上图所示的循环进行把当页每个帖子的url爬下来传递给下一个parse_url函数进行处理第二个parse_url函数用了上图所示进行做每个帖子翻页的处理，并把下一页的url提交给parse_url进行回调，这里判断回掉的依据是因为每页的回帖上限是20，我就设置了当回帖数刚好20的时候就翻页，但是也有可能最后一页刚好20个回帖，这个时候我要怎么判断终止呢？（parse_url函数第一
勤而行之 3-19
1

新手求助：如何实现爬取的时候点击进入词条查看详情？
别恰了嗷 2019-07

scrapy+xpath如何实现爬取网页的时候点击进入词条查看详情？

贴吧用户_... 3-17
0

反扒 post 浏览器可获取数据 scrapy数据为空
康敏赵敏 2020-03

反扒 post 浏览器可获取数据 scrapy数据为空目标地址:http://www.ccgp-gansu.gov.cn/web/article/128/0/index.htm 此网站为post提交,返回html文本,详细的可以看我的代码想爬取的内容:列表中的项目问题:scrapy获取的body中没有列表的数据 ul中没有li 曾尝试解决,用cookiejar:True,还是没有数据希望有能力的小伙伴,能给予一点提示,不胜感激 spider源文件 ``` # -*- coding: utf-8 -*- import re import scrapy import scrapy_splash from demo.items import DemoItem from datetime import datetime class GgzyfwSpider(scrapy.Spider)

康敏赵敏 3-13
0

sb,去csdn了拜拜
康敏赵敏 2020-03

康敏赵敏 3-13
0

灌水贴不删,专门删我提问的帖子是吗?????????????//***的
康敏赵敏 2020-03

康敏赵敏 3-13

0

有毒吧?不让提问题吗?
康敏赵敏 2020-03

有毒吧?不让提问题吗?

康敏赵敏 3-13
0

我发个问题,写了半天就被删???
康敏赵敏 2020-03

不就是放个源文件吗?怎么了?

康敏赵敏 3-13
0

python scrapy 怎么判断是否需要输入验证码
澤夜虹猫
2020-03

python scrapy 怎么判断是否需要输入验证码

澤夜虹猫 3-11
0

scrapy如何获取跟浏览器一样的临时cookie？
曲步陆菲
2020-02

scrapy如何获取跟浏览器一样的临时cookie？比如lv都官网，他的单品页面数据需要首先获取临时cookie才能访问到数据。但是scrapy和requests获取到的cookie跟浏览器的不一样，访问会被拒绝。有没有大神知道他们cookie之间的差别，怎么解决

曲步陆菲 2-27
0
response.xpath()出错
媳妇儿亚 2020-02
啊啊啊啊为哈呀我把【@...】删了结果就能出来为什么呢
媳妇儿亚 2-23
5
报错 ModuleNotFoundError: No module named 'scrapy.pipeline'
a275546265 2018-06
求大神指点下哈感激不尽！！！
ssf170 2-17

0
真小白求帮助
告诉居然
2020-02
def parse(self, response li=response.xpath("/html/body/div[3]/div/div[2]/div[1]/div[2]/ul/li[3]/div[2]/div[1]/text()").extract_first() print(li) /html/body/div[3]/div/div[2]/div[1]/div[2]/ul/li[3]/div[2]/div[1]/a xpath路径是复制的可是为什么print打出来是none呢真小白求帮助
告诉居然 2-14
0

请问一下，scrapy，怎么让它一直执行。不关闭呢? start_urls有很
Lucas 2020-02

请问一下，scrapy，怎么让它一直执行。不关闭呢? start_urls有很多网址，想结束后，重新自动爬

Lucas 2-14
5
如何用scrapy爬json数据.....
沧海果冻 2018-08
刚开始学这个框架，按照网上这样说的，获取不到json格式的...求DALAO解决
hacklong520 2-5
0

css 如何根据标签内容选取标签
李白hegongda 2020-02

scrapy css如何选取标签内容为"下一页"的标签

李白hegongda 2-4
0

关于vscode调试scrapy的问题，我已经用命令行建好了
灯火灰凰 2019-12

关于vscode调试scrapy的问题，我已经用命令行建好了项目，也写了一点代码，然后用命令行是可以运行的，但是用vscode就提示，Unknown command:crawl怎么搞啊

灯火灰凰 12-18
0

有人做过ntlm吗？给个样子也好让我这样初学者学习一下。
willtools 2019-11

有人做过ntlm吗？给个样子也好让我这样初学者学习一下。

willtools 11-4

0
分享：selenium在scrapy middleware中进行页面加载超时问题
二十而慄
2019-10
求帮助
二十而慄 10-31
0

http://tieba.baidu.com/p/63183
二十而慄
2019-10

http://tieba.baidu.com/p/6318324774?share=9105&fr=share&

二十而慄 10-31
3
求书的版本，关于scrcpy的，谢谢#爬虫##Scrcpy#
菜阿鹏仔 2019-07
这两本书用的Python几啊，有看过的大佬知道么
myShir 10-27
2
求助各位大佬关于xpath提取多个标签的所有text的问题
酒别斟满
2019-07
这是我想爬取的网页的源代码，我想知道xpath如何取到这些p标签下的所有的文本
十恶不赦... 10-21