数据分析交流吧-百度贴吧

3

CDA资料分享 2019-02

八爪鱼的出现，对于爬虫爱好者来说喜忧参半。喜的往往是初学者，通过点击式操作即可实现数据的采集，降低了掌握爬虫技术的门槛；忧的是懂一些爬虫技术的人，辛苦学来的代码可能还不如做好的模板使用的效率更高。当然八爪鱼也有局限，例如模板更新慢，可爬取的字段与方式较为有限，以及收费等，爬虫的高级用户可以无视这个软件。这里仅简单介绍一下这个软件的功能，给爬虫入门者多一个工具参考。爬虫的原理，是“可见即可爬”，

超级704871103a 9-13

1

勤慕数据这个公司怎么样

贴吧用户_... 2021-12

幸福的两... 12-16

2

岭回归问题和SPSS的实现

CDA资料分享 2019-01

线性回归形式可以表达为存在岭参数k>=0，如果k=0，β ̂就是最小二乘估计。较大的岭迹参数k将增加估计偏差，但会减小方差，而k存在无穷多个可能，因此，我们需要选择某个k值使估计偏差和方差达到最优平衡。岭回归方法是一种有偏估计，主要是以损失少部分信息和精度的前提下，拟合更符合实际情况的回归方程。当自变量存在严重共线性时，也许并不一定导致矩阵的行列式等于零，但会非常接近于零，若为零，方阵不可逆，则出现奇异矩阵，

大可 4-21

1

R里，我也会批量读取一个文件夹下多个txt文件了

CDA资料分享 2019-01

在一个文件夹下有txt文件若干，我想对这些txt批量执行如下： filename <- read.table(file="filename.txt", sep=",", header=T) 读取每一个txt文件，生成一个以txt文件名命名的数据框，不知道R语言如何做到？解决方法如下： filename <- list.files() for (i in 1:length(filename)){ var_name[i] <- gsub('?.txt','',filename[i]) assign(var_name[i],read.table(filename[i],sep=",",header=TRUE)) } 这样再也不用一个一个的读取了，解放一下双手

海的↑天空 10-16

1

数据分析项目交流

数据分析...

2020-06

数据分析项目交流

数据分析... 6-20

0

数据分析我来了

Lydiag

2020-06

数据分析我来了

Lydiag

6-20

1

大家好，新人报道啦

数据分析...

2020-05

大家好，新人报道啦

数据分析... 6-3

1

需要spss等数据分析软件，可关注‘科研梦’公共号，有惊喜哦

钻石情缘

2020-04

需要spss等数据分析软件，可关注‘科研梦’公共号，有惊喜哦

钻石情缘

4-21

0

最近有数据分析入门课程需要的童鞋，可以私聊我

1791200558gwq 2019-10

最近有数据分析入门课程需要的童鞋，可以私聊我

1791200558gwq 10-18

0

数据分析入门课程推荐：1元可得🤩 根据TDU报道，中国数据人

1791200558gwq 2019-10

数据分析入门课程推荐： 1元可得🤩 根据TDU报道，中国数据人才的缺口有200万，但是现有的人才数量不到30万。数据分析行业蓬勃发展，或许你还在为提升职业技能烦恼，又或许你在求职业商业分析的相应职位。那么我们值得你信赖，《商业数据分析入门5Days训练营》课程简单明了且具有专业性，有举例分析和生动有趣的视频，学习性和趣味性比较强，让用户能够轻松学习并且掌握数据分析基础知识和技能。那么问题来了，怎么获得呢？只要加微信G17

共 6 张

1791200558gwq 10-17

1

python如何实现excel的“分列”功能？

CDA资料分享 2019-02

excel的数据目录下提供“分列”功能，在python中对应的是split函数 #载入包与数据 #分列思路：生成分列后的两列-->与原数据框合并到一起 #步骤一：生成分列后的两列；以“a”为标志对“sex”进行分列，生成“sex_left”和“sex_rght” #步骤二：与原数据框合并到一起需要注意的是，split作用对象的格式是str，即字符串格式

huiyinimen2015 7-18

0

八爪鱼学习教程哪位大神有

宁大教授

2019-05

八爪鱼学习教程哪位大神有

宁大教授

5-31

0

excel文件大小过大问题如何解决？

CDA资料分享 2019-02

问题描述：业务端在处理excel报告的时候，文件大小过大（例如20m），会制约传送、打开的方便性针对这个问题，存在哪些有效的解决思路呢？解决思路：造成文件大小过大的原因有很多，要对症下药：如果是文档里的图片，可以考虑再外面压缩好适当尺寸，再进行插入如果是条件格式过多，可以尝试清除格式，如果非要用格式，例如底纹、背景，可以考虑直接操作而不是条件格式看看是不是有隐藏的对象，查找与选择-->定位条件，选“对象”

CDA资料分享 2-11

0

多水平变量可以重复做t检验吗？

CDA资料分享 2019-02

问题描述：在学习t检验的时候，我们了解到某个分组变量如果只有两个水平，可以利用均值做显著性差异检验那么如果某个变量的水平超过了两组，例如三组，是否可以用两两组合的方法，去依次做t检验，从而说明因变量在自变量不同水平之间存在显著性差异呢？问题回答：不能的，因为每次检验都有误差，重复做t检验，会造成误差的指数型叠加，最后判断的结果误差会非常巨大这也就是为什么我们要做方差分析的原因，可以先通过方差分析判

CDA资料分享 2-11

0

python如何查找缺失值

CDA资料分享 2019-02

为了检查Pandas DataFrame中的空值，我们使用isnull()函数this函数返回布尔值的数据帧，对于NaN值，这些值为True。 # importing pandas as pd import pandas as pd # importing numpy as np import numpy as np # dictionary of lists dict = {'First Score':[100, 90, np.nan, 95], 'Second Score': [30, 45, 56, np.nan], 'Third Score':[np.nan, 40, 80, 98]} # creating a dataframe from list df = pd.DataFrame(dict) # using isnull() function df.isnull() 输出：

CDA资料分享 2-11

0

R中字符串长度计算的函数

CDA资料分享 2019-02

问题描述： R中计算单个字符串长度的函数是什么呢解决方法： > a <- "aldjfald" > nchar(a) [1] 8

2-1

0

spss中出现以下情况可以做线性回归吗？

CDA资料分享 2019-02

问：spss中因变量为连续变量，自变量有连续变量也有分类变量，可以做线性回归吗答：线性回归选择自变量一般考虑相关性，重要性，这些东西，但是是连续的还是分类的好像没有特别强调如果自变量里面的分类变量是只有两个分类的，那你就把它跟其他定量自变量一起挪到自变量对话框就可以。如果分类变量超过两个分类，有3个或以上时，需要实现设定哑变量或者是叫做虚拟变量。这个需要自己重新编码，就是把每个分类单独一列，该项选择了

CDA资料分享 2-1

0

mysql workbencch中如何固定住查询结果界面？

CDA资料分享 2019-02

问题描述：在workbench中使用select查询语句，操作界面如何固定住？即在下一次select查询中，可以对比上次查询结果？解决方法：鼠标右键点击查询结果，有个“Pin Tab”，点击“Pin Tab”就可以当前操作结果固定住再来一次select查询，试试看吧

2-1

0

excel if和iferror如何判断不同的错误类型？

CDA资料分享 2019-02

问题描述： if是excel做数据处理最常用的函数了，出自代码逻辑的判断结构，如何深入地理解if函数呢？excel衍生出来的iferror又如何理解？问题回答： if和iferror常见的使用方法： if(真假判断，为真显示什么，为假显示什么) if(真假判断，为真显示什么，if(判断条件，为真显示什么，xxx)) iferror(原函数（），如果出错显示为) 当if和iferror判断错误类型的时候，各自显示的结果为： =IFERROR(C3,1) =IF(C3,1,0) 可以看到：当判断条件为数值的时候，返回的为真当

2-1

0

方差分析中方差不齐现象的解决策略？

CDA资料分享 2019-02

当我们在做方差分析的时候，有三个前提条件，分别是：变量间相互独立正态性检验方差齐性检验面对方差不齐的模型，除了依赖修正的F值，我们还有哪些办法进行改善呢？方法一：对因变量（右偏曲线）取对数，可以让因变量更具备正态性的同时，减小因自变量异方差现象方法二：删除自变量中方差最大或最小的组别样本（要合理），换取整个模型的解释力度

2-1

0

mysql table主键自动增长的正确养成方式？

CDA资料分享 2019-02

问题描述： mysql建表和导入数据的过程中，如果设置自动增长的主键索引呢？解决方法：创建字段的时候加入约束条件auto_increment，是前提条件 create table score ( id int(10) unique not null auto_increment, stu_id int(10) not null, c_name varchar(20), grade int(10), primary key(id) ); 接下来，有两种方式可以实现主键索引的自动增长，分别是： id列不录入值 insert into score (stu_id,c_name,grade) values(901,'计算机',98), (901,'英语',80), (902,'计算机',65)； id列录入null值 insert into

CDA资料分享 2-1

0

什么是多重共线性问题？如何解决？

CDA资料分享 2019-02

问题描述：在做多元线性模型的时候，往往出现“多重共线性问题”，这是什么？如何解决呢？解决思路： “多重共线性”可以理解为x和x之间太相近了，从VIF方差膨胀因子的计算公式就可以看出来，去掉y，其它x对被检验的x的解释能力，如果VIF值太高，说明这个x就没有存在于这个模型里的意义 VIF=1/(1-r2) ；当VIF大于10的时候，说明其余x对该x的解释力度达到了90% “多重共线性”问题的产生原因，可能是数据质量，可能是误操作，例如哑变量没有剔

2-1

0

excel文件大小过大问题如何解决？

CDA资料分享 2019-02

问题描述：业务端在处理excel报告的时候，文件大小过大（例如20m），会制约传送、打开的方便性针对这个问题，存在哪些有效的解决思路呢？解决思路：造成文件大小过大的原因有很多，要对症下药：如果是文档里的图片，可以考虑再外面压缩好适当尺寸，再进行插入如果是条件格式过多，可以尝试清除格式，如果非要用格式，例如底纹、背景，可以考虑直接操作而不是条件格式看看是不是有隐藏的对象，查找与选择-->定位条件，选“对象”

CDA资料分享 2-1

0

推荐系统除了协同过滤算法，还有其他的算法吗？

CDA资料分享 2019-01

协同过滤算法算是推荐系统中最经典的算法了，也称为基于领域的算法。协同过滤牵涉到用户和商品的交互信息，也就是用户行为，而一般用户对于商品的行为反馈有：显性反馈行为和隐性反馈行为除了协同过滤还有基于流行度的算法，基于内容的算法，基于模型的算法，混合算法。基于流行度的算法非常简单粗暴，类似于各大新闻、微博热榜等，根据PV、UV、日均PV或分享率等数据来按某种热度排序来推荐给用户。基于模型的方法有很多，用到的诸

1-31

0

python安装需要注意什么？

CDA资料分享 2019-01

直接运行python安装程序，直接点next，一直到点完。途中不要修改任何东西就可以了。python也不大，没必修改特殊的路径上。如果你觉得安装python麻烦，也可以安装anaconda，它就更简单了，带各种包和开发环境。

CDA资料分享 1-31

0

为什么会在pyspark在RDD中调用python第三方库失

CDA资料分享 2019-01

为什么会在pyspark在RDD中调用python第三方库失败？运行pyspark时调用jieba分词，发现可以成功import，但是在RDD中调用分词函数时却提示没有 module jieba，在本地虚拟机时没有这些问题答：jieba需要在集群中的每个节点上都要安装并且可以使用，还要注意用户及权限问题。

CDA资料分享 1-31

0

安装了anaconda3，自带numpy库，但不能导入？

CDA资料分享 2019-01

是我在jupter notebook网页上输入import numpy后,显示ImportError,但我已经安装了numpy库。以下是错误的信息： ImportError: Importing the multiarray numpy extension module failed. Most likely you are trying to import a failed build of numpy. If you're working with a numpy git repo, try git clean -xdf (removes all files not under version control). Otherwise reinstall numpy. Original error was: cannot import name 'multiarray 答：从报错信息来看你的numpy编译错误，是没有装好，可以尝试卸载后重新安装。

CDA资料分享 1-31

0

python numpy 矩阵行交换无效

CDA资料分享 2019-01

python numpy 矩阵行交换无效 >>> import numpy as np >>> A = np.mat('1 2;3 4') >>> A matrix([[1, 2], [3, 4]]) >>> A[0],A[1] = A[1],A[0] >>> A matrix([[3, 4], [3, 4]]) >>> 为什么交换无效？答;这样写： A[[0,1]] = A[[1,0]] // 上面相当于 A[[0,1],:] = A[[1,0],:]

CDA资料分享 1-31

0

使用python numpy模块导入csv文件失败？

CDA资料分享 2019-01

使用python numpy模块导入csv文件失败？ import numpy as np dataset = np.loadtxt(r'test.csv',delimiter=",") 运行出错：could not convert string to float: target 答：第0行是表头，他的类型是字符串，所以不能要这一行 header=0 或者 skiprows=1 跳过表头那一行即可。

CDA资料分享 1-31

0

python中的numpy中的维度是什么意思？

CDA资料分享 2019-01

python中的numpy中的维度是什么意思？ list1 = [[1, 2], [3, 4]] # 二维列表 arr1 = np.array(list1) # 二维numpy数组 arr1.shape # (2, 2) arr1.size # 4 arr1.max(axis=0) # 找维度0，也就是最后一个维度上的最大值，array([3, 4]) arr1.max(axis=1) # 找维度1，也就是倒数第二个维度上的最大值，array([2, 4]) 今天看的别人教程看不懂这里维度什么意思？答：numpy数组的维度可以这样理解，看中括号的层数，有几层就代表有几维。axis代表第几层维度。最内层为0，外层为1，依次递增。 numpy的计算

CDA资料分享 1-31

0

为什么is_prime对某些数字失败了？

CDA资料分享 2019-01

问题描述：为什么is_prime对某些数字失败了？问题解决：如果你的代码对某些数字失败了，可能是因为你return太快了，或者因为你return错了地方错了。在不给出答案的情况下，请查看下面的示例控制流伪代码： # From hint: any number less than 2 is not prime if x is less than 2: return x is not prime # This loop is where we put our number to the test and return False # so the function exits immediately if x isn’t prime for n from 2 to x: if x is evenly divisible by n: return x is not prime # If we made it here, our number m

CDA资料分享 1-31

0

spark中Dataframe 如何转 RDD？

CDA资料分享 2019-01

spark中Dataframe 如何转 RDD？答：这个转换很简单 #dataframe 转 rdd val rdd1=testDF.rdd #dataset 转 rdd val rdd2=testDS.rdd

CDA资料分享 1-31

0

python报错：列表索引超出范围

CDA资料分享 2019-01

问题描述：列表索引超出范围意味着什么？问题解决：我们还没有在代码中进行任何错误处理，以防止它在输入无效输入时崩溃，所以一定要提供有效的行和列。请记住，索引在Python中是从开始0，所以我们的行和列编号是从0至4。如果要索引第5行和第5列之类的内容，它将为您提供索引超出范围错误，因为board没有索引5。要更新列表中的元素，我们有以下语法： list[index] = "new value" 但是，board是一个包含列表的列表（如果您愿意，所以嵌套

CDA资料分享 1-31

0

聚类分析中的簇的抽象的过程是什么样的？

CDA资料分享 2019-01

聚类分析提供由个别数据对象到数据对象所指派的簇的抽象 •数据降维 •数据离散压缩 •有效地发现最近邻

1-30

0

层次聚类算法的流程是什么

CDA资料分享 2019-01

1. 计算对象两两之间的距离； 2. 构造n个单成员聚类C1,C2,…,Cn,每个聚类高度为0； 3. 找到两个距离最近的聚类Ci和Cj，聚类的个数减1，以被合并的两个类之间的间距作为上层的高度； 4. 重复3直到满足终止条件。

CDA资料分享 1-30

0

如何指定Python版本来执行Python脚本？

CDA资料分享 2019-01

如何指定Python版本来执行Python脚本？我有一个python脚本是python3.而我服务器上默认python是指的python2，那么我如何指定使用python3来解释呢？答：两种方法：一、可以使用#!声明显示的指定python解释器，然后再以./脚本的形式调用。如下命令就可以指定python3来执行代码 #!/usr/bin/python3 二、直接使用python3命令,因为Linux系统默认会有python3这个环境，因此可以直接使用python3调用 python3 test.py

1-30

0

mysql的注释语句有哪些？

CDA资料分享 2019-01

//在mysql中如何写注释语句 mysql> SELECT 1+1; # 这个注释直到该行结束 mysql> SELECT 1+1; -- 这个注释直到该行结束 mysql> SELECT 1 /* 这是一个在行中间的注释 */ + 1; mysql> SELECT 1+ /* 这是一个多行注释的形式 */

CDA资料分享 1-30

0

mysql如何进行备份和恢复

CDA资料分享 2019-01

备份 1、开始菜单 | 运行 | cmd |利用“cd /Program Files/MySQL/MySQL Server 5.0/bin”命令进入bin文件夹 2、利用“mysqldump -u 用户名 -p databasename >exportfilename”导出数据库到文件，如mysqldump -u root -p voice>voice.sql，然后输入密码即可开始导出。还原 1、进入MySQL Command Line Client，输入密码，进入到“mysql>”。 2、输入命令"show databases；"，回车，看看有些什么数据库；建立你要还原的数据库，输入"create database voice；"，回车。 3、切换到刚建立的数据

CDA资料分享 1-30

0

如何用python求表格每列的和？

CDA资料分享 2019-01

如何用python求表格每列的和？答：可以使用python的pandas包，首先将表格转换为dataframe数据类型然后调用pandas内置方法sum() 就可以得到一个包含每列和的Series了。

CDA资料分享 1-30

0

python作用域执行顺序问题

CDA资料分享 2019-01

python作用域执行顺序问题 a = 0 def fun(): print(a) global a a = 2 print(a) fun() print(a) 为啥会报global的错误？代码执行顺序是啥？答：在python中不能在使用global关键字声明全局变量之前引用他，不然会给python解释器造成混乱，导致其不知道这个变量是全局还是局部。

CDA资料分享 1-30

0

python 两个列表累加

CDA资料分享 2019-01

有一组列表，a,b,c,……，想要将这一组列表不断添加到同一个列表里面，比如: a = ['a'] b = ['b'] c = ['c'] all = [['a'], ['b'], ['c']] 只想到了用for循环来做这个，有什么比较高效的方法？答：纯for循环效率会低一些，我推荐使用运行效率高的列表推导式 all = [i for i in (a,b,c)]

CDA资料分享 1-30

0

关于python 列表推导式 if else 组合

CDA资料分享 2019-01

关于python列表推导式中if else中始终不太理解，求指导具体如代码如下 list_range=[1,2,3,4,5] cnum=5 list_range[(cnum-3) if (cnum-3)>0 else 0:cnum-1] 最终输出结果为[3,4] 按照我的理解，cnum=5,满足if条件，那么应该是list_range[2],即输出的值应为为3，现在输出的是[3,4] 百思不得其解啊，难道满足条件后， cnum-3的值将 0:cnum-1前面的0替换了？答：这个list_range[]的中括号里有冒号，说明最终结果是列表切片，是一个范围，有start和end cnum = 5，所以if else 返回 true，即： start=cnum

CDA资料分享 1-30

0

如何在一个函数内部修改全局变量？

CDA资料分享 2019-01

利用global 修改全局变量。如图，将a定义为全局变量之后，打印的a的结果就是4

1-29

0

mysql和Sql Sever如何去重

CDA资料分享 2019-01

问题描述： mysql和Sql Sever如何去重表格里再补删表的情况下将表格里的数据如何一步去重解决方法： insert into 表名A (字段名列表) select distinct 字段名列表 from 表名B;

CDA资料分享 1-29

0

MySQL中如何将数据和求和放到一起

CDA资料分享 2019-01

问题描述：表如下 ID 名称类型数量 1 铅笔1 铅笔 5 2 铅笔2 铅笔 6 3 铅笔3 铅笔 7 4 钢笔钢笔 8 现在要求取所有的铅笔，和铅笔的总数结果如下 ID 名称类型数量总数量 1 铅笔1 铅笔 5 18 2 铅笔2 铅笔 6 18 3 铅笔3 铅笔 7 18 解决方法： SELECT aa."ID",aa."名称",aa."类型",aa."数量",bb."总数量" FROM tb_name AS aa LEFT JOIN (SELECT "类型",SUM("数量") AS '总数量' FROM tb_name GROUP BY "类型") AS bb ON aa."类型"=bb

CDA资料分享 1-29

0

MySQL中写入中文乱码

CDA资料分享 2019-01

问题描述：使用MySQL5.7时，通过web端向数据库中写中文后会出现乱码解决方法：修改my.ini文件　　[client] 　　default-character-set=utf8 　　[mysqld] 　　default-storage-engine=INNODB 　　character-set-server=utf8 　　collation-server=utf8_general_ci

CDA资料分享 1-29

0

如何删除内联块元素之间的空格？

CDA资料分享 2019-01

要删除内联块元素之间的空格，请使用margin-right属性。此属性用于删除其右侧元素之间的空间。此属性生成负值以保持靠近其相邻元素。句法：元素{ 余量右：值; } 例： Syntax: element { margin-right:value; } Example: <!DOCTYPE html> <html> <head> <style> nav a { display: inline-block; margin-right:-4px; background: green; color:white; font-weight:bold; text-decoration:none; } h1 { color:green; } body { text-align:center; } </style> </head> <body> <h1>GeeksforGeeks</h1> <h2>margi

CDA资料分享 1-29

0

CSS是什么

CDA资料分享 2019-01

很多学生在爬虫时首先会问CSS是什么，下面就来讲一下CSS在爬虫技术的角色是什么？ CSS，是一个设计简单的语言旨在简化制作网页像样的过程。CSS允许您将样式应用于网页。更重要的是，CSS使您可以独立于组成每个网页的HTML执行此操作。 CSS易于学习和理解，但它提供了对HTML文档表示的强大控制。 CSS节省时间：您可以编写一次CSS并在多个HTML页面中重复使用相同的工作表。轻松维护：要进行全局更改，只需更改样式，所有网页中的所有元素都将自动

CDA资料分享 1-29

0

如何将数据附加到数据框而不覆盖？

CDA资料分享 2019-01

我正在努力正确分配新行的起始位置以追加，这就是为什么total（最终也被覆盖）并且pos在那里，但我还没弄明白如何正确使用它们。 import datetime import pandas as pd import numpy as np total ={} entryTable = pd.read_csv("Entry_Table.csv") newEntries = int(input("How many new entries?\n")) for i in range(newEntries): ID = input ("ID?\n") VQ = int (input ("VQ?\n")) timeStamp = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") entryTable.loc[i] = [timeStamp, ID, VQ] entryTable.to_csv("Invento

CDA资料分享 1-29

0

在python中创建'reset'方法以重置已编辑的字符串

CDA资料分享 2019-01

我正在尝试编辑一个字符串并将其重置为原始形式。但我无法弄清楚如何制作'重置'方法。我尝试创建一个名为'original_string'的变量，并在init方法中为它分配周长'string'，这样我就可以简单地将self.string分配给original_string。我也尝试在类之外创建'original_string'变量。但是在方法中，似乎我无法访问在该方法之外创建的变量。有关如何创建“重置”方法的任何想法？ class Reverse: original_string = "Some string that will be edited" def __init_

CDA资料分享 1-29

扫二维码下载贴吧客户端

本吧信息查看详情>>

日	一	二	三	四	五	六

扫二维码下载贴吧客户端

本吧信息 查看详情>>

本吧信息查看详情>>