数据分析交流吧
关注: 21 贴子: 97

  • 目录:
  • 职业交流
  • 3
    八爪鱼的出现,对于爬虫爱好者来说喜忧参半。 喜的往往是初学者,通过点击式操作即可实现数据的采集,降低了掌握爬虫技术的门槛;忧的是懂一些爬虫技术的人,辛苦学来的代码可能还不如做好的模板使用的效率更高。 当然八爪鱼也有局限,例如模板更新慢,可爬取的字段与方式较为有限,以及收费等,爬虫的高级用户可以无视这个软件。 这里仅简单介绍一下这个软件的功能,给爬虫入门者多一个工具参考。 爬虫的原理,是“可见即可爬”,
  • 2
    线性回归形式可以表达为 存在岭参数k>=0,如果k=0,β ̂就是最小二乘估计。较大的岭迹参数k将增加估计偏差,但会减小方差,而k存在无穷多个可能,因此,我们需要选择某个k值使估计偏差和方差达到最优平衡。 岭回归方法是一种有偏估计,主要是以损失少部分信息和精度的前提下,拟合更符合实际情况的回归方程。当自变量存在严重共线性时,也许并不一定导致矩阵的行列式等于零,但会非常接近于零,若为零,方阵不可逆,则出现奇异矩阵,
    大可 4-21
  • 1
    在一个文件夹下有txt文件若干,我想对这些txt批量执行如下: filename <- read.table(file="filename.txt", sep=",", header=T) 读取每一个txt文件,生成一个以txt文件名命名的数据框,不知道R语言如何做到? 解决方法如下: filename <- list.files() for (i in 1:length(filename)){ var_name[i] <- gsub('?.txt','',filename[i]) assign(var_name[i],read.table(filename[i],sep=",",header=TRUE)) } 这样再也不用一个一个的读取了,解放一下双手
  • 1
    数据分析项目交流
  • 0
    数据分析我来了
    Lydiag 6-20
  • 1
    大家好,新人报道啦
  • 1
    需要spss等数据分析软件,可关注‘科研梦’公共号,有惊喜哦
  • 0
    最近有数据分析入门课程 需要的童鞋,可以私聊我
  • 0
    数据分析入门课程推荐: 1元可得🤩 根据TDU报道,中国数据人才的缺口有200万,但是现有的人才数量不到30万。数据分析行业蓬勃发展,或许你还在为提升职业技能烦恼,又或许你在求职业商业分析的相应职位。那么我们值得你信赖,《商业数据分析入门5Days训练营》课程简单明了且具有专业性,有举例分析和生动有趣的视频,学习性和趣味性比较强,让用户能够轻松学习并且掌握数据分析基础知识和技能。 那么问题来了,怎么获得呢?只要加微信G17
  • 1
    excel的数据目录下提供“分列”功能,在python中对应的是split函数 #载入包与数据 #分列思路:生成分列后的两列-->与原数据框合并到一起 #步骤一:生成分列后的两列;以“a”为标志对“sex”进行分列,生成“sex_left”和“sex_rght” #步骤二:与原数据框合并到一起 需要注意的是,split作用对象的格式是str,即字符串格式
  • 0
    八爪鱼学习教程哪位大神有
  • 0
    问题描述: 业务端在处理excel报告的时候,文件大小过大(例如20m),会制约传送、打开的方便性 针对这个问题,存在哪些有效的解决思路呢? 解决思路: 造成文件大小过大的原因有很多,要对症下药: 如果是文档里的图片,可以考虑再外面压缩好适当尺寸,再进行插入 如果是条件格式过多,可以尝试清除格式,如果非要用格式,例如底纹、背景,可以考虑直接操作而不是条件格式 看看是不是有隐藏的对象,查找与选择-->定位条件,选“对象”
  • 0
    问题描述: 在学习t检验的时候,我们了解到某个分组变量如果只有两个水平,可以利用均值做显著性差异检验 那么如果某个变量的水平超过了两组,例如三组,是否可以用两两组合的方法,去依次做t检验,从而说明因变量在自变量不同水平之间存在显著性差异呢? 问题回答: 不能的,因为每次检验都有误差,重复做t检验,会造成误差的指数型叠加,最后判断的结果误差会非常巨大 这也就是为什么我们要做方差分析的原因,可以先通过方差分析判
  • 0
    为了检查Pandas DataFrame中的空值,我们使用isnull()函数this函数返回布尔值的数据帧,对于NaN值,这些值为True。 # importing pandas as pd import pandas as pd # importing numpy as np import numpy as np # dictionary of lists dict = {'First Score':[100, 90, np.nan, 95], 'Second Score': [30, 45, 56, np.nan], 'Third Score':[np.nan, 40, 80, 98]} # creating a dataframe from list df = pd.DataFrame(dict) # using isnull() function df.isnull() 输出:
  • 0
    问题描述: R中计算单个字符串长度的函数是什么呢 解决方法: > a <- "aldjfald" > nchar(a) [1] 8
    2-1
  • 0
    问:spss中因变量为连续变量,自变量有连续变量也有分类变量,可以做线性回归吗 答: 线性回归选择自变量一般考虑相关性,重要性,这些东西,但是是连续的还是分类的好像没有特别强调 如果自变量里面的分类变量是只有两个分类的,那你就把它跟其他定量自变量一起挪到自变量对话框就可以。如果分类变量超过两个分类,有3个或以上时,需要实现设定哑变量或者是叫做虚拟变量。 这个需要自己重新编码,就是把每个分类单独一列,该项选择了
  • 0
    问题描述: 在workbench中使用select查询语句,操作界面如何固定住?即在下一次select查询中,可以对比上次查询结果? 解决方法: 鼠标右键点击查询结果,有个“Pin Tab”,点击“Pin Tab”就可以当前操作结果固定住 再来一次select查询,试试看吧
    2-1
  • 0
    问题描述: if是excel做数据处理最常用的函数了,出自代码逻辑的判断结构,如何深入地理解if函数呢?excel衍生出来的iferror又如何理解? 问题回答: if和iferror常见的使用方法: if(真假判断,为真显示什么,为假显示什么) if(真假判断,为真显示什么,if(判断条件,为真显示什么,xxx)) iferror(原函数(),如果出错显示为) 当if和iferror判断错误类型的时候,各自显示的结果为: =IFERROR(C3,1) =IF(C3,1,0) 可以看到: 当判断条件为数值的时候,返回的为真 当
    2-1
  • 0
    当我们在做方差分析的时候,有三个前提条件,分别是: 变量间相互独立 正态性检验 方差齐性检验 面对方差不齐的模型,除了依赖修正的F值,我们还有哪些办法进行改善呢? 方法一:对因变量(右偏曲线)取对数,可以让因变量更具备正态性的同时,减小因自变量异方差现象 方法二:删除自变量中方差最大或最小的组别样本(要合理),换取整个模型的解释力度
    2-1
  • 0
    问题描述: mysql建表和导入数据的过程中,如果设置自动增长的主键索引呢? 解决方法: 创建字段的时候加入约束条件auto_increment,是前提条件 create table score ( id int(10) unique not null auto_increment, stu_id int(10) not null, c_name varchar(20), grade int(10), primary key(id) ); 接下来,有两种方式可以实现主键索引的自动增长,分别是: id列不录入值 insert into score (stu_id,c_name,grade) values(901,'计算机',98), (901,'英语',80), (902,'计算机',65); id列录入null值 insert into
  • 0
    问题描述: 在做多元线性模型的时候,往往出现“多重共线性问题”,这是什么?如何解决呢? 解决思路: “多重共线性”可以理解为x和x之间太相近了,从VIF方差膨胀因子的计算公式就可以看出来,去掉y,其它x对被检验的x的解释能力,如果VIF值太高,说明这个x就没有存在于这个模型里的意义 VIF=1/(1-r2) ;当VIF大于10的时候,说明其余x对该x的解释力度达到了90% “多重共线性”问题的产生原因,可能是数据质量,可能是误操作,例如哑变量没有剔
    2-1
  • 0
    问题描述: 业务端在处理excel报告的时候,文件大小过大(例如20m),会制约传送、打开的方便性 针对这个问题,存在哪些有效的解决思路呢? 解决思路: 造成文件大小过大的原因有很多,要对症下药: 如果是文档里的图片,可以考虑再外面压缩好适当尺寸,再进行插入 如果是条件格式过多,可以尝试清除格式,如果非要用格式,例如底纹、背景,可以考虑直接操作而不是条件格式 看看是不是有隐藏的对象,查找与选择-->定位条件,选“对象”
  • 0
    协同过滤算法算是推荐系统中最经典的算法了,也称为基于领域的算法。协同过滤牵涉到用户和商品的交互信息,也就是用户行为,而一般用户对于商品的行为反馈有:显性反馈行为和隐性反馈行为 除了协同过滤还有基于流行度的算法,基于内容的算法,基于模型的算法,混合算法。 基于流行度的算法非常简单粗暴,类似于各大新闻、微博热榜等,根据PV、UV、日均PV或分享率等数据来按某种热度排序来推荐给用户。 基于模型的方法有很多,用到的诸
    1-31
  • 0
    直接运行python安装程序,直接点next,一直到点完。途中不要修改任何东西就可以了。python也不大,没必修改特殊的路径上。 如果你觉得安装python麻烦,也可以安装anaconda,它就更简单了,带各种包和开发环境。
  • 0
    为什么会在pyspark在RDD中调用python第三方库失败?运行pyspark时调用jieba分词, 发现可以成功import, 但是在RDD中调用分词函数时却提示没有 module jieba, 在本地虚拟机时没有这些问题 答:jieba需要在集群中的每个节点上都要安装并且可以使用,还要注意用户及权限问题。
  • 0
    是我在jupter notebook网页上输入import numpy后,显示ImportError,但我已经安装了numpy库。 以下是错误的信息: ImportError: Importing the multiarray numpy extension module failed. Most likely you are trying to import a failed build of numpy. If you're working with a numpy git repo, try git clean -xdf (removes all files not under version control). Otherwise reinstall numpy. Original error was: cannot import name 'multiarray 答:从报错信息来看你的numpy编译错误,是没有装好,可以尝试卸载后重新安装。
  • 0
    python numpy 矩阵行交换 无效 >>> import numpy as np >>> A = np.mat('1 2;3 4') >>> A matrix([[1, 2], [3, 4]]) >>> A[0],A[1] = A[1],A[0] >>> A matrix([[3, 4], [3, 4]]) >>> 为什么交换无效? 答;这样写: A[[0,1]] = A[[1,0]] // 上面相当于 A[[0,1],:] = A[[1,0],:]
  • 0
    使用python numpy模块导入csv文件失败? import numpy as np dataset = np.loadtxt(r'test.csv',delimiter=",") 运行出错:could not convert string to float: target 答:第0行是表头,他的类型是字符串,所以不能要这一行 header=0 或者 skiprows=1 跳过表头那一行即可。
  • 0
    python中的numpy中的维度是什么意思? list1 = [[1, 2], [3, 4]] # 二维列表 arr1 = np.array(list1) # 二维numpy数组 arr1.shape # (2, 2) arr1.size # 4 arr1.max(axis=0) # 找维度0,也就是最后一个维度上的最大值,array([3, 4]) arr1.max(axis=1) # 找维度1,也就是倒数第二个维度上的最大值,array([2, 4]) 今天看的别人教程看不懂这里维度什么意思? 答:numpy数组的维度可以这样理解,看中括号的层数,有几层就代表有几维。axis代表第几层维度。最内层为0,外层为1,依次递增。 numpy的计算
  • 0
    问题描述: 为什么is_prime对某些数字失败了? 问题解决: 如果你的代码对某些数字失败了,可能是因为你return太快了,或者因为你return错了地方错了。在不给出答案的情况下,请查看下面的示例控制流伪代码: # From hint: any number less than 2 is not prime if x is less than 2: return x is not prime # This loop is where we put our number to the test and return False # so the function exits immediately if x isn’t prime for n from 2 to x: if x is evenly divisible by n: return x is not prime # If we made it here, our number m
  • 0
    spark中Dataframe 如何转 RDD? 答:这个转换很简单 #dataframe 转 rdd val rdd1=testDF.rdd #dataset 转 rdd val rdd2=testDS.rdd
  • 0
    问题描述: 列表索引超出范围意味着什么? 问题解决: 我们还没有在代码中进行任何错误处理,以防止它在输入无效输入时崩溃,所以一定要提供有效的行和列。请记住,索引在Python中是从开始0,所以我们的行和列编号是从0至4。 如果要索引第5行和第5列之类的内容,它将为您提供索引超出范围错误,因为board没有索引5。 要更新列表中的元素,我们有以下语法: list[index] = "new value" 但是,board是一个包含列表的列表(如果您愿意,所以嵌套
  • 0
    聚类分析提供由个别数据对象到数据对象所指派的簇的抽象 •数据降维 •数据离散压缩 •有效地发现最近邻
    1-30
  • 0
    1. 计算对象两两之间的距离; 2. 构造n个单成员聚类C1,C2,…,Cn,每个聚类高度为0; 3. 找到两个距离最近的聚类Ci和Cj,聚类的个数减1,以被合并的两个类之间的间距作为上层的高度; 4. 重复3直到满足终止条件。
  • 0
    如何指定Python版本来执行Python脚本?我有一个python脚本是python3.而我服务器上默认python是指的python2,那么我如何指定使用python3来解释呢? 答: 两种方法: 一、可以使用#!声明显示的指定python解释器,然后再以./脚本的形式调用。 如下命令就可以指定python3来执行代码 #!/usr/bin/python3 二、直接使用python3命令,因为Linux系统默认会有python3这个环境,因此可以直接使用python3调用 python3 test.py
    1-30
  • 0
    //在mysql中如何写注释语句 mysql> SELECT 1+1; # 这个注释直到该行结束 mysql> SELECT 1+1; -- 这个注释直到该行结束 mysql> SELECT 1 /* 这是一个在行中间的注释 */ + 1; mysql> SELECT 1+ /* 这是一个 多行注释的形式 */
  • 0
    备份 1、开始菜单 | 运行 | cmd |利用“cd /Program Files/MySQL/MySQL Server 5.0/bin”命令进入bin文件夹 2、利用“mysqldump -u 用户名 -p databasename >exportfilename”导出数据库到文件,如mysqldump -u root -p voice>voice.sql,然后输入密码即可开始导出。 还原 1、进入MySQL Command Line Client,输入密码,进入到“mysql>”。 2、输入命令"show databases;",回车,看看有些什么数据库;建立你要还原的数据库,输入"create database voice;",回车。 3、切换到刚建立的数据
  • 0
    如何用python求表格每列的和? 答:可以使用python的pandas包,首先将表格转换为dataframe数据类型 然后调用pandas内置方法sum() 就可以得到一个包含每列和的Series了。
  • 0
    python作用域执行顺序问题 a = 0 def fun(): print(a) global a a = 2 print(a) fun() print(a) 为啥会报global的错误?代码执行顺序是啥? 答:在python中不能在使用global关键字声明全局变量之前引用他,不然会给python解释器造成混乱,导致其不知道这个变量是全局还是局部。
  • 0
    有一组列表,a,b,c,……,想要将这一组列表不断添加到同一个列表里面,比如: a = ['a'] b = ['b'] c = ['c'] all = [['a'], ['b'], ['c']] 只想到了用for循环来做这个,有什么比较高效的方法? 答:纯for循环效率会低一些,我推荐使用运行效率高的列表推导式 all = [i for i in (a,b,c)]
  • 0
    关于python列表推导式中if else中始终不太理解,求指导 具体如代码如下 list_range=[1,2,3,4,5] cnum=5 list_range[(cnum-3) if (cnum-3)>0 else 0:cnum-1] 最终输出结果为[3,4] 按照我的理解,cnum=5,满足if条件,那么应该是list_range[2],即输出的值应为为3,现在输出的是[3,4] 百思不得其解啊,难道满足条件后, cnum-3的值将 0:cnum-1前面的0替换了? 答:这个list_range[]的中括号里有冒号,说明最终结果是列表切片,是一个范围,有start和end cnum = 5,所以if else 返回 true,即: start=cnum
  • 0
    利用global 修改全局变量。 如图,将a定义为全局变量之后,打印的a的结果就是4
    1-29
  • 0
    问题描述: mysql和Sql Sever如何去重 表格里再补删表的情况下将表格里的数据如何一步去重 解决方法: insert into 表名A (字段名列表) select distinct 字段名列表 from 表名B;
  • 0
    问题描述: 表如下 ID 名称 类型 数量 1 铅笔1 铅笔 5 2 铅笔2 铅笔 6 3 铅笔3 铅笔 7 4 钢笔 钢笔 8 现在要求取所有的铅笔,和铅笔的总数 结果如下 ID 名称 类型 数量 总数量 1 铅笔1 铅笔 5 18 2 铅笔2 铅笔 6 18 3 铅笔3 铅笔 7 18 解决方法: SELECT aa."ID",aa."名称",aa."类型",aa."数量",bb."总数量" FROM tb_name AS aa LEFT JOIN (SELECT "类型",SUM("数量") AS '总数量' FROM tb_name GROUP BY "类型") AS bb ON aa."类型"=bb
  • 0
    问题描述: 使用MySQL5.7时,通过web端向数据库中写中文后会出现乱码 解决方法: 修改my.ini文件   [client]   default-character-set=utf8   [mysqld]   default-storage-engine=INNODB   character-set-server=utf8   collation-server=utf8_general_ci
  • 0
    要删除内联块元素之间的空格,请使用margin-right属性。此属性用于删除其右侧元素之间的空间。此属性生成负值以保持靠近其相邻元素。 句法: 元素{ 余量右:值; } 例: Syntax: element { margin-right:value; } Example: <!DOCTYPE html> <html> <head> <style> nav a { display: inline-block; margin-right:-4px; background: green; color:white; font-weight:bold; text-decoration:none; } h1 { color:green; } body { text-align:center; } </style> </head> <body> <h1>GeeksforGeeks</h1> <h2>margi
  • 0
    很多学生在爬虫时首先会问CSS是什么,下面就来讲一下CSS在爬虫技术的角色是什么? CSS,是一个设计简单的语言旨在简化制作网页像样的过程。CSS允许您将样式应用于网页。更重要的是,CSS使您可以独立于组成每个网页的HTML执行此操作。 CSS易于学习和理解,但它提供了对HTML文档表示的强大控制。 CSS节省时间:您可以编写一次CSS并在多个HTML页面中重复使用相同的工作表。 轻松维护:要进行全局更改,只需更改样式,所有网页中的所有元素都将自动
  • 0
    我正在努力正确分配新行的起始位置以追加,这就是为什么total(最终也被覆盖)并且pos在那里,但我还没弄明白如何正确使用它们。 import datetime import pandas as pd import numpy as np total ={} entryTable = pd.read_csv("Entry_Table.csv") newEntries = int(input("How many new entries?\n")) for i in range(newEntries): ID = input ("ID?\n") VQ = int (input ("VQ?\n")) timeStamp = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") entryTable.loc[i] = [timeStamp, ID, VQ] entryTable.to_csv("Invento
  • 0
    我正在尝试编辑一个字符串并将其重置为原始形式。但我无法弄清楚如何制作'重置'方法。我尝试创建一个名为'original_string'的变量,并在init方法中为它分配周长'string',这样我就可以简单地将self.string分配给original_string。我也尝试在类之外创建'original_string'变量。但是在方法中,似乎我无法访问在该方法之外创建的变量。有关如何创建“重置”方法的任何想法? class Reverse: original_string = "Some string that will be edited" def __init_

  • 发贴红色标题
  • 显示红名
  • 签到六倍经验

赠送补签卡1张,获得[经验书购买权]

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!

本吧信息 查看详情>>

会员: 会员

目录: 职业交流