-
-
3
-
2
-
1在一个文件夹下有txt文件若干,我想对这些txt批量执行如下: filename <- read.table(file="filename.txt", sep=",", header=T) 读取每一个txt文件,生成一个以txt文件名命名的数据框,不知道R语言如何做到? 解决方法如下: filename <- list.files() for (i in 1:length(filename)){ var_name[i] <- gsub('?.txt','',filename[i]) assign(var_name[i],read.table(filename[i],sep=",",header=TRUE)) } 这样再也不用一个一个的读取了,解放一下双手
-
1数据分析项目交流
-
0数据分析我来了
-
1大家好,新人报道啦
-
1需要spss等数据分析软件,可关注‘科研梦’公共号,有惊喜哦
-
0最近有数据分析入门课程 需要的童鞋,可以私聊我
-
0
-
1
-
0
-
0问题描述: 业务端在处理excel报告的时候,文件大小过大(例如20m),会制约传送、打开的方便性 针对这个问题,存在哪些有效的解决思路呢? 解决思路: 造成文件大小过大的原因有很多,要对症下药: 如果是文档里的图片,可以考虑再外面压缩好适当尺寸,再进行插入 如果是条件格式过多,可以尝试清除格式,如果非要用格式,例如底纹、背景,可以考虑直接操作而不是条件格式 看看是不是有隐藏的对象,查找与选择-->定位条件,选“对象”
-
0问题描述: 在学习t检验的时候,我们了解到某个分组变量如果只有两个水平,可以利用均值做显著性差异检验 那么如果某个变量的水平超过了两组,例如三组,是否可以用两两组合的方法,去依次做t检验,从而说明因变量在自变量不同水平之间存在显著性差异呢? 问题回答: 不能的,因为每次检验都有误差,重复做t检验,会造成误差的指数型叠加,最后判断的结果误差会非常巨大 这也就是为什么我们要做方差分析的原因,可以先通过方差分析判
-
0为了检查Pandas DataFrame中的空值,我们使用isnull()函数this函数返回布尔值的数据帧,对于NaN值,这些值为True。 # importing pandas as pd import pandas as pd # importing numpy as np import numpy as np # dictionary of lists dict = {'First Score':[100, 90, np.nan, 95], 'Second Score': [30, 45, 56, np.nan], 'Third Score':[np.nan, 40, 80, 98]} # creating a dataframe from list df = pd.DataFrame(dict) # using isnull() function df.isnull() 输出:
-
0问题描述: R中计算单个字符串长度的函数是什么呢 解决方法: > a <- "aldjfald" > nchar(a) [1] 8
-
0问:spss中因变量为连续变量,自变量有连续变量也有分类变量,可以做线性回归吗 答: 线性回归选择自变量一般考虑相关性,重要性,这些东西,但是是连续的还是分类的好像没有特别强调 如果自变量里面的分类变量是只有两个分类的,那你就把它跟其他定量自变量一起挪到自变量对话框就可以。如果分类变量超过两个分类,有3个或以上时,需要实现设定哑变量或者是叫做虚拟变量。 这个需要自己重新编码,就是把每个分类单独一列,该项选择了
-
0
-
0
-
0
-
0问题描述: mysql建表和导入数据的过程中,如果设置自动增长的主键索引呢? 解决方法: 创建字段的时候加入约束条件auto_increment,是前提条件 create table score ( id int(10) unique not null auto_increment, stu_id int(10) not null, c_name varchar(20), grade int(10), primary key(id) ); 接下来,有两种方式可以实现主键索引的自动增长,分别是: id列不录入值 insert into score (stu_id,c_name,grade) values(901,'计算机',98), (901,'英语',80), (902,'计算机',65); id列录入null值 insert into
-
0
-
0问题描述: 业务端在处理excel报告的时候,文件大小过大(例如20m),会制约传送、打开的方便性 针对这个问题,存在哪些有效的解决思路呢? 解决思路: 造成文件大小过大的原因有很多,要对症下药: 如果是文档里的图片,可以考虑再外面压缩好适当尺寸,再进行插入 如果是条件格式过多,可以尝试清除格式,如果非要用格式,例如底纹、背景,可以考虑直接操作而不是条件格式 看看是不是有隐藏的对象,查找与选择-->定位条件,选“对象”
-
0协同过滤算法算是推荐系统中最经典的算法了,也称为基于领域的算法。协同过滤牵涉到用户和商品的交互信息,也就是用户行为,而一般用户对于商品的行为反馈有:显性反馈行为和隐性反馈行为 除了协同过滤还有基于流行度的算法,基于内容的算法,基于模型的算法,混合算法。 基于流行度的算法非常简单粗暴,类似于各大新闻、微博热榜等,根据PV、UV、日均PV或分享率等数据来按某种热度排序来推荐给用户。 基于模型的方法有很多,用到的诸
-
0直接运行python安装程序,直接点next,一直到点完。途中不要修改任何东西就可以了。python也不大,没必修改特殊的路径上。 如果你觉得安装python麻烦,也可以安装anaconda,它就更简单了,带各种包和开发环境。
-
0为什么会在pyspark在RDD中调用python第三方库失败?运行pyspark时调用jieba分词, 发现可以成功import, 但是在RDD中调用分词函数时却提示没有 module jieba, 在本地虚拟机时没有这些问题 答:jieba需要在集群中的每个节点上都要安装并且可以使用,还要注意用户及权限问题。
-
0是我在jupter notebook网页上输入import numpy后,显示ImportError,但我已经安装了numpy库。 以下是错误的信息: ImportError: Importing the multiarray numpy extension module failed. Most likely you are trying to import a failed build of numpy. If you're working with a numpy git repo, try git clean -xdf (removes all files not under version control). Otherwise reinstall numpy. Original error was: cannot import name 'multiarray 答:从报错信息来看你的numpy编译错误,是没有装好,可以尝试卸载后重新安装。
-
0python numpy 矩阵行交换 无效 >>> import numpy as np >>> A = np.mat('1 2;3 4') >>> A matrix([[1, 2], [3, 4]]) >>> A[0],A[1] = A[1],A[0] >>> A matrix([[3, 4], [3, 4]]) >>> 为什么交换无效? 答;这样写: A[[0,1]] = A[[1,0]] // 上面相当于 A[[0,1],:] = A[[1,0],:]
-
0使用python numpy模块导入csv文件失败? import numpy as np dataset = np.loadtxt(r'test.csv',delimiter=",") 运行出错:could not convert string to float: target 答:第0行是表头,他的类型是字符串,所以不能要这一行 header=0 或者 skiprows=1 跳过表头那一行即可。
-
0python中的numpy中的维度是什么意思? list1 = [[1, 2], [3, 4]] # 二维列表 arr1 = np.array(list1) # 二维numpy数组 arr1.shape # (2, 2) arr1.size # 4 arr1.max(axis=0) # 找维度0,也就是最后一个维度上的最大值,array([3, 4]) arr1.max(axis=1) # 找维度1,也就是倒数第二个维度上的最大值,array([2, 4]) 今天看的别人教程看不懂这里维度什么意思? 答:numpy数组的维度可以这样理解,看中括号的层数,有几层就代表有几维。axis代表第几层维度。最内层为0,外层为1,依次递增。 numpy的计算
-
0问题描述: 为什么is_prime对某些数字失败了? 问题解决: 如果你的代码对某些数字失败了,可能是因为你return太快了,或者因为你return错了地方错了。在不给出答案的情况下,请查看下面的示例控制流伪代码: # From hint: any number less than 2 is not prime if x is less than 2: return x is not prime # This loop is where we put our number to the test and return False # so the function exits immediately if x isn’t prime for n from 2 to x: if x is evenly divisible by n: return x is not prime # If we made it here, our number m
-
0spark中Dataframe 如何转 RDD? 答:这个转换很简单 #dataframe 转 rdd val rdd1=testDF.rdd #dataset 转 rdd val rdd2=testDS.rdd
-
0问题描述: 列表索引超出范围意味着什么? 问题解决: 我们还没有在代码中进行任何错误处理,以防止它在输入无效输入时崩溃,所以一定要提供有效的行和列。请记住,索引在Python中是从开始0,所以我们的行和列编号是从0至4。 如果要索引第5行和第5列之类的内容,它将为您提供索引超出范围错误,因为board没有索引5。 要更新列表中的元素,我们有以下语法: list[index] = "new value" 但是,board是一个包含列表的列表(如果您愿意,所以嵌套
-
0
-
01. 计算对象两两之间的距离; 2. 构造n个单成员聚类C1,C2,…,Cn,每个聚类高度为0; 3. 找到两个距离最近的聚类Ci和Cj,聚类的个数减1,以被合并的两个类之间的间距作为上层的高度; 4. 重复3直到满足终止条件。
-
0如何指定Python版本来执行Python脚本?我有一个python脚本是python3.而我服务器上默认python是指的python2,那么我如何指定使用python3来解释呢? 答: 两种方法: 一、可以使用#!声明显示的指定python解释器,然后再以./脚本的形式调用。 如下命令就可以指定python3来执行代码 #!/usr/bin/python3 二、直接使用python3命令,因为Linux系统默认会有python3这个环境,因此可以直接使用python3调用 python3 test.py
-
0//在mysql中如何写注释语句 mysql> SELECT 1+1; # 这个注释直到该行结束 mysql> SELECT 1+1; -- 这个注释直到该行结束 mysql> SELECT 1 /* 这是一个在行中间的注释 */ + 1; mysql> SELECT 1+ /* 这是一个 多行注释的形式 */
-
0备份 1、开始菜单 | 运行 | cmd |利用“cd /Program Files/MySQL/MySQL Server 5.0/bin”命令进入bin文件夹 2、利用“mysqldump -u 用户名 -p databasename >exportfilename”导出数据库到文件,如mysqldump -u root -p voice>voice.sql,然后输入密码即可开始导出。 还原 1、进入MySQL Command Line Client,输入密码,进入到“mysql>”。 2、输入命令"show databases;",回车,看看有些什么数据库;建立你要还原的数据库,输入"create database voice;",回车。 3、切换到刚建立的数据
-
0如何用python求表格每列的和? 答:可以使用python的pandas包,首先将表格转换为dataframe数据类型 然后调用pandas内置方法sum() 就可以得到一个包含每列和的Series了。
-
0python作用域执行顺序问题 a = 0 def fun(): print(a) global a a = 2 print(a) fun() print(a) 为啥会报global的错误?代码执行顺序是啥? 答:在python中不能在使用global关键字声明全局变量之前引用他,不然会给python解释器造成混乱,导致其不知道这个变量是全局还是局部。
-
0有一组列表,a,b,c,……,想要将这一组列表不断添加到同一个列表里面,比如: a = ['a'] b = ['b'] c = ['c'] all = [['a'], ['b'], ['c']] 只想到了用for循环来做这个,有什么比较高效的方法? 答:纯for循环效率会低一些,我推荐使用运行效率高的列表推导式 all = [i for i in (a,b,c)]
-
0关于python列表推导式中if else中始终不太理解,求指导 具体如代码如下 list_range=[1,2,3,4,5] cnum=5 list_range[(cnum-3) if (cnum-3)>0 else 0:cnum-1] 最终输出结果为[3,4] 按照我的理解,cnum=5,满足if条件,那么应该是list_range[2],即输出的值应为为3,现在输出的是[3,4] 百思不得其解啊,难道满足条件后, cnum-3的值将 0:cnum-1前面的0替换了? 答:这个list_range[]的中括号里有冒号,说明最终结果是列表切片,是一个范围,有start和end cnum = 5,所以if else 返回 true,即: start=cnum
-
0
-
0问题描述: mysql和Sql Sever如何去重 表格里再补删表的情况下将表格里的数据如何一步去重 解决方法: insert into 表名A (字段名列表) select distinct 字段名列表 from 表名B;
-
0问题描述: 表如下 ID 名称 类型 数量 1 铅笔1 铅笔 5 2 铅笔2 铅笔 6 3 铅笔3 铅笔 7 4 钢笔 钢笔 8 现在要求取所有的铅笔,和铅笔的总数 结果如下 ID 名称 类型 数量 总数量 1 铅笔1 铅笔 5 18 2 铅笔2 铅笔 6 18 3 铅笔3 铅笔 7 18 解决方法: SELECT aa."ID",aa."名称",aa."类型",aa."数量",bb."总数量" FROM tb_name AS aa LEFT JOIN (SELECT "类型",SUM("数量") AS '总数量' FROM tb_name GROUP BY "类型") AS bb ON aa."类型"=bb
-
0问题描述: 使用MySQL5.7时,通过web端向数据库中写中文后会出现乱码 解决方法: 修改my.ini文件 [client] default-character-set=utf8 [mysqld] default-storage-engine=INNODB character-set-server=utf8 collation-server=utf8_general_ci
-
0要删除内联块元素之间的空格,请使用margin-right属性。此属性用于删除其右侧元素之间的空间。此属性生成负值以保持靠近其相邻元素。 句法: 元素{ 余量右:值; } 例: Syntax: element { margin-right:value; } Example: <!DOCTYPE html> <html> <head> <style> nav a { display: inline-block; margin-right:-4px; background: green; color:white; font-weight:bold; text-decoration:none; } h1 { color:green; } body { text-align:center; } </style> </head> <body> <h1>GeeksforGeeks</h1> <h2>margi
-
0很多学生在爬虫时首先会问CSS是什么,下面就来讲一下CSS在爬虫技术的角色是什么? CSS,是一个设计简单的语言旨在简化制作网页像样的过程。CSS允许您将样式应用于网页。更重要的是,CSS使您可以独立于组成每个网页的HTML执行此操作。 CSS易于学习和理解,但它提供了对HTML文档表示的强大控制。 CSS节省时间:您可以编写一次CSS并在多个HTML页面中重复使用相同的工作表。 轻松维护:要进行全局更改,只需更改样式,所有网页中的所有元素都将自动
-
0我正在努力正确分配新行的起始位置以追加,这就是为什么total(最终也被覆盖)并且pos在那里,但我还没弄明白如何正确使用它们。 import datetime import pandas as pd import numpy as np total ={} entryTable = pd.read_csv("Entry_Table.csv") newEntries = int(input("How many new entries?\n")) for i in range(newEntries): ID = input ("ID?\n") VQ = int (input ("VQ?\n")) timeStamp = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") entryTable.loc[i] = [timeStamp, ID, VQ] entryTable.to_csv("Invento
-
0我正在尝试编辑一个字符串并将其重置为原始形式。但我无法弄清楚如何制作'重置'方法。我尝试创建一个名为'original_string'的变量,并在init方法中为它分配周长'string',这样我就可以简单地将self.string分配给original_string。我也尝试在类之外创建'original_string'变量。但是在方法中,似乎我无法访问在该方法之外创建的变量。有关如何创建“重置”方法的任何想法? class Reverse: original_string = "Some string that will be edited" def __init_