R因子列表数据框与输入输出.pptx

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四讲 R的数据结构(二)因子、列表、数据框;因子(factor)和有序因子; 因子是一种特殊的字符型向量,其中每一个元素取一组离散值中的一个,而因子对象有一个特殊 属性levels表示这组离散值(用字符串表示)。例如: > x <- c("男", "女", "男", "男", "女") y <- factor(x) y [1] 男女男男女 Levels: 男女 函数factor()用来把一个向量编码成为一个因子。一形式为: factor(x, levels = sort(unique(x), na.last = TRUE exclude = NA, ordered = FALSE); 可以自行指定各离散取值水平(levels),不指定时由x的不同值来求得。 labels可以用来指定各水平的标签,不指定时用各离散取值的对应字符串。 exclude参数用来指定要转换为缺失值(NA)的元素值集合。如果指定了levels,则因子的第i个元素当它等于水平中第j个时元素值取“j”,如果它的值没有出现在levels中则对应因子元素值取NA。 ordered取真值时表示因子水平是有次序的(按编码次序)。 可以用is.factor()检验对象是否因子,用as.facto一个向量转换成一个因子。;> x <- c(1,0,1,1,0); 因子的基本统计是频数统计,用函数table()来计数。例如, > sex <- factor(c("男", "女", "男", "男", "女")) res.tab <- table(sex) res.tab男女 3 2 表示男性3人,女性2人。table()的结果是一个带元素名的向量,元素名为因子水平,元素值为该水平出现的频数。 R的结果除了可以显示外,本身都是R对象(如这里的向量结果),可以很方便地进一步处理。 可以用两个或多个因子进行交叉分类。比如,性别(sex)和职业(job)交叉分组可以用table(sex, job)来统计每一叉类的频数,结果为一个矩阵,矩阵带有行名和列名,分 别为两个因子的各水平名。; 因子可以用来作为另外的同长度变量的分类变量。比如,假设上面的sex是5个学生的性别,而 h <- c(165, 170, 168, 172, 159) 是这5个学生的身高 则 table(h, sex) sex h 男女;列表(list)定义;scores=c(85, 76, 90)) > rec;在定义列表时如果指定了元素的名字(如rec中的 name,age,scores),则引用列表元素还可以用它的名字作为下标,格式为“列表名[["元素名"]]如: rec[["age"]] [1] 30 另一种格式是“列表名$元素名??,如: rec$age [1] 30 其中“元素名”可以简写到与其它元素名能够区分的最短程度,比如“rec$s”可以代表 “rec$score”。 这种写法方便了交互运行,编写程序时一般不用简写,以免降低?R因了子列程表数序据框的与输可入输读出 性。;使用元素名的引用方法可以让我们不必记住某一个下标代表那一个元素,而直接用易记的元素名来引用元素。事实上,已知向量和矩阵都可以指定元素名、行名、列名。 定义列表使用list()函数,每一个自变量变列表的一个元素,自变量可以用“名字=值”的方式给出,即给出列表元素名。 自变量的值被复制到列表元素中,自变量如果是变量并不会与该列表元素建立关系(改变该列表元素不会改变自变量的值)。(例见后);修改列表;> rec$sex <- "男" > rec[[6]] <- 161 > rec;第五号元素因为没有定义所以其值是 “NULL”,这是空对象的记号。 如果rec是一个向量,则其空元素为“NA”,这是缺失值的记号。从这里我们也可以体会 “NULL”与“NA”的区别。 几个列表可以用连接函数c()连接起来,结果仍为一个列表,其元素为各自变量的列表元素。如: list.ABC <- c(list.A, list.B, list.C) (中句点是名字的合法部分,一般没有特殊意 义。);list.A = list(name="李明", age=30, scores=c(85, 76, 90)) list.B = list(name="张三", age=27, scores=c(87, 91, 84)) list.C = list(name="王五", age=28, scores=c(91, 90, 89));列表的重要作用是把相关的若干数据保存在一个数据对象中,这样在编写函数时我们就可以返回这样一个包含多项输出的列表。 因为函数的返回结果可以完整地存放在一个列表中,我们可以继续对得到的结果进 行分析,这是R语言比SAS灵活的一个

文档评论(0)

132****0155 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档