- 1、本文档共64页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
六、数据集的操作 2、BY语句 在数据步中,BY语句的作用是规定分组变量,经常与SET语句、MERGE语句、UPDATE语句和MODIFY语句等联合使用,来对数据集的各种操作进行控制,其语句格式为: BY Descending 变量名; 在BY语句中,变量名可以有一个或多个,为指定的分组变量。选项Descending表示数据集中的观测是按照分组变量的降序排列的。如果不加选项,则默认为数据集中的观测是按照分组变量升序排列的。 六、数据集的操作 3、数据集的串接 数据集的串接是指将多个数据集纵向合并起来,即增加观测数。 DATA 新数据集名; SET 数据集名1 数据集名2 …; RUN; 在每个数据集名后可附加选项来规定在读入该数据集时对变量和观测进行的选择、删除等操作。新生成的数据集将按照SET语句中数据集名的顺序读入每个数据集,并将包括所有数据集中的变量。如果原来某个数据集中没有此变量,则认为是缺失值。 (1)简单串接 简单串接就是将所有要合并的数据集简单地叠放在一起。我们通过SET语句来实现简单串接,数据步的一般形式如下: 六、数据集的操作 3、数据集的串接 DATA 新数据集名; SET 数据集名1 数据集名2 …; BY 变量名; RUN; BY语句用于指定分组变量,使得在串接后的数据集中观测数据按此变量升序排列。注意:使用BY语句前,各串接数据集中的观测也必须按分组变量升序排列。如果按降序排列,则须在BY语句中的变量名前加上选项Descending。 (2)排序串接 如果需要各数据集中的观测按照一定的顺序进行串接,除了使用SET语句外还要用到BY语句。此时,数据步的一般形式为: 六、数据集的操作 4、数据集的并接 MERGE 数据集名1 (选项) 数据集名2 (选项) …; 在MERGE语句中,至少要有两个数据集。每个数据集后的选项用来规定在读入该数据集时对变量和观测进行的操作,其选项与SET语句相同,见2.6.1节中的表2-25。如果不设置选项,则读入数据集中的所有变量和所有观测。 在进行数据集并接时,要用到MERGE语句。MERGE语句的作用是将多个数据集中的观测合并为一个观测,其语句格式为: 数据集的并接是指将多个数据集横向合并起来,即增加变量数。 六、数据集的操作 4、数据集的并接 DATA 新数据集名; MERGE 数据集名1 数据集名2 …; RUN; 在新生成的数据集中,观测总数为各数据集中观测个数的最大值。在合并时,如果某个数据集已没有观测,则认为是缺失值。如果各数据集中有共同的变量,则合并后新生成的数据集中只出现一个变量,其值为MERGE语句中最后一个含有该变量的数据集的观测值。 (1)简单并接 简单并接是将要合并数据集中的观测逐个并接起来,即将一个数据集中的第一个观测与另外一个数据集中的第一个观测合并,第二个观测与另一个数据集中的第二个观测合并,依次这样进行下去。我们通过MERGE语句实现简单并接,数据步的一般形式为: 六、数据集的操作 4、数据集的并接 DATA 新数据集名; MERGE 数据集名1 数据集名2 …; BY 变量名; RUN; 在新生成的数据集中,按照分组变量的值进行对原各数据集中的观测进行匹配并接。如果有多个匹配的,则对所有的组合进行拼接。如果不匹配,则认为是缺失值。 (2)匹配并接 匹配并接是把两个或两个以上的数据集按照某些变量的值进行并接,通过联合使用MERGE语句和BY语句来实现。为了进行匹配并接,各数据中必须至少有一个共同变量,而且都必须按照这些变量排序。使用匹配并接时,数据步的一般形式为: 七、变量的控制 1、设定变量的长度 变量的长度指变量在SAS系统中的存储长度。 通过LENGTH语句可以规定变量的长度,其语句格式为: LENGTH 变量名 $ n; 其中,美元符号($)为可选项,加上此符号表示改变字符型变量的长度。n为要指定的变量长度,对于数值型变量可取值为2-8,对于字符型变量可取值为1-32767。 七、变量的控制 2、对变量加标签 标签是对变量名称的描述。它可以不受变量名称的命名规则所限制,对变量进行进一步的解释说明。标签中可以使用中文字符,还可以被打印输出。 LABEL语句用来对变量加标签,其语句格式为: LENGTH 变量名 $ n;
文档评论(0)