大数据审计分析 课件 第二章 大数据审计分析的技术与工具.pdf

大数据审计分析 课件 第二章 大数据审计分析的技术与工具.pdf

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第二章大数据审计分析的技术与工具

目录第一节大数据审计分析技术概述

CONTEN

T第二节大数据审计分析工具概述

第一节

大数据审计分析技术概述

数据收集技术

(1)API

•API是应用程序接口(ApplicationProgrammingInterface)的简称。API是一些功能、定义或者协议的集合,通

过API接口可以实现计算机软件之间的相互通信。API提供应用程序或者程序开发人员基于软件访问一组例程的能力,

对外封装完善,调用时无需学习API内部源码,依据API文档功能说明书来使用即可。

(2)爬虫

•爬虫即网络爬虫,是指能够自动访问互联网并将网站内容下载下来的程序。爬虫会按照一定的规则自动浏览、检索网页

信息的程序或者脚本,它能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取出有

价值的信息。

(3)预定义规则处理

•预定义规则处理是指把执行的语句编译成计算机能够理解的形式,主要过程有数据抽取(Extraction),数据转换(

Transformation)和数据加载(Loading),也称为ETL,这个过程是负责将分布的、异构数据源中的数据抽取等到

临时中间层进行转换、集成等处理,最后加载到数据仓库或数据集市中。

数据清洗技术

•(1)结构化

•结构化是指对采集到的数据在分析之前将非结构化数据转换为结构化数据的过程。大数据技术擅长在一定规则下对

大量有规律的结构化数据进行建模处理,如果直接使用半结构化或非结构化数据进行数据分析则难以得到理想效果

•(2)标准化

•标准化是指通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个小的特定区间。数据

标准化处理主要包括指标一致化处理和无量纲化处理两种类型。前者主要解决的是数据之间不同性质的问题,后者

主要解决数据之间可比性的问题。

•(3)模糊匹配

•模糊匹配是用于比较两个或多个记录并计算它们属于同一主体的可能性。模糊匹配不是将记录大致分类为匹配和不

匹配,而是输出一个数字(通常在0-100之间),用于标识这些记录属于同一主体的可能性。

数据分析技术

(1)回归分析

在统计学中,回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法在大数据

分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。常

见的回归方法包括普通最小二乘回归、对数几率回归、多元自适应回归、局部散点平滑估计回归等等。

(2)聚类分析

聚类分析是指将数据对象的集合分组为由类似的对象组成的多个类的分析过程。聚类就是一种寻找数据之间

内在结构的技术,它把全体数据实例组织成一些相似组,而这些相似组被称作簇。聚类使组内样本差异极小化

,组间样本差异极大化。常见的聚类方法包括K值聚类、层次聚类、模糊聚类、单连锁聚类、期望最大值聚类

、非负矩阵分解聚类等等。

(3)文本分析

文本分析是将非结构化文本数据转换为有意义的数据进行分析的过程,以度量客户意见、产品评论、反馈,

提供搜索工具、情感分析和实体建模,从而支持基于事实的决策制定。

数据分析技术

(4)关联规制学习

关联规则学习又叫关联分析,即从大规模数据集中寻找物品间隐含的关系。关联规则用来描述两个或多个事

物之间的关联性,其通过一件或多件事物来预测其它事物,可以从大量数据中获取有价值数据之间的联系。常

见的关联规制学习算法包括Apriori算法、Eclat算法、FP-Growth算法等等。

(5)降维

降维是将高维数据集转换为可比较的低维空间的过程,真实的数据集通常有很多冗余特征,降维技术可用于

去除这些冗余特征或将n维数据集转换为2维或3维进行可视化。常见的降维技术包括主成分分析、因子分析、

判别分析、局部线性嵌入、Sammon映射、投影寻踪等等。

(6)集成方法

集成方法是指通过将一系列相对较弱的模型以某种恰当的方式组合起来,可以得到比单个模型效果更好的强

模型,从而提高模型的性能。集成方法可以很容易地减少过拟合,避免模型在训练时表现更好,而在测试时不

能产生良好的结果。常见的集成方法包括Boosting、自展输入引导式聚合、Adaboost、堆栈泛化、随机森林等

等。

数据分析技术

(7)决策树

决策树是一种树形结构(例如二叉树),其中每个内部节点表示一个属性上的

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档