机器学习算法的技巧分享.docxVIP

下载本文档

0
0
约2.98千字
约 8页
2024-09-11 发布于湖北
举报
版权申诉

机器学习算法的技巧分享.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习算法的技巧分享

???

1.支持向量机（SVM）的C参数

SVM的C参数为每个错误分类的数据点增加了代价。如果c小，则对错误分类的点的惩罚较低，因此以较大数量的错误分类为代价选择了具有较大余量的决策边界。

如果c大，由于高罚分，SVM会尝试最大程度地减少误分类示例的数量，从而导致决策边界的边距较小。对于所有错误分类的示例，惩罚都不相同。它与到决策边界的距离成正比。

2.具有RBF内核的SVM的Gamma参数

具有RBF内核的SVM的Gamma参数控制单个训练点的影响距离。较低的gamma值表示相似半径较大，这导致将更多点组合在一起。

对于较高的伽玛值，这些点必须彼此非常接近，以便在同一组（或类）中考虑。因此，具有非常大的伽玛值的模型往往会过拟合。

3.是什么使逻辑回归成为线性模型

逻辑回归的基础是逻辑函数，也称为Sigmoid函数，该函数接受任何实数值，并将其映射到0到1之间的一个值。

它是一个非线性函数，但逻辑回归是一个线性模型。

这是我们从S型函数得到线性方程的方法：

以双方的自然对数：

在方程式（1）中，我们可以使用线性方程式z代替x：

然后，等式（1）变为：

假设y为正分类的概率。如果为0.5，则上式的右侧变为0。

我们现在有一个线性方程要求解。

4.PCA中的主要组成部分

PCA（主成分分析）是一种线性降维算法。PCA的目标是在减少数据集的维数（要素数量）的同时保留尽可能多的信息。

信息量由方差衡量。具有高方差的特征会告诉我们有关数据的更多信息。

主要成分是原始数据集特征的线性组合。

5.随机森林

随机森林是使用称为装袋的方法构建的，其中将每个决策树用作并行估计器。

随机森林的成功很大程度上取决于使用不相关的决策树。如果我们使用相同或非常相似的树，则总体结果将与单个决策树的结果相差无几。随机森林通过自举和特征随机性来实现具有不相关的决策树。

6.梯度增强决策树（GBDT）

GBDT使用提升方法来组合各个决策树。增强意味着将一系列学习算法串联起来，以从许多顺序连接的弱学习者中获得强大的学习者。

每棵树都适合前一棵树的残差。与装袋不同，加强不涉及自举采样。每次添加新树时，它都适合初始数据集的修改版本。

7.增加随机森林和GBDT中的树的数量

增加随机森林中的树的数量不会导致过度拟合。在某一点之后，模型的准确性不会因添加更多树而增加，但也不会因添加过多树而受到负面影响。由于计算原因，您仍然不想添加不必要的树，但是不存在与随机森林中的树数相关联的过拟合风险。

但是，就过度拟合而言，梯度增强决策树中的树数非常关键。添加过多的树会导致过拟合，因此一定要停止添加树，这一点很重要。

8.层次聚类vsK-均值聚类

分层群集不需要预先指定群集数量。必须为k均值算法指定簇数。

它总是生成相同的聚类，而k均值聚类可能会导致不同的聚类，具体取决于质心（聚类中心）的启动方式。

与k均值相比，分层聚类是一种较慢的算法。特别是对于大型数据集，运行需要很长时间。

9.DBSCAN算法的两个关键参数

DBSCAN是一种聚类算法，可与任意形状的聚类一起很好地工作。这也是检测异常值的有效算法。

DBSCAN的两个关键参数：

eps：指定邻域的距离。如果两个点之间的距离小于或等于eps，则将其视为相邻点。

minPts：定义集群的最小数据点数。

10.DBSCAN算法中的三种不同类型的点

根据eps和minPts参数，将点分为核心点，边界点或离群值：

·核心点：如果在其半径为eps的周围区域中至少有minPts个点（包括该点本身），则该点为核心点。

·边界点：如果一个点可以从核心点到达并且其周围区域内的点数少于minPts，则它是边界点。

·离群点：如果一个点不是核心点并且无法从任何核心点到达，则该点就是离群点。

在这种情况下，minPts为4。红色点是核心点，因为在其周围区域内至少有4个半径为eps的点。该区域在图中用圆圈显示。黄色点是边界点，因为它们可以从核心点到达并且在其邻域内不到4个点。可到达意味着在核心点的周围。点B和C在其邻域内（即半径为eps的周围区域）有两个点（包括点本身）。最后，N是一个离群值，因为它不是核心点，无法从核心点获得。

11.为什么朴素贝叶斯被称为朴素？

朴素贝叶斯算法假设要素彼此独立，要素之间没有关联。但是，现实生活中并非如此。特征不相关的这种朴素假设是将该算法称为“天真”的原因。

与复杂算法相比，所有特征都是独立的这一假设使朴素贝叶斯算法非常快。在某些情况下，速度比精度更高。

它适用于高维数据，例如文本分类，电子邮件垃圾邮件检测。

12.什么是对数损失？

对数损失（即交叉熵损失）是机器学习和深度学习模型广泛使用的成本函数。

交

您可能关注的文档

文档评论（0）

138****9470 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

机器学习算法的技巧分享.docxVIP