2023美赛O奖:C题论文翻译(3).pdf

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

ProblemChosen2023TeamControlNumber

CMCM/ICM2307166

SummarySheet

基于微分方程和k近邻的世界建模的病毒传播特征和难度决定因

最近,益智游戏《世界大战》在世界范围内广泛传播,在Twitter等社交媒体上引起了高度关注。

了解《世界大战》热的传播机制和影响游戏难度的因素,可能会对理解互联网时代的病毒式传播和人

类大脑联想词语的方式等重要问题有所启发。

我们在SIR模型的基础上开发了一个类似流行病学的微分方程模型,描述了报道总数的变化,并

使用遗传算法对模型进行拟合,以最小化MSE。然后,我们使用拟合的模型对2023年3月1日的报告

总数进行了点预测。为了获得预测的置信区间,我们使用了Bootstrap方法。为了提高Bootstrap样本的

拟合速度,我们使用了计算速度更快的Nelder-Mead方法,该方法基于遗传算法优化的相同初始参

数。将1000个Bootstrap估计由小到大排列,选取第25和975个估计作为预测区间的下界和上界。

本文构建了两个特征性的词法内部特征。我们通过假设英语词汇中字符出现概率的一阶马尔可夫

性来定义规律性和纯洁性(负熵)特征。所有的迹象都表明,它们确实与被猜测的词汇的难度有关。日常

生活中重复字符的数量、词汇的使用频率等规律也在本文中被用于预测和解释。

KNN回归具有保证预测分布和仍然为零的优良特性,因此我们使用KNN回归模型对世界大战的

分布进行预测。协方差矩阵在本文中被广泛用于变量的初始选择和确定变量之间的关系。在KNN回归

中,我们使用协方差矩阵选择与分布显著相关的自变量,并使用交叉验证选择最优自变量和K值。为

了预测特定谜题单词的分数未来分布,我们再次使用了bootstrap方法来获得95%的置信区间。

我们使用《世界大战》玩家的中位数分数来衡量谜题中单词的难度,并将难度分为“简单”、“普

通”和“困难”。我们首先基于协方差矩阵筛选与难度显著相关的特征,在初始筛选的基础上使用KNN

分类器对特征进行分类,并通过交叉验证选择预测准确率最高的K值。结果表明,这些特征可以有效

地预测单词的难度分类。对于单词难度的预测,我们使用KNN分类器和我们建立的与难度相关的特征

来将它们分配给现有的类别。

在对数据的进一步探索中,我们最重要的发现是,困难模式百分比的变化与我们最初建立的传染

样模型中假设的忠实玩家的变化表现出高度的相似性,这在一定程度上证实了我们模型的合理性。

目录

基于微分方程和k近邻的世界建模的病毒传播特征和难度决定因素1

信4

1介绍6

1.1背景与问题重述6

2建模准备6

2...

1假设7

2.2符号7

2.3数

据清洗7

3WordFeatureEngineering7

律7

3.1规..

3.2纯度8

3.3重复9

3.4频9

3.5特征生成10

4对报告结果的数量进行建模10

4.1直觉:趋势中有什么10

4.2术语和假设10

4.2.1术语准备10

4.2.2假设10

4.3SIR我们的PCQL型11

从模型到模

4.3.1SIR模型回顾11

4.3.2我们的PCQL模型11

4.4模型拟合与预测12

5Word本身会影响困难模式比例吗12

5.1这似乎是真的12

文档评论(0)

137****9859 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档