- 1、本文档共118页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联式资料库 - 南华大学资讯管理学系暨研究所
* * * * * 例如:從目前客戶購買筆記型電腦的數量,預測三個月後隨身碟的銷售量,以便準備足夠的隨身碟庫存量,以免屆時面臨無貨可賣的窘境 * Data Mining * Classification—A Two-Step Process Model construction: describing a set of predetermined classes Each tuple/sample is assumed to belong to a predefined class, as determined by the class label attribute The set of tuples used for model construction: training set The model is represented as classification rules, decision trees, or mathematical formulae Model usage: for classifying future or unknown objects Estimate accuracy of the model The known label of test sample is compared with the classified result from the model Accuracy rate is the percentage of test set samples that are correctly classified by the model Test set is independent of training set, otherwise over-fitting will occur * Data Mining * Classification Process (1): Model Construction Training Data Classification Algorithms IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ Classifier (Model) * Data Mining * Classification Process (2): Use the Model in Prediction Classifier Testing Data Unseen Data (Jeff, Professor, 4) Tenured? * Data Mining * A simple classification tree * Data Mining * Estimation(推估) 處理連續性數值的結果 給定一些輸入資料以推估未知的連續性變數的值: 收入、身高、信用卡額度(credit card balance)等 建立模型來為輸入變數做評分。根據輸出的評估分數 是否超過設定門檻值,就可用來完成分類的工作 應用實例 推估家庭中孩童的數量 推估家庭的總收入 推估客戶的終身價值(lifetime value) 推估顧客接受轉帳繳款的機率 應用技術:類神經網路 * Data Mining * Prediction (預測) 推估未來的數值以及趨勢 以歷史資料(historical data)來建立模型以說明目前觀察到的行為。當此模型應用到目前的輸入資料時,其結果即為未來行為變化的預測值。 應用實例 如果持卡人申請轉帳付款,預測本月餘額會有多少 預測哪些顧客會在未來六個月內流失 應用技術 購物籃分析 (basket analysis ) 決策樹 (decision trees) 類神經網路 (neural networks) * Data Mining * Example: 209 different computer configurations Linear regression function Predicting CPU performance Cycle time (ns) Main memory (Kb) Cache (Kb) Channels Performance MYCT MMIN MMAX CACH CHMIN CHMAX PRP 1 125 256 6000 256 16 128 198 2 29 8000 32000 32 8 32 269 … 208 480 512 8000 32 0 0 67 209 480 1000 4000 0 0 0 45 PRP = -55.9 + 0.0489 MYCT + 0.0153
文档评论(0)