| Jiangtang's profile技止于此BlogListsNetwork | Help |
|
9/13/2007 KDNuggets调查2007:数据挖掘方法论KDNuggets今年对业界人士采用何种数据挖掘方法论的调查,CRISP-DM又一次遥遥领先。 What main methodology are you using for data mining?
可以对照前几年的投票结果,注意其实很多人使用不只一种方法论,当然它们也大同小异。
附: CRISP-DM: 商业理解——商业理解是从业务角度来理解数据挖掘的目标和要求,再转化为数据挖掘问题; 数据理解——数据理解的任务是对原始数据进行收集和熟悉,检查数据质量,对数据进行初步探索,并发现可能存在的、有分析价值的数据特征,以形成对隐藏信息的假设; 数据准备——数据准备阶段初步完成变量的选择和导出变量的生成,同时对一些存在数据质量问题的字段进行相应的处理; 建立模型——建立预测模型,比如回归模型、决策树、神经网络等等; 模型评估——选择最好的最终模型,需要快速简单地应用和比较不同方法,比较产生的结果,然后对得到的不同规则给予商业评价。从可用的统计和非统计模型中找到最好的分析模型,对于产生最终决策是必需的; 结果部署——结果部署的目标是将预测模型生成的结果以一定的形式展现给业务人员使用。因此,应当从业务的角度来关注模型发布的形式。 SEMMA: 抽样——确认输入数据、取样、数据分割(把数据分割为训练、验证和测试样本); 探索——利用统计技术和可视化技术对原始数据进行探索性分析,以找出重要的变量,以及得出粗糙的直觉性结论; 修正——数据准备,如数据转换、确认野码、缺失值处理等等; 建模——建立预测模型,比如回归模型、决策树、神经网络等等; 评估——比较不同的模型。 Comments (3)
TrackbacksThe trackback URL for this entry is: http://johnthu.spaces.live.com/blog/cns!2053CD511E6D5B1E!292.trak Weblogs that reference this entry
|
|
|