2008-04-21
预测型挖掘
关键字: 预测
5月份,我又有一个新的挖掘任务,就是根据历史销售记录来分析将来的销售情况。所以需要预先研究一下这个方面的挖掘,以下是我的学习笔记。
预测型知识挖掘:
顾名思义就是由历史数据和当前数据来推测出未来数据的一种挖掘方式。
从上面一句话中的历史,当前,未来三个关键字,我们可以看出时间概念在这次挖掘中将会起到非常重要的作用。 从预测的主要功能上来看,主要是对未来数据的分类和趋势的输出。
统计学中的回归方法等可以通过历史数据直接产生对未来数据的预测的连续值(这个应该就是我要的功能)
预测型知识的挖掘可以借助于经典的统计方法,神经网络和机器学习技术。
一般来说常见的预测应用模型由如下4种:
1, 趋势预测模型
针对那些具有时序性的数据,比如销售记录,股票价格,发现长期的趋势变化。有许多来自于统计学的方法经过改造可以用于数据挖掘中,如基于n阶移动平均值,n阶加权(加权,又是加权,加权无处不在)移动平均值。还有一些研究较早的,比如分类(分类的方法太多了,之前我在文本分类中使用的是vsm,在这些纯数据的挖掘中,象bayes,decision等方法应该能比较有效果),关联规则等技术也被应用到趋势预测中。
2, 周期分析模式
主要是针对那些数据分布和时间依赖性很强的数据进行周期模式的挖掘。例如,服装在某个季节或所有季节的销售周期。近年来这方面的研究备受注目,有比如快速傅立叶变换等统计方法及其改造算法。看来我要着重研究这个周期分析模式。
3, 序列模式
主要针对历史事情发生的次序的分析形成预测模式来对未来行为进行预测。例如,预测“3年前购买计算机的客户有很大的概率会购买数字相机”。我怎么就觉得这个和推荐算法有千丝万缕的联系呢。
4, 神经网络
在预测型知识挖掘中,神经网络也是很有用的一个模式结构。我一直觉得这个是最玄的一个东东,目前我也没有对它进行什么深入的研究。
通过以上的一些权衡,我觉得周期分析模式应该是我这次任务的主攻方向,希望我能圆满完成任务。
预测型知识挖掘:
顾名思义就是由历史数据和当前数据来推测出未来数据的一种挖掘方式。
从上面一句话中的历史,当前,未来三个关键字,我们可以看出时间概念在这次挖掘中将会起到非常重要的作用。 从预测的主要功能上来看,主要是对未来数据的分类和趋势的输出。
统计学中的回归方法等可以通过历史数据直接产生对未来数据的预测的连续值(这个应该就是我要的功能)
预测型知识的挖掘可以借助于经典的统计方法,神经网络和机器学习技术。
一般来说常见的预测应用模型由如下4种:
1, 趋势预测模型
针对那些具有时序性的数据,比如销售记录,股票价格,发现长期的趋势变化。有许多来自于统计学的方法经过改造可以用于数据挖掘中,如基于n阶移动平均值,n阶加权(加权,又是加权,加权无处不在)移动平均值。还有一些研究较早的,比如分类(分类的方法太多了,之前我在文本分类中使用的是vsm,在这些纯数据的挖掘中,象bayes,decision等方法应该能比较有效果),关联规则等技术也被应用到趋势预测中。
2, 周期分析模式
主要是针对那些数据分布和时间依赖性很强的数据进行周期模式的挖掘。例如,服装在某个季节或所有季节的销售周期。近年来这方面的研究备受注目,有比如快速傅立叶变换等统计方法及其改造算法。看来我要着重研究这个周期分析模式。
3, 序列模式
主要针对历史事情发生的次序的分析形成预测模式来对未来行为进行预测。例如,预测“3年前购买计算机的客户有很大的概率会购买数字相机”。我怎么就觉得这个和推荐算法有千丝万缕的联系呢。
4, 神经网络
在预测型知识挖掘中,神经网络也是很有用的一个模式结构。我一直觉得这个是最玄的一个东东,目前我也没有对它进行什么深入的研究。
通过以上的一些权衡,我觉得周期分析模式应该是我这次任务的主攻方向,希望我能圆满完成任务。


评论
什么(what happened),OLAP则更进一步告诉你下一步会怎么样(What next)、
和如果我采取这样的措施又会怎么样(What if)。用户首先建立一个假设,然
后用OLAP检索数据库来验证这个假设是否正确。比如,一个分析师想找到什么
原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也
低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看
那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行
下去,直到找到他想要的结果或放弃。
也就是说,OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推翻这些
假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。
但是如果分析的变量达到几十或上百个,那么再用OLAP手动分析验证这些假设
将是一件非常困难和痛苦的事情。
数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)
的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。比
如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘
工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一
些分析师从来没有想过或试过的其他因素,比如年龄。
数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,
你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么OLAP
工具能回答你的这些问题。
而且在知识发现的早期阶段,OLAP工具还有其他一些用途。可以帮你探索数据,
找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这
都能帮你更好的理解你的数据,加快知识发现的过程。