 |
|
 |
| 数据挖掘资料汇编 |
来源:中国论文网(www.paperlw.com) 作者:未知 点击数:
|
从Internet综合的资料,对于了解数据挖掘有一定的好处,对技术没有讲解。如果大家有补充的可随时交流、增加、修改。
数据挖掘讨论组
http://datamining.126.com
http://datamining.n3.net
2000年12月
1. 数据挖掘技术的由来... 4
1.1网络之后的下一个技术热点... 4
1.2 数据爆炸但知识贫乏... 4
1.3 支持数据挖掘技术的基础... 4
1.4 从商业数据到商业信息的进化... 5
1.5 数据挖掘逐渐演变的过程... 5
2 数据挖掘的定义... 6
2.1 技术上的定义及含义... 6
2.2 商业角度的定义... 7
2.3 数据挖掘与传统分析方法的区别... 7
3 数据挖掘的研究历史和现状... 7
3.1 研究历史... 7
3.2 出版物及工具... 8
3.3 国内现状... 8
3.4 业界观点... 8
4 数据挖掘研究内容和本质... 9
4.1 广义知识(Generalization)... 9
4.2 关联知识(Association)... 9
4.3 分类知识(Classification&Clustering) 9
4.4预测型知识(Prediction)... 10
4.5偏差型知识(Deviation) 10
5 数据挖掘的功能... 10
5.1 自动预测趋势和行为... 10
5.2 关联分析... 10
5.3 聚类... 11
5.4概念描述... 11
5.5偏差检测... 11
6 数据挖掘常用技术... 11
6.1 人工神经网络... 11
6.2决策树... 11
6.3遗传算法... 11
6.4近邻算法... 11
6.5规则推导... 11
7 数据挖掘工具... 12
7.1 基于神经网络的工具... 12
7.2 基于规则和决策树的工具... 12
7.3 基于模糊逻辑的工具... 12
7.4 综合多方法工具... 12
8 数据挖掘的流程... 12
8.1数据挖掘环境... 12
8.2数据挖掘过程图... 12
8.3 数据挖掘过程工作量... 13
8.4数据挖掘过程简介... 13
- - 数据挖掘算法
Friedman[1997]列举了四个主要的技术理由激发了数据挖掘的开发、应用和研究的兴趣:
- - 超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;
- - 先进的计算机技术,例如更快和更大的计算能力和并行体系结构;
- - 对巨大量数据的快速访问;
- - 对这些数据应用精深的统计方法计算的能力。
商业数据库现在正在以一个空前的速度增长,并且数据仓库正在广泛地应用于各种行业;对计算机硬件性能越来越高的要求,也可以用现在已经成熟的并行多处理机的技术来满足;另外数据挖掘算法经过了这10多年的发展也已经成为一种成熟,稳定,且易于理解和操作的技术。
1.4 从商业数据到商业信息的进化
从商业数据到商业信息的进化过程中,每一步前进都是建立在上一步的基础上的。见下表。表中我们可以看到,第四步进化是革命性的,因为从用户的角度来看,这一阶段的数据库技术已经可以快速地回答商业上的很多问题了。
进化阶段商业问题支持技术产品厂家产品特点
数据搜集
(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息
数据访问
(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBCOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息
数据仓库;决策支持
(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息
数据挖掘
(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息
表一、数据挖掘的进化历程。
数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。
1.5 数据挖掘逐渐演变的过程
数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点.机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题.随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来解决某些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。80年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。随着在80年代末一个新的术语,它就是数据库中的知识发现,简称KDD(Knowledge discovery in database).它泛指所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(data mining)来描述使用挖掘算法进行数据挖掘的子过程。但最近人们却逐渐开始使用数据挖掘中有许多工作可以由统计方法来完成,并认为最好的策略是将统计方法与数据挖掘有机的结合起来。
共9页: 上一页 1 [2] [3] [4] [5] [6] [7] [8] [9] 下一页
|
 |
|
 |
|

| 客服中心 |
| QQ:981339 |
 |
paperlw@msn.com |
 |
| 电话:010-51281033 |
| 010-51281044 |
| 传真:010-51281044 |
| 邮箱:hotlw@vip.163.com |
| 工作时间:9:00-20:00 |
|
|
|