全球范围内数据库中存储的数据量正急剧增加,数据库系统提供了对这些数据的管理和简单处理能力,人们可以利用这些数据进行商业分析和科学研究。面对如此庞大的数据库人们的需求已经不只是简单的查询和维护,而是希望能够对这些数据进行较高层次的处理和分析以得到关于数据总体特征和对发展趋势的预测。而这些功能是数据库技术、人工智能和统计学等无法单独完成的。“我们淹没在信息之中,但仍处于知识的饥渴中” Johe Naisbett说。由此,知识挖掘技术便应用而生。
知识挖掘的定义几经变动,最新的描述性定义是由Usama M.Fayyyad等给出的:数据挖掘是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。
数据是指有关事实的集合,记录和事物有关的原始信息。模式是一个用语言来表示的一个表达式,它可用来描述数据集的某个子集,我们所说的知识,是对数据包涵的信息更抽象的描述。对大量数据进行分析的过程,包括数据准备、模式搜索、知识评价,以及反复的修改求精;该过程要求是非平凡的,意思是要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作是一个发现过程)。有效性是指发现的模式对于新的数据仍保持有一定的可信度。新颖性要求发现的模式应该是新的。潜在有用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益。最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。有效性、新颖性、潜在有用性和最终可理解性综合在一起可称之为兴趣性。数据挖掘的整个过程可用下面的图表示。
由于数据挖掘是一门新兴学科,况且它又是一门受到来自各种不同领域的研究者关注的边缘学科,因此产生很多不同的术语,除了称为“知识挖掘”外,主要还有如下若干种称法:“数据发现”、“数据开采”、“知识抽取”、“信息发现”、“知识发现”、“智能数据分析”、“探索式数据分析”、“信息收获”和“数据考古”等等。“数据挖掘”被许多研究者看作仅是数据发现的一个步骤。相对来讲,数据开采主要流行于统计界、数据分析、数据库和管理信息系统(MIS)界;而数据发现则主要流行于人工智能和机器学习界。
知识挖掘虽然只有十年的历史,但它已被越来越多的领域所采用,并取得了较好效果。这些领域有科学研究、市场营销、金融投资、欺诈甄别、产品制造、通信网络管理等。由加州理工学院喷气推进实验室与天文科学家合作开发的 SKICAT(Sky Image Cataloging and Analysis Tool)是第一个获得相当成功的数据挖掘应用,已经帮助科学家发现了16颗极其遥远的类星体。
虽然知识挖掘已经受到许多关注并取得了广泛应用,但它仍处于发展的早期,还有很多研究难题和面临的挑战,如数据的巨量性、动态性、噪声性、缺值和稀疏性,发现模式的可理解性、兴趣或价值性,应用系统的集成,用户的交互操作,知识的更新管理,复杂数据库的处理等等。