随着地球空间数据获取手段的快速发展,对地球空间数据的处理已远远超过传统的人工处理能力,从大量数据中自动、快速、有效地提取模式和发现知识显得越来越重要。正如 John Naisbett所说,“我们已被信息所淹没,但是却正在忍受缺乏知识的煎熬”。数据挖掘与知识发现的出现很好地满足了地球空间数据处理的需要。地理信息系统(GIS)作为地球空间数据管理的重要手段已得到地学研究领域广泛的认可和重视,但是GIS分析功能的不足一直是制约GIS广泛应用的瓶颈。在GIS数据库平台和它的基本空间分析功能的基础上,根据地学空间数据的特点,将机器学习算法引入GIS,形成自动化、智能化的地学空间数据挖掘与知识发现的通用模型,对于增强地学数据处理能力和提高GIS的应用水平都具有非常重要的意义。
一般而言,数据挖掘和知识发现的方法可分为以下几种类型:①分类,如自然地理综合区划、农业区划和灾害风险区划等。②回归,如各种社会经济指标的单变量和多变量回归分析等。③聚类,如各种遥感影像的非监督分类方法。④概括(或称泛化),寻找描述各数据子集共性的方法,如沿着土壤分类中土类到亚类的概念层次顺序进行统计,寻找各亚类土壤在土类层次上的共性。⑤依赖模式,寻找描述变量间显著依赖关系的模式,如土壤盐碱化与地下水位的依赖关系。⑥变化和偏离检测,从与以前数据对比中发现显著变化,如多时相遥感影像的变化监测、区域城镇体系的变化等。
数据挖掘与知识发现的主要方法有:①基于决策树分类的ID3和C4.5方法。②基于贝叶斯概率的非监督分类方法。③用于概括的AQ15和CN2方法。④解决不精确、不确定知识的粗糙集方法。⑤大量人工神经网络方法,如经典的反向传播算法、自组织映射算法等。⑥用于产生关联规则的方法。⑦贝叶斯概率网络学习方法。
地学数据与其他类型数据的一个重要区别就是它的空间特性。目前在地学数据分析中对空间特性的处理主要有以下几种方法:①将空间作为框架,同一区域范围内不考虑空间要素,静态研究如各种区域统计指标计算、动态研究如系统动力学模型等。②利用空间统计方法,如变异函数、空间自相关指数等,探讨空间分布的特征。③将空间要素转化为一维属性要素参与分析,如距离、方向等用于主成分分析、多变量相关等。④空间要素作为属性要素的乘积因子,如交通中的等到达时线、水文中的等流时线等。⑤将不同要素的图层进行空间配准后采用GIS中的叠加(Overlay)方法,形成规则网格或最小图斑单元,然后参与一般分析,不再考虑空间因素。
目前国内外都开展了地球空间数据挖掘与知识发现方面的研究。加拿大西蒙·法拉色大学计算机科学系的 Han Jiawei教授领导的小组,在MapInfo平台上建立了空间数据挖掘的原型系统,实现了空间数据特征描述、空间比较、空间关联、空间聚类和空间分类等空间数据挖掘方法。国内武汉测绘科技大学李德仁教授最早关注到从GIS数据库中发现知识的问题,提出从GIS数据库可以发现包括几何信息、空间关系、几何性质与属性关系以及面向对象知识等的多种知识。他认为数据挖掘同时也使得GIS的有限数据变成无限的知识。
总之,随着地学空间数据的急剧增多,地学空间数据挖掘与知识发现作为地学研究与数据挖掘研究的结合点将成为研究热点之一。地学空间数据挖掘与知识发现的分析方法和应用结果,对于建立在数字地球之上的地球信息机理研究具有重要意义,将为全球变化和区域可持续发展提供有力的分析工具。