1)质量评价过程
地理空间数据的质量对数据生产者和用户来说都是一个非常重要的考虑因子,它可以使数据生产者正确描述他们的数据集符合生产规范的程度,也是用户决定数据集是否符合他们应用目的的依据。因此,探索数据质量的理论问题便成为地理空间数据标准化的重要组成部分。
在Metadata标准中,质量信息主要在标识信息、数据质量信息以及数据继承关系等Metadata部分中出现,其所涉及的主要元素有数据集的完备性、逻辑一致性、位置精度、时间精度、专题精度等,而每一元素又有各自的子元素。
由于用户需要不同层次的数据质量,有些用户需要高精度的信息,而另一些用户只要有较低层次的精度便可以满足他们的需求,这样对数据集的质量标准就有不同的评价依据。但作为质量中的几何精度评价,则通过一定的计算公式和相应的精度指标,可以获得数据集的几何精度。
2)多尺度评判依据
在质量评定过程中,一般来说,数据的精度或准确度越高越好,但在实际应用中却不能不分对象一概而论。事实上有的数据在实际应用中的意义很大(如大地控制点等),其本身精度也比较高,因此对这些数据的精度要求也就很高;而另一些数据本身的精度不可能很高,如不同土壤类型的面积,由于它们之间的界线是模糊的,所以面积也是相对的,若要求过高则不可能办到。有的数据虽然它们的精度可以达到很高,但需要花费很多的人力、物力和时间才能达到,而生产上或应用上又没有过高的要求。因此,在实际应用中应根据具体需求来评定数据的质量,如对荒漠化土地与水浇地按同样的精度要求,则事实上便成为“冗余精度”,是一种浪费。
另外,地球是一个复杂系统,不少物体具有不确定性或模糊性特征,比如:
(1)有些物体本身就没有明确的界线,它们是逐渐过渡的,在由量变到质变过程中,难以确定其分界线,如红壤与黄壤之间的界线,棕壤与灰棕壤的界线,气候带之间的界线等都具有模糊的特征。另外,从全球范围来讲,一个国家的人口数量也是无法精确统计的。
(2)虽有明确的定义,但很难操作。如在林地与灌丛的界线划分过程中,林地被定义为树的垂直投影面积占60%以上的土地,但在野外实地划界时,却难以操作,只能做大概的估算,即使通过遥感数据,所反映出的界线也是模糊的。
(3)有些数据是动态的,甚至是瞬间的。如人口数(每秒都有生和死,每秒都有流动)、耕地数(每天在开垦和荒弃)等,也是模糊的。对这些数据太精确则没有必要,因为它们的精度只具有瞬间的意义。
因此,通过上面的分析,在地理信息描述中,我们应该辨证地分析精度问题,既要追求很高的数据精度,还得反对“冗余”精度,以免造成精度浪费。
3)数据的时效性与唯一性
地球系统的数据,有些具有明显的时效(时间)特征,有的则对时间的反应比较迟缓。例如,土地利用图具有明显的时效性特征,而地质图、地形图则没有明显的时效性。对于土地利用图的时效性来说,随地区的差异在时间上也有明显的变化,比如在城市近郊区的土地利用图有效时间一般只有1~2年,而远效区则可达4~5年。而地质、地形图的有效年限一般为10~15年,当然随着科技的发展,地质上也有新的发现和改正,地形也有一定的变化,这样50年代的地质图和今天同样比例尺的地质图,在图形内容上可能会发生较大的变化。
在图形的时效性上,一般来说凡具有动态特征的数据,它们的时间有效性较短,相反则长。但从研究历史变化或发展过程来说,则任何时间的数据都是有用的,所以不同时效性的数据集将根据其作用的不同来确定其重要性。而这些因素在Metadata体系中都应有所反应。
另外,地球系统的数据有可派生数据和不可派生数据之分,而我们在数据集描述中应避免数据的冗余。比如在气象和水文数据中,每天的降雨量是基本数据,或非派生数据,而周平均降雨、旬平均降雨、月平均降雨、年平均降雨等都是派生的;又如人口数与粮食产量这两个基础数据,可以派生十多个不同意义的数据,而且派生数据可以和基础数据进行校对纠错等。因此,在Metadata描述中,应只限于基础数据,而不应包括可派生数据,这样,便需要有专门的元素来描述数据集的这些特征,并需要对不同的计算公式等加以阐述。
4)数据精度的测试与报告
对于用户和数据生产者来说,所关心的数据质量是有一定联系的。数据集生产者必须使所生产的数据集满足制图规范,而用户则根据数据集的质量信息确定该数据集是否满足他们的应用需求。因此数据集生产者提供的数据集信息应是用户所关心的信息。因此,在数据集报告中应包括相应的精度测试方法以及测试结果等内容。
5.计算机、通讯及其他理论
计算机、通讯等信息技术领域内的相关理论对地理信息的形成也具有一定的决定作用,诸如传输协议等对信息传输的质量都有一定的影响。另外,地理信息的空间共享也受其他理论的限制,诸如行政区划理论等,在这里不做一一讨论,但随着Metadata研究的不断深入,有关支持地理信息及数字地球的Metadata的理论体系将逐渐清晰。