第一章 地理数据的初步整理第一节 地理数据的类型、特征及其采集一、地理数据的类型根据地理学的研究对象可将地理数据分为空间数据和属性数据。
(一)空间数据空间数据,主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。
空间数据的表达,可以将其归纳为点、线、面三种几何实体以及描述它们之间联系的拓扑关系。
点:由一个独立的坐标点),(y x 定位,可以表示精确的地理坐标点,也可以是一些地理实体的抽象,如道路交叉点、河流汇聚点以及小比例尺地图上的城镇、村庄等。
线:由两个以上坐标点i i y x i i ,2,1),,( 定义,有一定的长度和走向,表示线状地物或点实体之间的联系。
如交通线、河流及各种地理区域的界线等,都是线实体。
面:表示在空间上连续分布的地理景观或区域。
如居民区、工业区、行政区等都是面实体。
点、线、面三种地理几何实体,按照一定的拓扑关系组合、排列,就可以形成更为复杂的地理几何实体。
如点、线组合形成网络;线、面组合形成地带;点、面组合形成地域类型;点、线、面组合形成地理区。
(二)属性数据属性数据主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程的有关属性特征,如海拔高度、气温、植被覆盖率、人口数量等。
属性数据可以分为两种类型:即数量标志数据和品质标志数据。
1.数量标志数据根据测度标准,可以将数量标志数据分为以下两类:⑴ 间隔尺度数据。
是以有量纲的数据形式表示测度对象在某种量纲下的绝对量。
如摄氏温标表示气温,以面积量纲表示土地面积,以时间量纲表示地理事件、地理现象发生的时间等,如表1.1。
表1.1 间隔尺度数据 区域 年平均气温(℃) 年降水量(mm ) 土地面积(hm 2) 人口(人) 国内生产总值(万元) 1 8.0 500.2 1245.6 1210 2678.28 2 7.6 498.6 1064 1023 2015.47 3 6.5 550.9 894.3 848 1754.56 4 8.5 586.4 668.7 654 1365.46⑵ 比例尺度数据。
是以无量纲的数据形式表示测度对象的相对量。
这种数据要求事先规定一个基点,然后将其它同类数据与基点数据相比较,换算为基点数据的比例。
因此这类数据常常又称为指数或比例数。
如耕地指数、工业发展指数、舒适度指数等,如表1.2。
表1.2 比例尺度数据(某地区耕地复种指数及农业发展指数) 年份 1996 1997 1998 1999 2000 耕地复种指数①120.40 113.56 126.54 132.76 121.43 农业发展指数②100 115.68 124.50 135.69 129.56注:①即播种面积与耕地总面积之比;②规定1996年农业产值为基数1002.品质标志数据根据其测度标准,可以将品质标志数据分为如下三种类型:⑴有序数据。
当测度标准不是连续的量,而只是表示其顺序关系的数据,则称其为有序尺度或等级尺度数据。
这种数据并不表示量的多少,而只是给出一个等级或次序。
如用1、2、3等分别表示特大城市、大城市、中等城市等城市等级,如表1.3。
表1.3 有序尺度数据(城市规模等级及人口数量的排位次序)城市A 城市B 城市C 城市D 城市E 城市F 规模等级 1 2 3 4 4 3 人口位次 1 2 4 6 5 3⑵二元数据。
即用0、1两个数据表示地理事物、地理现象或地理过程的比较判断问题。
如在人口统计中,用1表示男性,用0表示女性;用1表示多,用0表示少等,如表1.4。
表1.4 二元数(1表示两城市之间通航,0表示两城市之间不通航) 城市A 城市B 城市C 城市D 城市E 城市A — 1 1 0 1 城市B 1 — 1 1 0 城市C 1 1 — 1 0 城市D 0 1 1 — 1 城市E 1 0 0 1 —⑶名义尺度数据。
即用数字表示地理实体、地理要素、地理现象、地理事件的状态类型。
如在土地利用现状调查中,用数字表示土地利用的状态,15表示菜地,14表示草地,21表示果园,31表示林地等,如表1.5。
表1.5 名义尺度数据(土地利用类型)地块序列号123456土地利用类型13 15 21 14 14 31 属性数据也可分为不连续性或间断性数据和连续性数据。
不连续性或间断性数据是指用计数方法获得的数据。
如人口数、学校数、作物的苗数等;连续性数据指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个整数之间可以有微量数值差异的第三个数值存在。
二、地理数据的特征(一)地理数据的时空特征由于地理学的研究对象具有多种时空尺度,所以描述地理对象的地理数据也具有多种时空尺度的性质。
1.从空间尺度上看,地理学的研究对象—地理区域,既可以是全球范围的、洲际范围的、国家范围的,也可以是流域范围的、地区范围的、城市范围和社区范围的。
因此,描述地理区域的各种地理数据,具有多种空间尺度。
既有全球尺度的、洲际尺度的、国家尺度的,也有流域尺度的、地区尺度的、城市尺度的、社区尺度的。
在不同的空间尺度上,地理数据的表现形式及其所包含的信息内容是不同的。
为了揭示复杂的地理空间结构,就必须在不同的空间尺度上对各种地理数据进行深入地解剖和分析。
2.从时间尺度上看,地理学的研究对象—地理过程,既有以地质年代和地层年代衡量的古地质过程,也有以历史年代衡量的历史地理过程,还有以天、月、季、年等时间单位衡量的现代地理过程。
因此,描述地理过程的各种地理数据也具有多种时间尺度。
在不同的时间尺度上,地理数据的表现形式及其所包含的信息内容是不相同的。
为了揭示复杂的地理过程,就必须在不同的时间尺度上对各种地理数据进行深入地解剖和分析。
从一定意义上讲,地理过程的时间尺度与空间尺度有一定联系,往往较大空间尺度对应较长的时间周期,如全球范围内的气候变化周期可能是几十或几百年;而城市地籍可能以年为变化周期。
正是因为地理过程或地理特征有一定的自然节律性,才导致地理数据具有时间多尺度。
在实际应用时,各种地理数据往往以不同的主线特征(如区域、自然要素、社会经济要素或某种应用目的),被有机地在物理空间上或逻辑上组织到一起形成数据库。
地理数据的时间观与物理学上的时间是有区别的,地理过程中往往用某时间段的平均状况来表示“时刻”,如“现在”的气温可能是指几天来气温的平均状况。
根据时间周期的长短,地理数据的时间尺度可分为季节尺度数据、年尺度数据、时段尺度数据、人类历史尺度数据和地质历史尺度数据。
不同尺度的地理数据在处理上应区别对待,如地质历史尺度大区域的数据在处理上可以作为常量使用。
因为地理过程的连续性,在数据中可以用细小时刻的瞬时状况表示时段的平均状况。
孤立的数据时间尺度研究意义不大,只有结合空间尺度研究,才能表达地理特征和过程的内在规律。
(二)多维性对于一个地理对象,它的具体意义往往需要从空间、属性和时间三个方面进行综合描述。
在空间方面,需要描述该地理对象所处的地理位置的空间范围;在属性方面,需要描述该地理对象的具体内容;在时间方面,需要描述该地理对象产生、发展和存在的时间范围。
譬如,要描述一个地理区域,除了描述该区域的地理位置与空间范围外,还要描述该区域的自然、经济、社会等各方面的内容及其随着时间的变化情况,其中每一个数据的实际意义都必须通过具体的地理位置、具体的属性含义和具体的时间三个方面的内容来体现。
其中,对于时间的描述,需要一个变量;对于地理位置和空间范围的描述,一般需要十几个,甚至几十个变量。
由此可见,地理数据一般都具有多维性。
(三)不确定性不确定性是地理数据的基本特征之一。
导致地理数据不确定性的原因,主要是由于地理系统的复杂性和数据采集过程中造成的误差。
地理系统是一个开放的复杂巨系统。
许多地理过程具有多变性;许多地理现象和地理事件的发生具有突发性;许多地理要素的变化都具有不确定的特点。
数据采集过程中造成的误差只有通过采取先进的数据采集技术,尽量减少人为误差或运用有关方法对各种来源不同的数据进行筛选和处理的方法来减少。
三、地理数据采集地理数据的采集,就是运用各种技术手段,通过各种渠道收集地理数据的过程。
地理数据采集的渠道来源主要包括如下几个方面:⑴来自观测、测量部门的有关专业数据。
譬如,来自水文观测站的有关水文数据;来自气象观测站的有关气象数据;来自环境监测部门的空气、水质数据等。
⑵来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。
譬如从各级政府统计部门公布和出版的统计年鉴中,可以得到当地的耕地面积、各类农作物播种面积、粮食产量、人口劳动力、工业投资及产值、国内生产总值等数据。
⑶来自有关单位或个人的不定期的典型调查数据、抽样调查数据。
譬如,来自城乡抽样调查队的城市、农村家庭收支数据;来自有关单位或个人的某一方面的专题调查数据等。
⑷来自政府公报、政府文件中的有关数据。
⑸来自档案、图书等文献资料中的有关数据。
⑹来自互联网的有关共享数据。
⑺地图图件。
主要包括各种比例尺的地形图、影像地图、专题地图等。
⑻遥感数据。
主要包括各种航空遥感数据和卫星遥感数据。
⑼其它来源的有关数据。
目前,随着科学技术的发展,各种新技术不断地被应用到地理数据采集之中,使地理数据采集的手段日益更新,地理数据采集的精度不断地提高。
特别是3S 技术,即遥感、地理信息系统和全球定位系统的发展,使地理数据的采集技术得到了日新月异的进步。
在地理学研究中,对于地理数据的采集,需要特别注意和强调的是数据的质量,即数据的完备性和可靠性。
在数据采集的开始,首先要考虑数据来源的可靠性。
在数据采集过程中,要采取一切可能的手段和技术措施,最大限度地减少数据的误差。
在数据采集完毕后,要对各种数据质量进行检验,要对不同来源的相同数据进行比较,辩别真伪,要通过数据筛选,去粗存精,去伪存真;对于残缺的但确实必须的数据,要想办法进行及时补充。
有时,为了插补残缺的有关地理数据,经常需要运用相关的数学方法。
第二节 地理数据的初步整理数据整理是统计分析的前提条件,统计调查所得到的资料都是零散的,无序的。
在进行统计分析之前,必须对这些资料进行分组和汇总,使之系统化和条理化,体现出总体的本质与规律,以满足统计分析的需要。
概括的说,资料整理就是将调查所得到的资料按照研究的目的进行分组、汇总的工作过程。
一、使用统计表进行整理统计表是用来表达统计指标与被说明的事物之间数量关系的表格。
它可以将大量数据的分类结果,清晰、概括、一目了然地表达出来,明显地反映出事物的全貌及其蕴涵的特性,省去冗长的文字叙述,便于分析、比较、计算和记忆。
(一)统计表的结构及编制统计表一般由标题、表号、标目、线条、表注等项构成。
编制统计表的基本原则是:表的结构要简要明了。