采样的计算方法
使用 Data Reviewer 中包含的采样校验可创建一组从一个或多个图层中随机选择的采样要素。有多种方法可用于计算采样的大小,以及确定要在采样中包括哪些要素图层。
采样基于以下某种方法进行计算:
- 要素的固定数量
- 指定范围中所有要素的百分比
- 通过基于置信度、误差幅度和验收标准的计算获得的数量
- 在地图中加载或从地理数据库加载的面格网
所有计算方法都使用权重值确定要包含作为采样一部分的要素的数量。
要素的固定数量
指定要包含在采样中的要素的数量时,会使用分配给每个图层的权重来确定此数量。
范围或数据库中所有要素的百分比
对于采样校验,可选择根据地图中所有要素的百分比生成采样。这表示除了格网或范围中的所有要素之外,还会为采样选择特定百分比。权重则用于确定会将每个图层中的多少要素作为采样的一部分包含进来。
下面是两个示例,描述如何针对数据集中的要素百分比计算采样。第一个示例在每个要素图层中使用相同数量的要素,另一个示例则在每个图层中使用不同数量的要素。
示例中使用的变量如下:
变量 | 描述 | 示例 1 中的值 | 示例 2 中的值 |
---|---|---|---|
F | 要采样的要素数量 | 每个图层各不相同 | 每个图层各不相同 |
L | 每个图层中的要素数量 | 每个图层各不相同 | 每个图层各不相同 |
W | 分配给每个图层的权重 | 每个图层各不相同 | 每个图层各不相同 |
WF | 加权要素的数量 | 每个图层各不相同 | 每个图层各不相同 |
N | 归一化因子 | 3 | 2 |
S | 采样百分比除以 100 | 0.2 | 0.3 |
T | 要素的总数量 | 1500 | 500 |
示例 1:要素数量一致的采样图层
本例查找采样百分比指定为 20 时要对下述显示的各个图层组采样的要素数量。每个图层中的要素数量和每个图层的权重如下表所示。
图层名称 | L | W | WF | F = S * (WF)/N |
---|---|---|---|---|
RoadL | 300 | 1 | 1500 | 100 |
WatrcrsL | 300 | 2 | 1200 | 80 |
ContourL | 300 | 3 | 900 | 60 |
PolbndL | 300 | 4 | 600 | 40 |
TreesA | 300 | 5 | 300 | 20 |
总计 | 1500 | 4500 | 300 |
采样的计算方法如下:
- 对于每个图层,使用 L * ((5-W) + 1) 计算 WF。
例如,对于 RoadL,WF 是 1500。
- 使用 ∑L 计算 T,结果是 1500。
- 使用 ∑WF/∑L 计算 N,结果是 4500/1500 = 3。
- 对于每个图层,使用 S * WF/N 计算 F。
例如,对于 RoadL,计算结果是 0.20 * 1500/3 = 100。
- 验证 ∑F = S * T。
例如,300 = 0.20 * 1500。
请注意,在上述示例中,由于每个图层中的要素数量是相等的,因此在最终采样中,权重为 1 的 RoadL 所拥有的要素数量是权重为 1 的 TreesA 的五倍,权重为 2 的 WatrcrsL 所拥有的要素数量则是四倍,依此类推。
示例 2:要素数量变化的采样图层
本例查找采样百分比指定为 30 时要对下述显示的各个图层组采样的要素数量。每个图层中的要素数量和每个图层的权重如下表所示。
图层名称 | L | W | WF | F = S * (L*W)/N |
---|---|---|---|---|
RoadL | 100 | 3 | 300 | 45 |
WatrcrsL | 200 | 4 | 400 | 60 |
PolbndL | 50 | 3 | 150 | 22 |
TreesA | 150 | 5 | 150 | 23 |
总计 | 500 | 1000 | 150 |
采样的计算方法如下:
- 对于每个图层,使用 L * ((5-W) + 1) 计算 WF。
例如,对于 RoadL,WF 是 300。
- 使用 ∑L 计算 T,结果是 500。
- 使用 ∑WF/∑L 计算 N,结果是 1000/500 = 2。
- 对于每个图层,使用 S * WF/N 计算 F。
例如,对于 RoadL,结果是 0.30 * 300/2 = 45。
- 验证 ∑F = S * T。
例如,150 = 0.30 * 500。
基于置信度、误差幅度和验收标准的计算
用于确定采样大小的自动计算方法旨在供要使用采样校验解决以下问题的组织使用:
- 在确定总体大小的情况下,需要多大的采样大小才能使我的采样大小在特定置信区间(在置信区间中加上或减去可接受的误差)具有统计显著性?
- 在确定我的采样大小的情况下,在我的整个数据集失败之前允许多少要素检查失败(指定特定目标失败比率或百分比)?
采样大小基于以下四个因子确定:
- 结果的概率 (p),即给定一个要素,其“通过”相对“失败”的概率。该值最大为 0.5,即无法提前预知通过概率(指定客户端的要素通过或失败的特定百分比),要素通过或失败的概率相等,因此工具中使用值 0.5。在方差方程 p(1- p) 中使用时,0.5 代表最悲观(最保守)的值。即 p = 0.5 时 p(1 - p) 会得到最大值。
- 总体大小 (N)。
- 置信区间中的可接受误差幅度 (m)。
- 所需置信度的 z 统计 (z)。该值用于比较正态分布的采样。值由查找表提供。
如果总体数量无穷大,确定采样大小 (n) 的方程是:
n = ((z/m)2)(p (1 - p))
然后必须将该值截断以符合实际总体大小,实际采样大小 (n') 由下式给出:
n' = n(N)/(n + (N - 1))
失败阈值
失败阈值由比例检验方程给出。此方程确定在给定总体大小、置信区间和指定失败比率的情况下,失败的数量是否足以导致整个数据集失败。失败阈值由三个因子确定:
- 总体大小(上文中的 n')
- 可接受的最大失败比率 (r)
- 所需置信区间的 z 统计 (z),该因子用于比较正态分布的采样。该值由查找表提供。
允许的最大失败比率 (r') 由下面的方程指定:
由于该因子是一个比率,结果值必须乘以采样大小才能获取允许的最大失败数量 (f):
修复
如果给定数据集无法通过(即实际失败数量超过允许的最大失败数量),则检测到的失败被修复的还不够,仍然无法通过数据集。如果数据集失败,则表示采样揭示整个数据集存在不足,而不仅仅是检测到失败。因此需要改善整个数据集的质量,以基于新的随机采样通过重新测试。
参考书目
以下参考书目用于确定采样校验使用的方程:
Burt, J., and G. Barber. Elementary Statistics for Geographers.New York:The Guilford Press.1996.
McGrew, J., and C. Monroe. Introduction to Statistical Problem Solving in Geography, Second Edition.McGraw-Hill.2000.
地图中的面格网或从地理数据库加载的面格网
使用面格网可将大型数据集划分为较小的部分。这些部分可用于分配质量控制 (QC) 任务负责的区域,或者将区域分配为地图图幅的范围。使用带有采样校验的面格网可选择要随机选择的格网像元的数量。从那些随机选择的像元中,采样校验会从要素类选择要包含在采样中的要素。这样您便可对指定百分比的格网(地图图幅)执行 QC。