统计学:从100多个每日机场站点测量估算美国人口加权平均温度
我最近申请了一个开发者的密钥,用来访问人口普查的API(可以在这里找到:http://www.census.gov/developers/),我会用Python的一个封装类来访问人口普查数据库。
我还可以获取来自美国100多个机场气象站的每日平均温度和天气预报的数据(这些气象站大多位于主要城市,基本上能代表美国的人口分布)。在不做太多假设的情况下,怎样才能把美国的整个人口和这100多个机场对应起来,从而计算出一个加权的平均温度呢?这可能需要用到某种距离或气候的函数。在这个过程中,有哪些细节是我需要注意的呢?
1 个回答
0
(1) 听起来你需要一种类似于Voronoi图的东西,但要基于邮政编码区域,而不是连续的空间。简单来说,你需要把每个邮政编码区域分配给“最近”的机场,然后根据附近所有邮政编码的人口比例来加权机场的数据。(我假设人口普查数据是按邮政编码整理的。)我说“最近”是因为这个“最近”可以有不同的理解方式;比如说,可以是到区域地理中心的距离、到区域人口中心的距离、从中心到机场的旅行时间,可能还有其他方式。你可以用一种简单的方法来把邮政编码分配给机场:遍历所有邮政编码,找到在你选择的标准下“最近”的机场。虽然这样可能会比较慢,但你只需要做一次(当然,是针对每种“最近”的定义各做一次)。
(2) 你在CrossValidated上可能会得到更多的关注。