发电厂数据生成和管理工具集
powerplantmatching的Python项目详细描述
动力装置匹配
清洁、标准化和组合多种动力的工具集 工厂数据库。
该软件包为欧洲电力系统提供随时可用的电厂数据。 从公开可用的电厂数据集开始,该软件包将清理、标准化 并合并输入数据以创建新的组合数据集,其中包含所有重要信息。 该软件包允许在发布新的输入数据集时轻松更新组合数据。
PowerPlantMatching最初由 可再生能源集团 在fias建立电厂数据 输入到基于pypsa的携带模型 CondyNet项目的外部模拟, 由 德国联邦教育和研究部(bmbf) 作为 stromnetze研究计划
它能做什么
- 清洁和标准化电厂数据集
- 属于同一电厂的发电厂机组总数
- 比较并组合不同的数据集
- 创建查找并对电厂的优缺点进行统计分析
- 提供来自不同来源的干净数据
- 在总容量/净容量之间进行选择
- 提供六个不同数据源的已合并数据集
- 调整发电厂容量,以便与各国有关发电厂总容量的具体统计数据相匹配
- 可视化数据
- 将您的电厂数据导出到apypsa或timesmodel
安装
使用pip
pip install powerplantmatching
或使用conda
conda install -c conda-forge powerplantmatching
获取数据
为了直接将已经构建的数据加载到pandas数据框中,只需调用
importpowerplantmatchingaspmpm.powerplants(from_url=True)
它将解析并存储erplantmatching/master/matched_data_red.csv" rel="nofollow">此存储库的实际电厂数据集。设置from_url=false
(默认值)将加载所有必要的数据文件并将它们合并。请注意,这可能需要几分钟。
生成的数据集与entsoe so&af提供的容量统计数据进行了比较
数据集合并了中列出的所有数据源的数据 数据源并提供以下信息:
- 电厂名称-每个数据库的声明
- 燃料类型-{生物能源、地热、硬煤、水力、褐煤、核能、天然气、石油、太阳能、风能、其他}
- 技术-{ccgt、ocgt、汽轮机、内燃机、径流、抽水蓄能、水库}
- 设置-{发电厂(PP)、热电联产(CHP)、仓库(存储)}
- 容量-[mW]
- 持续时间-以小时为单位的最大充电状态,在满输出容量下
- 大坝信息-大坝体积[m m^3]和坝高[m]
- 地理位置-纬度、经度
- 国家-EU-27+CH+NO(+UK)减去塞浦路斯和马耳他
- 投产年份-发电厂投产年份
- 改装-上次改装的年份
- projectd-电厂的不可变标识符
数据存储在哪里?
包的所有数据文件都将存储在pm.core.package_config['data_dir']
自行配置
您可以选择轻松地操作结果数据,修改全局配置。只需手动或为Linux用户保存config.yaml文件。
wget -O ~/.powerplantmatching_config.yaml https://raw.githubusercontent.com/FRESNA/powerplantmatching/v0.4.1/powerplantmatching/package_data/config.yaml
并根据您的意愿更改.powerplantmaching_config.yaml文件。因此您可以
确定国家和燃料类型的全球集合
确定要合并的数据源以及最终数据集中应完全包含的数据源
通过设置为数据源名称参数的查询方法" rel="nofollow">pandas.dataframe.query语句分别过滤数据源。作为示例,请参见默认的config.yaml文件
您可以选择:
将entsoe安全令牌添加到.powerplantmaching_config.yaml文件中。允许您自己更新entsoe数据。可通过遵循entsoe-e transparency platform的restful api文档的第2节获得令牌。
将您的google api密钥添加到config.yaml文件以启用地理解析。密钥可以通过以下方法获得e说明
数据源:
- 开放式电力系统数据
- 全球能源观测站网站上没有直接的数据,但是可以从Sqlite scraper获取。
- GPD-全球电厂数据库根据免费许可证提供数据
- CARMA-碳监测行动
- 欧洲输电系统运营商网络(European Network of Transmission System Operators for Electricity)每年提供有关发电厂总容量的统计数据。它们的数据可以用作验证参考。我们进一步使用他们的2010年年度发电报告作为水力发电厂分类的输入。entso-e transparency网站上的电厂数据集可使用entso-e透明api
- 联合研究中心水电站数据库
- IRENA-国际可再生能源机构开放电厂容量的可用统计数据。
- bnetza-德国电网扎gentur为德国电厂开放可用数据源
合并后的数据集有两种版本:较大的数据集,由
pm.powerplants(reduced=False)
链接匹配电厂的条目并列出所有相关的 不同数据源提供的属性。由
pm.powerplants()
仅声明在单个电厂数据条目中匹配的最可靠数据源的值。 考虑的可靠性得分为:
<表><广告>开始
Jupyter笔记本中提供了该工具的一个小演示
工作原理
鉴于Single数据库作为carma、geo或opsd数据库提供的非标准化、不完整的信息,可以相互补充,提高其可靠性。 在第一步中,powerplantmatching将所有powerplant数据集转换为具有定义的列和值集的标准格式。第二部分是将发电厂的各个区块聚合为一个单元。由于某些数据源在单元级提供其电厂记录,而没有关于较低层块的详细信息,因此与其他源相比,仅在单元级才有可能。在第三步和命名步骤中,该工具组合(或匹配)不同的、标准化的和聚合的输入源,只保留出现在多个源中的发电厂单元。随后匹配的数据由未匹配的可靠源的数据条目补充。
聚合和匹配过程严重依赖于 < HeRF= ="HTTPS://GITHUBCOM/LASSGA/Duke"Re="NoFoLoLo>"Duke < /A>,Java应用程序专业化 用于重复数据消除和链接数据。它提供了许多内置的 比较器,如数字、字符串或地理位置比较器。这个 引擎对每个参数(power)进行详细比较 工厂名称、燃料类型等)使用调整后的比较器和重量。 从每一列的个人得分中计算出一个化合物 两个电厂记录引用 同样的动力装置。如果分数超过了一个给定的阈值,两个 发电厂的记录被链接并合并到一个数据集中。
让我们通过快速 例子。考虑以下两个数据集
数据集1:
<表><广告>和
数据集2:
<表><广告>其中数据集2的可靠性得分较高。显然,数据集1的条目0、3和5与 电厂作为数据集2的条目0、1和2。工具集检测这些相似性,并将它们组合到以下集合中,但优先处理数据集2的值:
<表><广告>引用powerplantmatching
如果要引用powerplantmatching,请使用以下纸张
- F.Gotzens、H.Heinrichs、J.Hórsch和F.Hofmann,以透明的方式执行能源建模练习-电厂数据库中的数据质量问题,能源战略评论,第23卷,第1-12页,2019年1月。
带bibtex
@article{gotzens_performing_2019,
title = {Performing energy modelling exercises in a transparent way - {The} issue of data quality in power plant databases},
volume = {23},
issn = {2211467X},
url = {https://linkinghub.elsevier.com/retrieve/pii/S2211467X18301056},
doi = {10.1016/j.esr.2018.11.004},
language = {en},
urldate = {2018-12-03},
journal = {Energy Strategy Reviews},
author = {Gotzens, Fabian and Heinrichs, Heidi and Hörsch, Jonas and Hofmann, Fabian},
month = jan,
year = {2019},
pages = {1--12}
}
和/或Zenodo上存储的当前版本,具有特定于版本的DOI:
致谢
有助于动力装置匹配技术的发展可靠地 与
- 卡尔斯鲁厄理工学院的汤姆·布朗
- 格罗宁根大学的克里斯戴维斯和
- 世界资源研究所的Johannes Friedrich、Roman Hennig和Colin McCormick
许可证
版权所有2018-2020 Fabian Gotzens(Fz Jülich)、Jonas Hórsch(Kit)、Fabian Hofmann(FIAS)
powerplantmatching是在 gplv3,请参见 许可证了解更多信息。