Pydata编织器
pydataweaver的Python项目详细描述
pydata编织器项目
pydataweaver是一个python工具,它提供了一个简单易用、干净且健壮的数据集成平台。
pydataweaver支持空间数据集(栅格和矢量数据)以及表格数据集的数据集成。
科学中的问题解决涉及并要求研究实体使用被研究实体之间的广泛关联。这些关联是通过收集和整合各种来源和形式的数据而获得的。
由于这些异质的数据集是由不同的科学家收集的,因此这些数据集是基于领域的,或者是围绕一个独特的问题子集。
pydataweaver弥补了gap科学家的不足,因为他们没有可以用于多维特征分析的易于统一的数据集。数据编织器处理形成新数据集的异构数据集的查找和集成。
依赖关系
此软件包需要Python3.5+,建议使用Python3.6+,具体取决于以下软件包:
retriever
PyMySQL>=0.4
psycopg2-binary
gdal
future
numpydoc
pandas
可以使用pip
安装它们。
sudo pip install -r requirements.txt
该软件包支持以下数据库管理系统(DBMS):
DBMS | Spatial Datasets | Tabular Datasets |
---|---|---|
PostgreSQL | Yes | Yes |
SQLite | No | Yes |
安装
pip install pydataweaver
从源安装
使用pip直接从github安装:
pip install git+https://git@github.com/weecology/pydataweaver.git
或:
- 克隆存储库
- 在包含setup.py的目录中,运行以下命令:
pip install .
。您可能需要在 命令取决于您的系统(即sudo pip install .
)。
对于那些对开发感兴趣的人,可以找到更广泛的文档here
使用命令行
安装包后,运行pydataweaver
update下载最新的可用数据集脚本。
要查看命令行选项和数据集的完整列表,请运行pydataweaver --help
。
$pydataweaver—帮助
usage: pydataweaver [-h][-v][-q]{help,ls,citation,license,join,update} ... positional arguments: {help,ls,citation,license,join,update} sub-command helphelp ls display a list all available datasets citation view citation license view dataset licenses join integrate data using a data package script update download updated versions of data package scripts optional arguments: -h, --help show this help message and exit -v, --version show program's version number and exit -q, --quiet suppress command-line output
要获取可用数据集的列表,请使用pydataweaver ls
$pydataweaver ls
Available datasets : 11
breed-bird-routes-bioclim
mammal-community-bioclim
mammal-community-masses
mammal-community-sites-all-bioclim
mammal-community-sites-bioclim
mammal-community-sites-harvard-linear-features
mammal-community-sites-harvard-linear-features-soils
mammal-community-sites-harvard-soil
mammal-diet-mammal-life-history
mammal-sites-bioclim-1-2
portal-plot-species
.
...
若要查看数据集的引用,请使用“pydataweaver引文[数据集名称] 运行没有引用的pydataweaver将为该工具提供引用。
$ pydataweaver citation mammal-diet-mammal-life-history
Dataset: mammal-diet-mammal-life-history Description: Integrated data set of mammal-life-hist and mammal-diet Citations: mammal-life-hist: S. K. Morgan Ernest. 2003. .... mammal-diet: Kissling WD, Dalby L, Flojgaard C, Lenoir J, ...
集成数据
要集成数据,请运行pydataweaver join[data package name]并提供连接配置。
pydataweaver join postgres -h usage: pydataweaver join postgres [-h][--user [USER]][--password [PASSWORD]][--host [HOST]][--port [PORT]][--database [DATABASE]][--database_name [DATABASE_NAME]][--table_name [TABLE_NAME]] dataset positional arguments: dataset file name optional arguments: -h, --help show this help message and exit --user [USER], -u [USER] Enter your PostgreSQL username --password [PASSWORD], -p [PASSWORD] Enter your password --host [HOST], -o [HOST] Enter your PostgreSQL host --port [PORT], -r [PORT] Enter your PostgreSQL port --database [DATABASE], -d [DATABASE] Enter your PostgreSQL database name --database_name [DATABASE_NAME], -a [DATABASE_NAME] Format of schema name --table_name [TABLE_NAME], -t [TABLE_NAME] Format of table name
将pydataweaver与postges.pgpass文件集一起使用
pydataweaver join postgres
或提供命令行配置
pydataweaver join postgres -u name-of-user -h host-name -d database-to-use
贡献
如果发现此包不支持任何操作,请随意创建github问题。此外,我们非常欢迎您提交一个bug修复或其他特性的请求。
如果发现任何不受此软件包支持的操作,请感觉 免费创建github问题。另外,欢迎您提交 请求错误修复或附加功能的请求。
请看一下Code of Conduct对这个项目的管理贡献。
致谢
这个软件的开发是由the Gordon and Betty Moore Foundation's Data-Driven Discovery Initiative到Grant GBMF4563到ethan white资助的。