Python MetaCSV包_程序模块 - PyPI

文档感知数据读、写和分析工具

MetaCSV的Python项目详细描述

不受欢迎的= METACSV [谚] 
图片：：https://img.shields.io/travis/climateimpactlab/metacsv/master.svg？style=正方形
：目标：https://travis-ci.org/climateimpactlab/metacsv 
图片：：https://img.shields.io/pypi/v/metacsv.svg？style=正方形
：目标：https://pypi.python.org/pypi/metacsv 
图片：：https://img.shields.io/covertalls/delgadom/metacsv/master.svg？style=正方形
：目标：https://coveralls.io/github/delgadom/metacsv？分支=主 
图片：：https://img.shields.io/pypi/pyversions/metacsv.svg？style=正方形
：目标：https://pypi.python.org/pypi/metacsv 
图片：：https://anaconda.org/delgadom/metacsv/badges/version.svg
：目标：https://anaconda.org/delgadom/metacsv 
图片：：https://anaconda.org/delgadom/metacsv/badges/downloads.svg
：目标：https://anaconda.org/delgadom/metacsv
图片：：https://badges.gitter.im/metacsv/lobby.svg
：alt：在https://gitter.im/metacsv/lobby加入聊天
：目标：https://gitter.im/metacsv/lobby？utm_source=徽章和utm_medium=徽章和utm_campaign=公关徽章和utm_content=徽章 
``metacsv``文档感知数据读、写和分析工具 
请参阅readthedocs上的完整文档_ 
_阅读文档：http://metacsv.rtfd.org 
概述
========= 
**metacsv**提供工具，用符合yaml的头读取csv数据
直接进入"pandas"、"series"、"dataframe"、"panel"或
``xarray```dataarray``或``dataset``。 
数据规范
-- 
可以使用yaml格式的头指定数据，并带有yaml*开始标记*
上面的字符串（`--`），下面的yaml*结束标记*字符串（``…``）块。只允许一个yaml块。如果文档分隔字符串不是
文件的第一行（非空白）将是
由csv读取器解释。yaml数据可以具有任意的复杂性。 
代码块：：python 
>；>>将metacsv、numpy作为np导入
>；>；将stringio导入为io为python 3导入io
>>gt；doc=io.stringio（''
…---
…作者：一个人
…日期：2000-12-31
…变量：
…流行音乐：
…名称：人口
…单位：百万
…国内生产总值：
…名称：产品
…单位：2005亿美元
……
…地区、年份、人口、国内生产总值
…美国，2010309.313599.3
…美国，2011311.713817.0
…加拿大，2010年，34.01240.0
…2011年，34.31276.7
…''） 
在python中使用metacsv格式的文件
—— 
使用类似pandas的语法将metacsv格式的数据读入python： 
代码块：：python 
>；>；df=metacsv.read_csv（doc，index_col=[0,1]）
>；>；df doctest:+规范化空白
<；metacsv.core.containers.dataframe（4，2）>；
国内生产总值
地区年份
美国2010 309.3 13599.3
2011年311.7 13817.0
2010年5月34日1240.0
2011年34.3 1276.7
<；空行>；
变量
国内生产总值：
命名产品
单位2005亿美元
弹出：
姓名填充
单位：百万
属性
作者：一个人
日期：2000-12-31 
这些属性可以从一个数据容器传输到另一个数据容器： 
代码块：：python 
>>>np.随机种子（1）
>；。>；s=元空间序列（np.random.random（6））

<；metacsv.core.containers.series（6L，）>；
0.417022
10.720324
2 0.000114
3 0.302333
4 0.146756
50.092339
数据类型：float64
>>>s.attrs=测向属性

<；metacsv.core.containers.series（6L，）>；
0.417022
10.720324
2 0.000114
3 0.302333
4 0.146756
50.092339
数据类型：float64
<；空行>；
属性
作者：一个人
日期：2000-12-31 
可以复制所有元SV属性，包括"attrs"属性对象，
分配给新对象并删除。因为这些属性在很大程度上
正常熊猫数据处理不稳定，建议属性
在尝试数据工作之前复制，然后在IO之前重新分配
转换。 
将metacsv数据导出为其他格式
——--- 
CSV
~~~~~~~~~ 
metacsv"series"或"dataframe"可以作为前缀为csv的yaml写入
使用与其对应的"pandas"相同的"to-csv"语法： 
代码块：：python 
>>gt；df.attrs['新属性']="已在python中更改！"
>>>df.to_csv（'my_new_data.csv'） 
生成的csv将包含一个yaml格式的头和原始的
更新元数据以包含attr['new attribute']。， 熊猫
~~~~~~~~~~~~~~~ 
坐标和metacsv属性可以很容易地从metacsv中剥离
容器： 
代码块：：python 

国内生产总值
地区年份
美国2010 309.3 13599.3
2011年311.7 13817.0
2010年5月34日1240.0
2011年34.3 1276.7 
夏利/netcdf
~~~~~~~~~~~~~~~ 
`xarray<；http://xarray.pydata.org/>；``为
在索引的"ndarray"数据上操作。它是根据"netcdf"数据建模的
存储格式在气候科学中经常使用，但对于许多
具有高阶数据的应用程序。 
代码块：：python 
>>>ds=df.to_xarray（）

<；xarray.dataset>；
尺寸：（地区：2，年份：2）
坐标：
*区域（区域）对象"usa"可以
*国际64年（年）2011
数据变量：
POP（地区，年份）浮动64 309.3 311.7 34.0 34.3
GDP（地区、年份）浮动64 1.36E+04 1.382E+04 1.24E+03 1.277E+03
属性：
作者：一个人
日期：2000-12-31
新属性：在python中更改！
>>gt；ds.to_netcdf（'my_netcdf_data.nc'） 
酸洗
~~~~~~~~~ 
腌制就像熊猫一样有效。 
代码块：：python 
>>>>df.to_pickle（"my_metacsv_pickle.pkl"）
>>>metacsv.read_pickle（'my_metacsv_pickle.pkl'）
<；metacsv.core.containers.dataframe（4，2）>；
国内生产总值
地区年份
美国2010 309.3 13599.3
2011年311.7 13817.0
2010年5月34日1240.0
2011年34.3 1276.7 
变量
gdp:ordereddict（[（"name"，"product"），（"unit"，"2005$bn"））
pop:ordereddict（[（"name"，"population"），（"unit"，"millions"））
属性
作者：一个人
日期：2000-12-31
新属性：在python中更改！ <溴>其他
~~~~~~~~~ 
目前，metacsv只支持通过
``xarray``模块。但是，请随意建议其他功能和
贡献自己的力量！ 
即时转换为其他类型
——--- 
特殊的转换实用程序允许您转换任何metacsv、pandas或xarray
此组中任何其他类型的容器或csv文件路径。 
所有这些转换实用程序也是metacsv容器上的方法。 
*至 
`` to_csv``允许您将任何容器或csv文件写入一个metacsv格式
csv文件。关键字参数"attrs"、"coords"和"variables"将是
在写入数据之前附加到数据。这些属性中的任何冲突
将使用此函数的参数更新 
代码块：：python 
>；>>导入熊猫作为PD，numpy作为NP，xarray作为XR，metacsv
>；>；df=pd.dataframe（np.random.random（（3,4）），columns=list（'abcd'））
>；>df
a b c d
0.558083 0.665184 0.226173 0.339905
1 0.541712 0.835804 0.326078 0.179103
2 0.332869 0.435573 0.904612 0.823884 
>；>metacsv.to_csv（df，'mycsv.csv'，attrs={author'：'my name'，'date'：'2015-12-31'}）
>；>；
>>df2=metacsv.read_csv（'mycsv.csv'，index_col=[0]）
>；>df2
<；metacsv.core.containers.dataframe（3，4）>；
a b c d
0.558083 0.665184 0.226173 0.339905
1 0.541712 0.835804 0.326078 0.179103
2 0.332869 0.435573 0.904612 0.823884 
属性
作者：我的名字
日期：2015-12-31
新属性：在python中更改！ 
>；>metacsv.to_csv（df2，'mycsv.csv'，attrs={author'：'new name'}）
>；>；
>；>metacsv.read_csv（'mycsv.csv'，index_col=[0]）
<；metacsv.core.containers.dataframe（3，4）>；
a b c d
0.558083 0.665184 0.226173 0.339905
1 0.541712 0.835804 0.326078 0.179103
2 0.332869 0.435573 0.904612 0.823884 
属性
作者：新名字
日期：2015-12-31
新属性：在python中更改！ 
*收件人 
`` to_header``允许您将特殊属性直接写入
metacsv格式的头文件。特殊属性可以是单独的
从metacsv容器中指定或获取。的"header\u file"参数
"read_csv"和"to_csv"都允许创建特殊的头文件
它允许您在
需要。 
例如，假设有一个表可以读入熊猫 
代码块：：python 
>>gt；将MetaCSV、Pandas作为PD导入
>>gt；PD.数据帧（
[['x'，1,2,3]，['y'，4,5,6]，['z'，7,8,9]]，列=['index'，'a'，'b'，'c']）。到'u csv（'mycsv.csv'，index=none）
>；>；metacsv.read_csv（'mycsv.csv'）
<；metacsv.core.containers.dataframe（3，4）>；
索引a b c
0 x 12 3个
1年4月5日6
2赫兹78 9 
可以创建并使用一个单独的头文件，然后可以将其与数据一起读入： 
代码块：：python 
>；>metacsv.to_header（'mycsv.header'，attrs={author'：'me'}，coords='索引'）
>；>metacsv.read_csv（'mycsv.csv'，header_file='mycsv.header'）
<；metacsv.core.containers.dataframe（3，3）>；
a b c
索引
x 12 3个
Y 4 5 6年 Z 7 8 9区 
坐标
*索引（索引）对象x、y、z
属性
作者：我 
*致沙雷 
`` to-xarray``将任何容器或csv文件作为xarray容器返回。表
数据（csv文件和数据帧）将创建"xarray.dataset"对象，而
系列对象将创建"xarray.dataarray"对象。关键字参数
``attrs``````coords```和``variables``将附加到数据之前
已写入。这些属性中的任何冲突都将用参数更新
此函数。 
*到数据数组 
`` to_dataarray``将任何容器或csv文件作为``xarray.dataarray``返回。
将堆叠表格数据（csv文件和数据帧），并重新排列列
作为新的"xarray.coordinates"。关键字参数"attrs"、"coords"和
`变量'将在写入数据之前附加到数据。任何冲突
这些属性将使用此函数的参数进行更新。 
*到数据集 
`` to_dataarray``将任何容器或csv文件作为``xarray.dataarray``返回。
将堆叠表格数据（csv文件和数据帧），并重新排列列
作为新的"xarray.coordinates"。关键字参数"attrs"、"coords"和
`变量'将在写入数据之前附加到数据。任何冲突
这些属性将使用此函数的参数进行更新。 
*致熊猫 
``to`u pandas``删除特殊属性并返回普通的``series``或
``dataframe``对象。 
*到网络CDF 
``到'u netcdf``首先将容器或csv文件转换为'xarray.dataset``
使用"to-u dataset"函数，然后使用
``xarray```ds.to\u netcdf``方法。 
代码块：：python 
>；>metacsv.to_netcdf（'mycsv.csv'，'mycsv.nc'，header_file='mycsv.header'）
>；>>将xarray导入为xr
>>>xr.open_数据集（'mycsv.nc'）
<；xarray.dataset>；
尺寸：（索引：3）
坐标：
*索引（索引）s1'x''y''z'
数据变量：
a（索引）int64 1 4 7
b（索引）int64 2 5 8
C（索引）Int64 3 6 9
属性：
作者：我 
特殊属性
——--- 
"coords"和"variables"属性是关键字，而不是简单的
传递给metacsv对象的"attrs"属性。 
变量
~~~~~~~~~~~~~ 
变量是应用于特定列或数据变量的属性。在
metacsv容器，变量显示为一组单独的属性。论
转换为"xarray"，这些属性被分配给特定于变量的
``attrs`： 
代码块：：python 
>>>ds=df.to_xarray（）

<；xarray.dataset>；
尺寸：（索引：4）
坐标：
*索引（索引）int64 0 1 2 3
数据变量：
区域（索引）对象"usa""usa""can""can"
国际64年（指数）2010年2011年2011年
弹出（索引）浮点64 309.3 311.7 34.0 34.3
GDP（指数）浮动64 1.36E+04 1.382E+04 1.24E+03 1.277E+03
属性：
日期：2000-12-31
作者：一个人 

<；xarray.dataarray'pop'（索引：4）>；
数组（[309.311.7,34.，34.3）
坐标：
*索引（索引）int64 0 1 2 3
属性：
名称：人口
单位：百万 
请注意，目前，变量在切片操作中并不持久。 
**解析变量** <>变量有一个特殊的参数"read-csv"："parse-vars"允许解析格式为"var:description[unit]`"的单行变量定义： 
代码块：：python 
>>gt；doc=io.stringio（'' 
作者：一个人
日期：2000-12-31
变量：
人口：百万
国内生产总值：产品[2005年10亿美元]

地区、年份、人口、国内生产总值
美国，2010309.313599.3
美国，2011311.713817.0
加拿大，2010年，34.01240.0
加拿大，2011年，34.31276.7
''） 
>；>metacsv.read_csv（doc，index_col=0，parse_vars=true）
<；metacsv.core.containers.dataframe（4，3）>；
全年国内生产总值
地区
美国2010 309.3 13599.3
美国2011 311.7 13817.0
2010年5月34日1240.0
2011年5月34.3日1276.7 
变量
国内生产总值：{u'description'：'产品'，u'unit'：'2005年10亿美元'}
流行语：{u'description'：'人口'，u'unit'：'百万'}
属性
日期：2000-12-31
作者：一个人 
坐标
~~~~~~~~~~~~~ 
坐标的概念基础取自'xAlx'，其中数据是
被视为一个ndarray而不是一张桌子。如果你打算只和
熊猫喜欢"metacsv"的特性，您并不真正需要坐标。 
也就是说，在csv中指定"coords"属性将导致
索引处理： 
代码块：：python 
>>gt；doc=io.stringio（'' 
作者：一个人
日期：2000-12-31
变量：
弹出：
名称：人口
单位：百万
国内生产总值：
名称：产品
单位：2005亿美元
咕哝：
-地区
-年份

地区、年份、人口、国内生产总值
美国，2010309.313599.3
美国，2011311.713817.0
加拿大，2010年，34.01240.0
加拿大，2011年，34.31276.7
''） 
>>>df=metacsv.read_csv（文档）
>；>df
<；metacsv.core.containers.dataframe（4，2）>；
国内生产总值
地区年份
美国2010 309.3 13599.3
2011年311.7 13817.0
2010年5月34日1240.0
2011年34.3 1276.7 
坐标
*区域（区域）对象可以，美国
*国际64年2010年、2011年
变量
gdp:ordereddict（[（"name"，"product"），（"unit"，"2005$bn"））
pop:ordereddict（[（"name"，"population"），（"unit"，"millions"））
属性
日期：2000-12-31
作者：一个人 
但是，当移动到"xarray"对象时，坐标变得特别有用
或"netcdf"文件。上面的"dataframe"不会有问题，因为"region"``
和"年份"是正交的： 
代码块：：python 

<；xarray.dataset>；
尺寸：（地区：2，年份：2）
坐标：
*区域（区域）对象"usa"可以
*国际64年（年）2011
数据变量：
POP（地区，年份）浮动64 309.3 311.7 34.0 34.3
GDP（地区、年份）浮动64 1.36E+04 1.382E+04 1.24E+03 1.277E+03
属性：
日期：2000-12-31
作者：一个人 
当索引中的列不独立并且
不能认为是正交的。在这种情况下，可以将"coords"指定为
csv头中的类似dict的属性，或作为
转换方法： 
代码块：：python 
doc=io.stringio（''' 
咕哝：
地区：
regname:'区域'
大陆："地区"
年份：

地区、regname、大陆、年份、pop、gdp
美国，美国，北美，2010309.313599.3
美国，美国，北美，2011311.713817.0
加拿大，北美，2010年，34.01240.0
加拿大，北美，2011年，34.31276.7
''） 
>>>元空间到阵列（文档）
<；xarray.dataset>；
尺寸：（地区：2，年份：2）
坐标：
*区域（区域）对象"usa"可以
*国际64年（年）2011
regname（region）对象"美国""加拿大"
大陆（地区）对象"北美""北美"
数据变量：
POP（地区，年份）浮动64 309.3 311.7 34.0 34.3
GDP（地区、年份）浮动64 1.36E+04 1.382E+04 1.24E+03 1.277E+03 
请注意，结果"dataset"不是由
所有四个坐标，但仅由由``*``表示的基坐标表示。
如果不首先这样设置"coords"属性，则生成的数据
将具有与``（美国、加拿大）``对应的``nan``值
``（加拿大，美国）``。 待办事项
============ 
*允许"xarray.dataset"和"xarray.dataarray"的自动混合``
对象到元SV容器。 
*将metacsv功能扩展到"panel"对象 
*使"coords"和"attrs"在切片操作中持久化
（尝试上面的示例中的"df['pop].to_xarray（）``并观看
失败…） 
*改进"pandas"和"metacsv"之间的挂钩： 
-更新"df.index.names"赋值中的"coord"名称
-在堆栈/取消堆栈上更新"coords"
-更新上的"coords" 
*改进语法分析器以自动去除尾随逗号和其他excel遗物 
*启用"read-csv（engine="c"）"…这目前不起作用。 
*按坐标/变量名索引的句柄属性-->；分配给
坐标/变量特定``attrs`` 
*让我们启动问题跟踪程序并删除此部分！ 
*我们是否应该重新考虑"特殊属性"，例如命名为Coords？也许这些应该
包含在
避免与其他通用属性混淆… 
*允许在"read-csv"调用中使用属性断言（例如"version=>；1.6.0"`） 
*提高测试覆盖率 
*改进文档并构建"已读文档"页 
功能请求
==================
*为``multi csv``-->；``panel``创建语法或使用文件名组合正则表达式
*最终？允许使用
达斯克/沙雷
*最终？添加XML、SQL和其他结构化语法语言转换 
_ bsd:http://opensource.org/licenses/bsd-3-clause
_文档：http://metacsv.readthedocs.org/en/latest/
_ API:http://metacsv.readthedocs.org/en/latest/api.html 
=========
更改日志
========= 
在这里您可以找到最近对metacsv的更改。 
版本开发
----- 
正在发布 
更新了更改。 
版本0.0.1
---- 
发布日期：2016-05-04 
pypi上的第一个版本。

欢迎加入QQ群-->： 979659372

MetaCSV 0.1.0

MetaCSV的Python项目详细描述

推荐PyPI第三方库

bgionline

distributions-ac

py_waveform

pytorch_ssim

gdtools

initrd

anex

steem_bot_checker

SAFMI_UserPrediction

vtk-vacreader

pyextension

valuationframework

pynfce

cinnamon

snfilter

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

MetaCSV 0.1.0

MetaCSV的Python项目详细描述

推荐PyPI第三方库

bgionline

distributions-ac

py_waveform

pytorch_ssim

gdtools

initrd

anex

steem_bot_checker

SAFMI_UserPrediction

vtk-vacreader

pyextension

valuationframework

pynfce

cinnamon

snfilter

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签