将任何文件加载到pandas数据框中,配置最少,重点放在生物信息学上

dataframer的Python项目详细描述


数据框

PyPI version

尝试将任何文件加载到pandas数据帧中, 以最少的配置, 关注生物信息学

示例

通常,您将从磁盘读取文件(open('my-file.txt', 'rb'))。 但是字节流在这里更简单。

>>> from io import BytesIO
>>> from dataframer import dataframer
>>> from pandas import set_option

>>> set_option('display.max_columns', None)

>>> bytes = b'a,b,c,z\n1,2,3,foo\n4,5,6,bar'
>>> stream = BytesIO(bytes)

默认行为是在第一列之后删除非数值。

>>> df_info = dataframer.parse(stream)
>>> df_info.data_frame
   b  c
a      
1  2  3
4  5  6
>>> df_info.label_map is None
True

或者,它们可以保存在原地…

>>> df_info = dataframer.parse(stream, keep_strings=True)
>>> df_info.data_frame
   b  c    z
a           
1  2  3  foo
4  5  6  bar
>>> df_info.label_map is None
True

…或者它们可以用来组成更有意义的行标签。

>>> df_info = dataframer.parse(stream, relabel=True)
>>> df_info.data_frame
   b  c
a      
1  2  3
4  5  6
>>> df_info.label_map
{1: 'foo / 1', 4: 'bar / 4'}

或者,也可以将第一列视为数据。

>>> df_info = dataframer.parse(stream, col_zero_index=False)
>>> df_info.data_frame
   a  b  c
0  1  2  3
1  4  5  6
>>> df_info.label_map is None
True

如果你不需要整个文件,而只需要第一个 列信息行:

>>> df_info = dataframer.parse(stream, first_row_only=True)
>>> df_info.data_frame
   b  c
a      
1  2  3
>>> df_info.label_map is None
True

单列列表有一个隐式标题:

>>> bytes = b'banana\napple\npear'
>>> stream = BytesIO(bytes)
>>> df_info = dataframer.parse(stream)
>>> df_info.data_frame
     item
0  banana
1   apple
2    pear

释放过程

在分支更新VERSION.txt中,使用语义版本控制:当 合并后,成功的travis构建将向pypi推送新版本。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java程序中的方法?   java BufferedReader未正确读取数据   java无法正确使用(@Inject)   java非法参数异常如何声明方法中定义的静态变量   java如何设置Notes文档中RichTextItem字段的内容?   具有特定扩展名的java Android拾取文件(pdf和docx)   netbeans上的尸检显示java版本错误   将数字匹配到另一个数组中   在java中用CSV解析器实现键值解析器   JavaSpring安全加密BadPaddingException:给定的最后一个块没有正确填充。如果在解密过程中使用了坏密钥,则会出现此类问题   JavaFX中的java KeyCodeCombination控件+左键或Ctrl+右键   java映射什么。放回?   java自定义对话框类不显示该对话框   java如何在eclipse中查看现有类?   java Android:无法集成抽屉导航,因为已经在为Google地图调用extends