2024-04-28 00:48:51 发布
网友
我在做一些副业,其中提供的数据在一个.data文件中。如何打开.data文件以查看数据的外观,以及如何通过python以编程方式读取.data文件?我有Mac OSX
.data
注意:我正在处理的数据是其中一个KDD cup challenges
KDD cup challenges
这很大程度上取决于里面是什么。它可以是二进制文件,也可以是文本文件。
如果它是一个文本文件,那么您可以用打开任何文件的相同方式打开它(f=open(filename,“r”))
如果是二进制文件,可以在open命令(open(filename,“rb”)中添加一个“b”。这里有一个例子:
Reading binary file in Python and looping over each byte
根据其中的数据类型,您可能希望尝试通过csv读取器(csv python模块)或xml解析库(例如lxml)传递它
从上往下看,再看这一页,格式如下:
数据格式 数据集使用的格式与关系数据库中的文本导出格式类似:
一个带有变量名的标题行 每个实例一行 值之间的分隔符列表 缺少值(连续列表)
因此,请看这个答案:
parsing a tab-separated file in Python
我建议尝试一次处理一行而不是加载整个文件,但如果你有内存为什么不。。。
我怀疑它没有在sublime中打开,因为文件很大,但这只是一个猜测。
要快速了解文件可能包含的内容,可以使用strings或cat在终端中执行此操作,例如:
strings
cat
$ strings file.data
或者
$ cat -v file.data
如果您忘记将-v选项传递给cat,并且如果是二进制文件,则可能会弄乱您的终端,因此需要重置它:
-v
$ reset
这很大程度上取决于里面是什么。它可以是二进制文件,也可以是文本文件。
如果它是一个文本文件,那么您可以用打开任何文件的相同方式打开它(f=open(filename,“r”))
如果是二进制文件,可以在open命令(open(filename,“rb”)中添加一个“b”。这里有一个例子:
Reading binary file in Python and looping over each byte
根据其中的数据类型,您可能希望尝试通过csv读取器(csv python模块)或xml解析库(例如lxml)传递它
从上往下看,再看这一页,格式如下:
数据格式 数据集使用的格式与关系数据库中的文本导出格式类似:
一个带有变量名的标题行 每个实例一行 值之间的分隔符列表 缺少值(连续列表)
因此,请看这个答案:
parsing a tab-separated file in Python
我建议尝试一次处理一行而不是加载整个文件,但如果你有内存为什么不。。。
我怀疑它没有在sublime中打开,因为文件很大,但这只是一个猜测。
要快速了解文件可能包含的内容,可以使用
strings
或cat
在终端中执行此操作,例如:或者
如果您忘记将
-v
选项传递给cat,并且如果是二进制文件,则可能会弄乱您的终端,因此需要重置它:相关问题 更多 >
编程相关推荐