假设我读过一个文件,并将其加载到一个由混合数据组成的二维矩阵中(下面提供了一个示例)
# an example row of the matrix
['529997' '46623448' '2122110124' '2310' '2054' '2' '66' '' '2010/11/03-12:42:08' '26' 'CLEARING' '781' '30' '3' '0' '0' '1']
我想将这一块数据转换成它们的数据类型,以便能够用numpy和scipy对其进行统计分析。在
所有列的数据类型都是integer,第8个索引是DateTime,第10个索引是纯字符串。在
最简单的对话方式是什么?在
性能比可读性更重要,我必须转换4.5m行数据,然后处理它们!在
下面是一个与列表理解有关的一条直线:
我喜欢这样清晰的代码:
根据您的需要,使用迭代器而不是列表。这可以大大减少您所需的内存量。在
我开发了以下函数来转换矩阵的4.5m行,也考虑了无效数据类型异常。虽然它可以通过并行化的过程来改进,但是它对我来说做的很好,不管它值多少钱,我会把它贴在这里。在
相关问题 更多 >
编程相关推荐