如何转换混合数据类型的字符串数组

网友
1楼 · 编辑于 2024-05-23 22:29:10

下面是一个与列表理解有关的一条直线：
In [24]: from datetime import datetime In [25]: func = lambda x: datetime.strptime(x, "%Y/%m/%d-%H:%M:%S") In [26]: [{8:func, 10:str}.get(ind)(item) if ind in {8, 10} else int(item or '0') for ind, item in enumerate(lst)] Out[26]: [529997, 46623448, 2122110124, 2310, 2054, 2, 66, 0, datetime.datetime(2010, 11, 3, 12, 42, 8), 26, 'CLEARING', 781, 30, 3, 0, 0, 1]

网友
2楼 · 编辑于 2024-05-23 22:29:10

我喜欢这样清晰的代码：
from datetime import datetime input_row = ['529997', '46623448', '2122110124', '2310', '2054', '2', '66', '', '2010/11/03-12:42:08', '26', 'CLEARING', '781', '30', '3', '0', '0', '1'] _date = lambda x: datetime.strptime(x, "%Y/%m/%d-%H:%M:%S") # only necessary because '' should be treated as 0 _int = lambda x: int('0' + x) # specify the type parsers for each column parsers = 8 * [_int] + [_date, _int, str] + 6 * [_int] output_row = [parse(input) for parse, input in zip(parsers, input_row)]
根据您的需要，使用迭代器而不是列表。这可以大大减少您所需的内存量。在

网友
3楼 · 编辑于 2024-05-23 22:29:10

我开发了以下函数来转换矩阵的4.5m行，也考虑了无效数据类型异常。虽然它可以通过并行化的过程来改进，但是它对我来说做的很好，不管它值多少钱，我会把它贴在这里。在

def cnvt_data(mat):
    from datetime import datetime

    _date = lambda x: datetime.strptime(x, "%Y/%m/%d-%H:%M:%S")
    # only necessary because '' should be treated as 0
    _int  = lambda x: int('0' + x)

    # specify the type parsers for each column
    parsers = 8 * [_int] + [_date, _int, str] + 6 * [_int]

    def try_parse(parse, value, _def):
        try:
            return parse(value), True
        except ValueError:
            return _def, False

    matrix = [];

    for idx in range(len(mat)):
        try:
            row = mat[idx]
            matrix.append(np.asarray([parse(input) for parse, input in zip(parsers, row)]))
        except ValueError:
            l = [];
            matrix.append([])
            for _idx, args in enumerate(zip(parsers, row)):
                val, pres = try_parse(args[0], args[1], 0)
                matrix[-1].append(val)
                if(not pres): l.append(_idx);
            print "\r[Error] value error @row %d @indices(%s): replaced with 0" %(idx, ', '.join(str(x) for x in l))

        print "\r[.] %d%% converted" %(idx * 100/len(mat)),

    print "\r[+] 100% converted."

    return matrix

问题：

编辑

相关问题更多 >

编程相关推荐

热门问题

热门文章