在python中读取多个文件

2024-04-27 00:57:15 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个超过300k的文件，我需要阅读和附加到字典的数据集。你知道吗

corpus_path = "data"
article_paths = [os.path.join(corpus_path,p) for p in os.listdir(corpus_path)]

doc = []
for path in article_paths:
    dp = pd.read_table(path, header=None, encoding='utf-8', quoting=3, error_bad_lines=False)
    doc.append(dp)

有没有更快的方法来实现这一点，因为目前的方法需要一个多小时。你知道吗

Tags：文件数据 path 方法 in for data doc

1条回答

网友

1楼 · 发布于 2024-04-27 00:57:15

您可以使用multiprocessing模块。你知道吗

from multiprocessing import Pool

def readFile(path):
    return pd.read_table(path, header=None, encoding='utf-8', quoting=3, error_bad_lines=False)


result = list(Pool(processes=nprocs).imap(readFile, article_paths))  #nprocs = Number of processors

在python中读取多个文件

相关问题更多 >

编程相关推荐

热门问题

热门文章

在python中读取多个文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >