在python中读取多个文件

2024-04-27 00:57:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个超过300k的文件,我需要阅读和附加到字典的数据集。你知道吗

corpus_path = "data"
article_paths = [os.path.join(corpus_path,p) for p in os.listdir(corpus_path)]

doc = []
for path in article_paths:
    dp = pd.read_table(path, header=None, encoding='utf-8', quoting=3, error_bad_lines=False)
    doc.append(dp)

有没有更快的方法来实现这一点,因为目前的方法需要一个多小时。你知道吗


Tags: 文件数据path方法infordatadoc
1条回答
网友
1楼 · 发布于 2024-04-27 00:57:15

您可以使用multiprocessing模块。你知道吗

from multiprocessing import Pool

def readFile(path):
    return pd.read_table(path, header=None, encoding='utf-8', quoting=3, error_bad_lines=False)


result = list(Pool(processes=nprocs).imap(readFile, article_paths))  #nprocs = Number of processors 

相关问题 更多 >