我有一个超过300k的文件,我需要阅读和附加到字典的数据集。你知道吗
corpus_path = "data"
article_paths = [os.path.join(corpus_path,p) for p in os.listdir(corpus_path)]
doc = []
for path in article_paths:
dp = pd.read_table(path, header=None, encoding='utf-8', quoting=3, error_bad_lines=False)
doc.append(dp)
有没有更快的方法来实现这一点,因为目前的方法需要一个多小时。你知道吗
您可以使用multiprocessing模块。你知道吗
相关问题 更多 >
编程相关推荐