从包含10个文本文件的目录创建数据帧

filelist = glob.glob('D:/Annaconda/Project/aclImdb_v1/aclImdb/test/neg1/*.txt') df_list = [pd.read_csv(file) for file in filelist] neg_df = pd.concat(df_list, axis=1, sort=False) test=pd.DataFrame(neg_df) test_df['label']=0 test_df.head()

1条回答

网友

1楼 · 发布于 2024-04-19 14:27:07

这里还有两种没有循环的方法

原始数据文件

d1.csv

a  b  c
1  3  5
2  4  6

d2.csv

a  b   c
5  8   5
6  4  22

d3.csv

a   b   c
15   8   7
10  85  22

熊猫基地

import pandas as pd
filelist = ['d1.csv', 'd2.csv','d3.csv']
test = pd.concat(map(pd.read_csv, filelist)).reset_index(drop=True)
print(test)
    a   b   c
0   1   3   5
1   2   4   6
2   5   8   5
3   6   4  22
4  15   8   7
5  10  85  22

使用Dask（installation）

import dask.dataframe as dd
ddf = dd.read_csv('d*.csv')
test = ddf.compute().reset_index(drop=True)
print(test)
    a   b   c
0   1   3   5
1   2   4   6
2   5   8   5
3   6   4  22
4  15   8   7
5  10  85  22

来源

SO post for Pandas
SO post for Dask

编程相关推荐

java中STDIN的不同方式是什么
java有没有办法让程序将文本文件中的“\n”识别为换行代码？
java JList不显示项目
java试图反转句子中的字符
infinte列表中的java搜索策略
java使用motionevents模拟鼠标单击
java使用Spring@Cacheable和@PostFilter
java如何使用枚举名获取枚举id
Java无法找到并加载CSV文件
CyclicBarrier上的java可见性同步？

相关问题更多 >

编程相关推荐

热门问题

热门文章

从包含10个文本文件的目录创建数据帧

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >