我的CSV是:
,Élément,État général,Observations
0,ENTRÉE,Etat d'usage,
1,PORTES,Etat d'usage,Chaînette cassé
Serrure du bas en mauvais état le système est
cassé au niveau de la chaînette
2,ENTRÉE / PORTESENTRÉE / PORTES,,
3,Type de porte,,Porte blindée
4,Poignée,,Bon état
5,Couleur,,Bois
但我想要这个:
,Élément,État général,Observations
0,ENTRÉE,Etat d'usage,
1,PORTES,Etat d'usage,Chaînette cassé; Serrure du bas en mauvais état le système ...
2,ENTRÉE / PORTESENTRÉE / PORTES,,
3,Type de porte,,Porte blindée
4,Poignée,,Bon état
5,Couleur,,Bois
我的代码只是将每个页面的一个或多个pdf转换为csv,如下所示:
import os
import io
import shutil
import tabula
import time
start_time = time.time()
path = './'
i=0
j=0
for( directory, subdirectories, file ) in os.walk(path):
for f in file:
if f.endswith('.pdf'):
df = tabula.read_pdf(str(directory) + "/" + str(f), pages='all')
i=0
j+=1
for curr_df in df:
i+=1
curr_df.to_csv('./' + str(directory) + '-' + str(i) + '.csv')
print("--- convert %d .PDF to %d .CSV in %s seconds ---" % (j, i, time.time() - start_time))
我的问题也是因为我不能逐案处理。我需要能够以相同的方式处理所有csv
对于@Rjadriansen,我得到的错误是:
错误来自此.csv文件
我想这是因为空线
您可以打开
csv
,读取行,并将不以空开头(标题)或以数字开头的字符串添加到前一行。然后将这些行写入一个新的csv
文件:要处理目录中的所有文件,我们可以将其放入函数中,并将目录中的所有文件提供给该函数:
相关问题 更多 >
编程相关推荐