我计划分析一些会议文档,在分析之前,我需要将这些文档重新排列到数据框中。我期望的格式是,对于每一行数据,第一个值是说话人,第二个值是说话人的话语。例如,[“乔”,“我刚吃了玉米卷。”]。可以通过here访问示例文档。以下是迄今为止的进展情况:
file = open('the document','r')
Name = []
sentence = []
for line in file:
if line.find("Column") != -1:
continue
if line.find("Section") or line.find("Index") or line.find("Home Page"):
continue
if line.find(':') != -1:
tokens = line.split(":")
Name.append(tokens[0])
else:
sentence.append(line + " ")
我的第一个问题是如何将说话者和话语组合在一个列表中,然后搜索下一个人。第二个问题是,有没有更好的方法来去除Oral Answers to Questions
之前和The House divided: Ayes 240, Noes 329.Division No. 54][9.59 pm
之后的内容
谢谢你的帮助
在这里,我提出了一个简单的解决方案。这个简单的解决方案有三个部分
:
结尾时代码如下:
现在,变量
document
拥有给定文件中的所有对话。。。这是一个字典列表,其中每个字典只有两个键(speaker
,和sentence
)。因此,我们可以看到document
内的内容如下:或者,您可以做一些更聪明的事情,将该列表转换为
pandas.dataframe
,并将该数据帧写入csv,如下所示:现在,打开
document.csv
,你会发现一切都井然有序。。。我希望这对你有帮助相关问题 更多 >
编程相关推荐