给定一些Penn Treebank以这种格式标记的文本:
“David/NNP Short/NNP will/MD主持/VB/DT会议/NN./。/DT boy/NN坐/VBZ在/DT椅子上/NN./。”
我想产生一个多层次的字典,有一个关键字和计数的频率,它似乎标记为每个位置,所以我们有['椅子,VB:1,NN:1','的,DT:3',]等
我想我可以使用正则表达式来提取单词和相应的位置
r'[A+Za+z]+/' and r'/[A+Z]+'
但是我不知道如何把这些放在一起,为一个单词和它对应的词性出现创造一个条目。你知道吗
有什么想法?你知道吗
Tags:
在这种情况下,不必使用正则表达式。你知道吗
您可以按空格拆分,然后用斜杠将结果收集到^{} 的
defaultdict
的int
:现在
d
将是:相关问题 更多 >
编程相关推荐