Python:TaggedCorpusReader如何从STTS到通用标记

with open(resultFileName, "w") as output: for sent in stts_corpus.tagged_sents(): for word, tag in sent: try: newTag = mapping_dict[tag]; output.write(word+"/"+newTag+" ") except: print("except " + str(word) + " - " + str(tag)) output.write("\n")

1条回答

网友

1楼 · 发布于 2024-05-29 02:11:13

只需创建一个字典并替换标记，就像您考虑的那样。nltk的通用标记集支持由模块nltk/tag/mapping.py提供。它依赖于一组映射文件，您可以在NLTK_DATA/taggers/universal_tagset中找到这些文件。例如，在en-brown.map中可以找到这样的行，它将一大堆标记映射到PRT，ABX到DET，依此类推：

ABL     PRT
ABN     PRT
ABN-HL  PRT
ABN-NC  PRT
ABN-TL  PRT
ABX     DET
AP      ADJ

这些文件被读入用于翻译的词典。通过以相同的格式创建映射文件，您可以使用nltk的函数来执行翻译，但是老实说，如果您的任务只是以通用格式生成一个语料库，那么我只需要手工进行翻译。但不是通过“searchreplace”：使用nltk的语料库读取器提供的元组，通过直接在映射字典中查找来替换POS标记。你知道吗

假设您知道如何说服nltkTaggedCorpusReader读取语料库，现在您有了一个方法为tagged_words()、tagged_sents()的stts_corpusreader对象。您还需要映射字典，它的键是STTS标记，值是通用标记；如果ABL是STTS标记，mapping_dict["ABL"]应该返回值PRT。然后重新映射如下：

for filename in stts_corpus.fileids():
    with open("new_dir/"+filename, "w") as output:
        for word, tag in stts_corpus.tagged_words():
            output.write(word+"/"+mapping_dict[tag]+" ")
        output.write("\n")

这就是它的全部，除非你想添加一些奢侈品，比如把文字分成几行。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章