德语自动单词边界检测
我想换个说法:我需要一份德语单词的列表,这样我就可以检查某个片段是否是一个单词。到目前为止,我的解决办法是拿着这个字符串,看看它是否在字典里,如果不在,就删掉最后一个字符再检查一次,依此类推。现在我只需要一份德语单词列表。有没有人知道哪里可以找到?
我有一堆德语文本,但所有的空格都没了。现在我需要进行某种单词边界检测,把“NamensänderungimNamenderIntegration”变成["Namensänderung", "im", "Namen", "der", "Integration"]。
我找到一个叫wordsegment的Python包,效果还不错,但不是特别理想。我还发现了german_compound_splitter,但它会把“Namensänderung”拆分成“Namens”和“änderung”。有没有人有这方面的经验,或者知道我该如何构建一个解决方案?
1 个回答
0
如果输入的文本没有任何空格,而你又需要自动识别德语文本中的单词边界,那么你可能需要使用专门的德语分词库或者为这个目的特别训练的语言模型。你可以使用的一个库是wordsegment,它提供了分词的功能。
不过需要注意的是,wordsegment主要是为英语设计的,虽然它可能对某些德语文本有效,但它的准确性可能不如专门为德语训练的模型。
安装wordsegment库的方法是:
pip install wordsegment
import wordsegment
text = "IchbineinStudentausDeutschland."
segmented_text = wordsegment.segment(text)
print(segmented_text)