NLTK/pyNLTK是否可以“按语言”工作（即非英语），以及如何工作？

1条回答

网友

1楼 · 发布于 2024-05-16 20:09:49

我不确定你指的是代码/设置的变化。NLTK主要依赖于机器学习，而“设置”通常是从训练数据中提取出来的。

当涉及到POS标记时，结果和标记将取决于您使用/训练的标记器。如果你自己训练，你当然需要一些西班牙语/波兰语的训练数据。这些可能很难找到的原因是缺乏公开提供的金本位材料。有很多工具可以做到这一点，但这不是针对python（http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/）的。

nltk.tokenize.punkt.punkt sentence tokenizer标记器将根据多语言句子边界对句子进行标记，本文（http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485）中可以找到这些边界的详细信息。

编程相关推荐

java如何使用Spring和JSF向客户端授予临时权限
java除了Array/ArrayList之外，还有其他保存矩阵元素的方法吗
java BeanValidation不适用于单选按钮
通过java程序连接到配置单元数据库时出错
java如何使用maven解决二级依赖关系
JfreeChart/Java中带有图例的数据表
合并数组时发生java运行时错误
安全性如何在JavaEE中保护WebSocket端点？
java有没有一种方法可以使用insert方法为树插入值
java编程“静态”的另一种方式：代码可以吗？

相关问题更多 >

编程相关推荐

热门问题

热门文章

NLTK/pyNLTK是否可以“按语言”工作（即非英语），以及如何工作？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >