擅长:python、mysql、java
<p>NLTK是一个支持自然语言处理的四状态模型的工具包:</p>
<ol>
<li>标记化:将字符分组为单词。这包括从琐碎的正则表达式到处理像“不能”这样的收缩</li>
<li>标记。这是将词性标记应用于标记(例如“NN”表示名词,“VBG”表示动词动名词)。这通常是通过在训练语料库上训练一个模型(如隐马尔可夫链)来完成的(即大量的人工标注句子)。在</li>
<li>分块/解析。这是将每个带标签的句子提取到树中(例如名词短语)。这可以根据手写的语法或是在语料库上训练的语法。在</li>
<li>信息提取。这是遍历树并提取数据。这是你特定的橙色=水果的地方。在</li>
</ol>
<p>NLTK支持WordNet,一个对单词进行分类的大型语义词典。所以橙色有5个名词定义(南非的水果、树、色素、颜色、河流)。其中每一个都有一个或多个分类层次结构的“上位词路径”。E、 g.“橙色”的第一感觉有两条路径:</p>
<ul>
<li>橘子/柑橘/可食用水果/水果/生殖结构/植物器官/植物部分/自然物体/整体/物体/物理实体/实体</li>
</ul>
<p>以及</p>
<ul>
<li>橘子/柑橘/食用水果/农产品/食品/固体/物质/物理实体/实体</li>
</ul>
<p>根据您的应用程序域,您可以将橙色标识为水果、食物或植物。然后你可以使用分块树结构来确定更多(谁对水果做了什么,等等)</p>