如何找到文本特征并打印它们?

2024-04-28 00:16:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我刚刚开始使用自然语言工具包(NLTK)作为我的工程学院项目的一部分。有谁能告诉我如何阅读输入段落文本

1)将其分解为文本成分,即在给定段落中分成句子数、单词数、字符数和复音或复合词数

以及

2)同时打印上述确定值


Tags: 项目文本工具包字符单词句子段落成分
2条回答

关于NLTK google group的讨论:

import curses 
from curses.ascii import isdigit 
import nltk 
from nltk.corpus import cmudict

d = cmudict.dict() 

def nsyl(word): 
  return [len(list(y for y in x if isdigit(y[-1]))) for x in d[word.lower()]] 

这应该能给你每个单词的音节数。希望这有帮助。在

输入段落是从哪里来的?文件?慰问?这更像是python的问题,而不是NLTK。在

剩下的,看看nltk.tokenize模块&;nltk.概率.频率分布. 在

相关问题 更多 >