从句子列表中创建标记是返回字符而不是单词

3条回答

网友

1楼 · 编辑于 2024-04-25 09:42:53

首先，如果文件在'utf8'中并且您使用Python2，那么在^{}中使用encoding='utf8'参数会更好：

import io

from nltk import word_tokenize, sent_tokenize

with io.open('file.txt', 'r', encoding='utf8') as fin:
    document = []
    for line in fin:
        tokens += [word_tokenize(sent) for sent in sent_tokenize(line)]

如果是Python3，只需：

^{pr2}$

一定要看看http://nedbatchelder.com/text/unipain.html

至于标记化，如果我们假设每一行都包含某种类型的段落，这些段落可能由一个或多个句子组成，那么我们希望首先在一个列表中加上首字母，以存储整个文档：

document = []

然后我们重复这些行，并将行拆分成句子：

for line in fin:
    sentences = sent_tokenize(line)

然后我们把句子分成几个记号：

token = [word_tokenize(sent) for sent in sent_tokenize(line)]

由于我们要更新文档列表以存储标记化的句子，因此我们使用：

document = []
for line in fin:
    tokens += [word_tokenize(sent) for sent in sent_tokenize(line)]

不推荐！！！（但仍有可能在一行中）：

alvas@ubi:~$ cat file.txt
this is a paragph. with many sentences.
yes, hahaah.. wahahha... 
alvas@ubi:~$ python
Python 2.7.11+ (default, Apr 17 2016, 14:00:29) 
[GCC 5.3.1 20160413] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import io
>>> from itertools import chain
>>> from nltk import sent_tokenize, word_tokenize
>>> list(chain(*[[word_tokenize(sent) for sent in sent_tokenize(line)] for line in io.open('file.txt', 'r', encoding='utf8')]))
[[u'this', u'is', u'a', u'paragph', u'.'], [u'with', u'many', u'sentences', u'.'], [u'yes', u',', u'hahaah..', u'wahahha', u'...']]

网友

2楼 · 编辑于 2024-04-25 09:42:53

您是否应该使用word_tokenize而不是sent_tokenize？在

from nltk.tokenize import word_tokenize

text = open(path).read().lower().decode("utf8")
tokens = word_tokenize(text)

http://www.nltk.org/api/nltk.tokenize.html#nltk.tokenize.word_tokenize

网友

3楼 · 编辑于 2024-04-25 09:42:53

因为^{}返回一个字符串语句列表，^{}将iterable链接到单个iterable，每次返回一个iterable项，直到它们耗尽为止。实际上，您已经将这些句子重新组合成一个字符串，并在列表理解中对其进行迭代。在

要从句子列表中创建一个单词列表，您可以例如拆分和展平：

tokens = [word for sent in sent_tokenize_list for word in sent.split()]

这不能处理标点符号，但您最初的尝试也不能。您的原始版本也适用于split：

^{pr2}$

请注意，您可以使用生成器表达式而不是列表理解作为参数进行解压缩。更好的方法是使用chain.from_iterable：

tokens = [w for w in itertools.chain.from_iterable(
    sent.split() for sent in sent_tokenize_list)]

对于标点符号处理，请使用^{}，而不是str.split。它将返回单词和标点符号作为单独的项，并拆分例如I's到{}和{}（这当然是一件好事，因为它们实际上是单独的单词，只是收缩了）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章