如何在列表中运行tokeniser函数模块对象是不可调用的？

2024-06-16 11:29:40 发布

您现在位置：Python中文网/ 问答频道 /正文

7783

网友

男 | 程序猿一只，喜欢编程写python代码。

任务：在下面的代码单元中，编写代码，在路透社语料库的10个句子样本上运行NLTK\u Tokenise和您自己的Tokenise函数。你知道吗

我已经编写了以下代码：

import pandas as pd
sample_size=10
r_list=[]

for sentence in rcr.sample_raw_sents(sample_size):
    r_list.append(sentence)

my_list = r_list

????
my_list=[i.split(tokenise) for i in my_list]
r_list=[i.split(nltk.tokenize) for i in r_list]    

pd.DataFrame(list(zip(my_list,r_list)),columns=["MINE","NLTK"])

我也考虑过（从刚刚过去的“？？？”开始）地址：

my_list = [i.split() for i in my_list]
r_list = [i.split() for i in r_list]

tok = tokenise(my_list)
cortok = nltk.tokenize(r_list)

pd.DataFrame(list(zip(tok,cortok)),columns=["MINE","NLTK"])

现在我有两个具有相同语料库信息的列表，我想将我的函数应用到所说的列表中，尽管我无法找出任何允许我应用函数而不是字符串等的方法。如果我只是将我的标记器复制和粘贴为字符串，我相信会有更好的方法来做到这一点。对于第二个选项，我怀疑我是否需要两个单独的列表，是否可以标记一个列表并将其附加到新变量。你知道吗

如果有人提供帮助，则取得进一步进展：

import pandas as pd
sample_size=10
r_list=[]

for sentence in rcr.sample_raw_sents(sample_size):
    r_list.append(sentence)

new_list = [i.split()[0] for i in r_list]

tok = tokenise(new_list)
cortok = nltk.tokenize(new_list)

pd.DataFrame(list(zip(tok,cortok)),columns=["MINE","NLTK"])

我想我要做的是将列表分成不同的变量，然后生成一个大小为10（sample\ u size）的数据帧。尽管我不知道如何将一个长度列表分割成不同的变量，除非我真的独立地去1，2，3，4，…，10。你知道吗

所以我取得了更大的进步，我意识到我将不得不使用map（）：

import pandas as pd
sample_size=10
r_list=[]

for sentence in rcr.sample_raw_sents(sample_size):
    r_list.append(sentence)

tok = map(tokenise,r_list)
cortok = map(nltk.tokenize,r_list)

pd.DataFrame(list(zip(tok,cortok)),columns=["MINE","NLTK"])

虽然我的最后一句话还有些问题。TypeError:“module”对象不可调用。我已经在谷歌上搜索过了，但仍然不能完全确定问题出在哪里。熊猫已经进口了？你知道吗

我现在意识到我在输入时犯了一个愚蠢的错误nltk.标记化而不是单词标记化。你知道吗

Tags： sample in 列表 for size my sentence list

1条回答

网友

1楼 · 发布于 2024-06-16 11:29:40

使用map（）：

from nltk.tokenize import word_tokenize
import pandas as pd
sample_size=10
r_list=[]

for sentence in rcr.sample_raw_sents(sample_size):
    r_list.append(sentence)

tok = map(tokenise,r_list)
cortok = map(word_tokenize,r_list)

pd.DataFrame(list(zip_longest(tok,cortok)),columns=["MINE", "NLTK"])

如何在列表中运行tokeniser函数模块对象是不可调用的？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在列表中运行tokeniser函数模块对象是不可调用的？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >