如何对TaggedCorpusReader进行编码？默认参数处理

__init__(self, root, fileids, sep='/', word_tokenizer=WhitespaceTokenizer(pattern='\\s+', gaps=True, discard_empty=T..., sent_tokenizer=RegexpTokenizer(pattern='\n', gaps=True, discard_empty=True, f..., para_block_reader=<function read_blankline_block at 0x132be70>, encoding=None, tag_mapping_function=None)

Traceback (most recent call last): File "nlpenhg.py", line 2, in <module> from BonnerCorpus import * File "path/code/BonnerCorpus.py", line 27 self.corpus = TaggedCorpusReader('.' , filelist, '/', WhitespaceTokenizer(u'\s+', True, True, 56), RegexpTokenizer('n', True, True, 56), <function read_blankline_block at 0x5b731b8>, 'utf8', None)

1条回答

网友

1楼 · 发布于 2024-06-09 19:45:12

以下内容：

<function read_blankline_block at 0x5b731b8>

不是表达式，而是python如何将函数表示为字符串：

^{pr2}$

所以，既然你不想使用不同的函数，就不要管它。在

可以使用keywords参数以这种方式实例化TaggedCorpusReader：

TaggedCorpusReader('.' ,  filelist, '/', 
        WhitespaceTokenizer(ur'\s+', True, True, 56), 
        RegexpTokenizer('n', True, True, 56), 
        encoding='utf8')

如果要将函数作为参数传递，只需使用标识符：

TaggedCorpusReader('.' ,  filelist, '/', 
        WhitespaceTokenizer(u'\s+', True, True, 56), 
        RegexpTokenizer('n', True, True, 56), 
        some_function_name, 
        'utf8', None)

相关问题更多 >

编程相关推荐

热门问题

热门文章