cmu发音字典数据文件的版本化python包装程序包。
cmudict的Python项目详细描述
cmudict是 The CMU Pronouncing Dictionary数据文件。主要目的 是公开数据时很少或根本没有假设 它将被使用。
安装
cmudict在pypi上可用。只需使用pip:
安装$ pip install cmudict
您也可以从源代码安装它:
$ git clone https://github.com/prosegrinder/python-cmudict.git Cloning into 'python-cmudict'... ... $ cd python-cmudict $ git submodule update --init --recursive Submodule 'cmudict/data' (https://github.com/cmusphinx/cmudict.git) registered for path 'cmudict/data'... ... $ python setup.py install ...
用法
cmudict数据集包括4个数据文件:cmudict.dict、cmudict.phones, cmudict.symbols和cmudict.vp。参见The CMU Pronouncing Dictionary了解 有关数据的详细信息。很有可能,如果你在这里,你已经知道 在档案里。
每个文件可以通过三个函数访问,其中一个函数返回原始(字符串) 内容,一个返回文件的二进制流,另一个执行最小值 将文件处理为适当的结构:
>>> import cmudict >>> cmudict.dict() # Compatible with NLTK >>> cmudict.dict_string() >>> cmudict.dict_stream() >>> cmudict.phones() >>> cmudict.phones_string() >>> cmudict.phones_stream() >>> cmudict.symbols() >>> cmudict.symbols_string() >>> cmudict.symbols_stream() >>> cmudict.vp() >>> cmudict.vp_string() >>> cmudict.vp_stream()
包含三个附加函数以保持与nltk的兼容性:cumdict.entries(), cmudict.raw()和cmudict.words()。请参阅nltk.corpus.reader.cmudict文档以了解 详细信息:
>>> cmudict.entries() # Compatible with NLTK >>> cmudict.raw() # Compatible with NLTK >>> cmudict.words() # Compatible with NTLK
最后,cmudict数据集的许可证也可用:
>>> cmudict.license_string() # Returns the cmudict license as a string