结合单词上下文和字符相似性的机器学习拼写检查包。
TakeSpellChecker的Python项目详细描述
接受拼写检查
takespellchecker是一个使用机器学习检查任何语言中单词拼写的软件包。它通过组合周围单词的上下文来预测可能单词的列表并找到字符相似度最高的单词,从而纠正拼写错误的单词。解决方案使用单词嵌入来学习上下文。所以,需要传递单词嵌入文件的路径。还支持可选地传递配置文件(如果该文件位于azure文件共享中,换句话说,如果来自azure的参数为true)。
takespellchecker.spellcheck:创建构造函数
- 路径:str
path是单词嵌入模型的完整嵌入路径。(可选)您还可以将从uazure设置为true并将配置文件路径传递到path。
- from_azure:boolean
from_azure是一个可选参数。如果需要从azure文件共享自动下载嵌入模型,则需要将此参数设置为true,并将配置文件传递到路径,而不是嵌入文件。
takespellchecker.set_data:设置数据
- 数据:list、series、dataframe或表示文件路径的字符串
数据是需要处理的内容。它可以是列表、序列、字符串或数据帧。
- 内容列名称:str
content_column_name是一个可选参数。只有当数据的类型是数据帧或文本文件的路径时,才需要它。如果未设置列名,则set_data方法使用第一列作为内容
- 文件编号:str
file_sep是一个可选参数。只有当数据是文本文件的路径时才需要它。如果未设置文件分隔符,则集合数据使用“;”。
- 编码:str
编码是一个可选参数。只有当数据是文本文件的路径时才需要它。如果未设置文件编码,则集合数据使用“utf-8”。
takespellchecker.spell\u check:检查数据的拼写
- 窗口限制:int
窗口限制是一个可选参数。用于确定句子中有多少单词将用作上下文。
- 阈值:浮点
阈值是一个可选参数。用于确定拼写检查器的权限。
- 保存结果:布尔型
save_result是一个可选参数。如果save_result为true,则将在同一目录中创建一个列为:original、spellchecked和corrected的文件(output_spell_check.csv)。最后一列是一个布尔列,指示句子中的任何单词是否被更正。
- 输出文件名:str
输出文件名是可选参数。如果save_result为true并且设置了output_file_name,则该文件将输出具有以下列的拼写检查.csv):original、spellchecked和corrected将在同一目录中创建
配置YML
account_name: my_account_name
account_key: my_key
directory: my_directory_name
embedding_file: my_embedding_file_name
embedding_share: my_file_share_name
安装
- 窗口限制:int 窗口限制是一个可选参数。用于确定句子中有多少单词将用作上下文。
- 阈值:浮点 阈值是一个可选参数。用于确定拼写检查器的权限。
- 保存结果:布尔型 save_result是一个可选参数。如果save_result为true,则将在同一目录中创建一个列为:original、spellchecked和corrected的文件(output_spell_check.csv)。最后一列是一个布尔列,指示句子中的任何单词是否被更正。
- 输出文件名:str 输出文件名是可选参数。如果save_result为true并且设置了output_file_name,则该文件将输出具有以下列的拼写检查.csv):original、spellchecked和corrected将在同一目录中创建
配置YML
account_name: my_account_name
account_key: my_key
directory: my_directory_name
embedding_file: my_embedding_file_name
embedding_share: my_file_share_name
安装
使用包管理器pip安装TakeSpellChecker
pip install TakeSpellChecker
用法
importTakeSpellCheckerasscspell_checker=sc.SpellCheck(path,from_azure=True)spell_checker.set_data(data)corrected_df=spell_checker.spell_check(window_limit=5,threshold=0.94,save_result=True)print(corrected_df)
作者
卡丽娜·蒂米·加藤