python库猜测给定西班牙语全名的性别
genderator的Python项目详细描述
genderator是一个python库,用于处理西班牙语名称(来自西班牙)来猜测 性别。
为此,库使用Instituto Nacional de Estadística:
中的下一个数据集- name_姓氏比率:可以同时是名称或 一个姓氏,并显示出成为姓氏的可能性。
- names行:西班牙的注册名称列表,其中 每个人都有可能是男性或女性的名字。
- 姓氏:西班牙的注册姓氏列表。
安装
安装最新版本的最简单的方法是使用pip将其拉入 来自PyPI:
pip install genderator
您还可以使用git从github克隆存储库并安装它 手动:
git clone https://github.com/davidmogar/genderator.git cd genderator python setup.py install
支持Python3.3&3.4。
用法
下一段代码显示了此库的示例用法:
importgenderatorguesser=genderator.Parser()answer=guesser.guess_gender('David Moreno García')ifanswer:print(answer)else:print('Name doesn\'t match')
输出:
OrderedDict([ ('names', ['david']), ('surnames', ['moreno', 'garcia']), ('real_name', 'david'), ('gender', 'Male'), ('confidence', 1.0) ])
选项
genderator的解析器可以接收一些参数来控制其行为。这些论点是:
- force_combinations=boolean:分类期间强制组合。
- force_split=boolean:如果未检测到姓氏,则强制名称拆分。
- normalize=boolean:启用或禁用规范化。
- normalizer_options=dictionary:要应用的normalizer选项。
normalizer选项是一个字典,用于控制对每个名称应用哪些规范化规则。可能的选项有:
- hyphens:启用或禁用连字符删除的布尔选项。
- symbols:启用或禁用符号删除的布尔选项。
- whitespaces:启用或禁用额外空格删除的布尔选项。