数据集中的pii分析
piianalyzer的Python项目详细描述
PII分析器分析数据集中的PII使用其他信息来识别、联系或定位单个人员,或在上下文中识别个人。
然后,该工具应提醒HDX数据管理器是否已上载任何此类数据集
,并提醒数据所有者有关此信息。
以上任务:
1.` pandas<;https://github.com/pydata/pandas>;``用于将数据文件读入python并操作数据集。
2.`常用正则表达式<;https://github.com/madisonmay/commonregex>;``用于提取某些类型的“PII”,如电子邮件地址、电话号码、街道地址、
信用卡号码、
3。`斯坦福命名实体标记器<;http://nlp.stanford.edu/software/crf-ner.shtml>;``用于提取位置、组织和人员名称。
分析它并返回所提供数据集中的数据类型的摘要。
使用此信息,数据管理器可以轻松地对数据进行分类。
piianalyzer=piianalyzer(文件路径)
>;>;analysis=piianalyzer.analysis()
installation
----
requirements
^^^^^^^^^^^^^^^^^^^
需要斯坦福命名实体识别器。可下载下载网址:http://nlp.stanford.edu/software/crf-ner.shtml
>
数据 https lt gt 信息 pandas 管理器 人员 pii
然后,该工具应提醒HDX数据管理器是否已上载任何此类数据集
,并提醒数据所有者有关此信息。
以上任务:
1.` pandas<;https://github.com/pydata/pandas>;``用于将数据文件读入python并操作数据集。
2.`常用正则表达式<;https://github.com/madisonmay/commonregex>;``用于提取某些类型的“PII”,如电子邮件地址、电话号码、街道地址、
信用卡号码、
3。`斯坦福命名实体标记器<;http://nlp.stanford.edu/software/crf-ner.shtml>;``用于提取位置、组织和人员名称。
分析它并返回所提供数据集中的数据类型的摘要。
使用此信息,数据管理器可以轻松地对数据进行分类。
piianalyzer=piianalyzer(文件路径)
>;>;analysis=piianalyzer.analysis()
installation
----
requirements
^^^^^^^^^^^^^^^^^^^
需要斯坦福命名实体识别器。可下载下载网址:http://nlp.stanford.edu/software/crf-ner.shtml
>
标签: