收集了一套工具,对现代奴隶宣言文本语料库进行了研究。

modern-slavery-statements-research的Python项目详细描述


现代奴隶制研究

这个存储库将包含对现代奴隶制度声明数据集进行的实验和分析的集合。在

简介

The UN Sustainable Development Goal 8.7状态: 立即采取有效措施,消除强迫劳动,终止现代奴役和人口贩运,确保禁止和消除最有害的童工形式,包括招募和使用儿童兵,并在2025年之前结束一切形式的童工劳动。在

2018年,the Global Slavery Index发现现代奴隶制度下有4030万人,其中2500万人从事强迫劳动,生产电脑、服装、农产品、原材料等,1500万人被迫结婚。在

The Future Society,一个独立的非营利性智囊团launched a partnership,与Walk Free Initiative一起,自动分析企业生产的现代奴隶制度声明,以促进遵守,帮助打击和消除现代奴役。The team在未来社会,正在策划一个最新的资料库,其中包括16K条现代奴隶制度声明(和计数),以促进这一领域的机器学习研究。数据是根据modernslaveryregistry.org提供的报表链接的集合进行刮取的。在

通过分享你的分析和对这个资料库的贡献,你可以帮助全球社会让跨国公司对他们对待员工和供应商的方式负责。在

先决条件

快速启动

建议您使用虚拟环境,例如virtualenvpipenv或类似的环境。在

选项1-笔记本电脑

复制this notebook并按照说明操作。在

选项2-命令行

安装软件包:

pip install modern-slavery-statements-research

将您的AWS访问凭据指定为-i(AWS access key id)和-a(secret access key)参数并运行(不带花括号):

^{pr2}$

控制台中打印的日志将告诉您数据文件夹的名称。在

如果您已将现代奴隶项目相关的AWS CLI凭据设置为默认凭据,则可以简单地运行

download-corpus

您可以通过运行download-corpus --help来探索更多选项

数据架构

数据集包括以下列:

Company ID                                    Unique company identifier
Company                                       Company name
Is Publisher                                  Whether the company is a publiser 
Statement ID                                  Unique statement identifier
URL                                           Original URL where the statement could be found
Override URL                                  Edited URL
Companies House Number                        Company's registered number in companieshouse.gov.uk
Industry                                      Company's main area of activity 
HQ                                            Country of company's headquarters
Is Also Covered                               
UK Modern Slavery Act                         Whether the company is legislated by the UK Modern Slavery Act 
California Transparency in Supply Chains Act  Whether the company is legislated by the California Transparency in Supply Chains Act 
Australia Modern Slavery Act                  Whether the company is legislated by the Australia Modern Slavery Act
Period Covered                                Year that is being reported for 
Text                                          Extracted statement text
 

由于语料库是一个正在进行的工作,所以所有的反馈都在存储库问题中受到欢迎 目前,如果您想使用这些数据,请向edgar@bravetech.io发送一封电子邮件,其中包含指向您的社交档案(linkedin、facebook或类似网站)的链接,您将在第一个可能的实例上收到IAM用户凭据,允许您下载和访问数据。在

寻求帮助

如果您想获得有关领域专业知识或技术要求和实现的帮助,请分别与Adriana或{a16}联系。在

路线图

在接下来的几周和几个月内,计划对数据集和存储库进行以下改进:

  1. 为数据提供一个方便的单命令入口点
  2. 通过不断包含更多文档和改进数据清理管道来提高数据集质量。
  3. 提供分析示例。
  4. 为语料库的一个子集提供手动注释的标签,以便使用监督方法进行分析。在
  5. 为公众获取数据和研究资源。在

引文

如果您打算共享基于此存储库和AWS S3中的modern-slavery-dataset存储桶的任何形式的公共研究和分析,请在您的出版物中附上以下引文:

未来社会。(2020)现代奴隶制声明研究。检索自https://github.com/the-future-society/modern-slavery-statements-research。在

捐款

如果你想对这项研究有所贡献的话,可以看看issues或者联系Adriana或{a16}。在

看看基于现代奴隶制语料库:

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何避免springbootstarterparent和dependency中的flyway包冲突   java文本文件写入不起作用   java获取名为DAO类的Bean创建异常   java类路径和清单文件   如何使用Java中的模式来获取像C中的“sscanf”这样的组?   java Spring自动连接具有构造函数的类   clientSecurity运行的java geode示例失败   java JavaFX:在FXML中从ResourceBundle访问非string对象   java登录到google firebase   java对象在通过构造函数后不会更改。为什么?   java(Android)对特定页面的操作webView   javascript如何在webview的js中从java调用变量   持久化—一种在Java中存储和检索对象而不使用关系数据库的简单方法?   java Ldap获取通讯组列表中的用户   java检查温度条件   java后退按钮警报框(Android Studio)   数组java列表问题:为什么我运行它时,它会在第三次打印时打印出4?   java相对路径与绝对路径