网络论据语料库(iac)第二版是一个收集的语料库,用于研究网络论坛上的政治辩论。

InternetArgumentCorpus的Python项目详细描述


Internet Argument Corpus(IAC)版本2是一个用于在Internet论坛上进行政治辩论研究的语料库集合。数据在mysql数据库(download)中提供。还有用于访问/创建数据库(here)的python代码。

依赖关系

数据:
  • MySQL(或MariaDB) (用于托管的服务器,用于访问的客户端)
代码:
  • Python 3
  • python库(pip3 install<;whatever>;):
    • 炼金术
    • 屈折
    • mysqlclient(或其他接口,如oursql)

安装(代码)

克隆git存储库:

git clone git@bitbucket.org:nlds_iac/internet-argument-corpus-2.git

或通过PIP安装:

pip3 install InternetArgumentCorpus

安装(数据)

从SQL转储还原:

mysql --user=root -p createdebate < createdebate_20xx_xx_xx.sql

请注意,您可能需要先创建数据库:

drop database createdebate;
SET GLOBAL innodb_file_format=Barracuda;  # in case it isn't already
CREATE SCHEMA createdebate DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8mb4_bin;

备份:

mysqldump createdebate -r createdebate_$(date +%Y_%m_%d).sql

或者可能更快但更复杂(如何做到这一点):

dir=$(date "+%Y-%m-%d_%Hh%Mm");
mkdir -m 777 -p /tmp/$dir
date
for db in convinceme fourforums createdebate createdebate_released; do
    echo $db;
    mkdir -m 777 /tmp/$dir/$db;
    mysqldump --tab=/tmp/$dir/$db $db;
    rm /tmp/$dir/$db/*.sql;
    mysqldump --no-data $db -r /tmp/$dir/$db/$db.sql;
    echo "compressing";
    tar -czf /tmp/$dir/"$db"_$(date +%Y_%m_%d).tgz -C /tmp/$dir/ $db;
    rm -rf /tmp/$dir/$db;
done; mv /tmp/$dir .; date;

cd $dir
date
for db in convinceme fourforums createdebate createdebate_released; do
    echo $db;
    mysql -u root -p -e "drop database $db; CREATE SCHEMA $db DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8mb4_bin; SET GLOBAL foreign_key_checks=0";
    mysql -u root -p $db < $db/$db.sql;
    mysqlimport -u root -p --use-threads=4 --local $db $db/*.txt;
    mysql -u root -p -e "SET GLOBAL foreign_key_checks=1";
done;date;

使用

python代码:

fromiacorpusimportload_datasetdataset=load_dataset('fourforums')print(dataset.dataset_metadata)fordiscussionindataset:print(discussion)forpostindiscussion:print(post)exit()

贡献

我欢迎建议,拉请求,错误报告等!

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Spring数据JPA+Hibernate在不首先找到父实体的情况下保存子实体   php Java:如何从CLI接收命令   spring为java中的导出数据创建访问文件   java在Windows 8.1上安装Play Framework   java Spring启动白标签错误页面(类型=未找到,状态=404)   java如何在单击时从数组中绘制?   java fn:substringAfter()上次出现   java在IFR语句中使用方法返回   java onPause()或onStop()的名称   对关联对象的关联对象具有条件的java HQL查询   java只打印一次总值,无需迭代   java如何使用抽象Uri buildOn()方法?   如何在Java中执行sudo命令并获得错误输出?   java反射:避免对getConstructor(类<?>…)的未经检查的警告调用作为原始类型类的成员   Java:如何从类中创建的对象调用类方法?   java如何在电子邮件中嵌入图像?   java如何在Android上启用详细GC?   java什么是串行版本id?