网络论据语料库(iac)第二版是一个收集的语料库,用于研究网络论坛上的政治辩论。
InternetArgumentCorpus的Python项目详细描述
Internet Argument Corpus(IAC)版本2是一个用于在Internet论坛上进行政治辩论研究的语料库集合。数据在mysql数据库(download)中提供。还有用于访问/创建数据库(here)的python代码。
依赖关系
安装(代码)
克隆git存储库:
git clone git@bitbucket.org:nlds_iac/internet-argument-corpus-2.git
或通过PIP安装:
pip3 install InternetArgumentCorpus
安装(数据)
从SQL转储还原:
mysql --user=root -p createdebate < createdebate_20xx_xx_xx.sql
请注意,您可能需要先创建数据库:
drop database createdebate; SET GLOBAL innodb_file_format=Barracuda; # in case it isn't already CREATE SCHEMA createdebate DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8mb4_bin;
备份:
mysqldump createdebate -r createdebate_$(date +%Y_%m_%d).sql
或者可能更快但更复杂(如何做到这一点):
dir=$(date "+%Y-%m-%d_%Hh%Mm"); mkdir -m 777 -p /tmp/$dir date for db in convinceme fourforums createdebate createdebate_released; do echo $db; mkdir -m 777 /tmp/$dir/$db; mysqldump --tab=/tmp/$dir/$db $db; rm /tmp/$dir/$db/*.sql; mysqldump --no-data $db -r /tmp/$dir/$db/$db.sql; echo "compressing"; tar -czf /tmp/$dir/"$db"_$(date +%Y_%m_%d).tgz -C /tmp/$dir/ $db; rm -rf /tmp/$dir/$db; done; mv /tmp/$dir .; date; cd $dir date for db in convinceme fourforums createdebate createdebate_released; do echo $db; mysql -u root -p -e "drop database $db; CREATE SCHEMA $db DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8mb4_bin; SET GLOBAL foreign_key_checks=0"; mysql -u root -p $db < $db/$db.sql; mysqlimport -u root -p --use-threads=4 --local $db $db/*.txt; mysql -u root -p -e "SET GLOBAL foreign_key_checks=1"; done;date;
使用
python代码:
fromiacorpusimportload_datasetdataset=load_dataset('fourforums')print(dataset.dataset_metadata)fordiscussionindataset:print(discussion)forpostindiscussion:print(post)exit()
贡献
我欢迎建议,拉请求,错误报告等!