又是一套粉丝小说网的刮擦工具
ffscraper的Python项目详细描述
粉丝小说网络中的协作过滤
“ffscraper”又是一套FanFiction.net的刮削工具
alexander l.hayes(@batflyer)
安装
pip install ffscraper
需要:bs4
,requests
背景
《网络》成立于1998,是世界上最大的用户提交的粉丝小说集(由小说、书籍或电视节目的粉丝们创作的小说作品)。大量容易获得的用户内容吸引了那些有兴趣分析原创作品和其粉丝小说衍生物之间的内容和创造性差异的人的兴趣[1]。最近,[2]创建了一个匿名的数据集,其中的元数据来自FanFaction源。这个存储库的目的有两个:创建强大的开源工具来抓取内容,并使用这些内容来构建可供fanfinition.net社区使用的开源系统。
参考文献
- [1]milli,smitha和david bamman,“超越经典文本:粉丝小说的计算分析”,《2016年自然语言处理经验方法会议论文集》。
- [2]Yin,K.,Aragon,C.,Evans,S.和Katie Davis。世界上最大的科幻小说资料库的元数据集。”2017中国计算机学会计算机系统中人的因素会议记录。ACM,2017年。
归因
- 这最初是德克萨斯大学达拉斯分校Vibhav Gogate教授2018年春季Advanced Machine Learning课程最后一个项目的一部分。此版本的代码tex和.pdf标记为v0.1.0。
- monochrome是由@dyutibarma创建的jekyll主题。在MIT License的术语下使用。