Cornel Movie Dialogs Corpus with Storm的一组Python模块
cornel-movie-dialogs-corpus-storm的Python项目详细描述
Cornel Movie Dialogs Corpus with Storm的一组Python模块。
摘要
这个模块包括一些扩展类 ^ cornel movie-dialogs corpus的{a1}形式 数据。
安装
pip install storm # if you not pip install cornel-movie-dialogs-corpus-storm
设置
- 下载语料库并解压缩
- 生成数据库并使用generate-mdcorpus-database.py 插入
例如:
generate-mdcorpus-database.py --corpus-dir "cornell movie-dialogs corpus" corpus.db
用法
from mdcorpus.orm import * from mdcorpus.parser import * ...
类列表
- 电影标题元数据
- 体裁
- 电影主题
- 电影角色元数据
- 电影转换
- 电影
- rawscripturl
语料库问题
这是我处理语料库问题时的备忘录。
电影标题元数据.txt
- 次年我忽略了一个字母表。
- 例如,第34行,1989/I
- 第58行,['horror', 'mystery', 'mystery', 'sci-fi','sci-fi']
代码问题
我使用Python2.7,我不知道如何使用codecs 模块。(Unicode HOWTO — Python 2.7ja1 documentation)
哑剧
使用Mi将文本代码转换为^{TT6}$。
之前
cornell movie-dialogs corpus$ file --mime {(ls)}
README.txt: text/plain; charset=iso-8859-1
chameleons.pdf: application/pdf; charset=binary
movie_characters_metadata.txt: text/plain; charset=iso-8859-1
movie_conversations.txt: text/plain; charset=us-ascii
movie_lines.txt: text/plain; charset=us-ascii
movie_titles_metadata.txt: text/plain; charset=iso-8859-1
raw_script_urls.txt: text/plain; charset=iso-8859-1
之后
cornell movie-dialogs corpus$ file --mime {(ls)}
README.txt: text/plain; charset=utf-8
chameleons.pdf: application/pdf; charset=binary
movie_characters_metadata.txt: text/plain; charset=utf-8
movie_conversations.txt: text/plain; charset=us-ascii
movie_lines.txt: text/plain; charset=us-ascii
movie_titles_metadata.txt: text/plain; charset=utf-8
raw_script_urls.txt: text/plain; charset=utf-8
电影标题元数据.txt
- 第115行,léon
电影字符元数据.txt
- 第1727-1736行,léon
结果
sqlite> select * from movie_titles_metadata where title = 'léon'; sqlite> select * from movie_titles_metadata where title = 'l駮n'; 114|l駮n|1994|8.6|204901