Cornel Movie Dialogs Corpus with Storm的一组Python模块

cornel-movie-dialogs-corpus-storm的Python项目详细描述


Cornel Movie Dialogs Corpus with Storm的一组Python模块。

摘要

这个模块包括一些扩展类 ^ cornel movie-dialogs corpus的{a1}形式 数据。

安装

pip install storm                # if you not
pip install cornel-movie-dialogs-corpus-storm

设置

  1. 下载语料库并解压缩
  2. 生成数据库并使用generate-mdcorpus-database.py
  3. 插入

例如:

generate-mdcorpus-database.py --corpus-dir "cornell movie-dialogs corpus" corpus.db

用法

from mdcorpus.orm import *
from mdcorpus.parser import *

...

类列表

  • 电影标题元数据
  • 体裁
  • 电影主题
  • 电影角色元数据
  • 电影转换
  • 电影
  • rawscripturl

语料库问题

这是我处理语料库问题时的备忘录。

电影标题元数据.txt

  • 次年我忽略了一个字母表。
  • 例如,第34行,1989/I
  • 对于流派数据,我忽略了duplication
    • 第58行,['horror', 'mystery', 'mystery', 'sci-fi','sci-fi']
  • 代码问题

    我使用Python2.7,我不知道如何使用codecs 模块。(Unicode HOWTO — Python 2.7ja1 documentation

    哑剧

    使用Mi将文本代码转换为^{TT6}$。

    之前
    cornell movie-dialogs corpus$ file --mime {(ls)}
    README.txt:                    text/plain; charset=iso-8859-1
    chameleons.pdf:                application/pdf; charset=binary
    movie_characters_metadata.txt: text/plain; charset=iso-8859-1
    movie_conversations.txt:       text/plain; charset=us-ascii
    movie_lines.txt:               text/plain; charset=us-ascii
    movie_titles_metadata.txt:     text/plain; charset=iso-8859-1
    raw_script_urls.txt:           text/plain; charset=iso-8859-1
    

    之后
    cornell movie-dialogs corpus$ file --mime {(ls)}
    README.txt:                    text/plain; charset=utf-8
    chameleons.pdf:                application/pdf; charset=binary
    movie_characters_metadata.txt: text/plain; charset=utf-8
    movie_conversations.txt:       text/plain; charset=us-ascii
    movie_lines.txt:               text/plain; charset=us-ascii
    movie_titles_metadata.txt:     text/plain; charset=utf-8
    raw_script_urls.txt:           text/plain; charset=utf-8
    

    电影标题元数据.txt

    • 第115行,léon

    电影字符元数据.txt

    • 第1727-1736行,léon

    结果

    sqlite> select * from movie_titles_metadata where title = 'léon';
    sqlite> select * from movie_titles_metadata where title = 'l駮n';
    114|l駮n|1994|8.6|204901
    

    欢迎加入QQ群-->: 979659372 Python中文网_新手群

    推荐PyPI第三方库


    热门话题
    使用Java将JSON转换为哈希映射   java如何通过使用MapStruct从源对象复制值来填充目标对象内部的映射?   注入泛型类型为@InjectGuice的类时发生java错误   字符串如何在JavaIDE中导入基本符号   在Java中将JSON转换为List<List<String>>   java Java9 HttpClient SSLHandshakeException   java jOOQ代码生成器   java如何调整图标(图像按钮),使其不会放大?   java我可以在使用Eclipse时安装2个或更多Android SDK吗   sqlite Java实现DAO   如何解决此错误?“java.lang.NoSuchFieldError:org.apache.http.conn.ssl.SSLConnectionSocketFactory上的实例。<clinit>。”   java Maven:将基于OSP的zip文件解压缩到WEBINF/lib   java如何在每次调用函数时获取当前gps位置?