Python cornel-movie-dialogs-corpus-storm包_程序模块 - PyPI

Cornel Movie Dialogs Corpus with Storm的一组Python模块

cornel-movie-dialogs-corpus-storm的Python项目详细描述

Cornel Movie Dialogs Corpus with Storm的一组Python模块。

摘要

这个模块包括一些扩展类 ^ cornel movie-dialogs corpus的{a1}形式数据。

安装

pip install storm                # if you not
pip install cornel-movie-dialogs-corpus-storm

设置

下载语料库并解压缩
生成数据库并使用generate-mdcorpus-database.py

例如：

generate-mdcorpus-database.py --corpus-dir "cornell movie-dialogs corpus" corpus.db

用法

from mdcorpus.orm import *
from mdcorpus.parser import *

...

类列表

电影标题元数据
体裁
电影主题
电影角色元数据
电影转换
电影
rawscripturl

语料库问题

这是我处理语料库问题时的备忘录。

电影标题元数据.txt

次年我忽略了一个字母表。
例如，第34行，1989/I

对于流派数据，我忽略了duplication。
第58行，['horror', 'mystery', 'mystery', 'sci-fi','sci-fi']

代码问题

我使用Python2.7，我不知道如何使用codecs 模块。（Unicode HOWTO — Python 2.7ja1 documentation）

哑剧

使用Mi将文本代码转换为^{TT6}$。

之前
cornell movie-dialogs corpus$ file --mime {(ls)} README.txt: text/plain; charset=iso-8859-1 chameleons.pdf: application/pdf; charset=binary movie_characters_metadata.txt: text/plain; charset=iso-8859-1 movie_conversations.txt: text/plain; charset=us-ascii movie_lines.txt: text/plain; charset=us-ascii movie_titles_metadata.txt: text/plain; charset=iso-8859-1 raw_script_urls.txt: text/plain; charset=iso-8859-1

之后
cornell movie-dialogs corpus$ file --mime {(ls)} README.txt: text/plain; charset=utf-8 chameleons.pdf: application/pdf; charset=binary movie_characters_metadata.txt: text/plain; charset=utf-8 movie_conversations.txt: text/plain; charset=us-ascii movie_lines.txt: text/plain; charset=us-ascii movie_titles_metadata.txt: text/plain; charset=utf-8 raw_script_urls.txt: text/plain; charset=utf-8

电影标题元数据.txt

第115行，léon

电影字符元数据.txt

第1727-1736行，léon

结果

sqlite> select * from movie_titles_metadata where title = 'léon';
sqlite> select * from movie_titles_metadata where title = 'l駮n';
114|l駮n|1994|8.6|204901

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
sosuke-k
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
如何用if条件捕获函数返回值
如何用if语句判断列表中是否存在该索引？
如何用if语句向量化numpy数组中的最大值？
如何用IF语句有条件地保存零碎的结果？
如何用if语句测试异常对象？
如何用IF语句编写二元函数
如何用igraph在python中创建顶点权重的图？
如何用ijson和python解析json
如何用iloc求子矩阵
如何用Imagemagick或PIL绘制高质量的图像笔划（边框）？
如何用importlib在python中动态导入模块？
如何用import语句重写python内置函数？
如何用imshow混合裁剪的强度并显示正确的混合强度？
如何用in dictionary解析havin dictionary中的json文件
如何用in-Django URL替换%20

cornel-movie-dialogs-corpus-storm 0.1.1

cornel-movie-dialogs-corpus-storm的Python项目详细描述

摘要

安装

设置

用法

类列表

语料库问题

电影标题元数据.txt

代码问题

哑剧

电影标题元数据.txt

电影字符元数据.txt

结果

推荐PyPI第三方库

dl2050utils

ayc

Mrinal-Basic-Calculator

kessler

QuantDigger

sobolseq

dszxxoo

Gauss-Binomial-Distributions

stoicheia

threatbus-misp

osrfpycommon

bitbnsp

djangomigrationlinter

mlaws-distributions

dist-udacit

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

cornel-movie-dialogs-corpus-storm 0.1.1

cornel-movie-dialogs-corpus-storm的Python项目详细描述

摘要

安装

设置

用法

类列表

语料库问题

电影标题元数据.txt

代码问题

哑剧

电影标题元数据.txt

电影字符元数据.txt

结果

推荐PyPI第三方库

dl2050utils

ayc

Mrinal-Basic-Calculator

kessler

QuantDigger

sobolseq

dszxxoo

Gauss-Binomial-Distributions

stoicheia

threatbus-misp

osrfpycommon

bitbnsp

djangomigrationlinter

mlaws-distributions

dist-udacit

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签