Lachesis自动将转录本分割成封闭的标题

lachesis的Python项目详细描述


目标

lachesis 自动将转录本分割为封闭的 标题(ccs)。

一般的想法是写抄本(原始文本)更容易 比写ccs还要快,尤其是如果你需要尊重 限制条件,如每个 行,每个cc的最大行数等。

您可以将视频转录成原始文本,然后 为您将文本分割为ccs的工作。一旦你有了 ccs,您可以使用a 强制 校准器 类似 aeneas 将它们与 视频的音频,获取字幕文件(srt、ttml、vtt, 等)

用拉切西斯和一个强制校准器,手工生产 视频的ccs被简化为a。将视频转录为原始文本 检查最终的ccs和音频校准。而不是 您甚至可以从检查/编辑 由自动语音识别引擎进行的粗略转录,如 来自youtube的"自动ccs",进一步加快了进程。

Lachesis背后的"魔力"在于结合机器学习 技术,如条件随机 字段(CRF) 以及经典的nlp工具,如 pos 标记 和 句子 分段到 将文本拆分为cc行。学习机器学习模型 从现有的,人工编辑的,高质量的ccs,像那些 ted / tedx 在YouTube上聊天。nlp工具来自于成熟的、免费的nlp 下面列出了python的库。

总之,lachesis包含以下主要功能:

  • 从YouTube下载闭路字幕;
  • 解析闭路字幕TTML文件(从YouTube下载);
  • 将POS标签添加到给定的文本或关闭的标题文件中;
  • 将给定文本分成句子;
  • 将给定的文本分割成封闭的标题(有几种算法 提供);
  • 训练和使用机器学习模型将原始文本分割为cc 线条< < /LI>

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用jackson序列化/反序列化具有不同属性的子属性   javascript驱动程序。getTitle()从错误页面获取数据   java web应用程序的增量部署   java字符引用“&#x10”是无效的XML字符   java MyEclipse+Hibernate不按ID排序属性集?   找不到IBM Filenet P8更改预处理器Java实现   java比较器,用于按浮点参数对对象arraylist排序   java如何调试。来自eclipse或其他版本的bsh文件   不允许使用java rest api post方法   java如何在Servlet中打开弹出窗口,然后重定向页面   java的replaceAll方法对我不起作用我做错了什么?   我收到了javax。网ssl。SSLHandshakeException:握手期间远程主机关闭连接