Lachesis自动将转录本分割成封闭的标题
lachesis的Python项目详细描述
目标
lachesis 自动将转录本分割为封闭的 标题(ccs)。
一般的想法是写抄本(原始文本)更容易 比写ccs还要快,尤其是如果你需要尊重 限制条件,如每个 行,每个cc的最大行数等。
您可以将视频转录成原始文本,然后 为您将文本分割为ccs的工作。一旦你有了 ccs,您可以使用a 强制 校准器 类似 aeneas 将它们与 视频的音频,获取字幕文件(srt、ttml、vtt, 等)
用拉切西斯和一个强制校准器,手工生产 视频的ccs被简化为a。将视频转录为原始文本 检查最终的ccs和音频校准。而不是 您甚至可以从检查/编辑 由自动语音识别引擎进行的粗略转录,如 来自youtube的"自动ccs",进一步加快了进程。
Lachesis背后的"魔力"在于结合机器学习 技术,如条件随机 字段(CRF) 以及经典的nlp工具,如 pos 标记 和 句子 分段到 将文本拆分为cc行。学习机器学习模型 从现有的,人工编辑的,高质量的ccs,像那些 ted / tedx 在YouTube上聊天。nlp工具来自于成熟的、免费的nlp 下面列出了python的库。
总之,lachesis包含以下主要功能:
- 从YouTube下载闭路字幕;
- 解析闭路字幕TTML文件(从YouTube下载);
- 将POS标签添加到给定的文本或关闭的标题文件中;
- 将给定文本分成句子;
- 将给定的文本分割成封闭的标题(有几种算法 提供);
- 训练和使用机器学习模型将原始文本分割为cc 线条< < /LI>