从Youtube抓取和处理音频、字幕的软件包

audio-caption-crawler-and-processor的Python项目详细描述


音频、字幕爬虫和处理器

下载并处理Youtube视频中的音频和字幕(字幕),以便进行语音AI

要求

  • 当前需要python>;=3.6
  • FFmpeg

使用

  from accp import ACCP

  playlist_name=""
  playlist_url = ""

  accp = ACCP(playlist_name, playlist_url)
  accp.download_audio()    #download audio from youtube

  accp.download_caption()  #download captions from youtube

  accp.audio_split()       #split 

结果

^{pr2}$

并且metadata.csv应该如下所示:

{
    0001.wav|그래서 사람들도 날 핍이라고 불렀다.,
    0002.wav|크리스마스 덕분에 부엌에 먹을게 가득했다.,
    0003.wav|조가 자신이 그 사람이라고 나섰다.,
    ...
}

并且alignment.json应该如下所示:

{
    "./datasets/playlist name/wavs/0001.wav": "그래서 사람들도 날 핍이라고 불렀다.",
    "./datasets/playlist name/wavs/0002.wav": "크리스마스 덕분에 부엌에 먹을게 가득했다.",
    "./datasets/playlist name/wavs/0003.wav": "조가 자신이 그 사람이라고 나섰다.",
}

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java广播接收器未检测到按键事件   java不为特定列更改创建修订   java采用了更实用的方法   java桌面窗格HTML呈现   java处理internet连接丢失   java在调整JFrame的大小时,如何防止JTable的列调整大小?   如何用Java中的“Scanner.hasNext”完成程序   具有模块名称的java停止IntelliJ项目工具窗口?   执行已编译的Rails-Warbler JAR文件时发生java加载错误   java Spring数据redis存储库不支持集合查询?   每个客户端的java队列请求   获取Java中的JSON嵌套数组元素   java GWT,Vaadin ConcurrentModificationException   firebase存储中的java在保存照片之前,我需要发送两次照片   JavaSpringEleaf如何在容器外使用变量