基于“看、听、学”方法的深度音频和图像嵌入
openl3的Python项目详细描述
打开l3
openl3是一个开源的python库,用于计算深层音频和(最终)图像嵌入。
有关详细说明和示例,请参阅documentation。
这里提供的音频和图像嵌入模型是作为[1]的一部分发布的,并且基于look、listen和learn方法[2]。有关嵌入模型及其培训方式的详细信息,请参见:
看,听,了解更多:深音频嵌入的设计选择
贾森·克莱默、何香武、贾斯汀·萨拉蒙和胡安·帕布罗·贝洛
审查中,2018年。
安装OpenL3
依赖关系
张量流
因为tensorflow只有cpu和gpu两种版本,所以我们让用户安装最适合的版本 他们的用例。
在大多数平台上,下列任一命令都应正确安装tensorflow:
pip install tensorflow # CPU-only version
pip install tensorflow-gpu # GPU version
有关详细信息,请参阅 Tensorflow installation documentation。
库文件
openl3依赖于pysoundfile
模块来加载音频文件,这取决于非python库
libsndfile
。在windows和macos上,这些将通过pip
安装,因此您可以跳过这一步。
但是,在Linux上,必须通过平台的包管理器手动安装。
对于基于debian的发行版(如ubuntu),只需运行
apt-get install libsndfile1
有关详细信息,请参阅
^{
安装OpenL3
安装openl3最简单的方法是使用pip
,它还将安装附加的必需依赖项
如果需要的话。要使用pip
安装openl3,只需运行
pip install openl3
要从源代码安装最新版本的openl3,请执行以下操作:
克隆或提取最新版本:
git clone git@github.com:marl/openl3.git
使用pip安装以处理python依赖项:
cd openl3 pip install -e .
使用openl3
为了帮助您开始使用openl3,请参见 tutorial。
确认打开L3
在工作中使用openl3时,请引用以下文件:
[1]看、听和了解更多:深音频嵌入的设计选择
贾森·克莱默、何香武、贾斯汀·萨拉蒙和胡安·帕布罗·贝洛
审查中,2018年。
[2]看,听,学
雷利亚·阿兰杰洛维奇和安德鲁·齐瑟曼
国际计算机视觉会议,威尼斯,意大利,2017年10月。