音素混淆矩阵的统计分析

ConfMatrixCalc的Python项目详细描述


软件包confmatrixcalc实现概率贝叶斯分析 音素识别测试结果。 分析方法在(Leijon等人,2016年)中提出并验证。

使用音素识别测试,例如, 评估的详细("微观")语音识别能力 使用两种或两种以上不同助听器的听众 或其他声音传输工具或算法。 音素识别性能通常使用无意义的"单词"进行测试 固定结构,如CVC、VCV或CVCVC,其中 c是辅音v是元音。 这使得测试材料比真实的单词或句子更加困难, 因为听者不能利用先前的词汇和语义知识。 然而,这实际上可能是一个优势,因为有趣的测试结果可以是 在真实的语音与噪声比下获得,其中听者可以 否则,使用更简单的测试材料获得近乎完美的识别结果。

早期的语音研究表明,语音的音位识别能力是 与一般句子理解相关(弗莱彻和斯坦伯格,1929年,图11)。

音素混淆矩阵

测试结果通常记录为混淆计数的二维数组。 带索引(s,r)的矩阵元素显示了 当刺激出现时,听者的反应是第类刺激。

混淆矩阵数据的统计分析是非平凡的, 因为矩阵对于每个监听器来说通常是非常稀疏的。 例如,在16个辅音的辅音识别测试中, 每种刺激类型都可能出现,比如说,5次,即总共80次。 然后,每一个矩阵行将至少有16-5=11个零计数元素。 这使得估计潜在的响应概率和 量化观察到的测试结果的统计可靠性。 贝叶斯分析方法以连贯的方式处理这些问题。

分析结果

  1. 总体表现由两个指标表示, 每个都有一个可信范围来表示估计的不确定性:

    1. 在所有呈现的音素中正确识别(PC)的概率。

    2. 刺激和反应之间的相互信息(mi)(米勒和好心,1955年)。 有时被称为"传输信息"。 这个指标表示刺激类别的平均信息量, 听者通过听到每个被呈现的音素而接收。

    3. < > >
    4. 详细的性能由可信的混淆模式表示,即 刺激-反应对,其中听者的反应概率为 在不同的试验条件下共同可信地不同。

    5. < > >

      贝叶斯模型是分层的。 该软件包估计

      • 招募参与者的人群中的随机个体,
      • 每组受试者。

      音素识别实验

      该软件包可以分析来自简单或相当复杂的实验设计的数据, 包括以下功能:

      1. 音素识别数据可以在一个或多个测试条件下收集。 每个测试条件可以是来自一个或多个测试因子的类别的组合。 例如,主要测试因素可能是助听器, 使用类别ab独立的。 另一个测试因素可能是,例如, 背景,类别为安静,或嘈杂。 第三个因素可能是位置,类别c1c2,表明 cvc无义词中的辅音位置。 分析显示F中的类别之间存在可信的差异第一(主要)测试因子, 对于其他(次要)测试因素中的每个类别组合。

      2. 可能包括一个或多个听众组。 分析显示各组之间存在系统性差异。

      3. 分析模型不需要任何关于 测试每个音素类别的演示文稿。 验证(Leijon等人,2016)表明,可靠的结果 每个音素只有5个演示。 分析估计了统计可信度 在所有观察结果中,考虑到收集的数据量。

      4. < > >

        包装文档

        一般信息在可以通过命令访问的包文档字符串中给出 帮助(confmatrixcalc)

        输入数据文件的组织和接受格式的具体信息 显示在模块cm_data的doc字符串中,可通过帮助(confmatrixcalc.cm_data)访问

        在运行分析之后,日志输出将简要解释 分析结果以图表形式呈现。

        用法

        1. 安装最新的软件包版本: python3-m pip安装--升级confmatrixcalc

        2. 将模板脚本run_cm.py复制到您的工作目录,重命名它, 并根据模板中的注释编辑副本,以指定

          • 你的实验布局,
          • 最上面的输入数据目录,
          • 存储所有输出结果文件的目录。
        3. 运行编辑过的脚本:python3 run_my_cm.py

        4. < > >

          要求

          这个包需要python 3.6和numpy、scipy和matplotlib, 以及一个支持包samppy, 以及用于从excel工作簿文档读取数据的openpyxl包。 如果需要,PIP安装程序将检查并安装所需的软件包。

          参考文献

          A.Leijon、G.E.Henter和M.Dahlquist(2016年)。 音素混淆矩阵的贝叶斯分析。 ieee传输音频、语音和语言过程24(3):469–482。 doi:10.1109/taslp.2015.2512039.

          G.A.米勒和P.E.很好地(1955年)。 英语辅音知觉混淆现象分析。 声学记忆体杂志27(2):338-35219955。 doi:10.1121/1.1907526。

          H.弗莱彻和J.斯坦伯格(1929)。清晰度测试方法。 贝尔系统技术期刊8:806–854。 doi:10.1002/j.1538-7305.1929.tb01246.x.

          这个python包是类似的matlab包的重新实现和推广, 由Arne Leijon为Orca Europe开发,Widex A/S,斯德哥尔摩,瑞典。 Matlab的开发得到了丹麦Widex A/S的财政支持。

          欢迎加入QQ群-->: 979659372 Python中文网_新手群

          推荐PyPI第三方库


热门话题
java如何在构造函数外部添加鼠标侦听器   java如何使用比较器对列表进行排序以正确排序空值?   javajavax。由于javax,邮件“535.7.3身份验证失败”。邮件升级(v1.3.1至v1.5.2)   java将arraylist流到固定的二维数组中并打印?   RecyclerView适配器上的java上下文   java如何为此Twitter API为KafkaProducer建立连接   java Spring安全性重写WebSecurity配置适配器的配置(AuthenticationManagerBuilder)是否会影响全局应用程序?   线程“awteventque0”NullPointerException中的java异常   if条件中的null值和null指针异常java   java树集<Object>允许相同类型的多个对象   java定义类;我认不出   字符串java replaceAll()   JAVAutil。scanner(Java)读取文件时如何跳过空格?   java在swing中关闭flash屏幕   java在Wildfly 16中的应用程序中加载pk12文件   有没有工具可以自动生成屏幕抓取的Java代码   创建意图时,java方法getParcelableExtra()返回null   将数据从java传递到jsp   java Android Studio |永久保存布局