—— 汽车产业链供需平台 ——
下载盖世APP

首页 > 资讯 > 国际 > 研究开发可解释音频的人工智能 以揭开自动

研究开发可解释音频的人工智能 以揭开自动驾驶不为人知的秘密

盖世汽车 Elisha 2024-02-28 21:33:23
分享

盖世汽车讯 现在,人工智能决策普遍应用于自动驾驶汽车、患者诊断和法律咨询,需要具有安全可靠的性能。研究人员致力于开发可解释和透明的模型,以揭开复杂的人工智能模型的面纱,并将它们统称为可解释性人工智能(XAI)方法。据外媒报道,在期刊《智能计算(Intelligent Computing)》上发表的一篇综述文章中,研究团队专门提供了他们对音频XAI模型的见解。

图片3.png

(图片来源:spj.science.org)

尽管对音频任务的研究比视觉任务少,但它们同样具有重要的表达能力。音频信号很容易理解和交流,因为通常不像视觉信号那样依赖于专家的解释。本质上来说,语音识别和环境声音分类等场景是基于特定的固有音频。

该综述将现有的音频XAI方法分为两类,包括适用于音频模型的通用方法和音频特定方法:

●  使用通用方法需要选择起初为非音频任务而构建的通用模型,并对其进行调整以适应特定的音频任务。这些方法通过各种输入表示(如光谱图和波形)和不同的输出格式(如特征、示例和概念)来解释音频模型。常见的通用方法包括引导式反向传播,通过突出输入数据中最相关的部分来增强标准的反向传播过程;LIME用更简单的模型来概略估算复杂的模型;以及利用网络剖析(network dissection)来分析神经网络学习的内部表征。

●  另一方面,音频特定方法专为音频任务而设计,旨在将音频输入分解成有意义的组件,专注于音频数据的听觉本质。例如,CoughLIME(在COVID-19检测中为咳嗽的声音提供超声解释)和audioLIME(赋予音频组件重要性,使用源分离来解释音乐标签模型)。

XAI方法还可以按它们的阶段、范围、输入数据类型和输出格式进行分类。阶段指的是在训练过程之前、期间或之后生成解释的阶段;范围是确定该解释是针对整个模型还是特定输入。XAI通常涉及不同的策略,例如使用预定义规则或特定的输入示例进行解释,突出最重要的特性、重点领域或输入变化,以及使用更简单的模型来局部解释复杂的模型。

该研究团队确定了若干种使音频模型更容易解释的方法,例如使用原始波形或光谱图来提供可听的解释,以及在音频数据中定义更高级别的概念,这类似于在图像数据中使用超像素的方式。他们还认为,音频解释的表达能力可以扩展至非音频模型,为基于视觉的用户交互提供补充沟通渠道或成为可能。

关注我们更多服务平台

添加社区公众号、小程序, APP, 随时随地云办公尽在掌握

联系我们
盖世汽车社区 盖世汽车中文资讯 盖世汽车会议 盖世汽车研究院 盖世大学堂 Automotive News Global Auto Sources 友情链接 Copyright@2007-2022 All Right Reserved.盖世汽车版权所有
增值电信业务经营许可证 沪B2-2007118 沪ICP备07023350号 沪公网安备 31011402009699号 未经授权禁止复制或建立影像,否则将追究法律责任。