「AUDIO」语音识别需求汇总

less than 1 minute read

1. 1：1 的身份认证以及 1：n 的身份识别

不限文本、不限语种的情况下，包括各种方言；其中 n 可能为几万；

2. 判断音频中有几个人在说话

1）只需要判断人数，不需要知道他们分别在什么时间说话（number of speakers)
一个简单的分类器即可，类似多人的 vocal activity detection (VAD)；
2）判断人数并且知道他们说话的时间点（speaker diarization）
大多基于说话人的i-vector或某些能体现说话人信息的特征；
3）判断人数并且分离每个人的说话声（multi-talker separation）
在单通道情况一般3人及以下的音频里，分离效果已经不错了，并且新的系统已经能够通过判断有几个人来调整输出（比如只有2个人说话，那么3个输出里有1个输出会是静音；

场景因素： 1）近场或者远场； 2）单通道或者多通道；

先验因素： 1）只要求判断事先知道的某些说话人（speaker dependent）；
2）对任意说话人都要能判断（speaker independent）；
3）说话人之间的重叠（overlap）长度；

3. 说话人辨认

Speaker Identification：用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；

4. 说话人确认

Speaker Verification：用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题；

5. 医学对话理解

understanding medical conversations

6. 视频字幕

video captioning

Twitter Facebook LinkedIn

「AUDIO」语音识别需求汇总

1. 1：1 的身份认证以及 1：n 的身份识别

2. 判断音频中有几个人在说话

3. 说话人辨认

4. 说话人确认

5. 医学对话理解

6. 视频字幕

Comments

You May Also Enjoy

「论文解读」Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera

「CV」深度估计概述

「工具」 Zotero

「DLFramework」 A311D NPU Demo 使用

1. 1：1 的身份认证以及 1：n 的身份识别

2. 判断音频中有几个人在说话

3. 说话人辨认

4. 说话人确认

5. 医学对话理解

6. 视频字幕

Comments

You May Also Enjoy

「论文解读」Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera

「CV」 深度估计概述

「工具」 Zotero

「DLFramework」 A311D NPU Demo 使用

「CV」深度估计概述