「论文解读」Fully Supervised Speaker Diarization
只要开始发言,每个说话者都会建立一个属于他的 RNN(递归神经网络) 模型,然后在过程中,不断更新相应的 RNN 状态;
论文发表时间:2018年10月
论文地址:https://arxiv.org/abs/1810.04719
官方代码:https://github.com/google/uis-rnn(pytorch)
一、一句话总结
第一句:论文提出了无限交替循环神经网络(UIS-RNN),解决了以往人声分割算法无法进行监督训练的问题;
第二句:EER 在 NIST SRE 2000 CALLHOME 上达到了 7.6%,比先前的基于聚类的方法(8.8%)和深度网络嵌入方法(9.9%)好;
二、Q&A
三、贡献
四、结论
- 遇到带标签的数据,我们有可用的监督学习方法了——UIS-RNN;
- 凡是序列聚类问题(如视频中的人脸聚类),都可以用 UIS-RNN;
五、基本流程/解决方案 —— DocFace
前导知识:RNN
,深度学习基本知识
;
第一步 Train on source domain:在源数据集上训练出基础模型
第二步 Train on target domain:在目标数据集上训练出最终模型
六、实验
(一)数据集
1. ID-Selfie-A
(二)实验结果
1. 探索实验
结论一:
2. 对比实验
结论二:
结论三:
3. 关于数据集大小对准确度影响的实验
结论四:
七、 展望
:o: 用在线学习到的特征代替预训练的嵌入特征,从而实现一个端到端的人声提取模型;
附录
(一)基本概念
无限交替循环神经网络
unbounded interleaved-state recurrent neural networks,UIS-RNN;
(二)损失函数
等错误率
错分正负样本概率相同时的FAR;
(三)数据集
1. MS-Celeb-1M[^Ms-celeb-1m]
Comments