Распознавание личности по голосу на базе параметров спектральной модели голосового источника
- 作者: Макаров И.С.1, Осипов Д.С.2,3
-
隶属关系:
- ООО “БиометрикЛабс”
- Институт проблем передачи информации им. А.А. Харкевича РАН
- Национальный исследовательский университет “Высшая школа экономики”
- 期: 卷 70, 编号 1 (2024)
- 页面: 113-119
- 栏目: АКУСТИКА ЖИВЫХ СИСТЕМ. БИОМЕДИЦИНСКАЯ АКУСТИКА
- URL: https://ruspoj.com/0320-7919/article/view/648380
- DOI: https://doi.org/10.31857/S0320791924010132
- EDN: https://elibrary.ru/ZNOOAD
- ID: 648380
如何引用文章
详细
Исследована информативность параметров спектральной модели голосового источника в задаче автоматического распознавания личности по голосу. Для голосовых параметров ошибка распознавания личности составила 20.8%; совместное использование этих параметров с периодом основного тона понизило ошибку до 13.8%. Наконец, совместное использование параметров спектральной модели с периодом основного тона и мел-частотными кепстральными коэффициентами обеспечило наивысшую точность (ошибка распознавания составила 1.2%).
全文:

作者简介
И. Макаров
ООО “БиометрикЛабс”
编辑信件的主要联系方式.
Email: im@biometriclabs.ru
俄罗斯联邦, 4-я ул. 8-го Марта 3, стр. 3, Москва, 125319
Д. Осипов
Институт проблем передачи информации им. А.А. Харкевича РАН; Национальный исследовательский университет “Высшая школа экономики”
Email: d_osipov@iitp.ru
俄罗斯联邦, Большой Каретный переулок 19, стр. 1, Москва, 127051; ул. Мясницкая 20, Москва, 101000
参考
- Kinnunen T., Li H. An overview of text-independent speaker recognition: From features to supervectors // Speech Commun. 2010. V. 52. P. 12–40.
- Yegnanarayana B., Mahadeva Prasanna S., Zachariah J., and Gupta Ch. Combining Evidence from Source, Suprasegmental and Spectral Features for a Fixed-Text Speaker Verification System // IEEE Trans. on Speech and Audio Process. 2005. V. 13. № 4. P. 575–582.
- Kinnunen T., Alku P. On separating glottal source and vocal tract information in telephony speaker verification // Proc. the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP 2009.
- Plumpe M., Quatieri T., Reynolds D. Modelling of the Glottal Flow Derivative Waveform with Application to Speaker Identification // IEEE Trans. on Speech and Audio Process. 1999. V. 7. № 5. P. 569–586.
- Gudnason J., Brookes M. Voice Source Cepstrum Coefficients for Speaker Identification // IEEE ICASSP. 2008. P. 4821–4824.
- Mazaira-Fernández L., Álvarez-Marquina A., Gómez-Vilda P., Martínez Olalla R., Muñoz C. Glottal Source Cepstrum Coefficients Applied to NIST SRE 2010 // V Jornadas de Reconocimiento Biométrico de Personas JRBP10, Huesca, España. 2010.
- Mazaira-Fernandes L., Alvares-Marquina A., Gomez-Vilda P. Improving speaker recognition by biometric voice deconstruction // Front. Bioeng. Biotechnol. 2015. V. 3. P. 126.
- Sorokin V.N. Vocal Source Contribution to Speaker Recognition // Pattern Recognition and Image Analysis. 2018. V. 28. № 3. P. 546–556.
- Ananthapadmanabha T. Acoustic Analysis of Voice Source Dynamics // STL-QPSR. 1984. V. 2–3. P. 1–24.
- Snyder D., Garcia-Romero D., Sell G., Povey D., Khudanpur S. X-vectors: Robust DNN Embeddings for Speaker Recognition // 2018 IEEE Int. Conf. on Speech, Audio, and signal Process. (ICASSP).
- Jessen M., Bortlik J., Schwarz P., Solewisz Y. Evaluation of Phonexia Automatic Speaker Recognition Software under Conditions Reflecting Those of a Real Forensic Voice Comparison Case // Speech Communication 111. 2019. P. 22–28.
- Guo J., Xu N., Qian K., Shi Y., Wu Y., Alwan A. Deep Neural Network based i-vector Mapping for Speaker Verification Using Short Utterances // Speech Communication 105. 2018. P. 92–102.
- Bai Z., Zhang X., Chen J. Cosine Metric Learning based Speaker Verification // Speech Communication 118. 2020. P. 10–20.
- Сорокин В.Н., Макаров И.С. Определение пола диктора по голосу // Акуст. журн. 2008. Т. 54. № 4. С. 659–668.
- Sorokin V.N., Leonov A.S. Multisource Speech Analysis for Speaker Recognition // Pattern Recognition and Image Analysis. 2019. V. 29. № 1. P. 181–193.
- Леонов А.C., Сорокин В.Н. Верхняя граница ошибок решения обратной задачи определения голосового источника // Акуст. журн. 2017. Т. 63. С. 532–545.
- Сорокин В.Н., Макаров И.С. Обратная задача для голосового источника // Информационные процессы. 2006. Т. 6. № 4. С. 375–395.
- Цыплихин А.И. Анализ импульсов голосового источника // Акуст. журн. 2007. Т. 53. № 1. С. 119–133.
- Nagrani A., Chung J.S., Xie W., Zisserman A. Voxceleb: Large-scale speaker verification in the wild // Computer Science and Language, 2019.
- Dehak N., Kenny P., Dehak R., Dumouchel P., and Ouellet P. Front-end factor analysis for speaker verification // IEEE Trans. on Audio, Speech, and Lang. Process. 2011. V. 19. № 4. P. 788–798.
- Kenny P., Stafylakis T., Ouellet P., Alam M., Dumouchel P. PLDA for speaker recognition with utterances of arbitrary duration // Proc. ICASSP. 2013. P. 76449–7653.
- Vestman V., Kinnunen T. Supervector Compression Strategies to Speed up i-Vector System Development // Speaker Odyssey 2018: The Speaker and Language Recognition Workshop.
- Morrison G. Tutorial on logistic regression calibration and fusion: converting a score to a likelihood ratio // Australian Journal of Forensic Sciences. 2013. V. 45. № 2. P. 173–197.
- Zhu W., Kong T., Lu S., Li J., Zhang D., Deng F., Wang X., Yang S., Liu J. SpeechNAS: Towards Better Trade-off between Latency and Accuracy for Large-Scale Speaker Verification // arXiv – CS – Artificial Intelligence, 2021. https://doi.org/arxiv-2109.08839
补充文件
