Publications | Aswin Subramanian

Aswin Shanmugam Subramanian, Chao Weng, Shinji Watanabe, Meng Yu, Dong Yu. Deep Learning based Multi-Source Localization with Source Splitting and its Effectiveness in Multi-Talker Speech Recognition. Computer Speech and Language, 2022.

Preprint PDF Source Document

Aswin Shanmugam Subramanian. A Synergistic Combination of Signal Processing and Deep Learning for Robust Speech Recognition. PhD thesis, Johns Hopkins University, 2022.

PDF Source Document

Xuankai Chang, Takashi Maekaku, Pengcheng Guo, Jing Shi, Yen-Ju Lu, Aswin Shanmugam Subramanian, Tianzi Wang, Shu-wen Yang, Yu Tsao, Hung-yi Lee, Shinji Watanabe. An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition. IEEE ASRU Workshop, 2021.

Preprint

Aswin Shanmugam Subramanian, Chao Weng, Shinji Watanabe, Meng Yu, Shi-Xiong Zhang, Yong Xu, Dong Yu. Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition with Source Localization. In IEEE ICASSP, 2021.

Preprint Source Document Audio Demo

Shinji Watanabe, Florian Boyer, Xuankai Chang, Pengcheng Guo, Tomoki Hayashi, Yosuke Higuchi, Takaaki Hori, Wen-Chin Huang, Hirofumi Inaguma, Naoyuki Kamo, Shigeki Karita, Chenda Li, Jing Shi, Aswin Shanmugam Subramanian, Wangyou Zhang. The 2020 ESPnet Update: New Features, Broadened Applications, Performance Improvements, and Future Plans. IEEE DSLW, 2021.

Preprint

Chenda Li, Jing Shi, Wangyou Zhang, Aswin Shanmugam Subramanian, Xuankai Chang, Naoyuki Kamo, Moto Hira, Tomoki Hayashi, Christoph Boeddeker, Zhuo Chen, Shinji Watanabe. ESPnet-SE: End-to-End Speech Enhancement and Separation Toolkit Designed for ASR Integration. IEEE SLT Workshop, 2021.

Preprint

Wangyou Zhang, Aswin Shanmugam Subramanian, Xuankai Chang, Shinji Watanabe, Yanmin Qian. End-to-End Far-Field Speech Recognition with Unified Dereverberation and Beamforming. ISCA Interspeech, 2020.

Preprint Source Document

Xuankai Chang, Aswin Shanmugam Subramanian, Pengcheng Guo, Shinji Watanabe, Yuya Fujita, Motoi Omachi. End-to-End ASR with Adaptive Span Self-Attention. ISCA Interspeech, 2020.

PDF Source Document

Arun Baby, Jeena J Prakash, Aswin Shanmugam Subramanian, Hema A Murthy. Significance of Spectral Cues in Automatic Speech Segmentation for Indian Language Speech Synthesizers. Speech Communication, 2020.

Code Source Document

Ashish Arora, Desh Raj, Aswin Shanmugam Subramanian, Ke Li, Bar Ben-Yair, Matthew Maciejewski, Piotr Zelasko, Paola Garcia, Shinji Watanabe, Sanjeev Khudanpur. The JHU Multi-Microphone Multi-Speaker ASR System for the CHiME-6 Challenge. CHiME-6 Workshop, 2020.

Preprint PDF Slides Video Source Document Blog

Shinji Watanabe, Michael Mandel, Jon Barker, Emmanuel Vincent, Ashish Arora, Xuankai Chang, Sanjeev Khudanpur, Vimal Manohar, Daniel Povey, Desh Raj, David Snyder, Aswin Shanmugam Subramanian, Jan Trmal, Bar Ben Yair, Christoph Boeddeker, Zhaoheng Ni, Yusuke Fujita, Shota Horiguchi, Naoyuki Kanda, Takuya Yoshioka, Neville Ryant. CHiME-6 Challenge: Tackling Multispeaker Speech Recognition for Unsegmented Recordings. CHiME-6 Workshop, 2020.

Preprint PDF Source Document

Aswin Shanmugam Subramanian, Chao Weng, Meng Yu, Shi-Xiong Zhang, Yong Xu, Shinji Watanabe, Dong Yu. Far-Field Location Guided Target Speech Extraction using End-to-End Speech Recognition Objectives. In IEEE ICASSP, 2020.

PDF Video Source Document Audio Demo

Yuya Fujita, Aswin Shanmugam Subramanian, Motoi Omachi, Shinji Watanabe. Attention-based ASR with Lightweight and Dynamic Convolutions. IEEE ICASSP, 2020.

Preprint Source Document

Aswin Shanmugam Subramanian, Xiaofei Wang, Murali Karthick Baskar, Shinji Watanabe, Toru Taniguchi, Dung Tran, Yuya Fujita. Speech Enhancement Using End-to-End Speech Recognition Objectives. IEEE WASPAA, 2019.

PDF Poster

Toru Taniguchi, Aswin Shanmugam Subramanian, Xiaofei Wang, Dung Tran, Yuya Fujita, Shinji Watanabe. Generalized Weighted-Prediction-Error Dereverberation with Varying Source Priors for Reverberant Speech Recognition. IEEE WASPAA, 2019.

PDF

Aswin Shanmugam Subramanian, Xiaofei Wang, Murali Karthick Baskar, Shinji Watanabe, Toru Taniguchi, Dung Tran, Yuya Fujita. An Investigation of End-to-End Multichannel Speech Recognition for Reverberant and Mismatch Conditions. arXiv:1904.09049, 2019.

Preprint

Naoyuki Kanda, Rintaro Ikeshita, Shota Horiguchi, Yusuke Fujita, Kenji Nagamatsu, Xiaofei Wang, Vimal Manohar, Nelson Enrique Yalta Soplin, Matthew Maciejewski, Szu-Jui Chen, Aswin Shanmugam Subramanian, Ruizhi Li, Zhiqi Wang, Jason Naradowsky, Paola Garcia-Perera, Gregory Sell. The Hitachi/JHU CHiME-5 system: Advances in speech recognition for everyday home environments using multiple microphone arrays. CHiME-5 Workshop, 2018.

PDF Slides Source Document

Aswin Shanmugam Subramanian, Szu-Jui Chen, Shinji Watanabe. Student-Teacher Learning for BLSTM Mask-based Speech Enhancement. ISCA Interspeech, 2018.

PDF Poster Source Document

Szu-Jui Chen, Aswin Shanmugam Subramanian, Hainan Xu, Shinji Watanabe. Building state-of-the-art distant speech recognition using the CHiME-4 challenge with a setup of speech enhancement baseline. ISCA Interspeech, 2018.

PDF Poster Source Document

Atish Shankar Ghone, Rachana Nerpagar, Pranaw Kumar, Arun Baby, S Aswin Shanmugam, M Sasikumar, Hema A Murthy. TBT (Toolkit to Build TTS): A High Performance Framework to Build Multiple Language HTS Voice. ISCA Interspeech, 2017.

PDF Source Document

Aswin Shanmugam S. A Hybrid Approach to Segmentation of Speech Using Signal Processing Cues and Hidden Markov Models. MS thesis, Indian Institute of Technology Madras, 2016.

PDF

S Rupak Vignesh, S Aswin Shanmugam, Hema A Murthy. Significance of pseudo-syllables in building better acoustic models for Indian English TTS. IEEE ICASSP, 2016.

Preprint Source Document

Biswajit Dev Sarma, Bidisha Sharma, S Aswin Shanmugam, SR Mahadeva Prasanna, Hema A Murthy. Exploration of Vowel Onset and Offset Points for Hybrid Speech Segmentation. IEEE TENCON, 2015.

Source Document

Anusha Prakash, Arun Baby, Aswin Shanmugam S, Jeena J Prakash, Nishanthi N L, Raghava Krishanan K, Rupak Vignesh Swaminathan, Hema A Murthy. Blizzard Challenge 2015 : Submission by DONLab, IIT Madras. Blizzard Challenge, 2015.

PDF

Abhijit Pradhan, Anusha Prakash, S Aswin Shanmugam, GR Kasthuri, Raghava Krishnan, Hema A Murthy. Building Speech Synthesis Systems for Indian Languages. IEEE NCC, 2015.

Source Document

S Aswin Shanmugam, Hema Murthy. A Hybrid Approach to Segmentation of Speech Using Group Delay Processing and HMM Based Embedded Reestimation. ISCA Interspeech, 2014.

PDF Poster Source Document

Raghava Krishnan K, S Aswin Shanmugam, Anusha Prakash, Kasthuri G R, Hema A Murthy. IIT Madras's Submission to the Blizzard Challenge 2014. Blizzard Challenge, 2014.

PDF

S Aswin Shanmugam, Hema A Murthy. Group Delay based Phone Segmentation for HTS. IEEE NCC, 2014.

PDF Source Document

Abhijit Pradhan, Aswin Shanmugam S, Anusha Prakash, Kamakoti Veezhinathan, Hema Murthy. A Syllable Based Statistical Text to Speech System. EUSIPCO, 2013.

PDF Source Document

B Ramani, S Lilly Christina, G Anushiya Rachel, V Sherlin Solomi, Mahesh Kumar Nandwana, Anusha Prakash, S Aswin Shanmugam, Raghava Krishnan, SP Kishore, K Samudravijaya, P Vijayalakshmi, T Nagarajan, Hema A Murthy. A Common Attribute based Unified HTS framework for Speech Synthesis in Indian Languages. ISCA SSW, 2013.

PDF Source Document