7月1日,由電氣和電子工程師協會(IEEE)聲學信號處理技術委員會(AASP)組織的聲學場景識別與事件檢測(DCASE2019)比賽公布成績,中科院語言聲學與內容理解重點實驗室的團隊獲得了音頻場景識別子任務(Task 1A)的第一名。本次參賽團隊的指導老師爲張鵬遠研究員,團隊成員包括陳航艇、劉作桢、柳宗銘等人。
DCASE2019挑戰賽設置了聲學場景檢測、音頻事件標記、音頻事件定位和檢測、室內音頻事件檢測、城市音頻標記共5大任務。其中,匹配設備下的音頻場景識別是所有任務中曆史最爲悠久、參加人數最多、競爭最激烈的比賽。今年共有38支隊伍參賽,分別來自中國科技大學、香港中文大學、北京郵電大學、薩裏大學(University of Surrey,英國)、布爾諾技術大學(Brno University of Technology,捷克)等國內外頂尖高校,以及英特爾(美國)、三星(語音實驗室,中國北京)、LG(韓國)等知名企業。
音頻場景分類的目的是識別出錄制音頻的特定場景,如地鐵、公園、機場等,從而使穿戴式設備、智能機器人感知周圍的環境信息並做出相應運動反射。

基于深度學習和數據增強的音頻場景分類系統(圖/中科院聲學所)
在現實生活中,音頻場景識別可以廣泛應用在移動設備以及智能機器人上。移動式設備通過感知外界環境信息從而智能地切換模式;對于機器人,聽覺和視覺信息相輔相成,而在一些極端環境,音頻信息的感知相對容易,且處理速度快,有獨特的優勢。在本次比賽中團隊成員探索使用了多種長短時特征,並且結合基于深度學習的數據增強手段,達到了85.2%的測試准確率,大幅領先第2名1.4%,並且遠遠超過了人類的分辨能力。
DCASE競賽由倫敦大學瑪麗皇後學院數字音樂中心和Institut de Recherche et Coordination Acoustique/Musique等機構于2013年組織發起,是目前聲學事件領域最權威的競賽。
大賽結果:
http://dcase.community/challenge2019/task-acoustic-scene-classification-results-a#task-description
注釋:
人類對場景的分辨准確率的中位數大約爲75%,參見Barchiesi D , Giannoulis D , Stowell D , et al. Acoustic Scene Classification: Classifying environments from the sounds they produce [J]. IEEE Signal Processing Magazine, 2015, 32(3):16-34.