首頁 > 文章中心 > 正文

      人工智能在鋼琴普及性教育中應用

      前言:本站為你精心整理了人工智能在鋼琴普及性教育中應用范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

      人工智能在鋼琴普及性教育中應用

      摘要:鋼琴教育近年來在我國越來越受到重視,如何能夠更有針對性的進行教學,提高學生日常練習的效率成為鋼琴普及性教育中亟待解決的問題。本文通過利用人工神經網絡對習琴者所彈曲目與原曲目進行比對,并對習琴者的演奏指法進行識別,指出練習過程中出現的問題。通過人工智能技術加以分析處理并給出針對鋼琴練習的指導性意見,從而使習琴者能夠更有針對性的解決練琴過程中的問題,提高練習效率。

      關鍵詞:鋼琴普及性教育;人工智能;自動音樂轉錄;基于視頻流的指法識別

      雨果曾經說過,“人類的智慧掌握著三把鑰匙,一把開啟數字,一把開啟字母,一把開啟音符。知識,思想,幻想就在其中”。這句話充分展示了音樂之于人生的重要性,音樂不僅可以幫助孩子們提升鑒賞美的能力,還能幫助培養健全的人格,對于個人氣質的提升更是十分明顯。隨著物質生活的發展,越來越多的人開始重視早期的音樂教育,但學習過程中經常會出現各式各樣的問題,以鋼琴普及性教育為例,習琴者通常每周在老師那里進行一次回課指導,更多的時間則是自己單獨進行練習。但很多習琴者在練習過程中都會出現各種常見錯誤,自己卻毫無所知,看錯譜、彈錯鍵、指法錯誤更是常見。如果這時能有指導者在旁進行糾正,那么練習效果將會得到極大的提升。然而鋼琴師資相對稀缺,據統計數據顯示,不到十分之一的習琴者能夠得到即時的練習指導。近年來,人工智能技術進展迅速,在多個領域都展現了極高的發展潛力。在棋類里相對復雜的圍棋領域,谷歌開發的AlphaGo成功擊敗了世界冠軍李世石;在語音識別領域,市場上也已存在著較為成熟的軟件,如蘋果的Siri、小米的小愛同學。音樂也不例外,目前人工智能不僅可以根據給定的旋律生成伴奏,甚至能夠獨立生成完整的曲目,所以人工智能練習指導在如今的技術條件下是可行的,完全可以進行更加深入的研究。

      一、研究背景

      (一)計算機處理音樂的方式。聲音信號處理是用計算機進行音樂轉錄的首要問題,換言之,如果想讓人工智能成為鋼琴練習指導,首先需要讓計算機聽懂音樂。目前常用的數字信號處理方法有離散傅里葉變換、梅爾頻譜以及常數Q變換這三種,根據文獻顯示,其中常數Q變換(ConstantQTransform,CQT)就是對音樂信號在十二平均律的頻點上進行分解,是目前音樂信號處理的主要方法,非常適合音樂信號的轉換。在鋼琴教學的現實活動中,計算機獲取的樂音總是十分復雜的,包含基音和大量的泛音,甚至還有噪音,這就導致分離出基音變得十分困難,但是依然可以通過樂音中頻率成分的變化來尋找基音。十二平均律就體現了這種頻率成分的分布,通過常數Q變換能獲取一個樂音中所有單音的頻率以及每個頻率的平均振幅。

      (二)鋼琴的聲學特點。鋼琴是鍵盤樂器,通過敲擊琴鍵來拉動琴槌以敲打琴弦發出聲音,也可以歸結為弦樂器的一種。從聲學原理來講,樂器發音一般是由三個過程組成的———始振、穩定、衰減。鋼琴發音音態的聲學特征包括:始振過程的振幅峰值大,起振音頭圓,瞬態時值短;沒有穩定過程直接進入衰減過程;不同頻率的高低音區及其衰減過程的時值長短成反比,這就決定了鋼琴發出的每一個單音都會十分清晰,其頻譜的諧波也會相對較少,適用于人工神經網絡的學習。

      (三)鋼琴教學的現狀。目前鋼琴教學仍然非常依賴線下一對一的教學,需要教師手把手進行指導,人工智能或許便是個完美的替代方案,價格低廉,能夠即時進行指導。當今市場上也存在著一些鋼琴練習指導軟件,例如各類陪練App,它們依然是以教師一對一的練習指導為主,同時提供線上教學管理。

      二、研究內容

      首先將采集到聲音信號通過CRNN轉錄生成MIDI文件,然后將獲取的練琴時手部拍攝的視頻通過C3D模型提取出特征,最后通過多模態的決策級融合進行綜合分析,得到習琴者練琴時出現的問題,后文主要分析這些問題。

      (一)練琴的常見問題及相應處理。初學者在鋼琴演奏中可能遇到的問題包括由于手型問題和一些錯誤的演奏習慣導致的一些演奏效果不佳的情況。很多初學者在演奏時無名指和小指無法獨立演奏,兩指的行動互相牽制,導致彈琴的聲音不夠均勻流暢,旋律音的輕重也會不同,甚至在演奏分解和弦時會出現由于無名指和小指把位不準確而造成的錯音。可以從兩方面著手處理,一是通過手型識別的神經網絡,針對習琴者的演奏,發現不正確的手型指法及時反饋報告。二是通過將習琴者的演奏與標準原曲進行對比,從差異中分析其中可能存在的問題。

      (二)鋼琴練習中音頻的分析處理。主體流程是識別練習者演奏并將其與標準原曲進行對比,然后從差異中分析其中可能存在的問題。其中需要將練習者的演奏轉錄為易于計算機分析的格式,這里用到的是MIDI格式,它用音符的數字控制信號記錄音樂,詳細記錄了樂曲中各個音的音高、時值、響度、通道和樂器等信息,MIDI以其獨特的編碼方式,將與聲音播放相關的重要信息編碼到mid文件中。MIDI文件的本質是一組演奏指令,指令文件被解碼后可以操作MIDI設備樂器、或是播放音色庫中事先錄制好的各種樂器,這些標準化的指令和高效的編碼形式,將極大程度上方便計算機的處理,目前我們已經能做到通過神經網絡將演奏轉錄成MIDI形式,還需訓練新的神經網絡模型通過對比原曲來分析并指出問題。一段樂曲是由多個音符銜接而成的,為了將鋼琴演奏音頻轉換為MIDI格式,需要神經網絡對樂曲進行音符級別的轉錄。為了簡化識別任務的復雜性并提升轉錄識別性能,通過直接識別整個音符來實現轉錄,而不是逐幀識別然后將幀進行拼接,為此需要識別音符的兩個重要屬性:音高和時值。文獻提出了基于CNN的音符級自動轉錄方法,為了進行特征提取,將輸入的聲音信號進行預處理,提取時頻域特征,利用常數Q變換將頻譜映射到以log2為底的線性空間,得到多音級的頻譜窗口。第一階段:為了得到每個音符的時值,分別識別音符的起點和止點,這兩者均由一個獨立的卷積神經網絡進行。第二階段:為了識別音高,模型采用一個額外的多音級識別網絡,識別起止點附近的音級。第三階段:將所有音符起點和止點上的音級進行配對,得到一個完整的音符音高和時長信息。由于生成音符序列要經過起止點的音符對齊過程,起止點處的音級識別誤差會對對齊工作產生較大的阻礙,因而該方案對音級識別的精度要求很高。在此基礎上,本文提出了另外一種方案———基于CRNN的音符級自動轉錄。該方法將CNN和RNN進行了結合,并添加了一層自注意力層,形成CRNN網絡,用于捕捉音頻結構中的音級特征和時間特征,主要改善之前遇到的起止點對齊的問題。首先將輸入的聲音信號轉化為頻譜圖,為了識別頻譜切片內部的時間結構和音級結構,并且保持完整的連貫性,消除無上下文的音頻片段,并控制切片時間為2s、4s和8s的長度來進行模型的訓練。其中,無上下文的音頻片段是指在音頻切片中有來自上一個切片的音頻數據,或者未完全結束的音頻。模型用CNN提取出頻譜特征,然后進行特征切片,使用后續的序列識別層獲取分析。由于RNN中通常使用的LSTM只能依據之前時刻的時序信息預測下一時刻的輸出,而當前時刻的輸出不僅與之前的狀態有關,還可能和未來的狀態有關系。比如音符起點的預測,不僅依賴于之前的狀態和當前輸入的特征切片,還可能與之后出現的止點狀態有關,同理,預測音符止點時也是如此。因此這里采用雙向LSTM即BiLSTM,通過前后向的LSTM結合,起到前后文關系的預測作用。序列識別層最終會將特征提取后的頻譜進行縱向切片,經過雙向LSTM處理后,得到序列化向量輸出到自注意力層,這些向量包含音頻的全部音符信息。自注意力層則是用來訓練學習頻譜的音符起止點的內部關聯性,來加強模型對起止點序列的識別性能。最后對識別處的音符起止點進行對齊,這里由于加強了音頻序列化的上下文關聯性,解決了之前因起止點處音級識別誤差產生的無法對齊的難題,最后對齊率相對CNN的41%提升到了81%。

      (三)鋼琴練習中指法的識別分析。手型指法的識別由CNN模型承擔,采取常見演奏中的錯誤手勢作為數據集進行模型訓練,并設法采集到練習者演奏時的手勢圖片。本方案獲取習琴者在練習整首曲目中手型指法,這是一個動態過程。不同于目前常見的基于圖片形式的手型識別,需要從視頻中識別對應的手型,可使用基于三維卷積神經網絡(3DCNN)的大規模視頻手型識別算法。第一步,通過4K高清攝像機從上方以及側面對演奏過程進行拍攝來獲取視頻數據,做好標注處理后經3DCNN模型處理,該算法模型由NKato等人在文獻中提出,解決了基于視頻的手型識別需要處理時域和空域的特征這一問題。首先要對訓練數據進行預處理,將分辨率和幀數統一,同時還需要提取視頻的光流特征,獲得同幀數的光流視頻,一方面用于提取動作的路徑信息,另一方面也去除了背景、表演者膚色等信息。第二步,神經網絡需要從數據集(處理后的演奏視頻)提取對應的時序特征用于手型和指法的識別,這里實驗通過三維的卷積神經網絡———C3D模型來實現視頻手型特征的自動提取。與二維神經網絡相比,C3D模型更關注視頻幀序列的圖像集合,將時域和空域的信息結合。第三步,由于光流視頻和原視頻中的特征信息不盡相同,二者各有偏重,為了提高特征的準確率,將原視頻和光流視頻通過神經網絡分別得到的時序特征進行綜合分析,加強特征識別的效果,最終提升指法和手型識別的準確率。在此基礎上,同音頻分析的結果類似,最終得到的是一個結果矩陣M×N的矩陣V(m,n),其中M表示幀數,N表示演奏問題的類別數。V(m,n)代表視頻第m幀中手型指法存在第n類錯誤的概率。將手型識別的結果數據運用多模態增量聚類融合算法,與處理好的音頻數據一并作為輸入進行分析。通過同時參考音頻和視頻的數據,能夠較為準確的對演奏中的問題進行判斷。

      (四)鋼琴訓練視頻和音頻的多模態決策級融合。在完成了前文的處理分析后,可以分別得到來自鋼琴訓練視頻和音頻的特征信息,從二者中各自得到一些結論。但是考慮到視頻和音頻的信息側重不一,因為它們包含了兩個模態的信息,單獨參考其中之一可能會遺漏部分特征信息,例如視頻中可能更多的是反映演奏者的動作是否規范,而音頻部分可能更強調節奏和旋律的準確性。為了使模型的分析更加全面,本文參考了ReuderinkB等人于文獻中提出的方案,對二者的數據分析結果進行多模態的決策級融合,獲取一個綜合分析的結果。決策級融合策略是一種高層次的融合方法,具有通信量小、抗干擾能力強、容錯率高等優點。通過前文中神經網絡識別分類獲得每種特征關于手型指法錯誤類別的后驗概率,然后按照一定的策略將其融合,最后將融合結果中的最大值對應的類別作為最終分析結果。

      三、結語

      本文在人工智能領域做了一個全新的嘗試,不僅僅是使用大數據等技術進行教學輔助,而是希望通過人工智能領域的先端技術神經網絡解決鋼琴練習中的一些難題,借此幫助鋼琴學生及時發現并糾正演奏中存在的指法和節奏把控等問題。這里從兩條思路出發,由于視頻信息和音頻信息各有偏重,所以同時采集獲取演奏者的視頻和音頻數據,分別訓練神經網絡模型對演奏視頻和音頻進行處理,最后對分析結果進行多模態決策級融合。通過人工智能技術加以分析處理并給出針對鋼琴練習的指導性意見,從而使習琴者能夠更有針對性的解決練琴過程中的問題,提高練習效率。

      作者:胡麗敏 桂浩 單位:武漢音樂學院武漢大學

      亚洲国产日产无码精品| 国产亚洲精久久久久久无码AV| 国产亚洲一区二区三区在线不卡| 国产精品亚洲а∨无码播放不卡| 亚洲乱亚洲乱妇24p| 亚洲人成网站免费播放| 亚洲人成人无码.www石榴| 亚洲欧美日韩中文二区| 亚洲人成网站色7799| 亚洲欧美第一成人网站7777| 亚洲欧美乱色情图片| 亚洲av成人一区二区三区在线播放| 亚洲一线产品二线产品| 亚洲国产av玩弄放荡人妇| 老牛精品亚洲成av人片| 亚洲国产一区二区视频网站| 亚洲性日韩精品一区二区三区| 国产亚洲精品不卡在线| 亚洲男同帅GAY片在线观看| 亚洲国产精品VA在线观看麻豆 | 无码乱人伦一区二区亚洲一| 亚洲AV无码精品色午夜在线观看| 亚洲成a人片77777老司机| 亚洲自偷精品视频自拍| 亚洲制服丝袜中文字幕| 亚洲国产精品ⅴa在线观看| 国产成人高清亚洲一区91| 亚洲综合色在线观看亚洲| 亚洲人成影院在线无码按摩店| 亚洲av综合色区| 亚洲日韩乱码中文无码蜜桃臀| 亚洲毛片基地4455ww| 亚洲AV无码一区二区大桥未久| 亚洲高清无码在线观看| 久久综合亚洲色HEZYO国产| 亚洲av之男人的天堂网站| 亚洲精品熟女国产| 亚洲人成网站在线在线观看| 国产综合成人亚洲区| 亚洲人成中文字幕在线观看 | 久久精品亚洲日本波多野结衣|