互動及生成式音樂, 創意科技應用, 機器學習

今晚，來點 AI 做的巴薩諾瓦！

「你吃過夏威夷披薩嗎？」

無論你接不接受鳳梨加在披薩上，只要你在世界各地（義大利以外）的披薩店對著店員說：「請給我一份夏威夷披薩！」，你都會拿到一份熱騰騰、灑滿鳳梨、起司、番茄醬和培根的美味披薩。

能實現這件事，是因為你、我和披薩店店員都對「夏威夷披薩」這種類型的披薩該有哪些食材與風味有具體而明確的共識。

拋開披薩的玩笑，在不同的音樂類型上，我們其實也都對其中的音樂元素存有「某些共識」，像是搖滾樂要有穩定落在第二拍和第四拍的小鼓以及八分音符的律動、放克 (Funk) 音樂的切分拍和清脆的吉他刷扣等…。

而筆者今天想要討論的主題就是：

「目前AI生成的音樂，能夠展現我們對音樂類型的共識嗎？」

在這篇文章中，我會以一款文字生成音樂 (Text-to-Music) 的人工智慧產品作為案例，輸入三段不同文字敘述 (Prompt) 在這兩款產品上進行測試並簡要的分析差異。

在正式進入討論之前，先簡單介紹一下「什麼是生成式 AI？」以及「生成式AI 在音樂上有哪些應用？」

生成式 AI 與其在音樂方面的應用

生成式人工智慧 (Generative AI) 是一種可以創造新內容和想法的人工智慧，透過生成對抗網絡（Generative Adversarial Networks, GAN）、長短期記憶網絡（Long Short-Term Memory, LSTM）等方法，實現創造對話、故事、影像和音樂等原創且有意義的內容，例如根據所輸入的字詞來寫成一首詩。而近期帶來熱潮的 ChatGPT 就是生成式 AI 的一個最佳案例。

生成式AI在音樂方面的應用，常見的有將輸入文字轉換成一段音樂、自動生成伴奏或是將旋律變為人聲並填詞等等。這次挑選了臺灣團隊雅婷智慧開發的雅婷 Studio ，在「文字生成音樂」方面進行測試。

雅婷 Studio

雅婷 Studio 是由臺灣人工智慧實驗室的研究團隊雅婷智慧所開發的，這個產品除了音樂創作外，也有提供多國配音、虛擬主播等服務。成立於 2017 年的臺灣人工智慧實驗室，是臺灣聚焦人工智慧研究、開發與應用的國家級機構。

測試過程與結果（建議配戴耳機閱讀）

雅婷可在網頁上透過簡單輸入文字進入對話框來生成音檔。

在測試的階段我們會使用三段不同的文字敘述作為輸入 (Prompt) ，其中兩段是由透過雅婷的網頁提供的範例 Prompt ，分別為 ”Funk Groove Guitar, in A minor, bpm 90” 、 “Guitar solo, bossa nova, C minor, bpm 100“ 以及我自己下的 Prompt， “Sax solo without other instruments, 60 bpm, jazz ballad“。

在三次 Prompt 的測試中，我會把同一段 Prompt 分別丟入兩個產品中，並聆聽他們各自生成的四段範例音檔。在每一段的測試之前，我會先附上與這段 Prompt 的音樂風格相符的歌曲範例（未必與調性與速度相符），確保大家的想像同一個基準上。

第一輪測試：

”Funk Groove Guitar, in A minor, bpm 90”

雅婷 Studio

小結：
雖然皆可生成某種程度的音樂氛圍，四個生成的音檔在拍號和速度上不具有一致性，不一定會產生吉他的音色。並且皆未表現出 Funk Music 十六分音符的切分律動特色，四個音檔的速度都與 bpm 90 有些微差距。

第二輪測試：

”Guitar solo, Bossa nova, C minor, bpm 100”

雅婷 Studio

音檔一：
在音樂類型上比較偏向搖滾，約為 80 bpm，有吉他的聲響但沒有吉他 Solo。

音檔二：
在音樂類型上比較偏向搖滾，約為 80 bpm，吉他 Solo 不明顯。

音檔三：
音樂類型不明確，約為 100 bpm （這輪測試中唯一速度符合 Prompt 的音檔），後半能聽見吉他刷和弦和破音音效。

音檔四：
音樂類型為搖滾，約為 135bpm ，有明顯吉他聲響。

小結：
四個生成的音檔在拍號和速度上不具有一致性，不一定會產生吉他的音色。幾乎沒有與 Bossa Nova 相似的元素，生成的音檔大多較接近搖滾樂，都沒有明顯的吉他 Solo 。

第三輪測試：

”Sax solo without other instruments, 60 bpm, jazz ballad”

音檔一：
音樂類型與 Jazz ballad 有些相似，沒有 Sax 的聲響，速度約為 65 bpm。

音檔二：
在音樂類型不太明確，速度接近 60 bpm，沒有 Saxophone 的聲響。

音檔三：
四個音檔中最符合 Prompt 要求的音檔。音樂類型算蠻接近 Jazz Ballad ，速度相當接近 60 bpm，但是沒有 Saxophone 的聲響。

音檔四：
音樂類型不明確，沒有 Saxophone 的聲響，速度約為 100 bpm。

小結：
速度上與 Prompt 接近，也有些類似 Jazz ballad 的聲響，但沒有出現任何Saxophone 的聲響，可能訓練時沒有使用該樂器的資料。

測試心得

雅婷 Studio 能夠快速的生成方便下載的音檔；但是在生成上的準確度較低一些，僅在某些音樂類型的表現上較好。

總之，針對這次的測試，我們可以發現生成式 AI 已能夠營造大眾認可為音樂的音訊，它們在某些音樂類型和氛圍方面表現也很出色，只是對於音樂類型和不同樂器的生成準確度仍有進步的空間，對於熟悉不同音樂風格的人來說，這些不符合音樂慣例的元素會造成違和感。

另一方面，這個性質也延伸出一個值得探討的問題：

AI 雖然目前不擅於遵循音樂上的慣例，但換個角度想，這能不能算 AI 跳脫了傳統的音樂框架，為我們帶來的創新呢？

今晚，來點 AI 做的巴薩諾瓦！

「你吃過夏威夷披薩嗎？」

生成式 AI 與其在音樂方面的應用

測試過程與結果（建議配戴耳機閱讀）

測試心得

發佈留言取消回覆

相關文章

微光小島 – 舊港島的傾聽、陪伴與轉譯

在舊港島練習節奏分析：從 Lefebvre 的 Rhythmanalysis 談起

以光輝映：舊港島光影敘事

融聲創意｜ZONE SOUND CREATIVE

info@zonesoundcreative.com

聚焦音樂、科技與藝術

訂閱電子報，探索創意與科技的無限可能！
Subscribe to explore sonic creativity and beyond.

© 2024 All rights Reserved.

今晚，來點 AI 做的巴薩諾瓦！

「你吃過夏威夷披薩嗎？」

生成式 AI 與其在音樂方面的應用

測試過程與結果（建議配戴耳機閱讀）

測試心得

發佈留言 取消回覆

相關文章

微光小島 – 舊港島的傾聽、陪伴與轉譯

在舊港島練習節奏分析：從 Lefebvre 的 Rhythmanalysis 談起

以光輝映：舊港島光影敘事

融聲創意｜ZONE SOUND CREATIVE

info@zonesoundcreative.com

聚焦音樂、科技與藝術

訂閱電子報，探索創意與科技的無限可能！ Subscribe to explore sonic creativity and beyond.

© 2024 All rights Reserved.

發佈留言取消回覆

訂閱電子報，探索創意與科技的無限可能！
Subscribe to explore sonic creativity and beyond.