音楽生成AI「SUNO」の使い方と音楽経験者による感想
音楽生成AIの中で最も評価が高いWebサービス「SUNO」を使ってみた。
SUNOは歌詞とジャンルなどの指示だけ出せば自動で一曲作ってくれる。
ほぼ音楽知識不要で利用できるとはいえ、音楽作曲の知識があったほうがいい部分はあるので、そのあたりを紹介しようかと。
Contents
SUNOで出力した曲のサンプル
今回はSUNO v4で楽曲を生成して、VEEDというサービスで歌詞つきの動画にしてみた。これを実際にどんな歌詞入力やプロンプトで出力したかも後で紹介していく。
基本の使い方
とりあえず無料会員登録から始めよう。このリンクは私のアカウントからの招待リンクで、音楽生成に使うためのクレジットが250がもらえる。
以下は画面説明だ。
雰囲気だけで伝える場合(作詞無し)
- SUNOページの左ペインの「Create」を選ぶ
- 上部の「Custom」をオフにする
- 右側のバージョンを選ぶ。Ver4が一番品質が良い。私が試した時点では、無料アカウントだとVer4に使用回数制限があり、Ver3.5だと「Create」ごとに10Credits(1生成 = 5Credits x 2曲)が消費された。
有料(Pro Plan)だとVer4でもクレジット消費量は10Creditsで同じ - 「Song Description」に曲のオーダーを入れる(日本語可)
- 「Create」を押せば2曲分が並行して生成される
- CreateするとCreditsが減る。気に入ったらUpgradeをどうぞ
作詞をしない場合、Song Descriptionにある情報から、SUNOが自動で作詞をしてくれる。
ここを日本語で書くと、特に詞の言語指定がなければおそらく日本語の歌になる。何を書いたかもあるけど、何語で書かれているかも曲調に大きく影響している。
作詞をする場合
- SUNOページの左ペインの「Create」を選ぶ
- 上部の「Custom」をオンにする
- 右側のバージョンを選ぶ。Ver4が一番品質が良い。私が試した時点では、無料アカウントだとVer4に使用回数制限があり、Ver3.5だと「Create」ごとに10Credits(1生成 = 5Credits x 2曲)が消費された。
有料(Pro Plan)だとVer4でもクレジット消費量は10Creditsで同じ - 「Lyrics」に歌詞を入れる
- 「Style of Music」には音楽ジャンルや雰囲気などの指定をする。「Exclude Styles」オプションでは「こういうジャンルや雰囲気では出してほしくない」という嫌な要素を指定するオプション
- 「Persona」は声やスタイルを参考にするためのものらしいが、今回は使わなかったので割愛
- 「Title」には曲名を入れる
- 「Create」を押せば2曲分が並行して生成される
- CreateするとCreditsが減る。気に入ったらUpgradeをどうぞ
高品質な音楽アウトプットのために最も重要なのは「Lyrics」に入力する歌詞と、「Style of Music」の指示である。
【Lyrics】作詞をする場合のポイント
SUNOはCustomモードなら自分で作った詞で歌わせることもできる。
どんな詞でもとにかく出力してくれるが、聴きやすい、ノリやすい音楽にするには、詞の形が音楽に合うような形になっていることがかなり重要だと感じた。
歌詞サンプル
冒頭で掲載した動画の楽曲の場合は、以下のように入力している。
[Verse] 愛 なき じだい
もう なく したい
どうして こんなに
息苦しいの?
あい そ わらい
感動はない
どうにも こうにも
乾いた midnight [Bridge] 午前にじ まだ誰も
眠らない このStreet かいわい [Chorus] Dreaming Queen
without 興味 その
腕の中に だかれて今夜
りだつしてゆく feel like fading light
Virtual Trippin'
興味に いざ 教示
奏でる まざってく
エーアイ Generative Love[Verse 2] ラジオだけ ただ響く
[Bridge 2] 午前さんじ すれ違う
かすれた 懐メロ
どうして こんなに
叫び足りないの?
オートマチックな
視界 の そと
誰にも 何にも
届いて くれやしない
モノクロの キミのシルエット [Chorus 2] Dreaming Queen
止まらない ビート
にしんすーの波に 飲まれるこんや
げだつしてゆく feel slipping through time
Virtual Dreamin'
甘い誘惑 いま Input
溶け合う ぞーふくする
エーアイ Generative Love [Bridge 3] 重なるデータ
夢とリアルの ホライゾン
透けて見える 未来
絡み合う 街のネオン
だけど まだ
止められない このMotion
今は [Final Chorus] Dreaming Queen
without 興味 その
腕の中に だかれて今夜
りだつしてゆく feel like fading light
Virtual Jumpin'
交わる 視線が いま resonance
こんなレトロな 感情知らない
奏でる エーアイ and IExecution
within 興味 その
腕の中に だかれて今夜
満たされてく feel like digital waves
Virtual Trippin'
カンシンに いざ きょうしん
奏でる かなってく
エーアイ Generative Love
SUNOは[VERSE] [BRIDGE] [CHORUS] [Outro]といった文字をセクションの区切りとして理解するようだ。それを使って「ここがサビやで」と教えて作成している人が多い。ただ、指定したからと言ってそれに従って曲を構成するとは限らない。また、なくても曲にはなる。
- [VERSE]:Aメロ。曲の1番や2番の序章的な部分
- [BRIDGE]:曲調が変わる部分。J-POPだとBメロの代わりに指定すると良さそう
- [CHORUS]:サビ。一番盛り上がるところ
- [Outro]:曲の終わり部分。今回は使っていない
SUNOでの作詞ポイントとしては、以下のような点が考えられる。
- VERSE(Aメロ)、 BRIDGE(Bメロ)、CHORUS(サビ)などをそれぞれ2行の倍数ずつの文で作る(4行とか8行とか)
- 2番以降は、1の文字の音数となるべく同じリズム感で作る
- 読み間違えそうなところはひらがなで書く
- 英語発音が良すぎる場合はかなで書いたりしてJ-POP的な発音に調整するのもアリ
日本語の場合、漢字が読めない場合や読み間違いがあるので、読み間違いがよくある場合は、その部分をひらがなで表記したほうがいいかもしれない。
洋楽だとVerse(Aメロ)からすぐChorus(サビ)なんだけど、J-POPベースでいくと「Bメロ」がある曲が少なくなく、その雰囲気を出す時に私は[Bridge]を指定する。(これが正しいかはわからんけど)
今回はサビに早く行くためにBridgeの部分はかなり短くしたけど、きちんと雰囲気を変えるパートとして組んでくれることが多かった。
そしてこれをコピーして、リズム感が変わらないように文字を入れ替えたりすると2番ができるというわけだ。
もちろん、必ずしもこんな形式的に作る必要はない。SUNOはかなり解釈をするので、とにかく聞ける音楽にしてくれる。
もっとお気楽に適当な歌詞をぶち込んだほうが面白いし人気が出ると思う。
たとえば、元素記号を羅列してオペラ風にしたものなんて、もうアイディアの勝利だし、もっともAIを上手く使っている例にさえ思う。
【Style of Music】プロンプトの書き方
海外のページでは細かく楽器やテンポなどの指示をJSONのようにして書くことを推奨しているページもあるが、正直あんまり意味がない。
指示する要素が増えれば増えるほど、AIが学習してきたものを混ぜようとして意図しないものができる感じがするし、そもそも200文字までしか書けない。
なので、私が今回作ったものは以下のシンプルなプロンプトで生成したものとなる。
Drum and Bass,Female Vocal,J-POP,high tempo breakbeats
要素はカンマ(,)で区切る。
今回は音楽ジャンル名「Drum and Bass(ドラムンベース)」を最初に書いた。ジャンル名は英語のほうが忠実に出る気がする。
音楽ジャンルの指定は必須ではないし、AIならではのランダム性を楽しむならあえて指定しないのも良いと思う。
ただ、わかりやすい特徴、名称がつけられているジャンルは、具体的に指定したほうがそれっぽいものが出やすいと思う。この点では、音楽のジャンルのイメージがあれば、その音楽がなんというジャンルなのか(特に英語圏での呼ばれ方)についてよく調べておいたほうが良い。クレジットの消費を抑えられる。
あるいは、楽器の雰囲気の方向性だけでも良い。今回はデジタルミュージックを作ったが、アコースティックサウンドも作成できる。「Acoustic」「EDM」などはすごくざっくりとしているが効く。そして、ジャンルをぶっ壊す力を持っている。つまり、方向性と音楽ジャンルがバッティングすると、あんまりうまく融合しない。
また、今回は日本語の音楽ということで「J-POP」を入れている。ある程度速いテンポとブレイクビーツが入ったドラムンベースにしたかったので、「high tempo breakbeats」というフレーズを入れた。
ボーカルについては、男性ボーカル(Male Vocal)や女性ボーカル(Female Vocal)などを入れて出力したんだけど…
これ、生成したあとに気づいたことがある。
Drum and Bass,女性ボーカル
ボーカルの部分だけでも日本語で書くとやたらメロディラインがJ-POPやアニソンっぽくなる気がする。J-POP指定をしなくても、疾走感のあるポップなドラムンベースができやすかったのだ。
こういった、ちょっとした表記部分が出力の方向性に大きく影響するので研究するのも面白いと思う。
なお、SUNOではアーティスト名などを入れても認識しないらしい。そこをAIでの学習や推論(出力)時に関連情報として残すことは、著作権的に依拠性などの観点で問題になるためだろう。
音楽・ビデオのダウンロード
気に入った曲ができたら、トラックの右端の三点ボタンからMP3やWAV、Video(MP4)ファイルでダウンロードできる。Videoは歌詞をつけてくれるが、歌っている部分が表示されるほどよくできているわけではないし、日本語の発音のためにかな表記にした部分などが見えてカッコ悪いが、おまけとしては十分。
音楽経験者が感じたSUNOの強みと弱み
強み
とにかく爆速でクオリティの高い曲ができること。
クリックから数秒で一曲の頭出しが始まるのはもう別の時代が来たとしか言いようがない。
もし今回と同等の楽曲を本来の作曲作ろうとしたら何が要るか?
まずDAWを買って、Massiveなどの音源を買って、作曲して作詞して、ボーカリストを探して、仮歌を作って渡して、レコーディングして、コーラス作成、ピッチ修正やミックスをして…
とにかく途方もない手間がかかる。いや、それが本来のあり方で、「本当の自作の音楽」を作るためのコストなのだけど、それがもう「作詞だけ」で、素人が歌ったり録音したりミックスするようなものより聞けるものが出来てしまうのだから恐ろしい。特にオーケストラや合唱などの「どうやっても1人で作れないような音楽」を再現できてしまうことは驚きを隠せない。無料あるいは少額からそういった「お金がかかってる風の音」を出すことができるのだ。
弱み
具体的な指示出しが効かない。つまりコード展開とか、発音はもちろん、ジャンルについても「参考」にはするけれど、正しく解釈されていない場合が少なくない。
これは確率で動いている現代のあらゆる生成AIに言えることで、とにかくガチャなのだ。
ガチャということで、沢山出力する場合はお金もかかる。今回、私は自分好みのクオリティの高い音楽を出すのに、歌詞の修正とプロンプトの修正を含めて500クレジットは使った。(つまり、10ドル月のPro Planに契約し、1/5ほどのクレジットを使った)
v4でも部分的に発音とかが不自然なところなどはどうしてもあるし、そこが思ったように指示を出して一発で直せないのは歯がゆい部分だ。
このように、こだわりがあったり、ある程度自分の中で音楽の良し悪しがわかっている人にとっては「思った曲構成が中々でないな」と思う場合はあるだろう。
また、今の生成AI全般に言えるんだけど、権利関連や芸術性が注目されるような仕事には使いづらいし、新奇性のある音楽を作ることには向いていない。
おまけ:歌詞付きの動画を作る
SUNOのおまけ動画がいまいちだったので、それっぽい歌詞付き動画を作るのにもWebサービスを使ってみることにした。
今回利用したのはVEED.ioというサービスだ。無料プランがあるが、動画に入る透かしを除去したり高い解像度で書き出すには有料プランに入る必要がある。
VEED.ioはブラウザ上で動作し、音楽ファイルから音声を自動で文字起こししてくれる機能がある。これは無料だと2分ぶんしか使えないし、歌だとあんまり精度が良くなかった。
ただ、テロップの編集機能は使いやすく、ミュージックビデオで欲しくなるイコライザーやプログレスバーなどを動画に埋め込むことも出来るので、インスタントに音楽ビデオを作るのには良いと思う。
記事の内容は執筆、更新日時時点の情報であり、現在は異なっている場合があります。 記載されている会社名・製品名・システム名などは、各社の商標、または登録商標です。
【今日のおすすめ】
【auひかり】最大10Gbpsの超高速通信!最大126,000円還元キャンペーンキャッシュバックで初期工事費も実質無料!