UTAU音源を作ろう!

各解説へのジャンプ:録音/原音設定/おまけ

 

ざっくりUTAU音源を作って配布までこぎつけたい人向けの解説です。おそらくインターネットの海のいたるところに同じような解説がありそうですがなるべく何もかも分からない人にも分かりやすいように気を付けて書いています。

アンダーラインが引かれている項目はおおよその場合クリックすると補足説明が出てきますので参考にしてくださいね。

■録音形式を決めよう!

連続音のust
連続音のust
CVVCのust
CVVCのust
単独音のust
単独音のust

UTAU音源にはざっくり分けて「連続音」「CVVC」「単独音」という3つの録音形式があります。ちなみにこれは収録量(容量のデカさとか録音時間の長さなど)が多い順に並べています。

この録音形式の違いによって上記の収録量だけでなくUTAUでの歌わせ方が少し変わるので、自分に合いそうなものを選んでいきましょうね。録音する前に一度誰かが配布している音源を使ってみるとめちゃくちゃ参考になるかも!あらかじめ書いておくと、池弦は主に単独音と連続音しか収録および後ほど解説する原音設定(録音してからUTAU上でスムーズに歌わせるための作業)をしておらず、CVVCは1回試しに録音してみたりたまに触ったり……みたいな感じなのでCVVCの解説があっさりめになります。あとWindowsユーザーなのでMacおよびスマホからなどの解説はサポートできません。ごめん。

各録音形式についての補足(なんもわからん人向け)

※ちなみに画像の「ust」というのはUTAU専用の歌唱データ、楽譜みたいなものです。クリックすると拡大できるので見づらい場合は見比べてみてください。

■録音ソフトを使おう!

池弦は基本OREMOというソフトで録音しているのでそちらメインの解説になりますが、RecStarというソフトも最近目にしたので最後に軽く解説しています。

 

▼OREMO▼ DL先

UTAU音源の録音に特化したフリーソフトです。前述した録音形式がなんであれ録音できます。強い!DLするときは最新版を選ぶのが無難だと思う。

まずOREMOのマイク設定は基本的にパソコン本体のもの準拠なので、サウンドの設定から入力デバイスを確認し、繋いでいるマイク(あるいはIF)が接続されているかどうかチェックしておきましょうね。

これはOREMOの起動画面やで。
これはOREMOの起動画面やで。

▼はじめに▼

まずはじめに、どの録音形式であろうとUTAU音源は原音(録音したwavファイル)なしには成り立ちませんし原音が命です。なるべく上手に歌わせてあげたいときは、できるかぎり録音に気を使ってあげてください。

池弦の場合録音形式に関わらず気を付けているのが以下の3点です。

 

・周囲の環境音(室内で稼働しているエアコンなどの音)が入るのを避ける

声量と声質を一定に保つ

音割れ(ボリュームが大きすぎて音質が劣化する現象)をさせない

 

▼録音の流れ▼

確認する項目が多いですが、そんなに毎度変更することはないと思うので身構えなくても大丈夫です。

録音リスト(音名リスト)の確認

BGMの確認

保存先の確認

④Rキーで録音!

※「オプション」で収録方法を変えていない場合は"声を出す間"ずっとRキーを押しっぱなしにしましょう。

リストの一番下まで録音出来たら録音終了です。保存先がデフォルトなら「result」に録音したwavが保存されているので、既にUTAUをインストール済みの場合フォルダごとまとめてUTAUのvoiceフォルダ内に移しちゃいましょう。

 

 

▼録音形式の種類別録音方法▼

あくまで個人の見解ですが単独音/連続音/CVVCそれぞれのざっくりした録音方法や気を付けていることなどの紹介をしましょうね。語尾息などの特殊音素についてもちょいと紹介します。

 

単独音

連続音とCVVC

特殊音素

 

▼RecStar▼ DL先

こちらは最近(2024.4.16の池弦視点)公開されたUTAU音源録音ソフトです。スマホでも使えるらしいのですがそれに関しては一旦当サイトでは解説を省かせていただきます。そのうち増えるかも。

起動から録音リスト選択、録音開始まで

録音開始と終了、使用BGM選択について

 

 

■原音設定-前置き-

さっきから頻出していた例のヤツですね。説明がうまくないのでこれは例なのですが、「UTAU音源を録音したぞ!よーし早速歌ってもらおう!」ということでUTAUを起動し、録音した音源を選択して、歌詞を入力してみたり、ustを借りてきたりしてそのまま再生ボタンを押し歌ってもらおうとすると、以下のサンプルのように音が途切れ途切れになって再生されます。

これが、「原音設定」という作業をすることで以下のサンプルのようにそれなりに滑らかに再生されるようになります。

さて、録音のところでも少し解説していますが、単独音とCVVCと連続音はそれぞれ原音設定のやり方が少し変わってきます。が、音声波形を見た時子音と母音をパッと見で区別できれば何ら怖いものはない!ので、一旦その見分け方を簡単にまとめますね。


上の画像をご覧ください。※クリックすると拡大できます。

一旦細かい手順をすっ飛ばしますがこちら左が「い」、右が「き」のwavの音声波形(※真ん中にある青いやつ)をUTAU上で表示している画像になります。このそれぞれの音声波形の左端を見比べて欲しいのですが、そのままの母音である「い」と違い「き」の方は子音が入っているので、赤い縦線を分かれ目にして細い線(左)と太い線(右)が切り替わっているわけですね。この赤い縦線より左側の細い波形が子音の部分です。ちなみにこの赤い縦線ちゃんには「先行発声」という名前があります。覚えてあげてください。

 

で、単独音と連続音とCVVCの原音設定はこれを基準としたうえでそれぞれやることが変わってきます。改めて書きますが池弦が主に使用したり録音したり原音設定しているのが単独音と連続音なので、専門外気味のCVVCの解説についてはあっさりめになります。

そして本題!その原音設定について!と言いたいところなのですが追加で3点。

 

voice①UTAUのフォルダ内に「voice」というフォルダがあります。録音の流れで※のところに前述していますが、まずここに(録音したあとなど)右の画像のように原音設定したい音源をフォルダごとまとめて入れておくと様々な面で楽です。

ここに入れておかなくても一応UTAU上で原音設定したり歌わせたりは可能なのですが、いちいち探して指定して...…という手間が発生するので!

②録音特化ソフトにOREMOがあるように、原音設定特化ソフトでsetPARAMという便利ツールがあります。単独音(とCVVCもほぼそうだった気がする)に関してはUTAU上の機能だけで原音設定することができるので、単独音しか作らねぇし使わねぇぜ!!って方はマジでUTAU上の機能だけで十分なのですが、慣れてきたら多音階音源(これは後ほどしっかり解説します)とか連続音とか挑戦してみたいかも!という方は入れておいて絶対に損はないです。なんと単独音と連続音に関しては原音設定の自動推定ができます。さいつよ。この場を借りて書きますいつもお世話になっております。

多音階音源について

 

③周波数表の作成

音源選択さあ新しい単語が出ましたね、周波数表!簡単に解説すると、これがない限りUTAU音源は歌を歌いません。

まず録音したUTAU音源をvoiceフォルダに移動したあと、UTAUを起動しましょう。「プロジェクト」欄の「プロジェクトのプロパティ」からデフォルト以外の原音設定したい音源を選択してOKを押してください。 音源選択画面が閉じられ、UTAU上の左斜め上に表示されているのが先ほど選んだ音源に切り替わっているのを確認したら、「ツール」欄から「原音の設定」を選ぶことでその音源のoto.iniが開かれます。

 


oto.iniを開いたら上の画像のように「編集」欄から「複数選択」を選んで、もう一度「編集」欄を開いて新しく表示された「全部選択」をクリックしてください。次にその全部選択状態でそのまま下にある「周波数表を初期化」ボタンをクリックしてください。「選択したエントリの周波数表を再作成します」と出てくるはずなのでOKを選択し、待っていると周波数表が一括で作成されていきます。

oto.ini

 

ちなみにこの周波数表一括作成、惜しみなく他のツールを使って時短を試みたい方はSpeedWagonがおすすめです。録音機器との相性によってはうまいこと作成してくれない場合もあるにはあるのですが大体の場合はこのデフォルトの周波数表一括作成より素早くいい感じに周波数表を作成してくれます。

■原音設定-本編-

はい!やっと本編ですね。単独音連続音CVVCの原音設定はそれぞれやることがちょっと変わってくるので録音の時と同様にジャンル分けして解説します。どれもできるようになっておくと使う際の表現の幅は広がりやすいので、全部ぼんやりでも覚えておいて損はないかも!

ということでまず原音設定において「先行発声」などを含めた各設定項目が存在するのですが、その名前をさらっと紹介しましょう。全部の原音設定で出てくる名前です。


この画像2つ、左が原音設定済、右がなにもしていない状態の音源のエディタ画面です。
周波数表を作成の項目でoto.iniの開き方もサラッと解説しましたね。あの画面で「エディタを起動」というボタンをクリックするとこの画像のように音声波形を確認することができます。何も弄っていない状態であれば右のようなピンクやすみれ色の部分がない状態で表示されるかと思うのですが、このピンクやすみれ色部分の範囲設定、それから左端に寄っている赤と緑の縦線の位置を決めていくのが原音設定になるわけですね。

 

それぞれ超簡単に説明すると、

①赤い縦線=「先行発声」(UTAUの楽譜上で音を始める場所)

②緑の縦線=「オーバーラップ」(前の音と重ねる範囲)

③ピンクの範囲=「固定範囲」(音を伸縮させる範囲)

という名前と役割があります。

で、④すみれ色の部分は何かというと"音を使わない部分"になります。これは「左ブランク」「右ブランク」という項目で設定できます。ちなみにsetPARAMではこの左右のブランクの表示色が変わってくるのですが名前は一緒なので落ち着きましょう(?)。


こちら原音設定済みの単独音をUTAUで使用したサンプル画像になります。「さ」が一番わかりやすいかな?「さ」の左端のピンクの線が「わ」に覆いかぶさるように伸びていますね。右の画像のような位置に先行発声とオーバーラップを設定していることにより「わ」の発音最中に「さ」の子音がヌルっと入り込んで発音される仕組みになっています。「ん」は(池弦の原音設定の場合)先行発声やオーバーラップは0の値にしているので前の音と重なる範囲が一切ありません。

 

◇単独音

池弦はいつも単独音の原音設定をUTAU上でやっているので、UTAUでの原音設定画面の画像を用いて解説していきますね。

単独音の原音設定は前置きの部分で少し解説した子音と母音の見分けさえできればかなり楽勝です。子音と母音の間にこの先行発声をシューーーーッ!!超!!エキサイティンッ!!!みたいな作業です(※厳密には他にも色々動かします)。

 

右ブランク手順として、まず池弦は先行発声やオーバーラップを設定する前にざっくりで全部のwavに固定範囲と左右ブランクの値を設定していきます。これをやることでまずwavにある余白の無音部分を使わないように設定できるので、前述していたサンプル音声みたいにUTAUで使用する際に音が途切れ途切れになって再生される現象を(とりあえず)なくすことができます。

画像のように、エディタを起動すると左上に「+」「-」「s」とボタンがあるのですが、+が横幅の拡大、-が縮小のボタンなので池弦の場合は一旦-ボタンを押しまくって限界まで縮小表示にします。で、その後にエディタ内の端にカーソルを合わせると矢印が+マークに変わるので、そこでマウスを右クリックしたまま出てくる名前が「右ブランク」あるいは「固定範囲」の場合にちょいと左右どちらかへ動かしてから指を離してみてください。すみれ色、あるいはピンク色の範囲が設定できたでしょうか?できたらそれが第一歩だ!!!すごいぞ!!

エディタから原音設定をする場合、左ブランクは固定範囲を動かしてからでないと設定できないので一旦固定範囲を設定してからもう一度左端にカーソルを合わせ右クリックすると「左ブランク」という名前が出てくるかと思います。ちなみに、左端で先行発声やオーバーラップの縦線とカーソルの位置が被る状態で右クリックするとUTAUちゃんは左ブランクや固定範囲でなくそちらの設定を優先しようとしてしまうので、なるべくその線に被らない上下どちらかの端の部分で右クリックしてみてください。

 

ブランク設定で、肝心の固定範囲と左右のブランクの位置をどこに設定するか……という話に移りましょう。前提として、環境音などが入っていない場合は画像のように声のみが音声波形として青く表示されているはずです。ので、その声の音声波形と、真ん中を通るオレンジの線に注目して設定していきます。

 

①左ブランクは声がちょうど始まる位置
②固定範囲は左端から見てオレンジの線が真ん中に向けて安定し始めた位置
③右ブランクは声が尻すぼみになったりする前の適度な太さを保った上で可能な限りの右端の位置

といった感じで池弦は一旦ざっくり設定しています。ちなみに、この真ん中のオレンジの線はピッチ線(音の高さを示している線)なのですが、この線が極端にガッタガタだったり途切れてたり真ん中にいなかったりそもそも無かったりした場合はUTAU上で使うとえらい音になったりします。周波数表を作成していない場合そもそも表示されませんが、作成した上でピッチ線の様子がおかしいことになっている場合は周波数表の作成がバグったかそもそもの原音のwavにノイズが入ってるかなどのアクシデントが起こっている可能性があるので一旦wavを開いて耳で聞くなりしてください。聞いてみてノイズが入ってるかも!とか声が途中で枯れてるかも!という場合は録りなおせばOKなのですが、wavを聞いても問題がなさそうな場合はシンプルに周波数表の作成がバグってる可能性があります。周波数表の破綻と呼ばれる現象だ!周波数表も一応修正ができるので後ほど解説します(ので一旦置いといていいです)が、これが全部の音で起こってる場合はおそらく録音機器かパソコンかに何かしらの問題があるかもなのでもう有識者に相談しつつ録音環境を見直して録音し直すなどした方が良いです。

補足しておくと、囁き気味の声で録音した場合多少ピッチ線はガタガタになりますがよほど極端なガタガタ具合でない限りは気にしなくても大丈夫です。

 

この左右ブランクが一通り設定出来たらわりと声が途切れないまま歌ってもらえるようになりますが、そのままだと子音がもったりとしてしまうので、ここからが-先行発声-の出番となります(オーバーラップも設定していくよ)。

前述した通り、先行発声はUTAU上で音が始まる部分に設定していきます。オーバーラップは先行発声の3分の1くらいの値だと耳馴染みがいいらしいです。単独音の場合は子音と母音がちょうど切り替わる場所に先行発声を置いていきましょう。といってもいきなり子音と母音を見分けるのは難しいと思うので、さらっと画像付きで解説します。

 

▽母音(あ、い、う、え、お)+「ん」

母音各子音の前にまずこの音素たちですね。池弦は語頭音素と通常音素のふたつを設定していますが、一旦通常音素の方だけ解説しましょう。先行発声とオーバーラップは0の値のまま、固定範囲と左右ブランクだけ設定しています。左ブランクは音の途中に設定して先頭部分を捨て置いています。

 

 

▽さ行、は行、「ち」「つ」など

摩擦破擦カサカサした長めの子音になるかも。一番見やすい。 池弦はあんまり長すぎる子音が好きではない(???)ので先行発声の上限を120までに留めて、オーバーラップはその3分の1の40前後の値にしています。 このカサカサした子音は摩擦音と破擦音に分類されるらしいのですが、池弦は音声学に詳しくない(し、詳しくなくても原音設定はなんとかなる)ため細かい話は端折ります。ちなみに、この下に解説している破裂音たちもそうなのですが、こういう息っぽい子音は録音環境によっては波形に現れない時があります。その時は何もない虚無空間に先行発声とオーバーラップをなんとなくで置いておいても許されるでしょう。見えないもんはしょうがねえ。君はよく頑張った。

 

 

▽か行、「た」「て」「と」、ぱ行など

破裂これも比較的子音が見やすいはず。パキっとした子音になるかカサカサ……とした子音になるかは人によりけりですが「き」は特にカサカサした子音になりやすいかも。この辺は子音が破裂音と呼ばれるやつらしいです。

 

 

 

 

▽な行、ま行など

鼻音鼻音と呼ばれるやつらしいですね。もっっったりした形の子音になりやすいので、先行発声の位置が分かりにくい時は仮置きしては都度UTAU上で歌詞を入力して再生しながら調整してみましょう。池弦は子音がもったりしすぎてしまうのが好きではないので先行発声の上限を60くらいに留めています。

 

 

▽ら行

弾音弾き音と呼(ry。これオノマトペで表現するの難しいな、独特な形してるんですよね。上記の鼻音たちと同じく子音がもったりしすぎるのが嫌なので、これに関しては先行発声の上限を30くらいに留めています。

 

 

 

 

▽「いぇ」、うぁ行、や行、わ行など

半母音正直いちばん子音が分かりづらい音素なので解説にも困るんだこれ。半母音と呼ばれるやつらしいです。鼻音と同じく都度UTAU上で歌詞入力して調節するのが一番いいと思うな。

 

 

 

 

 

◇特殊音素について

池弦の場合母音(あ・い・う・え・お)+「ん」の6つだけ語頭音素と語尾息を設定しているのですが、これに関しては拘りたい場合のみ設定したらいいもの、という印象です(?)。録音でちょっと解説したのですが池弦は母音を録音するときに語尾息も一緒に録音しています。そういった録音方法により、1つのwavに対して複数の原音設定を施したい場合は「複製」という機能を使用しています。

以下左の画像のようにoto.ini編集画面で複製したい音素を右クリックすると「複製」という項目があるのでそのまま実行し、複製した音素にはエイリアス(音の名前)として「- え(えの語頭音素)」「e R(えの語尾息)」と設定しています。説明がややこしいのですが、こうすることでUTAU上で歌わせる時も「- え」「e R」と入力した場合だけそのエイリアスに入力された原音設定が反映されるようになります。

※ちなみにこのエイリアス、多音階音源などを作りたいときは多用することになると思うので頭の片隅に入れておくといいかも。


▽語頭音素

語頭音素先行発声は50~70くらいの値を目安にして、ちょうど音が始まるくらいの位置にしています。オーバーラップは20~30くらいかな。

口を開く音から入れたいというかなんというか、そういう好みがある人向けの音素かも。

 

 

 

▽語尾息

語尾息池弦が大好きなやつですね。これはだいたいいつも先行発声を110~120、オーバーラップを30~40の値にしています。

母音からカサカサッ……とした息の波形に切り替わるあたりに先行発声を置いてますね。固定範囲は音が終わるギリギリまで伸ばしがちです。

 

 

 

▽喉切り母音

喉切り先行発声とオーバーラップの値は語尾息と一緒でOKということにしています。固定範囲もやっぱり音が終わるギリギリまで伸ばしがちです。

 

 

 

▽ロングトーン母音

ロングトーン先頭の音は入れずに途中から。先行発声が300、オーバーラップが100くらいにしてるのですがもうここまで来ると好みの範囲ではないですか?

◇連続音

前置きのところで紹介していたのですが、連続音に関しては池弦の場合ほぼsetPARAMの自動推定にすべてを任せているので、まずそのsetPARAMでどうやって自動推定を行っているか、という話をしていきますね。

setPARAM、起動するとまず「どの音源の原音設定を行うのか」という選択画面になります。原音のwavが入っているフォルダーを選択してください。自動推定1

すると次に「oto.iniを読み込むかどうか」の選択画面になります。今回は自動推定のやり方から紹介したいので、「パラメータを自動的に生成する」を選択してください。原音設定する音源が連続音なので、次に出てくる音声データの種類選択の画面では「連続発声データ(setPARAMで自動推定)」をクリックします。自動推定2

 

さて、そうすると色んな数値が表示されている画面になりますね。池弦ここはかなり勘で設定しておりまして!

配布されているガイドBGMを使用している場合、配布サイトやそのBGM付属のReadmeなどに自動推定用の数値がメモされていたりすると思うのですが、ない場合もあったりします。自動推定3メモされている場合はその通りに数値を適宜変更すればいいのですが、分からない場合は何も弄らずにそのまま「パラメータ生成」を行ってもいいでしょう。自動推定のやり直しは何度でも可能なので、一旦試しで自動推定して「ここ弄った方が良いかもな」というのを把握してから再度やり直してみたり~というのもできます。ちなみに参考画像はsetPARAMの初期設定の数値から変更済のものになるので手元のものと数値が違っても気にしないでください。同じ数値にする必要もありません。

連続音の原音設定はこのパラメータ生成後に「ファイル」→「上書き保存」で終了としてもいいのですが、発声タイミングや設定数値がずれている場合は自動推定もうまく機能しないので、そうした場合の修正方法やそもそものsetPARAMの見方も解説していきましょうね。

 

パラメータ生成後、setPARAMは2つのウィンドウを表示します。片方は音素の一覧および選択画面で、もう片方に選択した音素の音声波形が表示されています。

setPARAM1setPARAM2

 

先に音声波形が表示されている方のウィンドウから解説していきましょう。原音設定-本編-の一番最初に出た「先行発声」「オーバーラップ」「固定範囲」「左ブランク」「右ブランク」という名前を覚えているでしょうか。基本的にはそれらの頭文字が表示されているのですが、「子」だけちょっと知らない名称になりますよね。こちら固定範囲を指しています。

 

で、このサンプル画像には7モーラで録音した連続音のうちの「_しんしししゅししぇ」のwavの波形が表示されているのですが、

setPARAM3

内訳はこんな感じ。さて、連続音がどうして連続音という名前かという話にもやや関わってくるのですが、基本的に連続音は語頭音素(先頭に-が付く音素)以外は「前の母音とつながった状態」で設定していきます。なので、「i し」の原音設定をする場合は画像のように左ブランクの位置を設定する時点で「い」を含めるわけです。先行発声は前の「い」が終わった後、「し」の子音と母音の境目に配置します。で、右ブランクは次の「しゅ」が入らない位置に設定してください。

ちなみに、マウスで先行発声などの位置を調整するにあたって、池弦はこんな感じにオプションで設定しているのですがこの辺は好みに合わせて適宜変えてみてくださいね。

setPARAM4

setPARAM5

自動推定が機能していれば特に何か動かすこともなく原音設定終了としていいのですが、池弦の場合は一応ざ~~っと全音素ずれてないか確認しています。以下はずれてる時の例です。あるんです、こんなことも。チェックする量は単独音に比べるとハチャメチャに多いのですが、このタイミングのズレさえ修正すれば連続音に関しては普通にお歌を歌ってくれるようになります。

setPARAM5

※重複音素の削除

◇CVVC

なんとCVVC、一番新しい録音形式のため確かsetPARAMのデフォルトの機能でも自動推定ができないのですが、録音方法のところで紹介したように録音リストと一緒に「oto.ini」が同梱されている場合はそれをコピペした上で連続音と同じくずれがないかを確認して修正するだけで原音設定を済ませられます。とはいえ、一応どうやって原音設定するかを把握さえしていれば連続音からVC音素を作りだしたりもできる(※英語歌詞とかに便利です)のでざっくり紹介しましょうね。

CVVCの「CV」に当たる部分は言い換えてしまえば単独音なので解説を省くとして、問題は「VC」ですね。各録音形式についての補足で軽く説明していましたが、「な~ぬ」と録音した時の「a n(なの母音とぬの子音)」、いわゆるVC音素が連続音や単独音には存在しない原音設定になります。CVVCは基本的に殆ど単独音とVC音素の原音設定で構成されているのですが、母音と「ん」だけは(子音が存在しなければVC音素にしようがないので)ちょっと連続音も組み込まれています。

■配布物まとめ

▼録音用ガイドBGM

ぱよぱよ5モーラ(BPM100)

ピロピロ7モーラ(BPM140)

 

■録音環境

池弦が使用しているマイクなどの紹介。確か歌ってみたにおすすめのマイクを調べて買った気がします。ケーブルとオーディオインターフェースも合わせて買いましたが「多分これを揃えたらいいのか……??」と半信半疑で揃えたせいか、音質は綺麗なのですがオーディオインターフェースの方で弄る入力音量をほぼ最大にしないと音声がまともに入らないので、使い方かチョイスか何かが間違っている可能性があります。たぶんなんですけど池弦みたいに目に入ったものをばらばらに買うのではなく、販売元を揃えた方が良いのかも。

※全部Windowsパソコンと一緒に使用しています。ちなみにお試しで録音してみよう!という場合はこんな風にマイク・ケーブル・IFを一式真面目に揃えなくても2000円くらいまでのUSBマイクひとつでおそらく十分遊べます。スマホ録音という手もありますが、他の作業がしたいならパソコンは持った方が良いかも。

 

▼マイク

SHURE ダイナミック マイクロフォン SM58-LCE

▼ケーブル

CANARE XLRケーブル マイクケーブル ノイトリックコネクター 黒色 1.5m EC015-B/黒

▼IF(オーディオインターフェース)

TASCAM オーディオインターフェース US-122MK2