ざっくりUTAU音源を作って配布までこぎつけたい人向けの解説です。おそらくインターネットの海のいたるところに同じような解説がありそうですがなるべく何もかも分からない人にも分かりやすいように気を付けて書いています。
こんな感じでね!!!!!!ちなみにトップページにも書いていますがオレンジ色アンダーラインはクリックすると別ページに行ったりページ内をジャンプしたりします。あと実は画像もクリックで拡大できるやつが多いです。
UTAU音源にはざっくり分けて「連続音」「CVVC」「単独音」という3つの録音形式があります。ちなみにこれは収録量(容量のデカさとか録音時間の長さなど)が多い順に並べています。
この録音形式の違いによって上記の収録量だけでなくUTAUでの歌わせ方が少し変わるので、自分に合いそうなものを選んでいきましょうね。録音する前に一度誰かが配布している音源を使ってみるとめちゃくちゃ参考になるかも!あらかじめ書いておくと、池弦は主に単独音と連続音しか収録および後ほど解説する原音設定(録音してからUTAU上でスムーズに歌わせるための作業)をしておらず、CVVCは1回試しに録音してみたりたまに触ったり……みたいな感じなのでCVVCの解説があっさりめになります。あとWindowsユーザーなのでMacおよびスマホからなどの解説はサポートできません。ごめん。
◇単独音
肺活量や体力がない人、飽き性や時間のない人にピッタリ!(諸説あり)
基本的には「あー」「いー」「うー」と一音ずつ録音していく、単純で手早く録音しやすくて容量も軽めな音源だと思っています。原音設定は少し悩むかもしれませんがマスターすると他の録音形式全部大体どういう仕組みでやるか分かるようになります。
◇連続音
収録量は修行僧向け(?)ですが、これを録音するだけで連続音としても単独音としてもCVVCとしても使える最強のやつです。
基本的に「あ~か」「い~か」「う~か」「え~か」「お~か」「ん~か」といった各母音(あ、い、う、え、お)&「ん」+一音で構成されているので単純計算で単独音の数倍の収録をする必要がありますが、よほどのことがない限りは決まったBGMと録音リストに従い、リズムに合わせて収録するのでリズム感さえあれば原音設定の自動推定がめちゃくちゃ簡単にできます。
◇CVVC
単独音と同じく肺活量や体力がない人、飽き性や時間のない人にピッタリ!(諸説あり)
単独音や連続音と並べるとぱっと見なんだ突然その文字列は!?となりますね。Cが子音、Vが母音を指しているらしいです。単独音と連続音のサラブレッドみたいな感じでしょうか。例えば「な~ぬ」と録音するとしてそれを「な」と「a n(なの母音とぬの子音)」と「ぬ」の3つに分けて使っていく音源です。
こちらもよほどのことがない限りは決まったBGMと録音リストに従い、リズムに合わせて収録するのでなんと原音設定が……たぶんしやすい。
※ちなみに画像の「ust」というのはUTAU専用の歌唱データ、楽譜みたいなものです。クリックすると拡大できるので見づらい場合は見比べてみてください。
■録音ソフトを使おう!
池弦は基本OREMOというソフトで録音しているのでそちらメインの解説になりますが、RecStarというソフトも最近目にしたので最後に軽く解説しています。
▼OREMO▼ DL先
UTAU音源の録音に特化したフリーソフトです。前述した録音形式がなんであれ録音できます。強い!DLするときは最新版を選ぶのが無難だと思う。
まずOREMOのマイク設定は基本的にパソコン本体のもの準拠なので、サウンドの設定から入力デバイスを確認し、繋いでいるマイク(あるいはIF)が接続されているかどうかチェックしておきましょうね。
▼はじめに▼
まずはじめに、どの録音形式であろうとUTAU音源は原音(録音したwavファイル)なしには成り立ちませんし原音が命です。なるべく上手に歌わせてあげたいときは、できるかぎり録音に気を使ってあげてください。
池弦の場合録音形式に関わらず気を付けているのが以下の3点です。
・周囲の環境音(室内で稼働しているエアコンなどの音)が入るのを避ける
出だしから最後まで、なるべく安定した声で録音してください。
声質が不安定だと使用時に違和感を感じたり、声量が一定でないと原音設定する時に困ったりします。使う音素によっていきなり低音が苦手になったりやたら元気がよくなったり、なんていうのを防いでいきましょう。
これは最後の「ぶ」だけちょっと元気になってるよ
原音が音割れしている場合はUTAU上でも音が割れたまま歌ってもらうことになります。原因としては声が大きすぎている、マイクの設定が声を通しすぎているなどが挙げられますので、表示されている音声波形がやけに太ければ音割れしていないか確認してください。
これは「な」が音割れしているサンプル
▼録音の流れ▼
確認する項目が多いですが、そんなに毎度変更することはないと思うので身構えなくても大丈夫です。
OREMOには「reclist.txt」というテキストが入っています。「あ」「か」などUTAU音源の収録に必要な音素があらかじめ載っていて、デフォルトの状態であれば起動したときにそれが表示されます。
この「reclist.txt」に載っていないヴぁ行や「ふゅ」などちょっと一部の特殊な音素を録音したい場合などはこのテキストに付け加えちゃっても良いと思います。直接テキストを開いて確認してもらうと分かるかと思いますがOREMO上では基本的に半角スペースあるいは改行を区切りにして音名が表示されているので、付け加えたい音素はそのどちらかを利用して追加していきましょうね。君だけのリストを作ろう!
このリストを複数用意してその中から使うものを選びたい場合、OREMO起動画面のメニュー欄の「ファイル」から「音名リストの読み込み」という項目で変更できます。
池弦が普段使っている単独音録音リスト、連続音録音リスト(7モーラ)もこっそり配布しておきます。
録音用のBGMですね。単独音はそんなに使うことがないかと思いますが、連続音やCVVCは上述した通りBGMのリズムに合わせて録音すると原音設定の自動推定ツールがまるで熟年夫婦のように寄り添ってくれるので特に理由がなければ使用することをお勧めします。
メニュー欄の「オプション」から「収録方法の設定」という項目を選び、BGMファイルから使用BGMを変更できます。
録音リストおよびBGMは調べればいろんなところでいろんなものが配布されているので紹介を省きますが、出しやすい声の高さ、録音形式に合うものを選んでくださいね。
単独音の場合はメニュー欄の「表示」から「音叉窓を表示」という項目を選択すると、一定の高さの音をリピート再生機能でずっと鳴らすことができるので、池弦はこちらをよく使っています。女性であればG3/A3/B3/C4/D4/E4くらいが出しやすい高さになるかも……?
デフォルトの設定だと、原音(録音したそのままの声のWAVファイル)は録音後すぐOREMOのフォルダ内にある「result」というフォルダに保存されるようになっています。これを変えたい場合はメニュー欄の「ファイル」から「保存フォルダを変更」という項目を選び適宜変更しましょう。池弦の場合は「result」のフォルダ内に自音源の名前が付いた別のフォルダを作り、そこに保存先を変更しがちです。
④Rキーで録音!
※「オプション」で収録方法を変えていない場合は"声を出す間"ずっとRキーを押しっぱなしにしましょう。
リストの一番下まで録音出来たら録音終了です。保存先がデフォルトなら「result」に録音したwavが保存されているので、既にUTAUをインストール済みの場合フォルダごとまとめてUTAUのvoiceフォルダ内に移しちゃいましょう。
▼録音形式の種類別録音方法▼
あくまで個人の見解ですが単独音/連続音/CVVCそれぞれのざっくりした録音方法や気を付けていることなどの紹介をしましょうね。語尾息などの特殊音素についてもちょいと紹介します。
まずデフォルトの録音リストで録音する場合の話をしますね。
BGMの確認で補足を入れていますが、音叉窓の使用が非常におすすめです。
基本的にはRキーを押して一定の間隔を空けてから発声し、発声が終わった後にRキーから指を離してください。これは子音から末尾の音まできちんと入れる為です。
録音したwavの子音が切れていると、正しい歌詞を打ち込んでも以下のサンプルのように母音で歌ってしまったりという事故が発生するのでここは死守してください。録音する声の長さのあくまで参考なのですが、Rキーを押して1秒空白を開け2秒発声、また1秒経ってから指を離すくらいの長さで録音すればだいたいの歌は何とか歌えるようになります。ロングトーンは母音だけ別で収録してもいいかも。
これは「み」の子音が切れているよ
これは子音が切れていないよ
最後に「まとめ録り」という手法についても紹介しましょう。原音設定で1つのwavから2つ以上の音を切りだせるので、連続音もCVVCもその技術を応用して作成することになるのですが、単独音でも同じ技術を使うことができます。デフォルトの1音ずつ録音する手法と違い、Rキーを押しながら1回で「あー…いー…うー…えー…おー…」と複数の音を一気に収録するような手法ですね。時間短縮になるかも。
まとめ録り単独音の録音リストを外部からDLするのでなく自分で作成および編集してみたい場合、上述した通りOREMO上では基本的にスペース区切りで表示されているので「_あいうえお _かきくけこ」といったように録音したい音素と音素の間にスペースを入れてみてください。
"連続"音なので、例えばDLしてきた録音リストに特筆などされていない限り声を繋げて出しっぱなしの状態で録音してください。1音ずつ間隔を開けて発声してしまうとまとめ録りした単独音と変わりがなくなっちゃいます。CVVCも同様です。
※ちなみに以下サンプル音声が全て池弦の肉声になります。
これは通常の連続音の原音
これは間隔が開いてしまっているもの
CVVCと連続音に共通して言えることですが、BGMを使用するのがほぼ必須といってもいいです。連続音の場合は最新版のOREMOであれば録音リストと一緒に録音用BGMも入っているのでそれを使うのも良し、自分で使いやすそうな録音リストとBGMを探すのもいいでしょう。
池弦の場合、さくさく録音したいのでBPM140の録音用BGM(ちょっとはやめ)を流しながら7モーラの録音リストを使用しています。この「モーラ」についても説明しましょうね。ざっくり言うと一回で録音する音素の数です。
「かかきかく」これは5モーラ
「かんかかきかく」これなら7モーラ
「連続音(あるいはCVVC) 録音リスト」「連続音 BGM」などで調べたらおそらく有象無象に(?)便利なものが配布されているので使いやすいものを探してみてくださいね。参考までに池弦の作った「ピロピロ7モーラ」も配布しておきます。1オクターブぶん網羅はしてるはず。
これはBGMのみのサンプル
これはBGMを使った録音サンプル
ちなみにCVVCに関しては配布されている録音リストに「oto.ini」というのが同梱されている場合があるかと思います。一旦説明を省きますが、CVVC音源を作りたい場合このoto.iniが同梱されている録音リストを使うのが初心者さんにおススメです。他に同梱されているかDLサイトで確認できる説明書きにその録音リストを使う際の録音BGMのおススメも書かれていると思うので、それを使用すると原音設定の時に「真面目にやっててよかった~」となる……かも。池弦はCVVCを録音したことが記憶の範囲では1回しかないのですが、上記を確認しそびれたままノリと勢いでなんとかしてから(?)少し後悔しました。
※ちなみに母音を録音するとき、以下のサンプルのようにエッジを入れるか入れないかはコンセプトとか好みの問題かなぁとは思うのですが、池弦は基本的に入れていません。
超個人的な話をすると、デフォルトの母音にエッジが入っている場合は歌ってもらう際に「ここでこんなに癖はいらないんだよな……」と思ってしまうことがあるのでエッジを入れるなら別で特殊音素として録音してくれていると嬉しい。
①語尾息(「a R」「a 吸R」など)
語尾息はいいぞ。これがあるだけでちょっと調声がそれっぽくなっちゃうんですよね。フレーズの最後に息を吸ったり吐いたりするやつです。池弦は吐く方しか録音してないし使ってないので解説とサンプルは吐く方しかないのですが、吸う方もおおよそ一緒ではあるんじゃないかな。
この「よ~…」のところに語尾息を使っています。
基本的には「あ」「い」「う」「え」「お」「ん」の母音+んの6つ用意すれば、あとは口の形が変わらないので録音の必要はありません。OREMOに語尾息録音用の接尾辞はデフォルトでは用意されていないので、池弦の場合は(面倒くさいのもあり)上記6つの音を録音するときに一緒に語尾息もまとめて録音しています。原音設定で1つのwavから2つの音を切り出して使うことができるので「"あ"の音」と「"あの語尾息"」をそれぞれ分けて録音する必要があるわけではないです。とはいえだめなわけでもないので個人のやりやすい範囲でいいと思う。
これは語尾息の録音サンプル
②喉切り母音(「a ・」など)
何だと思う?池弦も最近使い始めたばかりであんまり使い方を熟知しているわけではないのですが、かなり簡単に言うと「ッ」の音、つまり促音のこと……だと思えばいいかな?おそらくこれも語尾息と一緒の収録量で大丈夫です。池弦の場合は後述するロングトーン母音と一緒に録音してから原音設定で切り出しています。
これは喉切り母音の録音サンプル
③ロングトーン母音(「a L」など)
そのまんまですね、語尾息などと同じ収録量ですが発声する長さが違います。4秒くらいの長さで発声したら十分かな……?録音形式が単独音でも連続音でもCVVCでも、これは録音しておくと便利です。UTAU上で短い音を無理に長くもたせて使うとどうしても音が劣化してしまうので(すが、かといって全部ロングトーンにするとおそらく容量がとんでもねえことになるので)母音だけ録音しておけばあとは良い感じに繋げて使えます。
④二重母音語尾息(「a iR」など)
出すにあたって口の形を変えている語尾息です。例えばですが"あの語尾息"を録音する際、口の形は基本的には「あ」のままですよね。それを敢えて「い」や「う」に変える語尾息です。
これは二重母音語尾息の録音サンプル
▼RecStar▼ DL先
こちらは最近(2024.4.16の池弦視点)公開されたUTAU音源録音ソフトです。スマホでも使えるらしいのですがそれに関しては一旦当サイトでは解説を省かせていただきます。そのうち増えるかも。
これはRecStarの起動画面のはず。
録音を始めたいときは細かいことを考えず、一旦左上の「ファイル」欄から「新しいセッションを開始」を選択してください。
すると「録音リストを選択」という画面に遷移します。デフォルトで常設されてる録音リストがないので、ここで録音リストを新しく読み込む必要があります。 右上のメニュー選択(縦三点リーダー)をクリックして「インポート」を選択しましょう。録音に使いたいリストを読み込んだら録音画面だ!
RecStarはこの録音画面でガイドBGMを選択できるようになるので、ガイドBGMを使用する場合はまたこの右上にあるメニューから「ガイドBGMを設定」で使いたいものを読み込みましょう。
赤い丸のボタンをクリックすることで録音開始、もう一度クリックすると終了になります。録音済みになるとチェックマークがつきます。
※OREMOと違って(2024年4月現在)音叉窓の機能がないのと、一定の音階で録音したい場合は何か別のツールを使用することをお勧めします。ガイドBGMの開始~終了の目安などもおそらく表示されません。
こちらのサイトでパソコンから入力している音声の音階などを表示してくれるprmonitorというソフトが配布されているので、(池弦は使ったことないのですが)参考までにこっそり載せておきます。
録音し終わったwavはメニューから「ディレクトリを開く」という項目で確認できるので、(session.jsonというデータは無視して)wavを適宜別フォルダにまとめたあとUTAUのvoiceフォルダに移動させてください。
さっきから頻出していた例のヤツですね。説明がうまくないのでこれは例なのですが、「UTAU音源を録音したぞ!よーし早速歌ってもらおう!」ということでUTAUを起動し、録音した音源を選択して、歌詞を入力してみたり、ustを借りてきたりしてそのまま再生ボタンを押し歌ってもらおうとすると、以下のサンプルのように音が途切れ途切れになって再生されます。
これが、「原音設定」という作業をすることで以下のサンプルのようにそれなりに滑らかに再生されるようになります。
さて、録音のところでも少し解説していますが、単独音とCVVCと連続音はそれぞれ原音設定のやり方が少し変わってきます。が、音声波形を見た時子音と母音をパッと見で区別できれば何ら怖いものはない!ので、一旦その見分け方を簡単にまとめますね。
上の画像をご覧ください。※クリックすると拡大できます。
一旦細かい手順をすっ飛ばしますがこちら左が「い」、右が「き」のwavの音声波形(※真ん中にある青いやつ)をUTAU上で表示している画像になります。このそれぞれの音声波形の左端を見比べて欲しいのですが、そのままの母音である「い」と違い「き」の方は子音が入っているので、赤い縦線を分かれ目にして細い線(左)と太い線(右)が切り替わっているわけですね。この赤い縦線より左側の細い波形が子音の部分です。ちなみにこの赤い縦線ちゃんには「先行発声」という名前があります。覚えてあげてください。
で、単独音と連続音とCVVCの原音設定はこれを基準としたうえでそれぞれやることが変わってきます。改めて書きますが池弦が主に使用したり録音したり原音設定しているのが単独音と連続音なので、専門外気味のCVVCの解説についてはあっさりめになります。
そして本題!その原音設定について!と言いたいところなのですが追加で3点。
①UTAUのフォルダ内に「voice」というフォルダがあります。録音の流れで※のところに前述していますが、まずここに(録音したあとなど)右の画像のように原音設定したい音源をフォルダごとまとめて入れておくと様々な面で楽です。
ここに入れておかなくても一応UTAU上で原音設定したり歌わせたりは可能なのですが、いちいち探して指定して...…という手間が発生するので!
②録音特化ソフトにOREMOがあるように、原音設定特化ソフトでsetPARAMという便利ツールがあります。単独音(とCVVCもほぼそうだった気がする)に関してはUTAU上の機能だけで原音設定することができるので、単独音しか作らねぇし使わねぇぜ!!って方はマジでUTAU上の機能だけで十分なのですが、慣れてきたら多音階音源(これは後ほどしっかり解説します)とか連続音とか挑戦してみたいかも!という方は入れておいて絶対に損はないです。なんと単独音と連続音に関しては原音設定の自動推定ができます。さいつよ。この場を借りて書きますいつもお世話になっております。
初心者向けのものではないので一旦サラッとした解説だけ。単独音も連続音もCVVCも声質などに変化が出ないよう一定の音の高さで録音するのが基本的(だと思う)ですが、UTAU上で使用する際、その一定の高さで録音している音にそれより高い音を出してもらったり低い音を出してもらうことになるのでどうしても極端に元の音の高さから離れた音は音質が劣化したりします。そういう時のために、例えばですが「出しやすい通常の高さの音」「通常より高い音」「通常より低い音」の3種類の音(※録音量はそれだけ倍増します)を録音して、高い時は高い音、低い時は低い音で切り替えて使えるようにしよう!とするのが多音階音源です。
③周波数表の作成
さあ新しい単語が出ましたね、周波数表!簡単に解説すると、これがない限りUTAU音源は歌を歌いません。
まず録音したUTAU音源をvoiceフォルダに移動したあと、UTAUを起動しましょう。「プロジェクト」欄の「プロジェクトのプロパティ」からデフォルト以外の原音設定したい音源を選択してOKを押してください。 音源選択画面が閉じられ、UTAU上の左斜め上に表示されているのが先ほど選んだ音源に切り替わっているのを確認したら、「ツール」欄から「原音の設定」を選ぶことでその音源のoto.iniが開かれます。
oto.iniを開いたら上の画像のように「編集」欄から「複数選択」を選んで、もう一度「編集」欄を開いて新しく表示された「全部選択」をクリックしてください。次にその全部選択状態でそのまま下にある「周波数表を初期化」ボタンをクリックしてください。「選択したエントリの周波数表を再作成します」と出てくるはずなのでOKを選択し、待っていると周波数表が一括で作成されていきます。
CVVCの録音解説のところでもチラッと名前を出しましたね。原音設定表のことです。これを編集する作業が原音設定です。 テキストとして開かれるみたいなのでUTAU上でなくとも編集可能なのですが、特にそうする理由がない場合はやらなくていいです。
ちなみにこの周波数表一括作成、惜しみなく他のツールを使って時短を試みたい方はSpeedWagonがおすすめです。録音機器との相性によってはうまいこと作成してくれない場合もあるにはあるのですが大体の場合はこのデフォルトの周波数表一括作成より素早くいい感じに周波数表を作成してくれます。
■原音設定-本編-
はい!やっと本編ですね。単独音連続音CVVCの原音設定はそれぞれやることがちょっと変わってくるので録音の時と同様にジャンル分けして解説します。どれもできるようになっておくと使う際の表現の幅は広がりやすいので、全部ぼんやりでも覚えておいて損はないかも!
ということでまず原音設定において「先行発声」などを含めた各設定項目が存在するのですが、その名前をさらっと紹介しましょう。全部の原音設定で出てくる名前です。
この画像2つ、左が原音設定済、右がなにもしていない状態の音源のエディタ画面です。
周波数表を作成の項目でoto.iniの開き方もサラッと解説しましたね。あの画面で「エディタを起動」というボタンをクリックするとこの画像のように音声波形を確認することができます。何も弄っていない状態であれば右のようなピンクやすみれ色の部分がない状態で表示されるかと思うのですが、このピンクやすみれ色部分の範囲設定、それから左端に寄っている赤と緑の縦線の位置を決めていくのが原音設定になるわけですね。
それぞれ超簡単に説明すると、
①赤い縦線=「先行発声」(UTAUの楽譜上で音を始める場所)
②緑の縦線=「オーバーラップ」(前の音と重ねる範囲)
③ピンクの範囲=「固定範囲」(音を伸縮させる範囲)
という名前と役割があります。
で、④すみれ色の部分は何かというと"音を使わない部分"になります。これは「左ブランク」「右ブランク」という項目で設定できます。ちなみにsetPARAMではこの左右のブランクの表示色が変わってくるのですが名前は一緒なので落ち着きましょう(?)。
こちら原音設定済みの単独音をUTAUで使用したサンプル画像になります。「さ」が一番わかりやすいかな?「さ」の左端のピンクの線が「わ」に覆いかぶさるように伸びていますね。右の画像のような位置に先行発声とオーバーラップを設定していることにより「わ」の発音最中に「さ」の子音がヌルっと入り込んで発音される仕組みになっています。「ん」は(池弦の原音設定の場合)先行発声やオーバーラップは0の値にしているので前の音と重なる範囲が一切ありません。
◇単独音
池弦はいつも単独音の原音設定をUTAU上でやっているので、UTAUでの原音設定画面の画像を用いて解説していきますね。
単独音の原音設定は前置きの部分で少し解説した子音と母音の見分けさえできればかなり楽勝です。子音と母音の間にこの先行発声をシューーーーッ!!超!!エキサイティンッ!!!みたいな作業です(※厳密には他にも色々動かします)。
手順として、まず池弦は先行発声やオーバーラップを設定する前にざっくりで全部のwavに固定範囲と左右ブランクの値を設定していきます。これをやることでまずwavにある余白の無音部分を使わないように設定できるので、前述していたサンプル音声みたいにUTAUで使用する際に音が途切れ途切れになって再生される現象を(とりあえず)なくすことができます。
画像のように、エディタを起動すると左上に「+」「-」「s」とボタンがあるのですが、+が横幅の拡大、-が縮小のボタンなので池弦の場合は一旦-ボタンを押しまくって限界まで縮小表示にします。で、その後にエディタ内の端にカーソルを合わせると矢印が+マークに変わるので、そこでマウスを右クリックしたまま出てくる名前が「右ブランク」あるいは「固定範囲」の場合にちょいと左右どちらかへ動かしてから指を離してみてください。すみれ色、あるいはピンク色の範囲が設定できたでしょうか?できたらそれが第一歩だ!!!すごいぞ!!
エディタから原音設定をする場合、左ブランクは固定範囲を動かしてからでないと設定できないので一旦固定範囲を設定してからもう一度左端にカーソルを合わせ右クリックすると「左ブランク」という名前が出てくるかと思います。ちなみに、左端で先行発声やオーバーラップの縦線とカーソルの位置が被る状態で右クリックするとUTAUちゃんは左ブランクや固定範囲でなくそちらの設定を優先しようとしてしまうので、なるべくその線に被らない上下どちらかの端の部分で右クリックしてみてください。
で、肝心の固定範囲と左右のブランクの位置をどこに設定するか……という話に移りましょう。前提として、環境音などが入っていない場合は画像のように声のみが音声波形として青く表示されているはずです。ので、その声の音声波形と、真ん中を通るオレンジの線に注目して設定していきます。
①左ブランクは声がちょうど始まる位置
②固定範囲は左端から見てオレンジの線が真ん中に向けて安定し始めた位置
③右ブランクは声が尻すぼみになったりする前の適度な太さを保った上で可能な限りの右端の位置
といった感じで池弦は一旦ざっくり設定しています。ちなみに、この真ん中のオレンジの線はピッチ線(音の高さを示している線)なのですが、この線が極端にガッタガタだったり途切れてたり真ん中にいなかったりそもそも無かったりした場合はUTAU上で使うとえらい音になったりします。周波数表を作成していない場合そもそも表示されませんが、作成した上でピッチ線の様子がおかしいことになっている場合は周波数表の作成がバグったかそもそもの原音のwavにノイズが入ってるかなどのアクシデントが起こっている可能性があるので一旦wavを開いて耳で聞くなりしてください。聞いてみてノイズが入ってるかも!とか声が途中で枯れてるかも!という場合は録りなおせばOKなのですが、wavを聞いても問題がなさそうな場合はシンプルに周波数表の作成がバグってる可能性があります。周波数表の破綻と呼ばれる現象だ!周波数表も一応修正ができるので後ほど解説します(ので一旦置いといていいです)が、これが全部の音で起こってる場合はおそらく録音機器かパソコンかに何かしらの問題があるかもなのでもう有識者に相談しつつ録音環境を見直して録音し直すなどした方が良いです。
補足しておくと、囁き気味の声で録音した場合多少ピッチ線はガタガタになりますがよほど極端なガタガタ具合でない限りは気にしなくても大丈夫です。
この左右ブランクが一通り設定出来たらわりと声が途切れないまま歌ってもらえるようになりますが、そのままだと子音がもったりとしてしまうので、ここからが-先行発声-の出番となります(オーバーラップも設定していくよ)。
前述した通り、先行発声はUTAU上で音が始まる部分に設定していきます。オーバーラップは先行発声の3分の1くらいの値だと耳馴染みがいいらしいです。単独音の場合は子音と母音がちょうど切り替わる場所に先行発声を置いていきましょう。といってもいきなり子音と母音を見分けるのは難しいと思うので、さらっと画像付きで解説します。
▽母音(あ、い、う、え、お)+「ん」
各子音の前にまずこの音素たちですね。池弦は語頭音素と通常音素のふたつを設定していますが、一旦通常音素の方だけ解説しましょう。先行発声とオーバーラップは0の値のまま、固定範囲と左右ブランクだけ設定しています。左ブランクは音の途中に設定して先頭部分を捨て置いています。
▽さ行、は行、「ち」「つ」など
カサカサした長めの子音になるかも。一番見やすい。 池弦はあんまり長すぎる子音が好きではない(???)ので先行発声の上限を120までに留めて、オーバーラップはその3分の1の40前後の値にしています。 このカサカサした子音は摩擦音と破擦音に分類されるらしいのですが、池弦は音声学に詳しくない(し、詳しくなくても原音設定はなんとかなる)ため細かい話は端折ります。ちなみに、この下に解説している破裂音たちもそうなのですが、こういう息っぽい子音は録音環境によっては波形に現れない時があります。その時は何もない虚無空間に先行発声とオーバーラップをなんとなくで置いておいても許されるでしょう。見えないもんはしょうがねえ。君はよく頑張った。
▽か行、「た」「て」「と」、ぱ行など
これも比較的子音が見やすいはず。パキっとした子音になるかカサカサ……とした子音になるかは人によりけりですが「き」は特にカサカサした子音になりやすいかも。この辺は子音が破裂音と呼ばれるやつらしいです。
▽な行、ま行など
鼻音と呼ばれるやつらしいですね。もっっったりした形の子音になりやすいので、先行発声の位置が分かりにくい時は仮置きしては都度UTAU上で歌詞を入力して再生しながら調整してみましょう。池弦は子音がもったりしすぎてしまうのが好きではないので先行発声の上限を60くらいに留めています。
▽ら行
弾き音と呼(ry。これオノマトペで表現するの難しいな、独特な形してるんですよね。上記の鼻音たちと同じく子音がもったりしすぎるのが嫌なので、これに関しては先行発声の上限を30くらいに留めています。
▽「いぇ」、うぁ行、や行、わ行など
正直いちばん子音が分かりづらい音素なので解説にも困るんだこれ。半母音と呼ばれるやつらしいです。鼻音と同じく都度UTAU上で歌詞入力して調節するのが一番いいと思うな。
◇特殊音素について
池弦の場合母音(あ・い・う・え・お)+「ん」の6つだけ語頭音素と語尾息を設定しているのですが、これに関しては拘りたい場合のみ設定したらいいもの、という印象です(?)。録音でちょっと解説したのですが池弦は母音を録音するときに語尾息も一緒に録音しています。そういった録音方法により、1つのwavに対して複数の原音設定を施したい場合は「複製」という機能を使用しています。
以下左の画像のようにoto.ini編集画面で複製したい音素を右クリックすると「複製」という項目があるのでそのまま実行し、複製した音素にはエイリアス(音の名前)として「- え(えの語頭音素)」「e R(えの語尾息)」と設定しています。説明がややこしいのですが、こうすることでUTAU上で歌わせる時も「- え」「e R」と入力した場合だけそのエイリアスに入力された原音設定が反映されるようになります。
※ちなみにこのエイリアス、多音階音源などを作りたいときは多用することになると思うので頭の片隅に入れておくといいかも。
▽語頭音素
先行発声は50~70くらいの値を目安にして、ちょうど音が始まるくらいの位置にしています。オーバーラップは20~30くらいかな。
口を開く音から入れたいというかなんというか、そういう好みがある人向けの音素かも。
▽語尾息
池弦が大好きなやつですね。これはだいたいいつも先行発声を110~120、オーバーラップを30~40の値にしています。
母音からカサカサッ……とした息の波形に切り替わるあたりに先行発声を置いてますね。固定範囲は音が終わるギリギリまで伸ばしがちです。
▽喉切り母音
先行発声とオーバーラップの値は語尾息と一緒でOKということにしています。固定範囲もやっぱり音が終わるギリギリまで伸ばしがちです。
▽ロングトーン母音
先頭の音は入れずに途中から。先行発声が300、オーバーラップが100くらいにしてるのですがもうここまで来ると好みの範囲ではないですか?
◇連続音
前置きのところで紹介していたのですが、連続音に関しては池弦の場合ほぼsetPARAMの自動推定にすべてを任せているので、まずそのsetPARAMでどうやって自動推定を行っているか、という話をしていきますね。
setPARAM、起動するとまず「どの音源の原音設定を行うのか」という選択画面になります。原音のwavが入っているフォルダーを選択してください。
すると次に「oto.iniを読み込むかどうか」の選択画面になります。今回は自動推定のやり方から紹介したいので、「パラメータを自動的に生成する」を選択してください。原音設定する音源が連続音なので、次に出てくる音声データの種類選択の画面では「連続発声データ(setPARAMで自動推定)」をクリックします。
さて、そうすると色んな数値が表示されている画面になりますね。池弦ここはかなり勘で設定しておりまして!
配布されているガイドBGMを使用している場合、配布サイトやそのBGM付属のReadmeなどに自動推定用の数値がメモされていたりすると思うのですが、ない場合もあったりします。メモされている場合はその通りに数値を適宜変更すればいいのですが、分からない場合は何も弄らずにそのまま「パラメータ生成」を行ってもいいでしょう。自動推定のやり直しは何度でも可能なので、一旦試しで自動推定して「ここ弄った方が良いかもな」というのを把握してから再度やり直してみたり~というのもできます。ちなみに参考画像はsetPARAMの初期設定の数値から変更済のものになるので手元のものと数値が違っても気にしないでください。同じ数値にする必要もありません。
連続音の原音設定はこのパラメータ生成後に「ファイル」→「上書き保存」で終了としてもいいのですが、発声タイミングや設定数値がずれている場合は自動推定もうまく機能しないので、そうした場合の修正方法やそもそものsetPARAMの見方も解説していきましょうね。
パラメータ生成後、setPARAMは2つのウィンドウを表示します。片方は音素の一覧および選択画面で、もう片方に選択した音素の音声波形が表示されています。
先に音声波形が表示されている方のウィンドウから解説していきましょう。原音設定-本編-の一番最初に出た「先行発声」「オーバーラップ」「固定範囲」「左ブランク」「右ブランク」という名前を覚えているでしょうか。基本的にはそれらの頭文字が表示されているのですが、「子」だけちょっと知らない名称になりますよね。こちら固定範囲を指しています。
で、このサンプル画像には7モーラで録音した連続音のうちの「_しんしししゅししぇ」のwavの波形が表示されているのですが、
内訳はこんな感じ。さて、連続音がどうして連続音という名前かという話にもやや関わってくるのですが、基本的に連続音は語頭音素(先頭に-が付く音素)以外は「前の母音とつながった状態」で設定していきます。なので、「i し」の原音設定をする場合は画像のように左ブランクの位置を設定する時点で「い」を含めるわけです。先行発声は前の「い」が終わった後、「し」の子音と母音の境目に配置します。で、右ブランクは次の「しゅ」が入らない位置に設定してください。
ちなみに、マウスで先行発声などの位置を調整するにあたって、池弦はこんな感じにオプションで設定しているのですがこの辺は好みに合わせて適宜変えてみてくださいね。
自動推定が機能していれば特に何か動かすこともなく原音設定終了としていいのですが、池弦の場合は一応ざ~~っと全音素ずれてないか確認しています。以下はずれてる時の例です。あるんです、こんなことも。チェックする量は単独音に比べるとハチャメチャに多いのですが、このタイミングのズレさえ修正すれば連続音に関しては普通にお歌を歌ってくれるようになります。
使う録音リストにもよりけりなのですが連続音には「ふんふふへふほ」と「ふんふふふぇふふぉ」など、一部の音素が重複している場合があります。池弦は「1つあればいいじゃん!!!チェックする項目は減らせるなら減らしたいもん!!!!」と思う派閥なので原音設定時に一括で重複音素を削除しているのですが、例えば「n ふ」「n ふ2」といったように重複している分だけ数字をつけたり、重複音素をどうするかは人それぞれの好みの話なのであくまで一例としておいてくださいね。
setPARAMには「エイリアス一括変換」という機能があります。音声波形が表示されている方のウィンドウにはoto.iniを保存したりそもそもの原音設定する音源を変更する場合に使う「ファイル」や先ほど紹介した「オプション」などが並ぶメニュー欄がありますが、その中で「ツール」という項目がありますね。そのツールから「エイリアス一括変更」という項目をクリックしてください。
変換規則のところに「%a%r」、それから%rの上限値を「1」と入力して「全wavに対して実行」をクリックすることで重複している音素を一括削除できます。
◇CVVC
なんとCVVC、一番新しい録音形式のため確かsetPARAMのデフォルトの機能でも自動推定ができないのですが、録音方法のところで紹介したように録音リストと一緒に「oto.ini」が同梱されている場合はそれをコピペした上で連続音と同じくずれがないかを確認して修正するだけで原音設定を済ませられます。とはいえ、一応どうやって原音設定するかを把握さえしていれば連続音からVC音素を作りだしたりもできる(※英語歌詞とかに便利です)のでざっくり紹介しましょうね。
CVVCの「CV」に当たる部分は言い換えてしまえば単独音なので解説を省くとして、問題は「VC」ですね。各録音形式についての補足で軽く説明していましたが、「な~ぬ」と録音した時の「a n(なの母音とぬの子音)」、いわゆるVC音素が連続音や単独音には存在しない原音設定になります。CVVCは基本的に殆ど単独音とVC音素の原音設定で構成されているのですが、母音と「ん」だけは(子音が存在しなければVC音素にしようがないので)ちょっと連続音も組み込まれています。
▼録音用ガイドBGM
■録音環境
池弦が使用しているマイクなどの紹介。確か歌ってみたにおすすめのマイクを調べて買った気がします。ケーブルとオーディオインターフェースも合わせて買いましたが「多分これを揃えたらいいのか……??」と半信半疑で揃えたせいか、音質は綺麗なのですがオーディオインターフェースの方で弄る入力音量をほぼ最大にしないと音声がまともに入らないので、使い方かチョイスか何かが間違っている可能性があります。たぶんなんですけど池弦みたいに目に入ったものをばらばらに買うのではなく、販売元を揃えた方が良いのかも。
※全部Windowsパソコンと一緒に使用しています。ちなみにお試しで録音してみよう!という場合はこんな風にマイク・ケーブル・IFを一式真面目に揃えなくても2000円くらいまでのUSBマイクひとつでおそらく十分遊べます。スマホ録音という手もありますが、他の作業がしたいならパソコンは持った方が良いかも。
▼マイク
▼ケーブル
CANARE XLRケーブル マイクケーブル ノイトリックコネクター 黒色 1.5m EC015-B/黒
▼IF(オーディオインターフェース)