以前、昔書いた曲など

をご紹介しましたが、今回はまた別のものをご紹介します。

まずCOEIROINKの説明から

初音ミク以降、合成音声とキャラクターをセットで売り出すということが広く行われるようになりました。技術の進歩の度合いの関係で、歌のほうが先に展開されましたが、社会の需要としてはスピーチのほうが(たぶん)ずっと大きいもので、そちらを目指した取り組みとしては株式会社エーアイのVOICEROID などがあります。
AI技術の中でもニューラルネットワークが進歩すると、スピーチ合成へのアプローチにも変動が生じました。WaveNetやTacotron、VITSといった技術が比較的容易に利用可能になり、これらを応用したソフトウェアの開発が志向されます。
そうした中でドワンゴのエンジニアが開発したVOICEVOX は、比較的軽快に動作し、話し手の個性がよく出力に反映され、しかも無料で利用可という驚くべきものでした。初期から搭載されていたキャラクター「ずんだもん」は動画制作等で広く用いられ、大きな知名度を得ました。
VOICEVOXは、学習を行うためのプログラムは非公開ですが、他の部分はオープンソースとして開発されています。特にUI(画面操作系統)を応用した他のソフトウェアがいくつか公開されました。今回紹介するCOEIROINK もそうして生まれたソフトウェアのひとつです(ただし、現在のCOEIROINKは独自UIの開発に成功しています)

COEIROINKの大きな特徴として、「自分の声で合成音声ライブラリが作れる」ことを早くから実現していたことがあります。コーパス文という独特な文章を読み上げて録音したデータをAIに学習させると、自分そっくりの声で喋ってくれるようになります。
COEIROINKではこうした独自ライブラリはMYCOEIROINKと呼ばれ、現在公式サイトが捕捉している 限りでも480を超えるキャラクターがいるそうです。その中には私が作ったものもいて、それが「繰推亭(くりおしてい)そそる 」です。

なんでやろうと思った?

色々なライブラリのサンプル音声を聞いているうちに、同じ文でもリズムや抑揚がかなり違う結果になることに気づいて、このAIはその人らしい抑揚やリズムも再現してくれるのか!    それならもっと極端なやつをやらせてみよう!    と思い立ったのがきっかけです。それで、講談師の口上をイメージした「こうじょう」と、日本語ラップをイメージした「らっぷ」を最初に録りました。結果としては、「なかなかの再現度だ!」となったので、他にも昔内輪でやって好評だったモノマネなどを織り交ぜていきました。

なんと企業案件も!?

YouTubeの松井証券サブチャンネルさんに「パグ&ボルゾイと学ぶサクッとマーケット解説 」というシリーズがあるのですが、なんとこのワンちゃんたちの声は繰推亭そそるで作られています。これを知ったときには本当に驚きましたし嬉しかったです。なお、COEIROINKの規約でライブラリの公開は無償としなければならない決まりなので、私には一切リターンがありません。
他にも色々な動画で使っていただいているので、ご興味おありでしたら検索してみてください。たとえばこちら→