【特集】『シャインポスト Be Your アイドル！』開発陣に訊く発売後のリアルな手応え―反響受け「熱量の高まりを感じる」心境語る

【最新技術】AI歌声ライブラリは想像以上に解像度高く感じ取れてくれている

――実際に発売されて、プレイされた反響や反応がさまざまあったかと思いますが、想定通りだったこと、逆に想定外だったことはありますか。

永島：想定通りというとおこがましいのですが、プレイされた方々がアイドルたちの本気や熱量に対して、自分事として向き合ってくれたことは本当に嬉しかったです。そうしてほしいと考えて制作しましたが、実際にそうなるかは不安でした。発売後に実際にプレイしてくださった方々のSNS投稿や実況配信、記事などを拝見すると、予想以上にキャラクターたちと真剣に向き合っていただいて、感じ入るところがあったという反応をいただけたのは、非常にありがたく思っています。

想定外だった点については、強いてと言いますか、冗談半分にもなるのですが、踊りながらゲーム実況をしてくれる方や弾き語りをしてくれる方がいらっしゃったことで、「そこまでやってくれるのか…！」と驚きましたね。

石原：僕が気にしていたのは、AI（AI歌声ライブラリ※）の受け入れられ方です。ライブシーンにおいて本人の生声による歌唱ではないということが、場合によっては商品価値を損なう危険性もあったからです。そこに批判の声も聞かれることは予想していましたし、内心ではそのような意見を持つ方もいらっしゃるかと思います。ただ、実際にゲームをプレイすると、AIを使う理由がわかったと腑に落ちる方が多かったのではないかと感じています。

※編集注：本作のライブシーンでは、AI歌声ライブラリの活用によって全ての曲のどこのパートでも歌唱することが出来るうえ、アイドル育成状況や、アイドルのライブ当日の調子、楽曲の難易度などのチャレンジ難度に応じてさまざまな歌唱が表現できる

その部分に関しては、私たちが内部で制御している以上に、みなさんが解像度高く感じてくださっていると思っています。例えば、お客様が「少し上手になったな」と感じてくださる箇所があっても、実はそこに変化の設定を入れてない、というケースもあるんです。

それは「勘違い」ということではなく、ゲーム体験の中で、僕らが設定していない部分の行間を読んでいただき、自分ごととして想像力を働かせていただいているということなので、そう感じたのであれば、それがプレイした方にとっての真実だし当事者意識を持っていただいていることの証明だと思います。

うまく歌えている、少し調子が悪いといった歌唱表現を、私たちが意図的に仕込んだ以上の解像度で受け止められていたことは、キャラクターたちの成長をとても細かく感じ取っている、細かく反応してくださっているということだと思っていて、その解像度の高さは、私にとって予想外でした。

また、歌唱表現に関してひとつ説明したいことがありまして。調子が悪いときに声が出なくなるというのがあります。これはボリュームを下げているのではなく、音圧を下げています。実際に緊張すると音圧が上がらず、マイクに声が乗らないといったことや、感動して声がうわずってしまい、前に出てこないということがあります。

発売初期のころは、バグ（不具合）ではないかという指摘もありましたが、ユーザーさんの中に、そうではなく声が出ていないだけという話を広めてくださる方もいらっしゃって。そういう細かいところも結構プレイされた方は気づいてくださって、不調や好調のサインと受け取ってくれたのは嬉しかったです。

――ライブシーンのAI歌声ライブラリは、シンプルにその進化に驚きました。

石原：技術的には今後も進化し続けると思います。5年後や10年後にライブシーンの歌唱を聴くと「シャインポストはこんなだったのか」と思われるぐらいの進化は起こると思います。ただ、ゲーム体験とセットで考えるならば、現状でも十分商品価値があるクオリティのものを提供できていると考えています。

――単純にAI歌声ライブラリの音声やトラックだけではなく、ライブ会場で歌っていることを表現する音響効果が乗ると、自然と受け入れられやすい感じがします。

石原：正直なところ、AI歌声ライブラリの歌唱だけのデータを聞くと、ロボットのようなAI感はあります。でも音楽がのってエフェクトがかかり、さらに観客の歓声や拍手などが加わると、ほぼ区別がつきにくい状態になります。もちろん、生歌に比べると情報量は違うのですが、再現性はかなり高いところまで持ってこれたと思います。

そのために、AIの設計にはかなり深く関与して、通常とは全く異なる設計をしてもらっています。一般的なAI歌声合成のライブラリは、使いやすいように学習元の生歌唱データにピッチ補正を行っていますが、『シャインポスト』では敢えて行っていません。特定の音程でピッチがずれたり、声が裏返ったりしてしまうことがあっても、キャストさんの個性をそのまま学習データに反映させました。結果として、すごく個性が出る生々しいライブラリが完成し、ライブシーンではそれが最大限に活かされると考えています。

一般的な作りのAI歌声ライブラリにしてしまうと、おそらく全員が同じピッチで正確なテンポを刻むことになります。もちろん意図的にピッチを外すことも可能ですが、それだと不自然さが出てしまいます。ライブだからこその個性がそれぞれにある歌唱表現につながるものですし、それを意識的に作り出して表現したかったので、こうしたAI歌声ライブラリにしたという感じです。

僕自身、15年ぐらい前からAIを活用した音声合成に関心があって、実際に取り組んでみたかったのです。これまで手がけてきたタイトルのなかに『ラブプラス」シリーズ（※石原氏はディレクターを担当）があるのですが、当時、会話コンテンツを永遠に提供し続けたいという思いがありました。エンディングが無いゲームでしたので。

ただ、それを実現しようとすると、キャストによる音声収録をし続けなければいけないのと、タイムリーな話題をさせたいと考えたとき、いつかは音声合成の領域に踏み込まなければいけないだろうと。当時からも情報を探したりテストしたりもしていたのですが、まだ理想に叶うレベルではなかったです。その後ディープラーニングなどのような技術進化があって、このまま技術が発達していけばいつかはと思っていました。

本作では歌でAI歌声ライブラリによる音声合成を活用しましたけど、やはり喋ることに関しての演技というのは、まだまだ難しいですね。ナレーションや自動音声の対応といった、情報伝達を主としたものは、もう十分に実用レベルだと思いますが、聞く人の心を強く動かすような演技ができるようになるには、まだ時間が必要なのかなと感じています。

その点、歌であればライブ会場で歌うエフェクトも入れると実用に耐えられると思いました。それで当時いくつかの音声合成を試したとき、当時1番自然に聞こえて、ライブラリの自由度が高いと感じたのがテクノスピーチさんのものだったので、一緒に取り組むことになりました。

――歌唱AI歌声ライブラリについて、実際にキャストの皆さんからのフィードバックはあったのでしょうか。

石原：フィードバックもかなりいただきました。大前提として、AI歌声ライブラリになるにあたって、向いている方と向いていない方がいます。これは歌や演技のうまさとは全く関係がない話で、声の特徴そのものに向き不向きがあります。向いている方ですと、マネージャーの方が聞いてもキャスト本人の歌唱だと思ってしまうぐらい、区別がつかないような反応をいただいたこともあります。逆に向いていない方だと、その方の歌い方の個性をうまく表現できず、追いついていないものになっていて、それは苦労しました。

あるキャストさんはご自身の歌唱の特徴などを具体的に教えてくださって、AI歌声ライブラリとご自身の歌との違いをご指摘いただき、アドバイスいただいたこともありました。

声には、様々な細かな感情がのってくるもので、聞く側も、声に乗るそうした細やかな情報をきちん受け取っているわけですが、声の成分がすごく豊かな方がいらっしゃって、そこに歌、そしてアーティストとしての表現が加わると、まだまだ声に乗せることができる情報の総量として追いつけないものがあると感じています。

ライブで歌うときの表現もいろいろ試みました。泣きながら歌うというような表現もしたかったですし、もっと感情をのせた歌唱というのをやってみたかったのですが、現時点ではそこまでやりきることはできなかったのが、少し心残りですね。

【ライブ展開】3Dバーチャルライブ公演の見どころとキャラクターライブの可能性

――今後の展開も気になるなかで、10月29日には3Dバーチャルライブ公演「シャインポスト TINGS Virtual LIVE 2025 “Another Re-LIVE”」も控えています。

石原：この3Dバーチャルライブについては、NTTコノキューさんが制作され、アニメの製作委員会が監修するという形で行われるもので、我々もその監修に加わっています。

バーチャルライブでの表現は、ゲームで目指した表現とは異なるもので、VRライブにはVRライブの良さ、ゲームにはゲームの良さがあります。どういう違いがあるのかな、という視点で観てみるのも楽しいかもしれませんね。ゲーム『シャインポスト』ではユニットの組み合わせやポジション、会場のサイズなど様々な状況に対応するため、モーションは細かくバラバラにしたものをつなぎ合わせて様々な分岐ができるように作っているのですが、バーチャルライブではモーションキャプチャーを長回しで撮影し、そのまま1曲を構成することができるので、一連のモーションが持つ情報量はゲームよりも多くて羨ましいなと感じます。

長回しのモーションは、キャラクターの動きが自然になり、生き生きと動き出し、動きだけで感情を表すこともできます。私もまだ完成したものは観ていないので、そうした点にも注目したいですね。

あとMCのシーンはゲームのシナリオ担当が書き下ろして提供したものになっています。MCシーンは喋りながら動いていますが、スクリプトで制御するゲームとは結構違って、一連の動きとして描かれています。ゲームの会話シーンとはまた違った、動きのあるTINGSの会話の様子は新鮮に感じられるのではないでしょうか。

ライブパートに関しては、キャラクターのTINGSの5人がフルコーラスで歌唱するため、ゲームとは違っている点でも貴重な機会だと思います。僕自身も実際に見るのを楽しみにしています。

――近年では、キャストの方がパフォーマンスするライブだけではなく、3DCGのキャラクターやVTuberの方によるライブの盛り上がりもありますが、どのように見ていますか。

石原：私もキャストさんのライブや、2.5次元舞台、バーチャルライブなどもそれぞれ足を運ぶ機会は多々ありましたが、観るたびに細かい工夫やチャレンジなどがどんどんされていて、進化や変化が進み、その結果どんどん細分化していき、ファンの人たちの棲み分けもかなり進んだのかなと感じています。

まだ黎明期だと思いますが、僕としてもいくつかバーチャルライブを拝見する中で、お金も手間もかかっていて、演出としてもすごく凝ったものが増えている印象です。例えばバーチャルシンガーの花譜さんのライブは、バーチャルライブなのにセットが凝っていたり、映像もそこまでするのかと驚くほどこだわっていて、国内でも屈指のレベルなのではと思いました。

そして今後も、こうした進化や変化、多様化は止まらないでしょうし、ライブコンテンツの多様化自体は、いい意味で、さまざまな人が、広義の「ライブ」というコンテンツに触れる機会が増えることにつながり、それはとても良いことだと思います。

別の視点では、キャストの方にライブに向けたレッスンとともにステージでパフォーマンスを行うことは、身体的にもスケジュール的にも負荷のかかることですので、キャラクターのバーチャルライブであれば、収録さえできればライブを行うことができます。その意味では実現度も高まりますし、まとまった公演数を行うといったこともできますから、興行の企画を考える側の選択肢も増えてきて、今後どんどんと新しい取り組みが出てくるのではないでしょうか。

――バーチャルライブはキャストの負荷軽減になる一方で、バーチャルライブもトータルなコストでいけば、むしろ制作費がかかってしまうところがあるかと思います。

石原：いい落としどころをまだ探っている段階かと思いますし、そこを含めて黎明期だと思います。文化として定着するにはまだ時間がかかるとは思いますが、その間に技術は進化しますし、例えば推しのキャラクターと好きな時にインタラクティブに話ができるようになったり、XR技術がもっと身近になればライブ参加方法の体験や選択肢も増えたりするでしょう。そうした進化や変化が感動をさらに引き出し、ビジネスとしても成功できるような状況になれば良いなと思います。

NEXT→【今後について】今起きていることのほとんどが、製作委員会にとって驚き