音楽を制作している方々に先入観なく触ってみてもらいたいですね
Synthesizer Vを開発したのが、中国出身のフア カンル氏。1997年生まれで、2018年末にSynthesizer Vを発表し、2019年には日本でDreamtonicsを設立。2022年にはAHSの代表取締役兼CTO(Chief Technology Officer=最高技術責任者)に就任した。フォーブス日本版において日本から世界を変える30歳未満を選出する“30 UNDER 30 JAPAN”に選ばれるなど、音声合成分野において名実共にトップランナーと言える存在だ。インタビューから、彼の類いまれな頭脳を垣間見てほしい。
開発当初は何が大変かも分からなかった
——カンルさんは現在、Dreamtonicsの代表取締役と、音声合成ソフトをはじめとするソフトウェアの販売などを行うAHSの代表取締役兼CTOと、2社の代表を務めています。かなりお忙しいかと思いますが、今もご自身で開発を?
カンル はい。そもそもは、まず物を作りたいという考えがあってDreamtonicsを立ち上げました。1人で会社を作って何年もやってきたんですけど、結局1人でできることって限られているので人を増やさないといけないと思ったんです。基本的な考え方はエンジニア側なので、エンジニアとして物を作りたいけど事業としても広げたい。それならば一緒に作ろうよというのが今の環境になっています。
——Synthesizer V開発のきっかけを伺えますか?
カンル もう10何年も前の話ですが、初音ミクに歌わせたかったというのが最初です。当時はまだ日本語も勉強していませんでしたが、分析して技術的に組み合わせてほかの言語にもできないだろうかと考えている中で、その音自体に興味が湧いてきました。初音ミクだけでなくどんな声にでもしたりとか、それまで音楽の分野になかったものを作れないかと試したりするうちに、段々のめり込んでいきました。
——音楽を制作するのではなく、ソフトの開発に向かうというのはなかなかないと思います。
カンル 音楽はずっとできたらいいなと憧れていました。でも自分にはそっちの才能はないんじゃないかと徐々に気づいてきて悲しいなと(笑)。
——ソフトを開発することの方が難しいようにも思います(笑)。元からプログラミングなどに興味が?
カンル その前からFlashやMeeGoを使って、プログラミングに触れていました。でも開発しはじめたときには、何が大変なのか分からないことが大変で、何から始めればいいのかすら不明でした。こうしたら音が良くなる、こうしたら自然になる、みたいなことを試行錯誤しても結局うまくいかなくて。割と後になってから、何十年も前からこういう研究をしている人がいたことに気づいて、論文や教科書を読みはじめて本格的な勉強に入りました。
——開発はご自身の歌声で行っていたのですか?
カンル それはちょっと気持ち悪くてできなかったです(笑)。大学生のときに、合成システムを開発しているから手伝ってほしいというポスターを貼って、協力してくれる人を探していました。
もっと広めたいという思い
——その後、製品としてSynthesizer Vがリリースされたのが2018年末ですね。
カンル MIDIノートと歌詞を一緒に入れて歌うソフトを作りたかったという目標がありました。途中で幾つかプロトタイプができて、品質的にうまくいっていないと思ったら作り直したりを何回か繰り返しています。やっとこれなら売れるんじゃないかと思えたのが2017年の後半で、そのときにSynthesizer Vと名付けました。
——名前の由来は何なのでしょうか?
カンル Synthesizerは説明不要かと思います。Vは数字の5からですね。何回かやり直していると言いましたが、大体何かを作ろうとすると、4回くらい失敗を経験しないと良いものにはならないですからね。
——てっきりVoiceのVなのかなと……。
カンル 後で気づきました(笑)。VoiceのVでも良い名前だなと最近は思っています。
——リリース時の反応はいかがでしたか?
カンル リーチできる人たちの範囲が限られているなと。当時は業界全体で音声合成は仕事に使うものではなく、ボーカロイドの延長線上にあるという認識だったんです。だからSynthesizer VのユーザーもボカロPの方がメインだったので、その中では話題になっていてうれしさもありつつ、少し悔しい気持ちもあって。もうちょっと広げたいなという思いはずっと持っていたんです。
——2019年には来日してDreamtonicsを設立されました。
カンル アメリカの大学に留学していたときに、日本は中国とアメリカの間にあって行きやすい場所でした。2017年の夏休みにハッカソン(編注:ソフトウェアの開発者らが集まってチームを組み、短期間でプログラムなどを開発し成果を競うイベント)があって、そのときに組んだチームで賞を取って、この人たちと仕事をしたら面白そうだと感じました。日本で起業したらうまくいきそうな気はしていましたがまだ確信はなくて、会社を作ってから少しずつ日本に来てよかったと思い始めましたね。
——それはなぜでしょうか?
カンル 日本の市場が音声合成に向いているからです。あと海外、特に中国は市場の変化が速すぎる。2年前はメタバースがすごくバズっていたけど、今は全然です。
——日本から技術者が流出しているみたいな話はよく聞きますが、逆に日本に来ていただけるとは!
カンル 外国の友達からは、“なんで日本に?”“アメリカの方がよくない?”って意見も結構ありました。正直言って日本は会社を作るのがほかの国よりもすごく大変です。ビザ、国のルール、テクノロジーや考え方もまだ世界に追いついていないところもありますからね。
——2022年からは、AHSの代表取締役兼CTOにも就任されています。
カンル AHSは創業18年の歴史がある会社で、全世界に向けた製品と、日本向けの製品をどう組み合わせて作るのかと意見をやり取りしていました。Synthesizer Vのリリース当初は海外の製品という見られ方をしていましたが、今は逆で日本から世界に広めようとしています。今年は広東語やスペイン語にも対応させていて、日本と海外の市場は半々くらいになっていますよ。
AIの進化が劇的な変化をもたらした
——Synthesizer Vは数ある音声合成ソフトの中でも、特に人間らしい歌声だと感じます。
カンル なぜリアルさを追求するかというと、自分が最初に触ったのは初音ミクをはじめとする電子楽器だったからです。DAW上にギターやピアノ音源を立ち上げると、本物の楽器のように鳴ってくれますよね。それから何年か後に、自分でもギターを学びました。普通は本物の楽器を練習してから音源を触ると思いますが、順番が逆だったこともあり、何でも電子化できるのが当たり前だと思っていたんです。人間の声についてもそう考えていましたが、電子化したものはまだ初音ミクくらいしかありませんでした。初音ミクは初音ミクであって、人間とは違います。それが何か足りないなと感じていて、それを満たすものを作りたいというのが目標でした。
——どうしてこんなにもリアルな歌声なのでしょうか?
カンル 楽器の場合、サンプリングをベースにすればリアルな音になりますよね。人間の声を使って同じ方法でやろうとすると、歌手の方にどういう素材を収録するかを指定しないとサンプルが作れません。“あ”や“い”だけ、“あ”と“い”の組み合わせだけを歌って、などのように音素ごとに収録すると、実際に歌うときの声質とは別物の変な歌い方になってしまい、人間らしくなくなってしまいます。歌をサンプルベースで合成しようとするのはすごく大変で、以前の技術では本当に難しかった。Synthesizer Vも同じくサンプルベースの合成エンジンだったので、今の製品と同じクオリティの歌声ができたわけではありませんでしたが目指してはいました。
——技術としては難しいが目標にはしていたと。
カンル それから数年前にAIが発達して、AIにデータを学習させて歌声を生成できるようになりました。でも最初からうまくいったわけではありません。AIの学習データは、ランダムな人間の歌を集合したもの……つまり同じ歌手に同じ曲を3回歌ってもらったら、3回とも違う歌になりますよね。それをAIが学習してまねすると、3つを平均した歌になってしまうんです。正解がないものをAIが生成する場合、正解に近いものを探そうとして、平均になりがちなんです。それが2017年くらいまでのAIでは改善できなかった問題の一つでした。
——AIが進化してそれが可能になった?
カンル はい。統計の考え方を取り入れているんです。答えは一つだけじゃなく、複数あることを受け入れる。結果も一つではなく、複数の結果を出す。そうすればいろいろな歌い方の変化をきちんと学習できるようになります。Synthesizer Vもそれから劇的に変わっていて、今はサンプルベースではなく完全にAIによるものです。
——サンプルは単なる参照元ということですか?
カンル 学習データですね。複数の曲の、最初から最後まで歌ったボーカルデータを学習させています。ほかの音声合成ソフトもAIを使って、学習データとしては同じような素材を使っていると思います。Synthesizer Vがリアルなのは、人間の声のランダムな変化を、どこまでモデリングできるかという研究の結果です。
——AIが発音をまねするということは、学習データとなる歌の上手さなども重要なのでしょうか?
カンル それはとても興味深い話でして。どこまで人間に近づいているかを検証しようとリスニングテストを行いました。合成して作った歌声と、元の学習データの歌を順番に聴いてもらい、どの歌が良いと思ったか点数を付けてもらったところ、なんと合成した歌声の点数が人間の歌を超えたんです。その後、今度は採点するだけじゃなくて理由を書いてもらってテストを行いました。すると、それぞれ何が自然で、何を音が良いと思うか、やっぱり考え方が違うことが分かりました。合成の方がスムーズに聴こえるから自然という人もいるし、逆に人間の方がスムーズじゃないから自然……不完全だから自然と言う人もいました。
——つまり学習データとなる歌は下手でもいい?
カンル 何を入れても作れるは作れます。さすがに猫の声とかはできませんが(笑)。再現はいくらでもできますが、それを良いと判断するかどうかは、作り手側とユーザーの間で調整する話です。
——AIリテイクには、ユーザーの評価を反映するフィードバック機能も実装されていますね。
カンル ユーザーにとってはいいことではあるけれど、歌として自然かどうかではないんです。何を魅力と感じるかは言葉にできません。数字にはできるかもしれないけど、その数字を私たちが理解できているかも分からないことなんです。
ツールとしての使いやすさが大事
——そのほか開発で意識している点はありますか?
カンル ツールとして使いやすいかどうかです。AIの技術も急速に発展していて、もしかしたら何年後かにはみんな同じクオリティに立てるかもしれません。それこそ今のDAWは、各ソフトで同じような機能を持っていても操作感は全然違うじゃないですか。そこはすごく重要な点じゃないかと思っています。
——アップデートも速いペースで定期的に行われて、次々に機能が拡張されています。
カンル どこに向かえばいいかという方向性が分かっていますからね。開発の判断は割とスピーディです。
——2023年にはラップ機能も搭載されました。
カンル 弊社にはVOICEPEAKというAI音声合成技術を使用したテキスト読み上げソフトもあります。そこで学んだノウハウを適用しました。大きなチャレンジとしては、技術的な部分よりも操作性です。歌であればピッチが合っているかどうかが一番重要な要素ですが、ラップにはそれがない。入力を手作業でやるのか、AIにどの程度任せるかなどに配慮して搭載しました。
——今回発売されたPOPYとROSEの歌声についてはどのような印象を受けましたか?
カンル バンドリ!の歌を幾つか聴いたことがあり、出来上がったものを聴いてみたらキャラクターらしさをすごく感じました。数あるSynthesizer Vの歌声の中でも、特に特徴を持った歌声だと思います。
——AIの議論では、人間の存在が脅かされるのではないかという話もたびたび出てきます。今後Synthesizer Vは人間に取って代わる存在になるような未来も想像できてしまいますが、カンルさんはどのようなビジョンを持っていますか?
カンル 結局はみんながどう思っているかが重要なんです。私としては人間の代わりにはならないんじゃないかと考えています。ピアノでもかなりリアルな音源ができていますが、だからといってYAMAHAやSTEINWAYのピアノが必要ないかと言えばそんなことはないです。最終的には歌声合成ソフトを一つのツールとして、楽曲を素早くプロトタイプにするためのものとして多用されるようになるかとは思いますけど、実際の作品にどう活用するかはユーザーに判断してもらうものと考えています。
——これだけ手軽に歌を作れるということが、多くのDAWユーザーにも浸透してほしいですね。
カンル 本当にそこです。開発側の視点からすると、あくまでSynthesizer Vは歌を作るプロセスを効率化するツールです。歌声合成というとボカロPの方に向けて特化しているようなイメージもあるかもしれませんが、そういうわけではありません。音楽を制作している方々に、まずは先入観なく触ってみてもらいたいですね。
フア カンル
【Profile】1997年、中国・上海市生まれ。アメリカ・イリノイ大学数学/コンピュータサイエンス学科中退。2019年、東京でDreamtonics設立。2022年、AHS代表取締役兼CTO就任。