皆さん、突然ですが!カラオケって素晴らしい発明だと思いませんか?
私は、日本人の発明のなかで最もカラオケが全世界で楽しまれている娯楽だと思っています。
いつかカラオケのような全世界で楽しんで使われるしくみを発案したいと思っていて、やっと今回これならカラオケを超えるんじゃないかと思う「音声合成のしくみ」を発案できたのでご提案させて頂きます。
改めまして、私はジャスト株式会社の古川と申します。大阪府高槻市で商社の代表取締役と企業内ベンチャーをしています。もと技術者です。
今回音声合成の可能性を広げたくプロジェクトを立ち上げました。音声合成を使用したい方だけでなく、技術者の方にも見ていただけたら嬉しいです、よろしくお願いいたします!
アニメの声優や歌手、映画スターが亡くなったりしても未来永劫喋り歌うことができる音声合成の「応用特許」 の技術を広めて今後様々なサービスに活用していけるのではないかと考えました。
”改良発明”と呼ばれ、他人の発明(技術)や自分の発明(技術)に改良を加えて完成した発明のことを言います。誰かの特許にその特許申請した人が思いもつかない発明をすることで、より利便性が高まることも多くあります。
例えばA社がストローを開発し、特許を取りました。A社の発明に基づいてB社が蛇腹の曲がるストローを開発しました。この場合、その改良点が新しいものであれば特許(応用特許)を受けることができます。
このように、特許を保有するそれぞれの権利者が「クロスライセンス」(相互に実施権を許諾)を契約することで権利関係の制約が緩和され、製品を製造しやすくなります。例えば身近なところでいうと、お掃除ロボットもそれにあたります。
どんなに素晴らしいアイデアであってもアイデアだけでは全世界で楽しんでもらうことができません。
さらに、どんなに素晴らしいアイデアであってもより多くの方々に、知ってもらい、気付いてもらい、喜んで使ってもらわなければ存在価値がありません。
とある昔のゲームのユーザコメントで「〇〇(ゲーム名)がある時代に生まれて良かった」とあった。メーカの立場(ゲームを創った立場)からすると、最大級のお褒めの言葉であります。
このように日本人のみならず全世界の方々から「この音声合成がある時代に生まれて本当に良かった」「この音声合成がないと生きていけない」と言ってもらえるようにしたい!
そう言ってもらうために、以下の最小限のことができるプラットフォームを構築することを実現したいです。
AIの技術の発達により特定話者が声を70〜100文ほど発することでその人の声をデータ化することが可能になっています。ただ残念なことに、声の情報をデータ化することはできても、しゃべらせる時にテキストの文章の喜怒哀楽情報は再現することはできません。
ずいぶん滑らかになってはきましたが、カーナビや電話のアナウンスなどのように、、まだまだどこか機械的なイメージが残ってしまいます。
なぜロボット感が出てしまうかと言うと、それは無理やりに喜怒哀楽情報を作っているからです。
電話や電車、バスなどのアナウンスや商品紹介などの音声であれば単調な話し方でも問題はないのですが、これをアニメや映画などに取り入れるにはまだまだ違和感があります。
これからはYouTubeなども取り入れていくことで新しいジャンルが切り開かれていくのではないかと考えています。
そのためには、不特定話者がしゃべった文章から喜怒哀楽情報だけを取り出して、次に喋らせたい人の音声情報に乗せることで、人が聞いても違和感のない音声合成になって迫力のある演技が実現できると考えています。
ひとまずは、一般の方でも簡単な音声合成ができるプラットフォームの開発から初め、応用特許としてあらゆるジャンルに広めていくことができればと考えています。
音声データを指定
↓
変換したい声の特徴データを選択
↓
変換ボタンを選択したら、弊社プラットフォームにて音声変換
↓
ダウンロードできる
オリジナルで歌ったり喋ったりしている自分の声などを変換したい声にして、ダウンロードできるようにする仕組みを作ります。(WAVファイルという音楽データがダウンロードできる)
日本で有名なアニメを、イタリアかどこかヨーロッパ旅行中にTVで見ていたら、主人公始め全ての登場人物の声があまりにもオリジナルの声とかけ離れていてがっくりしたことがありました。全くヒアリングができないこともないですが、あまりにも声のイメージが合わなくて残念な思いをしました。
また、私が子供の頃から見ていたアニメをひとり息子と一緒に「パパも見てたよ」と話しながら見ていると、声優が変わっていことを知ってショックを受けました。
「俺の知っているあのキャラと違う!どうしてくれる!」
このようなことをなくしたいと思いました。
黒電話が全世界の80%に普及するまでに、約100年以上かかりましたが、携帯電話は、約30年。スマホは5年くらいでしょうか。
インターネットと5Gにより、超零細企業が全世界へサービスを提供できる時代になりました。そしてサービスの普及スピードは、従来のじわじわ普及ではなくJカーブのように急激な普及速度です。
2021年5月には19歳の学生社長が音声合成サービス開発したちまち話題に。2021年8月には、19歳大学生社長が自分の声を深層学習させ、自在に音声合成を可能にする仕組みを開発しました。
私は大学生のとき、大学生4年生と大学院2年の計3年間、研究室で人口喉頭装置の研究(代用声帯の研究)をしていました。
指導教授は、工学部の教授なので工学の博士号を持つのは当たり前でしたが実は医師免許も持つ方でした。医者ができるけど、工学に興味があり工学部の大学教授をしていた変わり者でした。(50歳前後と若くして亡くなったのが残念です)
学生時代に、音声工学という「人はどうやって声を発声しているか」、「あ」はなぜ「あ」なのか?
子供でも大人でも男でも女でも日本人でも海外の方でも「あ」は「あ」と聞こえるのは何故か?
声帯を怪我や手術で失った方からは、声帯を取り除くと喋ることも歌うこともできない理由を学ぶことができました。
今から約10年前の2010年ごろに、ある機関の授業を受けたとき、「50の文章を喋るとその人の声の特徴をデータ化できる」技術があることを知りました。
私は大学生の時、代用声帯の研究をしており、特定話者が喋った音声からその特定話者の声の特徴をなくして喜怒哀楽情報だけを時系列で取り出すことを知っていたので、不特定話者が喋ったり歌ったりした音声をパソコンなどに取り込み(当時はガラケーだったような気がします、今ならスマホに録音)、サーバにて特定話者の音声から喜怒哀楽情報を時系列で取り出し、その喜怒哀楽情報に喋らせたい声の特徴データを時系列で乗せる。乗せるとは、数学の専門用語で「たたみこみ(コンボリューション convolution)する」ことを意味します。
説明が難しいので、簡単に言うと喋らせたい(再現したい)声の特徴データを別の方が喋った音声から喜怒哀楽情報だけを取り出して、別の声に変換できるアイデアを発案したのです。
9年前に1年間、ある機関と共同研究して、私の音声サンプルを創りました。
------------------------------------------
以下の3本の音声は、私は英語をネイティブに喋れない私が、あたかもネイティブに英語を喋ったかのように聞こえる音声サンプルです。
①が私なりに喋ってみた英語の肉声、②は私ではない英語のネイティブスピーカの肉声。①と②を合成することで、まるで私がネイティブな英語を喋っているかのように聞き取れる音声です。
できればスピーカではなくヘッドホンで聴いて頂けると嬉しいです。
①古川の肉声(人による発声)
②英語のネイティブスピーカの肉声(人による発声)
③のネイティブスピーカの肉声からその方の声の特徴消し喜怒哀楽情報のみを抽出し、古川の声の特徴データを乗せた音声合成(プログラムによる音声合成)
①の古川の肉声では英語のネイティブスピーカに聴こえないが、③の音声合成ではあたかも英語のネイティブスピーカのように聴こえませんか?
アナウンサーが喋ったような音声合成ではなく、人が聴いても違和感が少ない!というところがポイントです!
こちらの音声サンプルは、とある放送局の技術の方に聴いて頂き、実用的に使えそうだとコメントをいただいています。共同研究した教授は、まだまだとおっしゃっていましたが、私は十分使えると思っています。みなさんも聴いてみてください。
私が思いつく限りの音声合成の活用アイデアを書き出してみます。多くの技術者の方と協力してたくさんの人に喜んでいただける、楽しんでいただけるシステムを構築していきたいと思っております。
■アニメや映画の声優さんが急死したり加齢や病気になっても、別の声優の声になってしまうのをなくす。
■声優さんに新しい吹き替え専門職のご提案
(Vチューバー対応/男性を女性の声、女性を男性の声へ/年齢を上げたり下げたり、海外の母国語を音声合成でネイティブに喋らせるなど)
■今までになかった新しい英会話教材
(自分の声がネイティブに英語を喋るので、参考にしやすくなる。英語以外でもOK。eラーニングで好きな方の声で学習すれば意欲も高まる!)
■老人介護への応用、老人の認知症レベルを会話のやり取りから数値化するなど。
(チャットボットとメールやSNSを組み合わせて、対話によるコミュニケーション)
■動画配信サービス、YouTube動画を全世界に発信する
「字幕や言語を選択できる」から「さらに声を選択できる動画配信サービス」へ
■海外の母国語をネイティブに喋らせる
現状日本のアニメやドラマを海外で観たらオリジナルの声と違う。これからオリジナルの声の特徴で、海外の母国語をネイティブ発話
海外の俳優さんががコテコテの関西弁を喋ったら面白いのでは!?
■映画の声を変えれられる。※声だけの応用ではなく、
映像と組み合わせた「応用特許」で映画の登場人物の顔も変えられるなど。
■チャットボットが好きな方の声で回答
■瓶の小人が時間が来た時に好きな方の声で好きな文章で声を掛けてくれる、秘書のように予定を教えてくれる、モーニングコール専用のアプリなど。
キリがありませんが夢と可能性が広がりますね!共感してくださる方はぜひ一緒にサービスを使うだけでなく私たちと一緒に開発してみませんか?
目標金額:50万円
最小限のことができるプラットフォームを構築するプログラム開発費用/12月から音声合成プロジェクトの「オンラインサロン」の運営準備の資金/CAMPFIRE手数料などの経費として大切に活用させていただきます。
音声合成プラットフォームの有料版オンラインサロンを体験できるコースを1ヶ月、3ヶ月、6ヶ月、12ヶ月とご用意しました。
オンラインサロンは12月よりスタート予定です。メンバーをご紹介をいただいた方には、メリットが生まれるよう設計していきたいと考えています。まずはお得な体験からお試しいただければと思います。
その他にも、これから拡大していくこの事業のスポンサーになれる権利もあります!是非ご覧ください!
9月〜10月:クラウドファンディング実施
9月から11月末までの3か月間:プラットフォームの準備
12月:オンラインサロン開始
今までSF映画やSFアニメの空想が現実になる事例になると思います。
オンラインサロンでは、ただ単にサービスを受ける側だけでなく、新しい分野を学び、サービスを提供する側になりませんか?(自分のアイデアで不労収入を得ることができるチャンスにもなります)
すべては、あなた次第です。
■特定商取引法に関する記載
●販売事業者名:請求があり次第提供致しますので、必要な方はメッセージ機能にてご連絡ください。
●代表者または通信販売に関する業務の責任者の氏名:請求があり次第提供致しますので、必要な方はメッセージ機能にてご連絡ください。
●事業者の住所/所在地:請求があり次第提供致しますので、必要な方はメッセージ機能にてご連絡ください。
●事業者の電話番号:請求があり次第提供致しますので、必要な方はメッセージ機能にてご連絡ください。
●送料:送料込み(離島価格など例外がある場合には記載)
●対価以外に必要な費用:プロジェクトページ、リターンに記載のとおり。
●ソフトウェアに係る取引である場合のソフトウェアの動作環境:該当なし
●その他記載事項:プロジェクトページ、リターン記載欄、共通記載欄(https://camp-fire.jp/legal)をご確認ください。
※本プロジェクトはAll-in方式で実施します。目標金額に満たない場合も、計画を実行し、リターンをお届けします。
コメント
もっと見る