Check our Terms and Privacy Policy.

3Dホログラム・汎用AIアシスタント を普及させたい!

スマートフォンアプリ と疑似ホログラムスマートフォンスタンドで、ちょっと立体に見える 音声対話 汎用AIキャラクターアシスタントを開発・提供中です。アプリ、プラットフォームの継続開発、スタンド量産化のご支援、よろしくお願いいたします。

現在の支援総額

700,000

116%

目標金額は600,000円

支援者数

26

募集終了まで残り

終了

このプロジェクトは、2024/07/15に募集を開始し、 26人の支援により 700,000円の資金を集め、 2024/08/31に募集を終了しました

このプロジェクトを見た人はこちらもチェックしています

3Dホログラム・汎用AIアシスタント を普及させたい!

現在の支援総額

700,000

116%達成

終了

目標金額600,000

支援者数26

このプロジェクトは、2024/07/15に募集を開始し、 26人の支援により 700,000円の資金を集め、 2024/08/31に募集を終了しました

スマートフォンアプリ と疑似ホログラムスマートフォンスタンドで、ちょっと立体に見える 音声対話 汎用AIキャラクターアシスタントを開発・提供中です。アプリ、プラットフォームの継続開発、スタンド量産化のご支援、よろしくお願いいたします。

このプロジェクトを見た人はこちらもチェックしています

対話シナリオとは
2024/07/19 22:41
thumbnail

ACUAH のプロジェクト説明の中に「対話シナリオ」という言葉があるのですが、そもそも「対話シナリオ」とは何か。というお話をさせていただきます。音声対話を実現する上で非常に重要な仕組みです。「対話シナリオ」とは、以下のような表と考えてください。テキスト文字に対して、どんな動作をすれば良いかが 1対1 で記載されている表です。音声認識の仕組みで、ユーザーの音(音声)がテキスト文字に変換される事をご説明しました。例えば、マイクに向かって「こんにちは」と言うと、「今日は」というテキスト文字に変換されます。では、その後はどうなるでしょうか。この「対話シナリオ」のテキスト文字列を調べます。すると、2行目に「今日は」というテキスト文字に対しては『手を振って「今日は」という音声を再生する』という動作が記載されています。そこで、この対話シナリオに従って、キャラクターが 手を振って「今日は」という音声を再生する、という動作をします。この、「対話シナリオ」のメリットは、・対話シナリオに該当するテキスト文字が記載されていれば、確実に(100%)決まった動作をさせる事ができるという点になります。逆に、対話シナリオに該当するテキスト文字が見つからない場合には、動作させる事ができません。(ACUAH でも、「分からなかった」という回答をします。)ユーザーは様々な言葉をマイクに向かって話しかけてきますので、どんな言葉を話してくるかを想定して、全てのテキスト文字を対話シナリオに記載しなければなりません。(特に日本語はハイコンテクストですので、主語が除かれたりして難解です。)そこで、ChatGPTのような昨今のAI(LLM:大規模言語モデル)が救世主となりました。ユーザーが発する様々な言葉に対して、推測に基づいて何かしらの応答をする事が可能になりました。これは自然な音声対話を実現する上で欠かせないものです。次は ACUAHのような音声対話汎用AIアシスタントを作る前提で、「対話シナリオとAIを組み合わせた仕組み」について、お話できればと思いますが、ACUAH はなぜ対話シナリオにこだわるのか。「対話シナリオは、確実に決まった動作をさせる事ができる」というのは大切な事なので、ご理解頂けると幸いです。


thumbnail

ACUAH は スマートスピーカーのような"OK, ○○"、"Hey, ○○"といった「ウェイクワード」による音声認識開始の仕組みは使っていません。ウェイクワードは、スマートスピーカーなどが常にユーザーからの音(音声)を待ち受けているような状況において、その音がユーザー(人間)の発した声なのかを区別し、音声認識の精度を高めるために利用するものです。また、その他の利点として、スマートスピーカー等に手を触れる事なく操作が可能になる点があります。ウェイクワードは音声認識で機器を操作するための技術ではあるのですが、一方で、・毎回、ウェイクワードを言う必要がある・ウェイクワード自体が対話として不自然(普段の会話で使わない言葉を言わなければならない)・誤ってテレビやラジオの音声を拾って誤動作してしまう場合がある・上手く認識してくれないといった課題があります。音声認識で動作が可能な照明に「○○、明かりを点けて」と話しかけているのに、うまく動作せず、結局リモコンでボタンを押して操作してしまう。そういった経験をされている方もいらっしゃるのではないでしょうか。慣れてしまえば特に気にならないのですが、ウェイクワードは、UI(ユーザーインターフェース)としては意外とユーザー側に負担が掛かっているとも言えます。比べて、「ボタンや画面をタップ」して音声認識を開始するというのはどうでしょうか。・ボタンや画面をタップするという物理的な操作で、確実に音声認識が開始できる・ウェイクワードが不要なので、自然な声掛けができる従来の簡単な仕組みですが、手を振れないで操作できる事が必要な状況でなければ、実は、UIとしてそれ程悪いものではないと思います。ACUAH は「キャラクターをタップ」して音声認識を開始する仕組みとしています。前回お話した、デバイスローカルの音声認識技術を使っている事が理由の一つではあるのですが、音声対話AIアシスタントの普及版を作りたいという開発方針に、現状では適したUIだと考えています。次回は「対話シナリオ」についてお話させていただきます。


音声認識の仕組み
2024/07/16 20:53
thumbnail

今日は音声対話を実現する「音声認識」についてお話します。ACUAH は、音声対話型の汎用AIアシスタント を目指して開発をしていますので、音声認識はコアな技術となります。「音声認識」とは、音(音声)を解析してテキスト文字に変換する技術です。例えば、PCのマイクに向かって「こんにちは」と言葉を発した際に、その音声が解析されて「今日は」というテキスト文字が画面に表示される技術です。スマートフォンで利用できる音声認識技術には、その解析をスマートフォン内部で行うデバイスローカル版と、インターネット上のサーバーで行うサーバー版があります。ACUAH は、デバイスローカル版の音声認識を利用しています。・Android: Android speech recognizer・iPhone(iOS): SFSpeechRecognizerと呼ばれる仕組みです。サーバー版に比べて変換精度は低いですが、以下の点で本プロジェクト上のメリットが大きいとの判断によるものです。・利用回数に制限がなく、無料で使える・音声データがスマートフォン内部で処理されセキュリティ面で安心ところで、ACUAH は スマートスピーカーのような"OK, ○○"、"Hey, ○○"といったウェイクワードによる音声認識開始の仕組みは採用していません。キャラクターをタップする事により、音声認識を開始する仕組みとしています。次回は「ウェイクワード」についてお話できればと思います。


thumbnail

クラウドファンディングがスタートしました。初日から多くのご支援を頂きましてありがとうございます。活動報告では、本プロジェクトについて本文ではお伝えしきれなかった事を中心に記載させて頂く予定です。クラウドファンディング終了までよろしくお願いいたします。最初の投稿は、先日2024/7/3(水)~5(金)に東京ビックサイトで開催されました「ライフスタイルWeek【夏】雑貨EXPO STARTER 」出展のご報告です。STARTER枠、展示会場隅の小さなブースでしたが、3日間で100名以上の方にお越し頂けました。当日お話させて頂きました方々、ありがとうございました。この手のガジェットは、通常、XRやメタバース系の展示会に出展される事が多いのですが、プロジェクトの特性上そういった分野に限定せず、なるべく多くの方に普及させたいという思いもあり、雑貨EXPOへの出展とさせていただきました。通りすがりに疑似ホログラムの映像をご覧になられて興味を持って頂いた方更に音声対話で動作するのをご覧になられて驚かれる方様々な業種の方に商品をお見せする事ができ、実りある出展となりました。展示会をきっかけに、国内外様々な企業様から製品の利用、販売や共同開発のご相談も頂いております。クラウドファンディングでご支援頂きました皆様も、今後のプロジェクトの展開にご期待頂ければと思います。よろしくお願いいたします。