プロジェクトの動機 で記載した「裸眼立体視ディスプレイへの感動とスマートスピーカーへの不満」についての話になります。2010年、S社は"RayModeler"という360°裸眼で立体に見えるディスプレイを国際展示会で公開しました。(出典:Sony - Global "RayModeler: 360-degree Autostereoscopic Display (360°立体ディスプレイ) SIGGRAPH 2010")これを見て、もうすぐ「SFで夢見た世界が実現されるな」と、本当に感動したのを覚えています。まず、この RayModeler への感動が本プロジェクトきっかけなのは間違いありません。「SFで夢見た世界」とは、有名な「スターウォーズ」のホログラムです。(出典: 2023/1/26 EIS insight 宇都 龍馬氏「スターウォーズのホログラムが現実に? CES2023を賑わせた3Dディスプレイの今」) その後、2014年 Amazon Echoをはじめとする様々なスマートスピーカーが発売され、2017年はスマートスピーカー元年と言われました。(出典:2014年11月8日 日本経済新聞「アマゾン、家庭用の音声アシスタント端末「Echo」発表」) スマートスピーカーが話題になってきていることから、いよいよ RayModelerとスマートスピーカーを組み合わせたもの が発売されるかも知れないと個人的に密かに期待していたのですが、それが開発されることはありませんでした。 「なぜ RayModeler と組み合わせないのか」と、SFの世界を夢見ていただけに、当時とてもがっかりしたのでした。(申し訳ございません。RayModelerの価格とかは技術仕様等を全く理解できていない素人の本当に勝手な妄想でした。) S社在籍中は、裸眼立体視ディスプレイや、スマートスピーカーとは全く関係のない事業に携わっていました。 情報通信事業のインフラ設計運用を主務として、情報セキュリティ、法務・コンプライアンス部に兼務させて頂くなど、様々な業務に携わらさせて頂くことができたのですが、2018年頃は特に情報通信以外に何か新しい事にチャレンジしたいという考えもあり、業務時間外や趣味の時間を使って工作をしていました。 そこで、興味のあった裸眼立体視を調べている際にピラミッド型デバイスに出会います。(出典:CNet Japan 佐藤信彦氏 2015年08月10日「スマホで楽しむ3Dホログラム風映像--夏休みの自由研究に」、KICKSTARTER Jeff Nybo氏 "$9 Clearest Phone Hologram (Pepper's Ghost Pyramid)") 早速、自作をしてキャラクターを投影してみたところ「本当に3D映像に見える。凄い。」と、感動したのでした。※ キャラクターが机の上に立っているようにするため、スマートフォンを伏せて設置する仕組みとしました。 「これにスマートフォンの音声認識の仕組みを組み合わせれば、安価に、RayModeler と スマートスピーカーを併せたようなものが作れるかも知れない。」 その後、キャラクターの存在感を高めるための改善や工夫を重ね、おひとり様用の疑似ホログラムスマートフォンスタンドと、アプリケーションの原型を製作しました。 工作用紙で製作可能なスタンドの図面や手順書も、一時期、BOOTHで"ACUAH β"として、無料で公開させて頂いていました。若しかしたら、工作が得意でこちらを製作された方もいらっしゃるかも知れませんね。 工作用紙で製作するスタンド(図面、手順書)✔ スマートフォン設置台の角度調整✔ スクリーンの角度を適切な位置に調整✔ スマートフォンのジャイロセンサーで角度を検出し最適な映像を投影 これらを連携する仕組みを構築し、キャラクターの存在感を更に高められるようにしました。 スマートフォンとスマートフォンスタンドを組み合わせるだけで、「スターウォーズのホログラム」のようなものが、安価に体験できる製品ができたと思います。多くの方にこの体験をお届けしたい。プロジェクトを継続している理由です。
前回までにお話させて頂いた内容を、音声対話型の汎用AIアシスタントを作るという前提で改めてまとめると■対話シナリオ メリット: 入力に対して出力が1対1で正確。 デメリット: 入力パターンが膨大にある場合に処理できないものが発生してしまう。■AI メリット: 膨大な入力パターンに対応。推論で何かしらの応答を返すことができる。 デメリット: 応答がユーザーの考える「正しさ」と一致しない場合がある。そこで、AIの推論を利用し、対話シナリオと組み合わせた処理をする仕組みを考えます。 ※ 図では省略された処理があります。概略図として見てください。対話シナリオで処理できないものを、AI(LLM)に渡し出力(回答)させるとともに、入力と出力を対話シナリオに戻し(フィードバックし)て、学習をさせます。すると、次回以降は、対話シナリオで処理が完結できるようになります。さらに、この入出力の学習内容をユーザーが評価(追加・編集・削除)できるようにすれば、ユーザーカスタマイズ、パーソナライズ化ができるのではと考えています。(もちろん、プロンプトエンジニアリング等でAI自体のパーソナライズ化をするというのも、並行すると良いと思います。)また、この仕組みのもう1つのメリットとして、学習済みのものは対話シナリオで処理が完結しますので、都度AIに頼る必要がなく、処理負荷が軽くて済む点があります。今、ACUAH のスマートフォンアプリを無料で公開させて頂いておりますが、実際に使ってみて、「話しかけた言葉に反応しないし、使えないな。」と感じられた方も多くいらっしゃられたのではないかと思います。 ※ アプリの利用マニュアル > 対話方法と学習について では、 「対話シナリオ(優先)+ ChatGPT (Function callingあり)」を 【推奨】とさせて頂いております。使いにくい、分かりにくいという点は今後改善をしていく予定ですが、現時点では、この対話シナリオとAIを組み合わせた仕組みが、プロジェクトに適していると考えています。次は、ACUAHの開発経緯について お話しさせていただく予定です。
本日の活動報告は、アプリのアップデートのご連絡です。アプリの改修・開発は継続して行っております。ACUAHの次のバージョンver.3.4.0は8月末までにリリースします。Android版のAndroid14対応の他、機能追加、不具合修正を行う予定です。アップデートの内容詳細は後日お知らせします。クラウドファンディングのご支援額も1週間で80%弱となりました!ご支援頂きました皆様、本当にありがとうございます。クラファン終了まで様々な事をお伝えしていきますので、引き続きよろしくお願いいたします。
個人向けの音声対話型の汎用AIアシスタントを作るという前提です。ACUAH が 汎用AI「アシスタント」であるからには、やはり、ユーザーが期待する動作を確実にできるようになって欲しいという考えがあります。ところで、現在の統計学をベースとしたAIは推論ができます。逆に言うと、推論である以上「正しい」回答、出力ができない場合があるという事です。まして、そもそも何が「正しい」のか。「正しい」という定義自体が個人で異なるような、主観的な場合には尚更です。※ ChatGPT のページの下にもお断わりの一文が添えられています。今、AI開発会社は期待した「正しい」回答を得られるように、新しいモデルや、プロンプトエンジニアリング、ファインチューニング、RAG等様々な手法を使って、評価値(正確性、信頼性)が高いAIを開発していますが、結局、他者が開発したAIである以上、その評価をしている人や組織が考える「正しさ」から逃れることはできません。ですので、個人向けの音声対話型の汎用AIアシスタントを目指すのであれば、特に、雑談ではなく、AIの出力から何かしらの機能の実行を伴う場合には、それらAIの出力をそのままユーザーに示すだけではなく、その出力結果(「正しさ」を)ユーザーが個々に判断・評価するような仕組みが必要だと考えています。次回「対話シナリオとAIを組み合わせた仕組み」でお話させていただきます。
音声対話汎用AIアシスタントを作る前提で、 「対話シナリオとAIを組み合わせた仕組み」について書く予定でしたが、その前に、前回、「ChatGPTのような昨今のAI(LLM:大規模言語モデル)が救世主に」と簡単に書いてしまったので、少し補足訂正をさせてください。まず、現代の(ノイマン型)コンピュータは 「入力」された情報をCPUが何等かの「処理」をして「出力」するものです。前回の対話シナリオの処理部分を当てはめると、音声認識で変換された「テキスト文字」が、「対話シナリオ」を使って処理され、対話シナリオに記載された「決まった動作」が実行されるという流れにおいては・「テキスト文字」が 「入力」(input)・「対話シナリオ」による処理が 「処理」・「決まった動作」の実行が 「出力」(output)となります。対話シナリオのデメリットは、この「入力」のパターンが沢山ありすぎる場合に、全てに対応する「処理」を書ききれず、処理できないものが発生してしまう、という点になります。逆に「処理」ができる場合には、確実に決まった動作をさせる事ができます。一方、昨今のAI(LLM:大規模言語モデル)のメリットは、「入力」パターンが膨大にあっても、推論「処理」をすることで何等かの「出力」を得る事ができる点にあります。音声対話型の汎用AIアシスタントを作るという前提で、「ChatGPTのような昨今のAI(LLM:大規模言語モデル)が救世主に」と書いたものの、この救世主の意図するところは、あくまでも、昨今のAI(LLM:大規模言語モデル)は「入力」部分において、膨大にあるパターンに対応できるという点になります。次回はAIの出力についてお話させていただく予定です。