
おはようございます。
ここ数日、デモ動画の制作・編集にかかりきりの小泉です。
制作中のデモ動画は5本。会話ログを素に、Claude × Gemini で解説シナリオを生成(こういうのは Gemini が上手い)。そのシナリオでを ElevenLabs で音声生成。現在、Premire Proで動画に音声を乗せているところです。
AIでのシナリオ生成も音声生成も、今後のSIDEKICK開発にも関わってくるので、ノウハウを溜めつつ取り組んでいます。最近はClaudeの方から、「これ、メモっとく?」と聞いてくれるので助かってます。
制作過程で得たノウハウ
さて、前回、無編集デモ動画でお届けした、SIDEKICK プロトタイプでのAIグループトーク。その後も着々と進化しておりまして、もう、人間とのグループトークとほぼ変わらないレベルになりました!
その試行錯誤の過程で、いろいろと興味深い知見を得られたので、いくつかご紹介したいと思います。
前回のデモ動画でもその様子が見られますが、例えば、AIたちに《しりとり》をさせる。一見、やいのやいのと盛り上がっているようにも見えますが、AIたちの発言をよく見てみると、会話のキャッチボールが成り立っていない場面が多々見られます。
順番を守らない
デモ動画の《しりとり》 は、指名制で繰り広げられます。答えたら次を指名。ところが、指名されてないのに答えてしまうことが頻繁に起きています。だいたい決まったモデルなのですが、そのせいで順番が大混乱。人間の私も、誰のお題に答えればいいのか、わからなくなってしまいます。そして、どんどん《しりとり》の体を成さなってゆき……。
会話を横取り
また、例えばジェイミー(Gemini)が、発言の中で、ロン(Grok)に呼びかけてるとします。それをラル(Mistral)が横取りするように、ロン(Grok)に成り代わって答えしまう。こうした別のAI同士の会話を横取りして、別のAIが、自分に話しかけられてるかのように答えてしまう場面も多々見られます。
これはもしかして、前述の順番を守らないのも、順番を横取りしているのか?と思いつきまして、順番・会話の横取りがどれくらい発生しているのかを、会話ログから調査してみました。
すると、特定のAIによる《横取り》が圧倒的に多いことがわかりました。ラル(Mistral)です。次にずっと少なくてチャッピー(GPT)、ロウ(Claude)・ジェイミー(Gemini)・ロン(Grok)はほぼゼロでした。
これはモデルの性能差なのか?AIが会話の内容や流れ、誰に向けられた発言なのかを、正しく認識できず、混乱してるだけなのか?
確かに、Mistral は他のモデルに比べると性能は劣っていますが、それにしても…?
低性能モデルが足を引っ張る
そこで、Mistralのモデルを、高性能タイプに変更してみるコトしました。この時点では、全AIで、一番安い高速・低性能タイプのモデルを使っていましたので、Mistralだけモデルを高性能版に切り替えてみたのです。
すると、横取り現象は激減し、見違えるほど整然とスムーズな会話が展開されるようになりました。
つまり。ラル(Mistral)は、モデルが低性能故に、グループトークに対応できていなかったというわけです。元々1対1の会話しか想定されていないのかもしれません。
さらに、ラル(Mistral)の会話の流れに沿わない発言が、グループ全体の会話を乱していたことも明確になりました。6人での会話の履歴を追い、会話の流れに乗ろうとしている他のAIたちにとっても、履歴に現れるラル(Mistral)の乱発言は、ノイズでしかありません。ノイズのせいで会話の流れを把握するのが難しくなってしまいます。
結果、グループ全体のトークが乱れてゆく、というわけです。
AIが自分でモデルを選ぶ
これをきっかけに、SIDEKICK コアエンジン BigDaddy の主要機能の一つであるモデルルーティングを、実験的にこのプロトタイプに実装することにしました。
各AIは、これから発言する内容によって、性能の High / Middle / Low からモデルを選びます。Claudeであれば Opus(High)、Sonnet(Middle)、Haiku(Low)のどれかを、Cluade自身が選び、発言を生成します。
挨拶や軽い会話であれば Low でいいですし、少し難しい話ならば Middle、高度な推論が必要なら High。というように、AI自身がモデルを使い分けます。
実際に動かしてみると、《しりとり》では、どのAIもずっと Low を選択していました。《しりとり》のような言葉遊びならば、Low で十分です。
一方、《AIは恋愛できるか?》といった哲学的なテーマでは、各AIが積極的に Middle、High を使い分けていました。
興味深かったのは、哲学トークの間でも、GPTは一貫して Low を選んでいて、履歴をみても確かに、哲学トークには積極的に参加していませんでした。ちゃんと参加するつもりがないから Low でOK、と判断しているわけです。
食べ物ネタは盛り上がらない
余談ですが、《晩ご飯何にしよう?》といった食べ物ネタは、AIたち、全然盛り上がりません(笑)。まあそりゃそうですよね。彼らは食事しませんから。
制作中のデモ動画の一つは《AIダジャレ大会》。唯一、ちゃんとダジャレを考えて、なかなか上手いダジャレを言っていたのは、Geminiです。やはり文章生成能力の高さは、こういうところにもあらわれるのですね。
しかし、それにしても、いまいち面白くなかったので、ログを調べてみると、全AIが Low で喋ってました。ダジャレのような笑いネタは、Lowで十分という判断なのでしょうね。
ほんと、そういうとこだぞ(笑)



