時期を区切ることでいい感じにデータを取得できることがわかった。しかし、量が多いので1日の最大アクセス1万回にどうしても引っかかってしまう。文章が長い場合にどうしても分割して推論して結合して更に推論する必要があるので、1法令1アクセスでは済まない場合が多い。まあ何事も試行錯誤ですね。
OpenAIのAPI制限に引っかかってしまった。時間的な間隔は意識してたが、APIの呼び出しは10,000回/日が上限らしくそれにかかってとまった。やっぱり期間を設定して、じわじわ攻めていくしかないな。その前には、文章が長すぎて1回の最大トークン量を超えてしまうことがあったりした。文章を分割して要約して、最後また分割要約を要約する、という手法を取る必要がある。やってみると、いろいろと細かいAPI制約があることに気づく。
有名な人が一人リツイートしたりすると、急に盛り上がったりするのがバイラル効果のすごいとろこ。ジャスティン・ビーバーがいなかったら、ピコ太郎も今頃まだくすぶってたでしょう。自分は別にインフルエンサーでもなんでもないが、こういうときにインフルエンサーの友達がいたりするといいよね。やっぱり何事も人脈なんだなぁ。でも、なんかジャスティン・ビーバーが間違ってリツイートしてくれないかなぁ。まあ必要以上に盛り上がる必要はないけど、ちょっとは注目されたい。
スクリプトによる地道なデータ取得+変換作業を行っています。データ件数が多いのと、憲法・法律は文章が長いので一回の入力トークンの量を超えてしまうので分割したりという工程が入ることがあり、まあまあ時間がかかる。しばらくほうっておくしかないが、途中ちょこちょこ間違ってて何度か再スタートして今は順調。可能な限り並列化しているが、時間はかかる。でも、日本の法律を全部ちゃんと知ってるLLMとかが現れたらなにかの役には立ちそう。少なくとも誰もやっていなさそうだし。そういう意義だけのためにこれはやっている。
支援者が現れたことで、前倒しで作業を開始することができました!法令データには以下の分類のデータが網羅的に入っています。- 憲法・法律- 政令・勅令- 府省令・規則総データ件数を見ると、約8,000件くらいあるようです。昔のデータになると「xxノxxヲける」みたいない昔の表記も存在しました。それらを要約したデータを作り、要点は維持したまたデータ量を削減し、且つLLMがアクセスできるデータにするのがこのプロジェクトの目指すところです。データの作り方である程度の試行錯誤が必要ですが、小データセットでやり方は大体わかったので、全データセットに拡張していこうと思います!