2024/12/14 12:59
スクリプトによる地道なデータ取得+変換作業を行っています。データ件数が多いのと、憲法・法律は文章が長いので一回の入力トークンの量を超えてしまうので分割したりという工程が入ることがあり、まあまあ時間がかかる。しばらくほうっておくしかないが、途中ちょこちょこ間違ってて何度か再スタートして今は順調。
可能な限り並列化しているが、時間はかかる。でも、日本の法律を全部ちゃんと知ってるLLMとかが現れたらなにかの役には立ちそう。少なくとも誰もやっていなさそうだし。そういう意義だけのためにこれはやっている。



