Check our Terms and Privacy Policy.

「危険すぎる」と話題になった文章生成AI、GPT2の日本語版を作成したい

「危険すぎる」と話題になった文章生成AI、GPT2の日本語版をトレーニングし、一般公開するプロジェクトです。既にコーパスのクローリングは完了済みで、最小の小説生成モデルは公開しています。より大きなモデルのトレーニングには、高額なサーバーが必要です。

現在の支援総額

309,500

51%

目標金額は600,000円

支援者数

25

募集終了まで残り

終了

このプロジェクトは、2020/08/26に募集を開始し、 25人の支援により 309,500円の資金を集め、 2020/09/21に募集を終了しました

このプロジェクトを見た人はこちらもチェックしています

「危険すぎる」と話題になった文章生成AI、GPT2の日本語版を作成したい

現在の支援総額

309,500

51%達成

終了

目標金額600,000

支援者数25

このプロジェクトは、2020/08/26に募集を開始し、 25人の支援により 309,500円の資金を集め、 2020/09/21に募集を終了しました

「危険すぎる」と話題になった文章生成AI、GPT2の日本語版をトレーニングし、一般公開するプロジェクトです。既にコーパスのクローリングは完了済みで、最小の小説生成モデルは公開しています。より大きなモデルのトレーニングには、高額なサーバーが必要です。

このプロジェクトを見た人はこちらもチェックしています

皆様方にご支援頂いている、GPT-2日本語版作成プロジェクトにおいて、正式版のモデル(mediumモデル)がリリースされました。


リリース内容


お待たせしました!

皆様方にご支援頂いている、GPT-2日本語版作成プロジェクトにおいて、やっとmediumサイズのモデルのトレーニングが終わり、公開出来る運びとなりました。

今回公開するモデルが正式版のモデルで、以前のモデルはexperimentalなモデルという扱いになります。

学習させたデータは、コーパス2020の混合コーパスで、約21GB、5.3Gトークンを10Mイテレーション強学習させています。

GPT-2日本語版を試しに実行することが出来る、デモンストレーションサイトも近日中に公開する予定です。


これまでの成果


これまで、日本語版GPT-2は、最も小さな(性能の低い)パラメーター数117Mのモデルを使い、

・コーパスの違い(一般文章/Web小節)による生成文章の違い

・出力語彙数の違い(バイト単位/SentencePieceによる分かち書き)による生成能力の違い

によるモデルの評価を行い、最終的な学習方針を策定していました。

最終的には、コーパスは全ての文章を含んだ混合コーパスを使用し、語彙数はサブワード単位での学習を行える、日本語版BPEEncoderによる分かち書きを行うよう設定し、モデルの学習を行ってきました。


新モデルについて


新モデルでは、語彙数が変わったのに合わせて、出力層のlogits層が変更されています。

そのため、総パラメーター数も変化したため、以前のような(117M/345M/774M)という名称ではなく、(small/medium/large)という名前になりました。

今回リリースされたmediumモデルは、transformer層のレイヤー数が、16heads、20layersで、ノード数が1024のもの(旧345Mモデル)です。

また、新モデルに合わせて、文章生成を行う「gpt2-generate.py」ベクトル化を行う「gpt2-transform.py」プログラムも更新されています。


公開URL


新モデルを含んだ日本語版GPT-2は、これまで通り、GitHubのページで公開しています。


https://github.com/tanreinama/gpt2-japanese



シェアしてプロジェクトをもっと応援!