「危険すぎる」と話題になった文章生成AI、GPT2の日本語版をトレーニングし、一般公開するプロジェクトです。既にコーパスのクローリングは完了済みで、最小の小説生成モデルは公開しています。より大きなモデルのトレーニングには、高額なサーバーが必要です。

2020/11/28 18:30

BERTの改良版「RoBERTa」を、日本語版GPT-2と同じコーパスで学習させた、「RoBERTa日本語版」の事前学習済みモデルがリリースされました。

リリース内容

これまで、日本語版GPT-2プロジェクトを通じて、GPT-2及びTransformerをベースとしたニューラルネットワークの学習について知見を得てきました。

この度、GPT-2と同じようにTransformerベースの機械学習モデルの、「RoBERTa」の日本語版を作成し、リリースしました。

「RoBERTa」は、Liu, Yinhanらが提案する、BERTの改良版です。

RoBERTaの、BERTからの改良点は学習手法の改良のみで、モデル構造そのものはオリジナルのBERTそのものです（こちらの記事などが詳しいです）。

「RoBERTa日本語版」は、事前学習のためのプログラムも、MITライセンスで公開しています。

また、クラス分類の学習プログラムと推論プログラム、文章のベクトル化を行うプログラムも、「RoBERTa日本語版」の利用方法のサンプルとして公開しています。

RoBERTa-japaneseとは

オリジナルのBERTに、RoBERTaの論文から、以下のFEATUREsを導入して作成しました。

分かち書き/エンコードはJapanese-BPEEncoderを使用します。そのため、オリジナルのRoBERTaからも、語彙数について違いがあります。また、分かち書きがBPEエンコードで、単語単位ではないので、[MASK]もBPE単位になっています。

公開している学習済みモデル

現在公開しているモデルは、RoBERTa-baseモデルで、12層のヘッダーとtransformerを持つサイズです。（GPT-2のsmallモデルに相当します）

「RoBERTa日本語版」は、以下のGitHubにて公開しています。

https://github.com/tanreinama/RoBERTa-japanese

引き続き応援の程よろしくお願いします。

「危険すぎる」と話題になった文章生成AI、GPT2の日本語版を作成したい