BERTの改良版「RoBERTa」を、日本語版GPT-2と同じコーパスで学習させた、「RoBERTa日本語版」の事前学習済みモデルがリリースされました。
リリース内容
これまで、日本語版GPT-2プロジェクトを通じて、GPT-2及びTransformerをベースとしたニューラルネットワークの学習について知見を得てきました。
この度、GPT-2と同じようにTransformerベースの機械学習モデルの、「RoBERTa」の日本語版を作成し、リリースしました。
「RoBERTa」は、Liu, Yinhanらが提案する、BERTの改良版です。
RoBERTaの、BERTからの改良点は学習手法の改良のみで、モデル構造そのものはオリジナルのBERTそのものです(こちらの記事などが詳しいです)。
「RoBERTa日本語版」は、事前学習のためのプログラムも、MITライセンスで公開しています。
また、クラス分類の学習プログラムと推論プログラム、文章のベクトル化を行うプログラムも、「RoBERTa日本語版」の利用方法のサンプルとして公開しています。
RoBERTa-japaneseとは
オリジナルのBERTに、RoBERTaの論文から、以下のFEATUREsを導入して作成しました。
dynamic mask
NSPは使わない
FULL-SENTENCESな学習
バッチサイズとlr値を最適化
分かち書き/エンコードはJapanese-BPEEncoderを使用します。そのため、オリジナルのRoBERTaからも、語彙数について違いがあります。また、分かち書きがBPEエンコードで、単語単位ではないので、[MASK]もBPE単位になっています。
公開している学習済みモデル
現在公開しているモデルは、RoBERTa-baseモデルで、12層のヘッダーとtransformerを持つサイズです。(GPT-2のsmallモデルに相当します)
「RoBERTa日本語版」は、以下のGitHubにて公開しています。
https://github.com/tanreinama/RoBERTa-japanese
引き続き応援の程よろしくお願いします。