2020/11/28 18:30

BERTの改良版「RoBERTa」を、日本語版GPT-2と同じコーパスで学習させた、「RoBERTa日本語版」の事前学習済みモデルがリリースされました。


リリース内容


これまで、日本語版GPT-2プロジェクトを通じて、GPT-2及びTransformerをベースとしたニューラルネットワークの学習について知見を得てきました。

この度、GPT-2と同じようにTransformerベースの機械学習モデルの、「RoBERTa」の日本語版を作成し、リリースしました。

「RoBERTa」は、Liu, Yinhanらが提案する、BERTの改良版です。

RoBERTaの、BERTからの改良点は学習手法の改良のみで、モデル構造そのものはオリジナルのBERTそのものです(こちらの記事などが詳しいです)。

「RoBERTa日本語版」は、事前学習のためのプログラムも、MITライセンスで公開しています。

また、クラス分類の学習プログラムと推論プログラム、文章のベクトル化を行うプログラムも、「RoBERTa日本語版」の利用方法のサンプルとして公開しています。


RoBERTa-japaneseとは


オリジナルのBERTに、RoBERTaの論文から、以下のFEATUREsを導入して作成しました。

  • dynamic mask

  • NSPは使わない

  • FULL-SENTENCESな学習

  • バッチサイズとlr値を最適化

分かち書き/エンコードはJapanese-BPEEncoderを使用します。そのため、オリジナルのRoBERTaからも、語彙数について違いがあります。また、分かち書きがBPEエンコードで、単語単位ではないので、[MASK]もBPE単位になっています。


公開している学習済みモデル


現在公開しているモデルは、RoBERTa-baseモデルで、12層のヘッダーとtransformerを持つサイズです。(GPT-2のsmallモデルに相当します)


「RoBERTa日本語版」は、以下のGitHubにて公開しています。

https://github.com/tanreinama/RoBERTa-japanese


引き続き応援の程よろしくお願いします。