【GPT2日本語版】ワード単位での学習を行った、117Mパラメーターのモデルを公開しました

皆様にご支援頂いている、GPT2日本語作成プロジェクトにおいて、117Mパラメーターの新モデルが公開されました。

117Mパラメーターのモデルは、GPT2の中でも最も小さな（性能の低い）モデルで、既に学習済みのモデルが公開されていましたが、今回、異なる語彙数で学習させたモデルを、新たに公開しました。

以前のモデルと今回リリースしたモデルを比較することにより、より大きなモデルをトレーニングする際に使用する語彙数を決定します。

また、語彙数の差によるモデルの性能比較など、単一のモデルのみでは出来なかった様々な研究活動が可能になります。

これまでの活動について：

現在公開中の日本語版GPT2は、
・ワード単位ではなくバイト単位でトレーニングしてある
・最も小さな（最も性能の低い）117Mのモデルしかない
という問題がありました。

このうち、「ワード単位ではなくバイト単位でトレーニングしてある」というのは、オリジナルのGPT2が50256種類の語彙を出力するように作成されているのに対して、バイト単位なので256種類の出力（0〜0xFF＋<|endoftext|>）しか使っていない、ということを意味しています。

プロジェクトの開始時点で、既にバイト単位での学習からワード単位での学習に変更するための、ソースコードは完成済でした。また、117Mモデルの再トレーニングも、手持ちの機械学習用マシンで実行中でした。

今回のリリース内容：

この度、ワード単位での学習を行ったパラメーター数117Mのモデルを公開しました。

新しいモデルは、GitHubのページにあるリンクからダウンロードすることが出来ます。

https://github.com/tanreinama/gpt2-japanese

新モデルの評価：

まだ暫定的な評価ですが、ワード単位での学習を行うと、単純に性能が良くなるかと言えば、場合によっては必ずしもそうではない事が解りました。

GPT2は、文章生成を行うAIですが、基本は「人間の書いた文章の続きを生成する」AIです。

何も無いところから、あるいは、短い文章の後に続く文を生成するような場合、以前のモデルの方が安定しているようにも見えます。

しかし、生成文章の品質は、top_p、top_kのパラメーターによって大きく変わり、入力文章の長さに合わせて適切なパラメーターを指定すると、新しいワード単位での学習を行ったモデルも、かなり自然な文章を生成してくれます。

新モデルを使った研究：

まだ定数的な評価は行っておらず、単なる感覚ですが、新モデルはtop_p、top_kのパラメーターの感度が大きいように見えます。

現時点での、私の試行による仮設としては、top_pを設定すると、出力の文章はtop_kより自然な文章になるのですが、入力contextとの関連性は少なくなるようです。top_kはcontextの長さと反比例するように設定する必要があって、top_kで指定したほうが、入力contextと関連性のある文章が出力されるようです。

このあたりの定性化については、後の研究を待つ必要がありそうです。出力の性能を定数化して比較してみても面白いかもしれません。

また、前回のモデルと、新しいモデルの比較により、1.5Bパラメーター等の巨大なモデルでは無く、小さな117Mパラメーターのモデルの場合、オリジナルの設定より小さな語彙数を使用する方が良いのではないか、という仮設が生まれました。

そして、小さなモデルでの語彙数の差によるモデルの性能の比較や、最適な語彙数の算定などが、新たな研究テーマとして浮上しました。

今後の予定：

以前のモデルと、今回リリースしたモデルとを比較し、345Mパラメーターのモデルを、どのような語彙数で学習させるかを決定します。

今月の20日には、345Mパラメーターのモデルの学習を開始する予定となっています。

345Mパラメーターのモデルの学習にはGPUサーバーをレンタルする必要があります。さらに大きなモデルのトレーニングには恐らくTPUが必要になりそうです。

まだまだやることは山積みです。

引き続きご支援のほどお願いいたします！

【GPT2日本語版】スクレイピング＆トレーニングコードを共有する準備が整いました

活動報告一覧を見るプロジェクトを見る

tanreinama

東京都

初めてのプロジェクトです

坂本俊之フリーランスの機械学習エンジニア・件ITコンサルタント。現在は人工知能関連のエッジ開発に携わる。

認証していません
https://nama.ne.jp/

メッセージを送る

リターンを選ぶ

500円

学習済みモデルの公開時にメールでお知らせします。

支援者：2人

お届け予定：2020年11月
3,000円

学習済みモデルの公開時にメールでお知らせします。また、special_thanks.txtにお名前（またはニックネーム）を掲載します。 ★必ず、掲載するお名前（またはニックネーム…

支援者：6人

お届け予定：2020年11月
10,000円

学習済みモデルの公開時にメールでお知らせします。また、special_thanks.txtにお名前（またはニックネーム）を掲載します。 ★必ず、掲載するお名前（またはニックネーム…

支援者：17人

お届け予定：2020年11月

リターンを選ぶ

500円

学習済みモデルの公開時にメールでお知らせします。

支援者：2人

お届け予定：2020年11月

このリターンを選択する
3,000円

学習済みモデルの公開時にメールでお知らせします。また、special_thanks.txtにお名前（またはニックネーム）を掲載します。 ★必ず、掲載するお名前（またはニックネーム）を備考欄に記載してください。 ★または掲載して欲しくない場合にも、備考欄にその旨お願いします。

支援者：6人

お届け予定：2020年11月

このリターンを選択する
10,000円

学習済みモデルの公開時にメールでお知らせします。また、special_thanks.txtにお名前（またはニックネーム）を掲載します。 ★必ず、掲載するお名前（またはニックネーム）を備考欄に記載してください。 ★または掲載して欲しくない場合にも、備考欄にその旨お願いします。 GPT2のトレーニングに使用したソースコードと、クローリングに使用したプログラムを提供します（ほぼ公開されているコードそのままですが、データの作成に必要となるコマンド等です）。

支援者：17人

お届け予定：2020年11月

このリターンを選択する

このプロジェクトは、All-In方式です。
目標金額に関わらず、2020/09/21 23:59:59までに集まった金額がファンディングされます。

FAQ

Q. 支払い方法は何がありますか？
A. クレジットカード払い（Visa/Mastercard/JCB/Diners Club/American Express）、コンビニ払い（全国の主要コンビニエンスストア）、銀行振込、auかんたん決済、ソフトバンクまとめて支払い・ワイモバイルまとめて支払い、d払い、PayPal、FamiPay、PayPay、楽天ペイ、au PAYをご利用いただけます。
Q. クレジットカードの決済はいつ行われますか？
A. 「All-or-Nothing」では募集期間中に目標金額を達成した場合、「All-In」では目標金額の達成・未達成に関わらず、プロジェクトは成立となります。募集期間内にプロジェクトが成立した場合のみ、支援金の決済が実行されます。募集期間内にプロジェクトが成立しない場合は、支援金の決済は実行されません。その場合はプロジェクトオーナーに支援金は支払われず、選択したリターンの発送（履行）もありません。
Q. プロジェクトに関する質問はどうすればいいですか？
A. プロジェクト内容に関するご質問やご意見は、プロジェクトオーナーへCAMPFIREのメッセージ機能をご利用ください。
Q. 間違って支援した場合はどうなりますか？
A. 選択したリターンの変更・キャンセル・返金は一切受け付けておりません。リターンの変更・キャンセル・返金については、各プロジェクトオーナーへ直接お問い合わせください。

「危険すぎる」と話題になった文章生成AI、GPT2の日本語版を作成したい

このプロジェクトを見た人はこちらもチェックしています

「危険すぎる」と話題になった文章生成AI、GPT2の日本語版を作成したい

このプロジェクトを見た人はこちらもチェックしています