オープンモデルでは最大級のLLMを公開

 大学共同利用機関法人 情報・システム研究機構 国立情報学研究所 (NII、黒橋禎夫所長) の大規模言語モデル研究開発センター(LLMC)は、主宰するLLM勉強会(LLM―jp)の成果として、これまでのデータ活用社会創成プラットフォームmdxでの130億パラメータ・モデルの学習、国立研究開発法人産業技術総合研究所の第2回大規模言語モデル構築支援プログラムによるAI橋渡しクラウド(ABCI)での1750億パラメータ・モデルの学習トライアルの成果を踏まえて、パラメータ数約1720億(GPT-3級)の大規模言語モデル(LLM)のフルスクラッチ学習を行い、プレビュー版「LLM-jp-3 172B beta1」を公開した。学習データを含めすべてオープンにしたモデルとしては世界最大のものという。
 NIIが主宰するLLM―jpでは、自然言語処理及び計算機システムの研究者を中心として、大学・企業等から1700名以上(2024年9月17日現在)が集まり、ハイブリッド会議、オンライン会議、Slack等を活用してLLMの研究開発について情報共有を行うとともに、共同でLLM構築等の研究開発を行っている。具体的には、▽オープンかつ日本語に強いLLMの構築とそれに関連する研究開発の推進▽上記に関心のある自然言語処理および関連分野の研究者によるモデル構築の知見や最近の研究の発展についての定期的な情報交換▽データ・計算資源等の共有を前提とした組織横断的な研究者間の連携の促進▽モデル・ツール・技術資料等の成果物の公開―といった目的で活動している。
 今回は、経済産業省・NEDOのGENIACプロジェクトの支援によるクラウド計算資源(グーグル・クラウド・ジャパン)を利用して、約0.4兆トークンまでの事前学習を実施した。その後、文部科学省の補助金により調達したクラウド計算資源(さくらインターネット)を利用して、約0.7兆トークンまでの事前学習及びチューニングを実施した。
 公開したLLMのモデルアーキテクチャはMeta社(アメリカ)製「LlaMA―2」ベース。LLMの持つニューラルネットワークの規模を示す指標の一つであるパラメータ数は約1720億個(172B)で、OpenAI(アメリカ)のLLM「GPT-3」と同程度の規模としている。日本語インストラクションデータと英語インストラクションデータの和訳データ13種類を用いてチューニングを実施した。
 学習に向けて用意したコーパス(自然言語の文章を構造化し大規模に集積したデータベース)は次の通り。
(全文は9月27日付紙面に掲載)

この記事を書いた記者

アバター
kobayashi
主に行政と情報、通信関連の記事を担当しています。B級ホラーマニア。甘い物と辛い物が好き。あと酸っぱい物と塩辛い物も好きです。たまに苦い物も好みます。