検索拡張生成品質向上向け共同研究、NICTとTDSL

 国立研究開発法人情報通信研究機構(NICT)と東芝デジタルソリューションズ株式会社(TDSL)は、2025年4月1日、大規模言語モデル(LLM:Large Language Model)を用いた検索拡張生成(RAG:Retrieval―Augmented Generation)の品質向上に関する共同研究を開始した。研究では、NICTがこれまでに整備した大量の言語データの学習により開発してきた日本語特化型のLLMや検索ツールを活用し、より正確で有益な情報を得るための生成AI周辺技術の高度化を目的としており、組織内に蓄積された大量の文書を活用した知識継承や業務効率化の実現を目指すとしている。
 NICTでは、これまで過去15年にわたって日本語を中心に収集した660億ページのWebデータからLLMの事前学習に用いる大規模で高品質な日本語データを整備し、130億パラメータから3110億パラメータまで、パラメータ数や学習データ量の異なる様々なNICT独自のLLMを試作している。
 合わせて総務省とも連携し、NICTで収集・開発したWebデータや日本語学習データ、NICT LLMの民間企業、国研等への提供を、共同研究の枠組みの元で開始してきた。さらには、大規模なWeb情報を対象とした検索ベースの質問応答システムWISDOM X(ウィズダムエックス)などの開発済みのツールを活用し、LLMが生成するテキストの根拠をWebから発見する「裏取り」システムも開発中という。
 NICTでは2021年3月31日から、Web60億ページの情報を基に様々な質問に回答することができる大規模Web情報分析システムWISDOM X(ウィズダムエックス)「深層学習版」の試験公開を開始。「なに」「なぜ」「どうなる」「どうやって」(How―to)型の質問に対応し、質問応答を通して関連情報の全体像を迅速かつ容易に把握できるようにした。2023年12月18日公開の最新モデルでは、収集したWebページを即時に解析するニアリアルタイム解析を導入し、分析対象を176億ページ以上まで拡大している。
 一方、TDSLは、社内業務の効率化や、エネルギー、社会インフラ、製造、ITサービス等の東芝グループの事業分野へのLLMなどの生成AI技術の活用を進めている。これらの事業分野では、少子高齢化による労働力不足や熟練者の後継者不足が深刻な課題となっており、生成AI技術を活用した知識継承や業務効率化がその解決策として期待されている。
(全文は4月18日付紙面に掲載)

この記事を書いた記者

アバター
kobayashi
主に行政と情報、通信関連の記事を担当しています。B級ホラーマニア。甘い物と辛い物が好き。あと酸っぱい物と塩辛い物も好きです。たまに苦い物も好みます。