NICTとKDDIが大規模言語モデルに関する共同研究を開始

〜ハルシネーションの抑制やマルチモーダルデータを扱う高性能LLMの共同研究を実施〜
2024年7月1日

国立研究開発法人情報通信研究機構

国立研究開発法人情報通信研究機構(NICTエヌアイシーティー、理事長: 徳田 英幸)は、KDDI株式会社(KDDI)と大規模言語モデル(LLM)に関する共同研究を開始します。この共同研究では、NICTがこれまでに蓄積してきた600億件以上のWebページ等と、KDDIが開発してきたハルシネーション抑制技術、マルチモーダルAI技術を活用し、高性能なLLMを実現するための研究開発を実施します。LLMの課題となっているハルシネーションの抑制や、多様なマルチモーダルデータの取扱いが可能な高性能なLLMを用いることで、特定の目的の対話を行うシステムや雑談を行うシステムの信頼性を向上させ、マルチモーダルデータを扱えるようにすることで、システムとのやり取りをより豊かにすることを目指します。

背景

NICTでは、2023年からLLMに関する研究開発を本格化させ、2023年7月にLLMの試作について報道発表をしました。NICTがこれまでに蓄積してきた600億件以上のWebページを活用し、LLMの事前学習に用いるデータの整備と並行して、130億パラメータから日本語特化型では世界最大規模となる3,110億パラメータまで1年余りで合計17個のLLMの事前学習を完了させてきました。政府では、我が国におけるAI開発力強化のため、学習用言語データの整備・拡充を目指しており、総務省・NICTにおいて、令和5年度補正予算を活用し、これらのWebページのデータやそこから作成した学習用データ等を民間企業、国研、大学等と共同研究等を通して活用いただく上での法的課題について整理した上で、共同研究を実施するための準備を進めてきました。

共同研究の概要

この度、共同研究を実施するための準備が整い、KDDIと共同研究を開始する運びとなりました。この共同研究では、NICTが長年蓄積してきた膨大なWebデータやそこから作成したLLMの事前学習用データ等をKDDIと共有し、共同研究を進めます。これらのデータ等と、KDDIのハルシネーション抑制技術、マルチモーダルAI技術を活用し、高性能なLLMを実現することを目指します。具体的には、LLMで課題となっているハルシネーションを抑制する技術を対象とするLLMの傾向に合わせて高度化する技術を研究開発するとともに、テキストに加えて日本の地理空間情報などのマルチモーダルデータをLLMで取り扱う技術を研究開発します。これらの技術により、例えば、特定の目的のための対話システムや雑談システムにおいて、ハルシネーションが抑制されることでシステムの信頼性が向上し、対話における対象の位置関係の把握がより適切に行えるようになります。

今後の展望

今後、より多くの機関にNICTが有する膨大なWebデータ等を活用いただき、日本におけるLLMの研究開発力の向上に貢献していきます。

各機関の役割分担

  • NICT: LLMのための学習データの開発、LLMの事前学習の実施及びその評価
  • KDDI: ハルシネーション抑制技術及びマルチモーダルAI技術の高度化・評価

関連する過去のNICTの報道発表

用語解説

大規模言語モデル(Large Language Model; LLM)

非常に巨大な学習データ(テキスト)と深層学習を用いて構築された巨大なニューラルネットワークによる言語モデル。言語モデルとは、基本的には単語の並びが与えられるとそれらの単語の並びが出現する確率を計算するものであるが、GPT等の大規模言語モデルは、与えられたテキストに対し後続する単語を確率的に予測し、確率が最大となる単語を出力することを繰り返し、それらの単語を繋いでいくことでテキストを生成することができる。


ハルシネーション

LLMが事実に基づかないテキストを生成する現象を指す表現。LLMが幻覚(=ハルシネーション)を見ているかのように、事実と異なる内容やもっともらしい嘘を生成するため、このように呼ばれる。事実を期待して出力を求めた際に、もっともらしく事実と異なる内容を出力するため、問題視されている。


マルチモーダルAI

モーダル(modal)とは、「様式の」、「様態の」などを意味する表現であり、この分野では、マルチモーダルデータと言った場合には、複数種類のデータ(例えば、テキスト、音声、画像など)を指す。マルチモーダルAIとは、このようなマルチモーダルデータを一つのAIで扱うことができるAIである。例えば、テキストのみを扱えるAIを発展させて画像とテキストを同時に扱うことができるAIを開発することが最近活発に行われているが、このようなAIをマルチモーダルAIと呼ぶ。

本件に関する問合せ先

ユニバーサルコミュニケーション研究所
データ駆動知能システム研究センター

大竹 清敬

広報

広報部 報道室