Nemotron-Personas-Japan: ソブリン AI のための合成データセット


Nemotron-Personas-Japan実世界分布に基づいた日本人ペルソナのための複合AIアプローチ



日本の AI の未来に向けたオープンデータ

高品質で多様なトレーニングデータなしに、日本文化を真に理解するAIを構築することはこれまでほぼ不可能でした。これを変えるため、NVIDIAは、日本の人口統計、地理的分布、文化的特性に沿ったペルソナを含む初のオープン合成データセットNemotron-Personas-Japan を公開しました。CC BY 4.0 ライセンスのもと提供される本データセットは、機微な個人データに依存することなく日本社会を反映した AI システム構築のための、プライバシー保護と規制対応を両立した基盤を提供します。

NVIDIA のエンタープライズ向け合成データ生成システム、NeMo Data Designer を用いて作成されたNemotron-Personas-Japan は、すでに広く利用されている US Personas データセットの成功を機に日本版として開発されました。本リリースは、各国・地域におけるソブリン AI 開発を支援する合成ペルソナデータセットとデータ構築方法のグローバルコレクションの第一弾です。

本データセットは、Nemotron モデルをはじめとするオープンソースの 大規模言語モデル(LLM) とシームレスに連携するよう設計されており、企業向けチャットボットから各種ドメインの AI エージェントに至るまで、日本語 AI アプリケーション向けのファインチューンを容易に行えるようになっています。



データセットの内容

image/png

  • 合計600万件(各レコードにつき6ペルソナ、100万レコード)の自然な日本語で記述されたペルソナ
  • 1レコードあたり22項目:6つのペルソナ関連項目と、公式の人口統計・労働統計に基づいた16のコンテキスト項目
  • 総トークン数約14億:そのうち約8億5000万がペルソナ関連トークン
  • 約95万件の固有の名前:合成データ生成で前例のない多様性

     

     

     

    To finish reading, please visit source site