Nemotron-Personas-Japan: ソブリン AI のための合成データセット

実世界分布に基づいた日本人ペルソナのための複合AIアプローチ

日本の AI の未来に向けたオープンデータ

高品質で多様なトレーニングデータなしに、日本文化を真に理解するAIを構築することはこれまでほぼ不可能でした。これを変えるため、NVIDIAは、日本の人口統計、地理的分布、文化的特性に沿ったペルソナを含む初のオープン合成データセット、Nemotron-Personas-Japan を公開しました。CC BY 4.0 ライセンスのもと提供される本データセットは、機微な個人データに依存することなく日本社会を反映した AI システム構築のための、プライバシー保護と規制対応を両立した基盤を提供します。

NVIDIA のエンタープライズ向け合成データ生成システム、NeMo Data Designer を用いて作成されたNemotron-Personas-Japan は、すでに広く利用されている US Personas データセットの成功を機に日本版として開発されました。本リリースは、各国・地域におけるソブリン AI 開発を支援する合成ペルソナデータセットとデータ構築方法のグローバルコレクションの第一弾です。

本データセットは、Nemotron モデルをはじめとするオープンソースの大規模言語モデル(LLM) とシームレスに連携するよう設計されており、企業向けチャットボットから各種ドメインの AI エージェントに至るまで、日本語 AI アプリケーション向けのファインチューンを容易に行えるようになっています。

データセットの内容

合計600万件（各レコードにつき6ペルソナ、100万レコード）の自然な日本語で記述されたペルソナ
1レコードあたり22項目：6つのペルソナ関連項目と、公式の人口統計・労働統計に基づいた16のコンテキスト項目
総トークン数約14億：そのうち約8億5000万がペルソナ関連トークン
約95万件の固有の名前：合成データ生成で前例のない多様性

To finish reading, please visit source site