
リヤド(UNA)- サルマン国王アラビア語世界アカデミーは、アラビア語のAI成熟度指標である2025年上半期のバルサムレポートを発表しました。このレポートは、様々な自然言語処理タスクにおける大規模言語モデル(LLM)のパフォーマンスを評価することを目的としています。このレポートでは、開発者や研究者が様々な言語領域におけるモデルのパフォーマンスを理解するのに役立つ統合プラットフォームが用いられています。
アカデミー事務局長のアブドゥラ・ビン・サレハ・アル=ワシュミ教授は、バルサム指数報告書の発表は、アラビア語のデジタルコンテンツ支援における国家的な取り組みを主導するというアカデミーのコミットメントを体現するものであると説明した。この報告書は、モデルの性能を評価し、その出力を分析し、アラビア語の言語特性に合わせて開発するための客観的なツールの参考資料となる。同教授は、この報告書は複数の専門機関と提携し、人間による評価と高精度の自動評価を組み合わせた高度な評価手法を開発することで、人間による評価の結果を0.88%に収束させる指標を実現したと指摘した。これにより、この指数は研究・応用レベルでの採用に貢献する高い信頼性を獲得した。
報告書の作成に参加した団体には、サウジデータ・人工知能局(SDAIA)、キングサウード大学、キングアブドゥルアズィーズ大学、ビシャ大学、カタール大学、キングアブドラ科学技術大学、カタールコンピューティング研究所(QCRI)、モハメドビンザイード人工知能大学、ニューヨーク大学アブダビ校、aiXplain、さらに人工知能とアラビア語の研究者および専門家のグループが含まれていた。
この報告書は、信頼できるデータを比較と改善に使用して、アラビア語での AI アプリケーションの品質向上に貢献し、技術環境で適用可能な成果の開発をサポートする正確な評価ツールと標準の開発に対するアカデミーの支援における実際的なステップを表しています。
本レポートは、22の言語モデルについて、翻訳、要約、クリエイティブライティング、読解、プログラミング、分類、その他自然言語処理に関連するタスクを含む13の言語カテゴリにおける54のタスクに分散された12,786の質問に基づく包括的な評価結果を示しています。また、モデルのパフォーマンスに関する詳細な分析も提供しており、モデル間の比較を容易にし、タスクに応じた各モデルの長所と短所を特定するのに役立ちます。
バルサム指数は、アラビア語を対象とした言語コンピューティングを可能にし、人工知能の範囲を拡大するためのアカデミーのプロジェクトの一つです。この指数は、サウジアラビアがデジタルトランスフォーメーション、ローカルコンテンツイニシアチブ、そして言語技術における国家能力の構築という目標の中で強化を目指す技術革新システムを支援することに貢献しています。
(私は終える)



