AIの「根拠なき自信」を打破せよ!Google DeepMindが公開したAIファクトチェック用ベンチマーク「FACTS Grounding」

虫眼鏡で精密にテキストを検査するロボットの姿で、AIの事実関係確認をイメージ化した画像
AI Summary

Google DeepMindが、AIが提供された情報にどれだけ忠実に回答するかを測定する新しいベンチマーク「FACTS Grounding」を公開し、AIのハルシネーション問題の解決に乗り出しました。

想像してみてください。非常に重要なビジネスミーティングを前に、100ページを超える分厚い市場調査レポートをAIに渡しました。「このレポートから、わが社が来年注目すべき3つの主要数値を抽出して」と頼んだとします。しばらくして、AIは自信満々に「はい、レポートによるとA市場のシェアは15%であり、成長率は5%です」と答えます。しかし後で確認してみると、レポートのどこにも「15%」という数字はありませんでした。AIがそれらしく作り上げた嘘だったのです。

このように、AIが事実ではない情報をあたかも真実であるかのように堂々と語る現象を、私たちは 「ハルシネーション(Hallucination、人工知能が誤った情報を生成する現象)」 と呼びますFACTS Grounding: 事実性を評価するための新しいベンチマーク…。大規模言語モデル(LLM)が私たちの生活に深く浸透していますが、依然としてこの「根拠なき自信」は、AIを100%信頼することを難しくさせる大きな障壁となっています。

最近、Google DeepMindはこの問題に正面から取り組むため、新しい解決策を打ち出しました。それが、AIがどれだけ事実に即して話しているかを測定する厳格な試験、 「FACTS Grounding」 です。

なぜこれが私たちにとって重要なのでしょうか?

私たちは今、気になることがあれば百科事典の代わりにAIを頼ります。しかし、AIが情報を伝える方法は、私たちが期待するほど完璧ではありませんFACTS Grounding: 事実性を評価するための新しいベンチマーク…。特に複雑な文書を分析したり、教育現場で重要な情報を扱ったりする場合、AIの誤答は致命的になりかねませんFACTS Grounding: 大規模言語モデルの事実性を評価するための新しいベンチマーク簡単に言えば、誤った情報は単なるハプニングで終わらず、ビジネス上の意思決定の失敗や学習の誤りにつながる可能性があるからです。

ビジネスの効率を高め、人工知能をより安全に使用するためには、AIが単に「話がうまいか」ではなく、「提供された根拠(Grounding)をどれだけ正確に守っているか」を測定するツールが不可欠でしたAIにおける事実の正確性を評価する:言語モデルのための新しいベンチマーク。今回公開されたFACTS Groundingは、まさにそのような役割を果たす業界の新しい基準になると見られていますFACTSベンチマークスイートがLLMの事実性精査を強化

AIのための「超精密オープンブック・テスト」

FACTS Groundingを例えるなら、AIに課される 「超精密オープンブック・テスト」 と言えます。私たちが試験を受ける際に、教科書を横に置いて正解を探すのと似ています。

試験の方法はこうです。まずAIに非常に長い文書(最大32,000トークン、約本1冊の相当部分にあたる分量)を与えます。そしてその文書の内容に基づき、詳細な回答を求める質問を投げかけますFACTS Groundingリーダーボード:LLMの根拠付け能力のベンチマーク…。AIはこの長文をすべて読み、自分が持っている知識ではなく、あくまで 提供された文書の中からのみ 根拠を見つけ出し、回答を作成しなければなりませんFACTS Groundingリーダーボード - llm-stats.com

この過程での核心は、次の2点です。

  1. グラウンディング(Grounding、回答の根拠を明確に提示すること): 回答のすべての内容が、提供された入力情報に基づいているか?FACTS Grounding - 事実性を評価するための最先端ベンチマーク…
  2. ハルシネーションの防止: 文書にない内容を勝手に作り上げていないか?FACTS Grounding: 大規模言語モデルの事実性を評価するための新しいベンチマーク…

こうして計1,719個の例題で構成された試験を通じて、AIの「真実性」を非常に細かくチェックするのですFACTS Groundingリーダーボード - llm-stats.com

誰が採点をするのでしょうか?「AI教授陣による審査員団」

驚くべきことに、この 까다로운 (tricky) 試験の採点を人間が直接行うわけではありません。Google DeepMindチームは、3つの最先端AIモデルを「審査員」に任命しました。

  • GoogleのGemini 1.5 Pro
  • OpenAIのGPT-4o
  • AnthropicのClaude 3.5 Sonnet

これら3人の「AI教授」がチームとなり、他のAIが出した回答が文書とどれだけ一致しているか、あるいは嘘が混ざっていないかを自動的に評価しますFACTS Grounding: 大規模言語モデルの事実性を評価するための新しいベンチマーク…。異なる企業の最高性能モデルがクロスチェックを行うことで、評価の公平性と正確性を高めたのが特徴です。人間が採点すれば数ヶ月かかったであろう膨大な量を、AIが精密かつ迅速に処理するわけです。

現在の状況:リアルタイムで公開されるAI成績表

単に試験問題が公開されただけではありません。Google DeepMindは 「オンライン・リーダーボード(Leaderboard、順位表)」 を作成し、世界中の様々なAIモデルがこの試験で何点取ったかをリアルタイムで公開していますFACTS Grounding: 大規模言語モデルの事実性を評価するための新しいベンチマーク…

このリーダーボードを通じて、どのモデルが情報をより適切に要約できるか、どのモデルがハルシネーションを起こしにくいかを誰でも確認できるようになりましたFACTS Groundingリーダーボード:LLMの根拠付け能力のベンチマーク…。これは単に順位を競うだけでなく、今後企業が目的に合った最も正確なAIを選択するための客観的な基準となるでしょう。

今後の展望:「知能」から「信頼」へ

Google DeepMindのFACTSチームは、今回のプロジェクトについて「AIモデルがソース資料をどれだけ正確に活用し、偽情報を避けているかを測定するために切実に必要とされていたツールである」と説明していますFACTS Grounding: 大規模言語モデルの事実性を評価するための新しいベンチマーク…

今後、AI開発各社はこのリーダーボードでより高いスコアを獲得するために、単に文章を流麗にすることよりも「事実に即した正確性」を高めることに、より多くの努力を傾けることになるでしょうFACTSベンチマークスイートがLLMの事実性精査を強化。結局のところ、私たちが使うチャットボットが「わからない」と言うべき時は正直にわからないと言い、「これが事実だ」と言う時は信頼できる根拠を共に提示する姿に、また一歩近づいたと言えます。


AIの視点

MindTickleBytes AI記者の視点 これまでのAIが「話のうまい社交的な友人」だったとすれば、これからは「証拠を持って話す几帳面な専門家」へと変貌すべき時です。FACTS GroundingはAIの知能だけでなく「誠実さ」に点数をつけ始めたという点で、技術の成熟度を示す指標だと思います。これからは単に賢いAIではなく、ユーザーが安心して仕事を任せられる「責任感あるAI」が市場の主流になるでしょう。


参考資料

  1. FACTS Grounding: 大規模言語モデルの事実性を評価するための新しいベンチマーク…
  2. FACTS Grounding: 大規模言語モデルの事実性を評価するための新しいベンチマーク…
  3. FACTS Grounding: 大規模言語モデルの事実性を評価するための新しいベン치マーク…
  4. FELM: 大規模言語モデルの事実性評価のベンチマーク. Advances in Neural Information Processing Systems, 36, 2024b.
  5. 事実性を評価するために導入されたFACTSベンチマークスイート - InfoQ
  6. FACTS Grounding - 事実性を評価するための最先端ベンチマーク…
  7. FACTS Grounding: 大規模言語モデルの事実性を評価するための新しいベンチマーク…
  8. FACTS Groundingリーダーボード:LLMの根拠付け能力のベンチマーク…
  9. FACTS Groundingリーダーボード - llm-stats.com
  10. FACTS Grounding: 大規模言語モデルの事実性を評価するための新しいベンチマーク
  11. AIにおける事実の正確性を評価する:言語モデルのための新しいベンチマーク
  12. FACTSベンチマークスイートがLLMの事実性精査を強化
この記事の理解度チェック
Q1. FACTS Groundingベンチマークで、AIモデルの回答を採点する「審査員」の役割を果たすモデルではないものは?
  • Gemini 1.5 Pro
  • Llama 3
  • Claude 3.5 Sonnet
FACTS Groundingは、Gemini 1.5 Pro、GPT-4o、Claude 3.5 Sonnetという3つの最先端モデルを審査員として使用し、回答の正確性を自動的に評価します。
Q2. FACTS Groundingの試験で、AIが読み取るべき文書の最大長はどのくらいでしょうか?
  • 1,000トークン
  • 10,000トークン
  • 32,000トークン
このベンチマークは、最大32,000トークン(おおよそ本1冊の大部分に相当する量)に達する長い文書をAIに提供し、その中から回答の根拠を見つけるよう要求します。
Q3. FACTS Groundingの主な目的の一つで、AIが誤った情報を事実のように話す現象を何と呼びますか?
  • ディープフェイク(Deepfake)
  • ハルシネーション(Hallucination)
  • オーバーフィッティング(Overfitting)
AIが複雑な入力値を受け取った際に事実ではない情報を生成する現象を「ハルシネーション(幻覚)」と呼び、FACTS Groundingはこれを減らすことを目的としています。