AIは本当に賢いのか、それとも問題集を暗記しただけなのか？知能測定の新たな基準

AI Summary

静的な試験問題を解くことを超え、今やAIは戦略ゲームや創造性、新しい技術を学ぶ効率性を通じて、その真の実力を検証され始めています。

AIが試験で満点を取れば、本当に「天才」になったのでしょうか？

想像してみてください。 ある学生が、市販されているすべての問題集と過去問を、一字一句違わずにすべて暗記しました。この学生は試験を受ければ常に100点を取りますが、もし試験問題の数値を一つだけ少し変えたり、教科書にない突飛な状況を質問したりしたらどうなるでしょうか？おそらく一言も答えられずに困惑する可能性が高いでしょう。私たちはこのような学生を見て「本当に賢い」と言うよりは「単純な暗記力が本当にすごいね」と評価するはずです。

現在の人工知能（AI）が置かれている状況が、まさにこれと似ています。これまで私たちはAIの実力を測定するために、ベンチマーク（Benchmark、性能測定基準）という決められた試験用紙を使用してきました。しかし、AIがこれらの試験問題を丸ごと学習データに含めてしまい、「解答用紙をあらかじめ覚えてしまう」現象が発生したことで、果たしてAIが本当に原理を理解して問題を解いているのかという疑問が強まっています。The way we measure progress in AI is terrible

現在、専門家たちはAIの知能を測定する方法を根本から考え直し始めています。単に決められた正解を当てるレベルを超え、AIがいかに戦略的に思考するか、いかに創造的か、そして新しい技術をいかに早く学ぶかを測定しようとする興味深い試みが続いています。

ベンチマークの罠：「試験問題を丸ごと暗記したAI」

最近のAI性能指標を見ると、首をかしげたくなるような現象が発見されます。例えば、以前のモデルが90点だったのに、新しく出たモデルは93点だったと仮定しましょう。表面上は発展のスピードが目に見えて遅くなったように見えるかもしれません。しかし、これはAI技術が停滞しているのではなく、私たちが使用している試験用紙（ベンチマーク）自体が、すでに「正解がすべて公開されている」状態であるためかもしれません。The way we measure progress in AI is terrible

また、多くの企業がAIの効率性を自慢する際、「ワットあたりのトークン生成量（Tokens-per-watt、電力消費量に対するデータ生成量）」といった数値を掲げます。例えるなら、これは車の燃費がいかに良いかを自慢するようなものです。しかし、燃費が良いからといって、その車を運転する人が目的地まで最も安全で早い道を見つけ出す「運転技術」が優れているという意味ではありません。We Invested in AI. We Forgot to Measure What Matters. つまり、低コストで成果物を大量に生み出したからといって、その成果物が正確であったり、賢明であったりする証拠にはならないということです。

知能測定の新しい潮流：正面対決の始まり

このような限界を克服するために登場したのが、まさに「Kaggle Game Arena」です。Googleは、AIモデルたちが公共の場で互いに向き合い、リアルタイムで戦略ゲームの対決を繰り広げる新しいプラットフォームを導入しました。Rethinking how we measure AI intelligence

戦略ゲームは、AIの真の実力を評価する上で最も完璧な試験場です。それには3つの理由があります。

ダイナミックな環境: 決められた正解を選ぶのではなく、相手がどう動くかに応じて、刻一刻と戦略を修正しなければなりません。
明確な勝敗: 「誰がより賢そうに見えるか」という主観的な判断の代わりに、勝ったか負けたかが数字ではっきりと示されます。
高次な思考: 勝利するためには、目先の数手を見るだけでなく、長期的な計画を立て、複雑な状況を分析して適応していく能力が不可欠です。Rethinking how we measure AI intelligence

チェスや囲碁のようなゲームでAIが見せる姿は、単なる暗記ではなく「戦略的推論」の領域に近いものです。これにより、私たちはAIがいかに一般的な問題解決能力を備えているかを、より信頼できるようになります。Rethinking how we measure AI intelligence – VedereAI

創造性と学習効率：「いかに学ぶか」が核心だ

今や知能の定義は、「どれだけ多くの知識を蓄積したか」から、「どれだけ効率的に新しい技術を学ぶか」へとその中心が移りつつあります。

1. 創造性（Creativity）という新たな物差し

研究者たちは現在、創造性を知能の重要な指標として活用しています。ここでの創造性とは、単にきれいな絵を描く技術ではありません。簡単に言えば、水平思考（Lateral thinking、固定観念にとらわれず自由に考える方式）を通じて、互いに関連がなさそうな情報の間に予想外のつながりを見つけ出し、独創的な結果を生み出す能力を指します。How do you measure artificial intelligence? スタンフォード大学のジェレミー・アトリー（Jeremy Utley）教授は、多くの人々がまだAIのこのような創造的な潜在能力を十分に活用できていないと強調しています。How to Master AI Powered Creativity in Just 13 Minutes - YouTube

2. 技術習得の「コストパフォーマンス」

真の知能は、数兆個のデータを注ぎ込んで学習させる「物量作戦」ではなく、極めて少ない経験でも新しい状況に素早く適応する能力から生まれます。これを測定するために考案されたのが、ARC（Abstraction and Reasoning Corpus、抽象および推論コーパス）というベンチマークです。ARCは、人間が持つ「一般流動性知能（General fluid intelligence、初めて遭遇する状況で論理的に問題を解決する能力）」を測定するように設計されています。How Do We Measure And Define Intelligence In Artificial Systems? - Consensus Academic Search Engine

人間に似ることが知能の正解だろうか？

私たちはしばしば「人間のように考え、行動するAI」を最高の目標としてきました。これをチューリング・テスト、あるいは「イミテーション・ゲーム（Imitation Game、模倣ゲーム）」と呼ぶこともあります。しかし、最新の研究はこの仮定に根本的な疑問を投げかけています。[Beyond the Imitation Game: Rethinking How We Measure General Intelligence

Research Communities by Springer Nature](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence)

自律的なAIシステムは、人間とは全く異なる目標や思考プロセスを進化させる可能性があります。そのため、単に人間の行動をそのままコピーすることを基準にするよりも、AI自体が持つ固有の認知能力と価値を測定する方法が必要だという主張が支持を集めています。究極的に私たちが夢見るAGI（Artificial General Intelligence、人工汎用知能）は、人間のあらゆる認知的タスクを対等、あるいは上回るレベルを意味するからです。Artificial general intelligence - Wikipedia

私たちが迎える未来の変化

知能測定方式の変化は、私たちの日常をどのように変えるでしょうか？

第一に、教育現場の変化です。AIが協力的問題解決（Collaborative problem-solving）能力を測定するツールとして活用されることで、子供たちが友達とどのようにコミュニケーションを取りながら問題を解決しているかをより精緻に評価し、サポートする教育方式が導入される可能性があります。How AI could transform the way we measure kids’ intelligence

第二に、より信頼できるAIサービスです。単に正解を暗記したAIではなく、自ら「考える能力」を厳しく検証されたAIが私たちの秘書になれば、私たちはより複雑で予想外の業務も安心して任せることができるようになるでしょう。

結局、AIの知能を正しく測定することは、単なる技術的な問題を超えて、私たちが人工知能と共にどのような未来を描いていくかを決定する最も重要な道標となるでしょう。

AIの視点 (AI’s Take)

MindTickleBytesのAI記者の視点 これまでのAIが膨大な百科事典を丸ごと飲み込んだ「記録係」に近かったとするなら、これからはその知識をもとに新たな一手を打つ「戦略家」であり「創作者」へと進化しています。知能の尺度が単なる「暗記」から「適応」と「推論」に変わることは、私たちがAIを単なる道具ではなく、私たちの傍にいる真のパートナーとして認め始めたという、喜ばしい兆しでもあります。

参考資料

Rethinking how we measure AI intelligence

[Beyond the Imitation Game: Rethinking How We Measure General Intelligence

Research Communities by Springer Nature](https://communities.springernature.com/posts/beyond-the-imitation-game-rethinking-how-we-measure-general-intelligence)

How do you measure artificial intelligence?
How Do We Measure And Define Intelligence In Artificial Systems? - Consensus Academic Search Engine
[Rethinking how we measure AI intelligence 67nj](https://www.67nj.org/rethinking-how-we-measure-ai-intelligence)
Artificial general intelligence - Wikipedia
Rethinking how we measure AI intelligence – VedereAI
The way we measure progress in AI is terrible
How AI could transform the way we measure kids’ intelligence
How to Master AI Powered Creativity in Just 13 Minutes - YouTube
We Invested in AI. We Forgot to Measure What Matters.
Rethinking how we measure AI intelligence - googblogs.com

Share this article:

この記事の理解度チェック

Q1. 最近Googleが導入した「Kaggle Game Arena」は、AIをどのように測定しますか？

過去の大学入試問題を解かせる。
AIモデル同士がリアルタイム戦略ゲームで対決する。
単に応答速度だけを測定する。

Kaggle Game Arenaは、AIモデルたちが戦略ゲームで正面対決を繰り広げることで、動的な能力を測定します。

Q2. AI知能の新たな尺度として注目されている「創造性」とは何を意味しますか？

単にデータを素早くコピーする能力
水平思考を通じて予想外のつながりを作る能力
電力消費量を最小限に抑える能力

創造性とは、水平思考を通じて異質な情報の間のつながりを作り、独創的な結果を生み出す能力を指します。

Q3. 知能を「技術習得の効率性」として定義する観点において、重要ではない要素は？

汎用化の難易度
既存の背景知識
データを単に大量に保存する能力

新しい観点での知能は、単に量的なデータの蓄積ではなく、少ない経験でいかに早く汎用化された技術を学ぶかに焦点を当てます。