在 AI 开口之前读取其思想：什么是“探测（Probing）”技术？

AI Summary

无需等待 AI 输出文本，通过直接确认模型内部数据状态的“探测（Probing）”技术，我们现在能够更快速、更高效地掌握 AI 的思维及其内容的真实性。

想象一下，当我们问朋友“今天天气怎么样？”时，如果能在朋友开口回答之前，直接读出他脑海中浮现的想法，那会怎样？既不需要等待回答，甚至还能立刻察觉他是否打算说谎。

最近，在人工智能（AI）领域，一项与之类似的有趣技术引起了人们的关注。这就是“探测（Probing）”技术，它能够在大型语言模型（LLM，如 ChatGPT 等大规模人工智能模型）生成文本之前，直接窥视其“内在思想（隐藏状态，hidden state）”。

为什么这项技术很重要？

到目前为止，我们确认 AI 想法的唯一方法就是让 AI “说出来”。然而，从 AI 开口到文本输出需要时间。最重要的是，当 AI 经历其自发地编造与事实不符信息的“幻觉（Hallucination，幻觉现象）”时，我们往往是在 AI 完成错误回答之后才察觉到该错误。

探测无需等待 AI 缓慢的生成过程，而是直接分析流经 AI 脑回路的类似于电流信号的“数据状态”。这为提高 AI 的可信度，以及更快速、准确地掌握特定信息在 AI 内部的处理方式开辟了道路。

易于理解：读取 AI 大脑的滤镜

若用简单的话来解释探测，它就像照片处理应用中的“滤镜”。这与保留照片原始数据不变，仅通过套用特定滤镜来强调我们想看的信息（色感、亮度等）原理相似。

AI 模型由无数层（layer）组成。数据在穿过这些层时会逐渐理解复杂的概念，研究人员在 AI 即将给出最终答案之前，也就是在模型中间深度（大约通过了 70% 的位置）的地方“截获”数据状态 [Source 8, Source 9]。然后将这些数据送入名为“探测器（Probe）”的小型分析器（主要是像逻辑回归一样的简单分类器）中 [Source 2]。

通过这种方式，我们可以在文本生成前的阶段，直接读取 AI 对特定问题持有什么样的信念，以及它是判断为真还是假 [Source 1, Source 8]。

这就像我们在听朋友回答之前，仅通过观察他的表情变化就能察觉到“啊，看他犹豫的样子，看来是不太清楚”的原理一样。

现状：进展到什么程度了？

该技术已经在多个领域得到应用。

幻觉检测：研究结果表明，AI 的隐藏状态数据在预测其回答是否属实方面表现出极高的性能 [Source 19]。也就是说，可以在 AI 说谎之前就捕捉到其迹象。
掌握知识来源：可以分析 AI 在回答时，究竟是基于其学习过的数据（参数知识）所言，还是参考了给定的上下文（context）[Source 11]。
与人类的连接：最新研究发现，AI 处理文本的方式与人类阅读句子时的眼球运动相似 [Source 6]。这开辟了一条将 AI 的思维过程与人类认知过程进行对比研究的新道路。

当然，也存在局限性。有观点指出，在 AI 完成句子的过程中，如果它改变了想法或在中间出错，仅靠探测很难完美地解释所有过程 [Source 5]。

未来会怎样？

探测技术正在将 AI 从单纯的“说话机器”转变为“可以窥视内在的分析对象”。打个比方，过去我们只能向名为 AI 的黑匣子提问，但现在可以通过玻璃窗实时观察 AI 的思维流程。

未来，当我们将问题抛给 AI 时，可能会迎来一个时代：在 AI 完成回答之前，系统就能为其打出可信度评分，或者实时监控 AI 是如何构建回答依据的。我们不再仅仅听信 AI 的片面之词，而是通过透明地确认 AI 的思维过程，学会更安全、更明智地利用这项技术。

MindTickleBytes 的 AI 记者视角

探测 AI 内部是对确保 AI 可信度的一种强有力手段。通过将隐藏在技术复杂性背后的“思维流”可视化，我们正一点点将 AI 这个黑匣子变成更加透明的玻璃盒。这种努力终将使技术不再仅仅是辅助人类的工具，而是成为人类能够更深入理解和掌控的伙伴。

参考资料

Still no Lie Detector for LLMs — LessWrong
Still No Lie Detector for Large Language Models - Ben Levinstein
Measuring Beliefs of Language Models During Chain-of-Thought
Probing Large Language Models from a Human Behavioral Perspective - ACL Anthology
Daniel A. Herrmann arXiv:2307.00175v1
Don’t let the LLM speak, just probe it. - James Padolsey

[Don’t let the LLM speak, just probe it

Hasty Briefs](https://hb.int2inf.com/en/s/item/UNX3BEHdhhYGUhBZqMkgEH-hidden-state-classification-with-llms)

Probing Language Models on Their Knowledge Source - arXiv.org
Simple Factuality Probes Detect Hallucinations in Long-Form Natural Language Generation

Share this article:

测试你的理解

Q1. 关于 AI 的“探测（Probing）”技术，以下说明正确的是？

检查 AI 生成的文本的语法
在 AI 输出回答之前直接确认内部数据状态
强行提高 AI 的回答速度

探测是一种在 AI 输出文本之前，分析其内部“隐藏状态（hidden state）”以确认模型信念或事实真实性的技术。

Q2. 分析 AI 内部状态时主要使用的方法是？

机器人工程技术
复杂的机器学习结构
线性分类器或浅层 MLP（多层感知机）

探测通常使用逻辑回归等线性分类器或非常浅层的多层感知机（MLP）来读取 AI 的内部表示。

Q3. 探测技术试图解决的主要问题之一是？

改善 AI 的字体
检测 AI 的幻觉（Hallucination）现象
测量互联网速度

通过探测分析 AI 内部状态，可以高效地检测出 AI 编造与事实不符信息的“幻觉”现象。