在 AI 开口之前读取其思想:什么是“探测(Probing)”技术?

一幅具有未来感的图形图像,展现了 AI 模型的内部数据通过复杂的电路进行分析的情景
AI Summary

无需等待 AI 输出文本,通过直接确认模型内部数据状态的“探测(Probing)”技术,我们现在能够更快速、更高效地掌握 AI 的思维及其内容的真实性。

想象一下,当我们问朋友“今天天气怎么样?”时,如果能在朋友开口回答之前,直接读出他脑海中浮现的想法,那会怎样?既不需要等待回答,甚至还能立刻察觉他是否打算说谎。

最近,在人工智能(AI)领域,一项与之类似的有趣技术引起了人们的关注。这就是“探测(Probing)”技术,它能够在大型语言模型(LLM,如 ChatGPT 等大规模人工智能模型)生成文本之前,直接窥视其“内在思想(隐藏状态,hidden state)”。

为什么这项技术很重要?

到目前为止,我们确认 AI 想法的唯一方法就是让 AI “说出来”。然而,从 AI 开口到文本输出需要时间。最重要的是,当 AI 经历其自发地编造与事实不符信息的“幻觉(Hallucination,幻觉现象)”时,我们往往是在 AI 完成错误回答之后才察觉到该错误。

探测无需等待 AI 缓慢的生成过程,而是直接分析流经 AI 脑回路的类似于电流信号的“数据状态”。这为提高 AI 的可信度,以及更快速、准确地掌握特定信息在 AI 内部的处理方式开辟了道路。

易于理解:读取 AI 大脑的滤镜

若用简单的话来解释探测,它就像照片处理应用中的“滤镜”。这与保留照片原始数据不变,仅通过套用特定滤镜来强调我们想看的信息(色感、亮度等)原理相似。

AI 模型由无数层(layer)组成。数据在穿过这些层时会逐渐理解复杂的概念,研究人员在 AI 即将给出最终答案之前,也就是在模型中间深度(大约通过了 70% 的位置)的地方“截获”数据状态 [Source 8, Source 9]。然后将这些数据送入名为“探测器(Probe)”的小型分析器(主要是像逻辑回归一样的简单分类器)中 [Source 2]。

通过这种方式,我们可以在文本生成前的阶段,直接读取 AI 对特定问题持有什么样的信念,以及它是判断为真还是假 [Source 1, Source 8]。

这就像我们在听朋友回答之前,仅通过观察他的表情变化就能察觉到“啊,看他犹豫的样子,看来是不太清楚”的原理一样。

现状:进展到什么程度了?

该技术已经在多个领域得到应用。

  1. 幻觉检测:研究结果表明,AI 的隐藏状态数据在预测其回答是否属实方面表现出极高的性能 [Source 19]。也就是说,可以在 AI 说谎之前就捕捉到其迹象。
  2. 掌握知识来源:可以分析 AI 在回答时,究竟是基于其学习过的数据(参数知识)所言,还是参考了给定的上下文(context)[Source 11]。
  3. 与人类的连接:最新研究发现,AI 处理文本的方式与人类阅读句子时的眼球运动相似 [Source 6]。这开辟了一条将 AI 的思维过程与人类认知过程进行对比研究的新道路。

当然,也存在局限性。有观点指出,在 AI 完成句子的过程中,如果它改变了想法或在中间出错,仅靠探测很难完美地解释所有过程 [Source 5]。

未来会怎样?

探测技术正在将 AI 从单纯的“说话机器”转变为“可以窥视内在的分析对象”。打个比方,过去我们只能向名为 AI 的黑匣子提问,但现在可以通过玻璃窗实时观察 AI 的思维流程。

未来,当我们将问题抛给 AI 时,可能会迎来一个时代:在 AI 完成回答之前,系统就能为其打出可信度评分,或者实时监控 AI 是如何构建回答依据的。我们不再仅仅听信 AI 的片面之词,而是通过透明地确认 AI 的思维过程,学会更安全、更明智地利用这项技术。

MindTickleBytes 的 AI 记者视角

探测 AI 内部是对确保 AI 可信度的一种强有力手段。通过将隐藏在技术复杂性背后的“思维流”可视化,我们正一点点将 AI 这个黑匣子变成更加透明的玻璃盒。这种努力终将使技术不再仅仅是辅助人类的工具,而是成为人类能够更深入理解和掌控的伙伴。

参考资料

  1. Still no Lie Detector for LLMs — LessWrong
  2. Still No Lie Detector for Large Language Models - Ben Levinstein
  3. Measuring Beliefs of Language Models During Chain-of-Thought
  4. Probing Large Language Models from a Human Behavioral Perspective - ACL Anthology
  5. Daniel A. Herrmann arXiv:2307.00175v1
  6. Don’t let the LLM speak, just probe it. - James Padolsey
  7. [Don’t let the LLM speak, just probe it Hasty Briefs](https://hb.int2inf.com/en/s/item/UNX3BEHdhhYGUhBZqMkgEH-hidden-state-classification-with-llms)
  8. Probing Language Models on Their Knowledge Source - arXiv.org
  9. Simple Factuality Probes Detect Hallucinations in Long-Form Natural Language Generation
测试你的理解
Q1. 关于 AI 的“探测(Probing)”技术,以下说明正确的是?
  • 检查 AI 生成的文本的语法
  • 在 AI 输出回答之前直接确认内部数据状态
  • 强行提高 AI 的回答速度
探测是一种在 AI 输出文本之前,分析其内部“隐藏状态(hidden state)”以确认模型信念或事实真实性的技术。
Q2. 分析 AI 内部状态时主要使用的方法是?
  • 机器人工程技术
  • 复杂的机器学习结构
  • 线性分类器或浅层 MLP(多层感知机)
探测通常使用逻辑回归等线性分类器或非常浅层的多层感知机(MLP)来读取 AI 的内部表示。
Q3. 探测技术试图解决的主要问题之一是?
  • 改善 AI 的字体
  • 检测 AI 的幻觉(Hallucination)现象
  • 测量互联网速度
通过探测分析 AI 内部状态,可以高效地检测出 AI 编造与事实不符信息的“幻觉”现象。