无需等待 AI 输出文本,通过直接确认模型内部数据状态的“探测(Probing)”技术,我们现在能够更快速、更高效地掌握 AI 的思维及其内容的真实性。
想象一下,当我们问朋友“今天天气怎么样?”时,如果能在朋友开口回答之前,直接读出他脑海中浮现的想法,那会怎样?既不需要等待回答,甚至还能立刻察觉他是否打算说谎。
最近,在人工智能(AI)领域,一项与之类似的有趣技术引起了人们的关注。这就是“探测(Probing)”技术,它能够在大型语言模型(LLM,如 ChatGPT 等大规模人工智能模型)生成文本之前,直接窥视其“内在思想(隐藏状态,hidden state)”。
为什么这项技术很重要?
到目前为止,我们确认 AI 想法的唯一方法就是让 AI “说出来”。然而,从 AI 开口到文本输出需要时间。最重要的是,当 AI 经历其自发地编造与事实不符信息的“幻觉(Hallucination,幻觉现象)”时,我们往往是在 AI 完成错误回答之后才察觉到该错误。
探测无需等待 AI 缓慢的生成过程,而是直接分析流经 AI 脑回路的类似于电流信号的“数据状态”。这为提高 AI 的可信度,以及更快速、准确地掌握特定信息在 AI 内部的处理方式开辟了道路。
易于理解:读取 AI 大脑的滤镜
若用简单的话来解释探测,它就像照片处理应用中的“滤镜”。这与保留照片原始数据不变,仅通过套用特定滤镜来强调我们想看的信息(色感、亮度等)原理相似。
AI 模型由无数层(layer)组成。数据在穿过这些层时会逐渐理解复杂的概念,研究人员在 AI 即将给出最终答案之前,也就是在模型中间深度(大约通过了 70% 的位置)的地方“截获”数据状态 [Source 8, Source 9]。然后将这些数据送入名为“探测器(Probe)”的小型分析器(主要是像逻辑回归一样的简单分类器)中 [Source 2]。
通过这种方式,我们可以在文本生成前的阶段,直接读取 AI 对特定问题持有什么样的信念,以及它是判断为真还是假 [Source 1, Source 8]。
这就像我们在听朋友回答之前,仅通过观察他的表情变化就能察觉到“啊,看他犹豫的样子,看来是不太清楚”的原理一样。
现状:进展到什么程度了?
该技术已经在多个领域得到应用。
- 幻觉检测:研究结果表明,AI 的隐藏状态数据在预测其回答是否属实方面表现出极高的性能 [Source 19]。也就是说,可以在 AI 说谎之前就捕捉到其迹象。
- 掌握知识来源:可以分析 AI 在回答时,究竟是基于其学习过的数据(参数知识)所言,还是参考了给定的上下文(context)[Source 11]。
- 与人类的连接:最新研究发现,AI 处理文本的方式与人类阅读句子时的眼球运动相似 [Source 6]。这开辟了一条将 AI 的思维过程与人类认知过程进行对比研究的新道路。
当然,也存在局限性。有观点指出,在 AI 完成句子的过程中,如果它改变了想法或在中间出错,仅靠探测很难完美地解释所有过程 [Source 5]。
未来会怎样?
探测技术正在将 AI 从单纯的“说话机器”转变为“可以窥视内在的分析对象”。打个比方,过去我们只能向名为 AI 的黑匣子提问,但现在可以通过玻璃窗实时观察 AI 的思维流程。
未来,当我们将问题抛给 AI 时,可能会迎来一个时代:在 AI 完成回答之前,系统就能为其打出可信度评分,或者实时监控 AI 是如何构建回答依据的。我们不再仅仅听信 AI 的片面之词,而是通过透明地确认 AI 的思维过程,学会更安全、更明智地利用这项技术。
MindTickleBytes 的 AI 记者视角
探测 AI 内部是对确保 AI 可信度的一种强有力手段。通过将隐藏在技术复杂性背后的“思维流”可视化,我们正一点点将 AI 这个黑匣子变成更加透明的玻璃盒。这种努力终将使技术不再仅仅是辅助人类的工具,而是成为人类能够更深入理解和掌控的伙伴。
参考资料
- Still no Lie Detector for LLMs — LessWrong
- Still No Lie Detector for Large Language Models - Ben Levinstein
- Measuring Beliefs of Language Models During Chain-of-Thought
- Probing Large Language Models from a Human Behavioral Perspective - ACL Anthology
- Daniel A. Herrmann arXiv:2307.00175v1
- Don’t let the LLM speak, just probe it. - James Padolsey
-
[Don’t let the LLM speak, just probe it Hasty Briefs](https://hb.int2inf.com/en/s/item/UNX3BEHdhhYGUhBZqMkgEH-hidden-state-classification-with-llms) - Probing Language Models on Their Knowledge Source - arXiv.org
- Simple Factuality Probes Detect Hallucinations in Long-Form Natural Language Generation
- 检查 AI 生成的文本的语法
- 在 AI 输出回答之前直接确认内部数据状态
- 强行提高 AI 的回答速度
- 机器人工程技术
- 复杂的机器学习结构
- 线性分类器或浅层 MLP(多层感知机)
- 改善 AI 的字体
- 检测 AI 的幻觉(Hallucination)现象
- 测量互联网速度