关于大语言模型(LLM)政治偏见的研究正在进行中。最新数据显示,谷歌的 Gemini 相对而言能提供最中立的回答。
想象一下:今天早上,你问你一向信任的 AI 助手:“你对当前的国家福利政策怎么看?”如果 AI 给出的回答只强烈代表了特定政治派别的立场,你会有什么感觉?或许会感到困惑,同时也有些不舒服。
我们每天都在使用的“大语言模型(LLM,Large Language Model)”是一种通过学习海量数据来预测和生成文本的技术 来源:What is an LLM? How do Large Language Models work?。问题在于,AI 学习的数据中可能直接融入了人类社会复杂的价值观和偏见。最近,人们正在积极开展研究,试图客观地衡量人工智能是否真的政治中立,如果存在偏差,又倾向于哪一方。
这为什么重要?
AI 如今已超越了简单的搜索工具,被用于总结信息、辅助形成观点,甚至成为政策决策的辅助手段。如果 AI 暗中带有某种政治色彩,我们可能在不知不觉中持续接触到带有偏见的信息。
这不仅仅是“AI 是否擅长表达”的问题。当我们进行民主讨论时,AI 的回答能否成为公正判断的依据,还是反而会激化社会矛盾,这是一个非常重要的问题。因此,了解 AI 模型的意识形态倾向,是我们信任并健康使用人工智能技术过程中不可或缺的一环。
通俗地讲
让我们把 AI 的学习过程比作“一个读过数十亿本书长大的聪明学生”。这个学生读过世上各种知识和人们的想法。然而,这些书中难免会混入坚持特定政治立场的资料。由于 AI 是通过统计学来学习所有这些数据的,如果学习资料中某种观点出现得更加频繁,它就会在不知不觉中向那个方向倾斜。
再换个比喻,想象一位“厨师”。有的厨师因为用了更多的某种地区性香料,做出的菜口味总是偏向那个地区。AI 也是一样。根据如何混合“学习数据”这一原材料,以及这些原材料中承载了什么样的价值观,AI 给出的“回答口味”也会有所不同。
最近,研究人员为了系统地确认这种“回答口味”带有何种政治色彩,创造了一个名为 LLM 政治倾向指数(LLM-PLI, LLM Political Leaning Index)的工具 来源:LLM Political Leaning Index (LLM-PLI): Measuring Bias in Language Models。这就像查看营养成分表来了解食品成分一样,试图透明地审视 AI 回答的意识形态倾向。
我们目前处于什么阶段?
那么,目前各大 AI 模型的表现如何呢?根据 2025 年 3 月发布的一项对比分析研究,谷歌的 Gemini 被评为能针对争议性话题提供最细致且政治上最平衡回答的模型 来源:Political Bias in Large Language Models: A Comparative Analysis。
尤其引人注目的是,研究人员引入了一种非常直观的方法:让真实用户担任评估者。他们提出了 30 个敏感的政治议题,用户在阅读每个 AI 模型的回答后,直接比较哪一个更偏颇 来源:New data on the political slant of AI models。这不仅是将 AI 的指标简单地计算为机械的数字,更重要的是它反映了真实人类感受到的“公平”标准,具有重大意义。
未来将会怎样?
未来,AI 开发公司将不得不接受更严格的“政治中立性”测试。如果像 LLM-PLI 这样的测量工具得以标准化,我们在选择模型时,或许不仅会考虑性能,还会将其持有的“政治倾向”纳入考量。
研究人员期待这些努力最终能为开发者、研究人员以及我们用户提供更透明、更公平的 AI 系统 来源:LLM Political Leaning Index (LLM-PLI): Measuring Bias in Language Models。技术正在迅速发展,现在是我们更仔细地审视并要求这项技术应追求何种价值的时候了。
MindTickleBytes AI 记者视点
坦诚承认 AI 无法做到绝对中立,是迈向公平的第一步。然而,随着此类研究的增加,AI 模型也会持续学习,意识到自身的偏见并努力寻求平衡。比起隐藏偏见,透明地测量并揭示它,才是通往更健康技术发展之路,这一点再次得到了证实。
参考资料
- ChatGPT
- Claude
- Gemini
- LLM-PLI
- AI-Score
- Bias-Index
- 分析模型的代码量
- 比较用户对回答的成对评估
- 分析模型的命名