马德里理工大学揭示了语言模型词汇被“暗中删除”的真相

发布时间：2026-06-03 02:35 浏览量：1

这项由马德里理工大学信息与处理电信中心、米兰理工大学以及西班牙央行联合开展的研究，以预印本形式于2026年5月26日发布在arXiv平台，论文编号为arXiv:2605.27268。感兴趣的读者可通过该编号检索完整原文。

**一个你可能从未察觉的问题**

你有没有注意到，当你让AI帮你写文章、写邮件或者创作故事时，它们的用词总是那么……"规矩"？华丽的词藻几乎看不到，转而充斥着"此外"、"然而"、"总体而言"这类中规中矩的表达。读多了甚至会有一种奇怪的感觉：不同的AI写出来的东西，好像都出自同一个人之手。

这不是你的错觉。科学界已经有研究证实，现代大型语言模型（也就是我们常说的AI语言模型，如ChatGPT背后的那类系统）生成的文本，彼此之间的相似度远远高于人类写作者之间的相似度。更有意思的是，语言学家发现，人类语言中词汇的使用频率遵循一个叫做"齐普夫定律"的自然规律——简单说就是常用词极常用，罕见词极罕见，但中间有大量丰富多彩的"中频词"构成了语言表达的主要色彩。而AI生成的文本，则呈现出一种更为陡峭的分布：高频词被反复使用，那些原本应该出现的"中间地带"词汇几乎销声匿迹。

这究竟是怎么回事？AI是天生就不会用那些词，还是说有什么机制在背后悄悄"删除"了它们？马德里理工大学领导的这支研究团队决定深挖这个问题，而他们的发现，出乎所有人的意料。

**一、词库里的"隐形图书馆"**

要理解这项研究，首先要明白AI语言模型在生成文字时是如何运作的。

每当AI需要写下一个词，它实际上是在对自己词库里的所有词汇进行一次"全员投票"——计算每一个词在当前语境下出现的可能性有多大。这个词库非常庞大，通常包含数万个词汇条目。大多数词只有极低的可能性，少数词有较高的可能性，最终AI从中挑选出一个词来写下。

问题来了：数万个候选词，每次都要从中挑选，这个过程既耗时又危险。如果完全随机挑选，AI偶尔会写出完全不合逻辑的词，就像你在写"今天天气很"之后，随机蹦出一个"鳄鱼"一样荒谬。为了让AI保持逻辑连贯，工程师们设计了一套"过滤机制"——在最终挑选之前，先把那些可能性极低的词通通剔除掉，只保留最有可能、最合理的那一部分候选词。

这套过滤机制有几种常见的形式，研究团队重点考察了三种。第一种叫做"Top-k采样"，顾名思义就是每次只保留可能性最高的k个词，比如保留最高的10个候选词，其余数万个全部淘汰。第二种叫做"Top-p采样"（也叫核采样），它不是固定保留k个词，而是保留那些累积概率达到p的词，比如p=0.9意味着保留概率加起来刚好超过90%所需要的那批词。第三种叫做"Min-p采样"，它设定一个最低门槛，概率低于该门槛的词全部出局。

这些过滤机制本来是好意——确保AI不会说胡话。但研究团队怀疑，这种"好意"可能走过头了，把很多本来合理、甚至精彩的词也一并误伤了。

用一个比喻来理解：这就像一个图书馆，里面藏有几十万本书，但管理员为了效率，规定读者每次只能从"最受欢迎的20本"里借书。那些评分很高但借阅量不那么高的经典名著，哪怕完全适合你的需求，也永远不会出现在你面前。AI的词汇过滤机制，做的就是这件事。

**二、"词汇覆盖率分数"——给AI做一次词汇体检**

为了量化这个问题，研究团队设计了一个他们称之为"词汇覆盖率分数"（Word Coverage Score，简称WCS）的评估工具。这个工具的核心逻辑很直接：选取一批人类实际使用的词汇，看看AI在生成文字时，这些词汇有没有机会出现——不是问AI"你知道这个词吗"，而是问"你在实际写作时，这个词还在不在候选范围内"。

研究团队首先精心挑选了一批"目标词汇"。他们使用了谷歌万亿词语料库作为参照，从中选取了使用频率排名在第10000到40000位之间的词汇，共100个。选这个区间是有讲究的：排名在10000以内的词太常见，就是"的、了、是、有"这类基础词，AI肯定不会漏掉；排名超过40000的词太生僻，可能连AI的训练数据里都很少出现，研究这些词没有说服力。10000到40000这个区间，恰好对应了那些"够丰富、不生僻"的中等频率词汇——比如"暴行"、"疑虑"、"沉淀"、"专制"这类词，人类作者会自然使用，但AI是否会选择就很值得怀疑了。

挑选完词汇后，研究团队还需要给每个词找到它的"出场场合"——也就是给它配上真实的语境。他们使用了PG-19数据集，这是一批1919年以前出版的人类书籍，语言风格多样、词汇丰富，而且没有现代AI生成文本的污染。对于每个目标词汇，研究团队在这些书籍中找到该词实际出现的段落，提取该词前面的256个词作为上下文，共给每个词配了10个不同的语境，最终形成1000个"测试场景"。

接下来就是最关键的"强制路径审查"。研究团队把每一个测试场景的上下文输入给AI，然后检查：在这个上下文之后，当AI计算概率分布时，那个原本在人类文章里出现的目标词，有没有被过滤机制"拦截"在外？如果被拦截了，说明该词"不可达"，即AI在那个时刻根本没有机会写出那个词。如果顺利通过所有过滤，则说明该词"可达"。

将1000个测试场景的可达率汇总，就得到了WCS分数。分数越高，说明AI的词汇过滤机制对人类词汇的损失越少；分数越低，说明过滤机制删掉了大量原本合理的词汇选择。

一个词的WCS需要满足一个严格的条件：如果这个词由多个子词符号（token）组成——比如"precipitated"可能被切分为"prec"、"ipit"、"ated"三个部分——那么这三个部分必须全部通过过滤，一个都不能被拦截，否则这个词整体就算"不可达"。这个设计让评估更接近真实情况，因为AI实际上就是一个子词一个子词地生成文本的。

**三、被"删除"的词汇——实验结果令人惊讶**

研究团队对多个主流AI模型进行了测试，包括Llama-3.1-8B、Mistral-7B、Qwen系列、Gemma系列以及DeepSeek-R1等，每个家族都同时测试了基础版（未经特别训练调整的原始版本）和对齐版（经过人类反馈训练调整、面向用户对话的版本）。

结果相当触目惊心。以最常用的Top-p核采样为例，当参数设置为p=0.95（这已经是比较宽松的设置，意味着保留累积概率达95%的词汇）、温度为0.7时，绝大多数模型仍然有相当比例的词汇在所有10个测试语境中都无法被选中——也就是说，这些词被"彻底抹除"了。就算把p提高到0.99，依然有许多词逃不过被过滤的命运。

更令人担忧的是，当研究团队按照各厂商在产品手册中推荐的默认参数来测试时，词汇损失情况更加严重。以实际使用中记录的默认设置为例：Qwen2.5-14B-Instruct的默认设置是Top-p=0.8、Top-k=20、温度=0.7，在这个设置下，整整43%的目标词汇在所有测试语境中一次都无法被选中；Qwen3.5-9B的默认设置相同，约48%的词汇彻底消失。Llama-3.1-8B-Instruct稍好一些，设置为Top-p=0.9、温度=0.7，有31%的词汇完全不可达。而表现最糟糕的是Gemma-4-E4B-it（谷歌Gemma第四代经过对齐调整的版本），其默认设置为Top-p=0.95、Top-k=64、温度=1.0，结果高达57%的目标词汇彻底消失，综合WCS分数只有区区0.059，意味着在全部1000个测试场景中，只有不到6%的场景能够选中目标词汇。

这些数字意味着什么？换个说法你或许更直观：你托AI帮你写一篇文章，假设有50个精准、有表现力的词汇本来应该在恰当的地方出现，但在默认设置下，AI压根没机会考虑其中的20到30个，因为它们早在"投票"还没开始前就被过滤掉了。

**四、对齐训练让AI的词汇"收缩"了**

研究团队还发现了一个颇为耐人寻味的规律：经过人类反馈对齐训练后的版本，词汇可达率普遍低于同家族的基础版本。

所谓"对齐训练"，是指让AI学习人类评价者的喜好，从而生成更符合人类期待的回答。这种训练让AI更安全、更礼貌、更有帮助——但研究结果表明，它同时也让AI的词汇选择更加保守和单一。在大多数模型家族中，对齐版本（虚线）的词汇消失比例都高于基础版本（实线）。汇总来看，基础版模型平均有74%的目标词汇至少在一个语境中可达，对齐版本则降到了72.8%；WCS分数从0.290降到了0.277。

不过这个规律也有例外：Gemma-3-12B经过对齐后，词汇可达率反而有所提升。这说明对齐训练的影响并非一成不变，具体效果取决于训练方式。而Gemma-4家族则呈现了戏剧性的反差——基础版Gemma-4-E4B表现正常，经过对齐调整的Gemma-4-E4B-it则在所有测试设置下都表现出大幅的词汇缩减，几乎成了测试中表现最差的模型。由于两个版本使用完全相同的分词器，这种差异只能归因于训练过程本身，这是对齐训练影响词汇多样性的直接证据。

DeepSeek-R1-Distill-Qwen-14B也值得单独一提。这个模型是通过"蒸馏"技术，让一个小模型去模仿一个大模型（DeepSeek-R1）的推理能力，以基础版Qwen2.5-14B为起点训练而成。结果显示，蒸馏版本相比原始基础版，词汇可达率出现了明显下降。研究团队将此命名为"蒸馏亏损"——为了获得更强的推理能力，模型在词汇表达的多样性上付出了代价。

**五、换一种过滤方式，能救回更多词汇吗？**

除了最常用的Top-p，研究团队也测试了Top-k和Min-p两种过滤方式在相同条件下的表现。

Top-k采样的测试结果显示，随着k值增大（也就是保留更多候选词），词汇可达率确实有所提升，大部分模型在k值达到15到20时，词汇消失的比例明显下降。但即便如此，仍有一些模型——尤其是Gemma-4-E4B-it——即使保留20个候选词，依然有相当多的目标词汇无法进入候选范围。

Min-p采样作为一种较新的方法，理论上设计更灵活：它根据当前最高概率词汇来动态调整门槛，而不是固定截取排名或累积概率。测试结果显示，当Min-p值较低（也就是门槛更宽松）时，词汇可达率确实高于Top-p和Top-k，但同样随着门槛升高而快速下降。在某些模型上，Min-p的表现比Top-p更好，但Gemma-4-E4B-it的问题依然突出。

更值得关注的是，即使把温度调到1.5（这是一个很高的温度设置，会让AI的概率分布更加"扁平"，理论上应该能给罕见词更多机会），仍然有相当多的测试场景无法选中目标词汇。温度提升对改善词汇多样性有一定帮助，但效果有限，而且高温度往往会让AI说出逻辑混乱的内容——这正好印证了研究团队所说的"零和困境"：要词汇多样性，就得牺牲连贯性；要连贯性，就得忍受词汇单一。

**六、词汇频率不等于词汇可达性**

研究团队还深入分析了每个目标词汇的具体可达情况，发现了一个很有趣的现象：词汇在语料库里越常用，并不意味着AI越容易选择它。

汇总所有模型、所有测试场景、所有温度和过滤设置后，研究团队计算了每个目标词汇的平均可达率。结果显示，词汇频率和可达率之间只有微弱的正相关（相关系数r=0.29），也就是说，仅凭词汇在语料库中有多常见，只能解释极少部分的可达率差异。

以具体数字为例：频率排名较高（也就是相对较常用）的"supposedly"（大约意为"据说"）平均可达率只有0.076，几乎完全无法被选中；而频率排名相近或更低的"profitable"（有利可图）可达率高达0.537，约一半的测试场景都能顺利选中。"sylvan"（林间的）、"saddened"（感到悲伤的）、"precipitated"（沉淀的；使突然发生的）这些词的可达率都在0.08到0.09左右，处于最难被选中的一档；而"disadvantage"（不利条件）、"bedside"（床边）、"strangers"（陌生人）的可达率则都超过了0.47。

这说明什么？真正决定一个词能否被AI选中的，不仅仅是这个词在训练数据中有多常见，还与AI的分词方式（同一个词在不同AI系统里可能被切分成不同数量的子词）、特定语境下的概率分布结构，以及模型自身的架构特性都有关系。这使得词汇可达性成为一个比词汇频率更复杂、也更难预测的属性。

**七、这意味着什么——语言在悄悄被"收窄"**

研究团队在论文中提出了一个令人深思的长期隐患。

当AI生成的文本大量涌入网络——新闻、博客、社交媒体、教育材料、企业文档——这些文字将成为下一代AI模型的训练素材。而这些文字已经被过滤机制系统性地"抹掉"了大量中频词汇，只剩下高频的、安全的、中规中矩的表达。下一代AI学习了这些数据，会生成更加单一的文字，再被用于训练下下代AI……这个循环如果不加干预，最终可能导致人类书面语言中那些精妙的、罕见的、富有表现力的词汇，在数字空间中逐渐消亡。

研究团队把这个过程比作博尔赫斯小说《小径分叉的花园》中的意象——语言本来应该是无数条可能路径同时并存的迷宫，每一个词都是一个分叉口，每次写作都是一次在平行可能性中的游历。但现在的过滤机制强行把这个无限花园砍成了一条笔直的单行道，几乎所有的分叉都被堵死了，只剩下一条被高概率词汇铺就的"安全走廊"。

在研究团队看来，解决这个问题需要从两个方向努力。一方面，可以探索"语义引导解码器"——让AI在过滤词汇时，能够区分"这个词概率低是因为它在这里真的不合适"和"这个词概率低是因为它表达精准、本就不常见"这两种情况，后者应该被保留下来。另一方面，可以从训练目标入手，在AI的学习过程中明确加入对词汇多样性的奖励，让AI不只是追求让人满意的"普通话答案"，而是真正珍视语言的丰富性。

**八、这个研究工具本身的局限**

当然，研究团队也坦诚地指出了WCS这个工具的局限性，这些局限决定了他们的结论是一个"保守的下限估计"。

WCS采用的是非此即彼的二元判断：一个词要么在候选范围内（可达），要么不在（不可达）。但实际上，词汇被压制可能是一个渐进的过程——某个词可能还在候选范围内，但它的概率被严重压低，以至于实际上几乎不可能被选中。WCS无法捕捉这种"软性消失"，所以真实的词汇损失很可能比WCS测量出来的更严重。

此外，这项研究只覆盖了英文，且上下文窗口固定为256个词，无法评估更长距离的语境依赖对词汇选择的影响。研究对象也仅限于参数少于200亿的开源模型，那些更大的闭源模型（比如GPT-4o、Claude Opus等）因为无法访问完整的概率分布，根本无法进行此类测试。不同模型使用不同的分词方式，同一个词在不同模型里被切分成的子词数量不同，这也使得跨模型比较时存在一定的不公平性——一个词被切分成越多子词，它就需要通过越多道过滤关卡，自然更难被全部顺利通过。

说到底，AI的词汇越来越像"套话"，背后并不只是因为AI"不够聪明"或者"没学到"那些词——事实上，那些精妙的词汇就隐藏在AI的内部，只是被工程师们精心设计的安全过滤机制挡在了门外。就像一位博学的厨师，明明精通数百种香料，却因为餐厅的"标准化菜单"规定，每次只能从十种最畅销的配料里选——结果做出来的菜，当然千篇一律。

如何在保持食物安全（逻辑连贯）的同时，让厨师有机会大胆使用那些小众但美妙的香料（罕见但精准的词汇）？这是AI语言研究接下来需要认真回答的问题，而这支研究团队用WCS这把尺子，至少让我们第一次清楚地看到了问题有多严重。有兴趣深入了解的读者，可以通过arXiv:2605.27268查阅完整论文，研究代码与数据也已在论文提及的开源平台公开。

Q&A

Q1：词汇覆盖率分数（WCS）是怎么测出来的？

A：研究团队先从人类语料库里挑出一批中等频率词汇，再找到这些词在真实书籍段落中出现的具体位置，然后把每段文字的前面部分输入给AI，检查AI在计算下一个词的概率时，有没有把那个目标词"过滤掉"。如果这个词在10个不同语境中一次都没能进入候选范围，就算彻底被删除。汇总所有词汇的可达情况，就得到最终的WCS分数。

Q2：Top-p采样为什么会删掉本来合理的词汇？

A：Top-p采样的逻辑是只保留概率加起来刚好达到设定阈值（比如90%）所需的那批词，剩下的全部淘汰。问题是那些精准但使用频率不高的词，本来概率就低，很容易在累积到设定阈值之前就被排在门槛之外。即使设置了p=0.95，仍有大量中频词汇来不及被纳入就遭到淘汰。

Q3：经过对话优化训练后的AI，词汇真的会变少吗？

A：根据这项研究的实验数据，大多数模型家族在经历对话对齐训练后，词汇可达率确实有所下降。比较典型的是Gemma-4经过对齐后，词汇完全不可达的比例从22%跳升到57%，WCS分数也从0.173骤降至0.059。研究团队认为这是因为对齐训练倾向于奖励"安全、常见、让人满意"的回答，导致模型越来越偏向高频词汇，主动回避那些精准但不那么常用的表达。

标签：理工大学模型词汇马德里马德里理工大学

马德里理工大学揭示了语言模型词汇被“暗中删除”的真相

相似文章

资讯分类

热门资讯

热门标签

热门产品