马德里理工大学揭示了语言模型词汇被“暗中删除”的真相
发布时间:2026-06-03 02:35 浏览量:1
这项由马德里理工大学信息与处理电信中心、米兰理工大学以及西班牙央行联合开展的研究,以预印本形式于2026年5月26日发布在arXiv平台,论文编号为arXiv:2605.27268。感兴趣的读者可通过该编号检索完整原文。
**一个你可能从未察觉的问题**
你有没有注意到,当你让AI帮你写文章、写邮件或者创作故事时,它们的用词总是那么……"规矩"?华丽的词藻几乎看不到,转而充斥着"此外"、"然而"、"总体而言"这类中规中矩的表达。读多了甚至会有一种奇怪的感觉:不同的AI写出来的东西,好像都出自同一个人之手。
这不是你的错觉。科学界已经有研究证实,现代大型语言模型(也就是我们常说的AI语言模型,如ChatGPT背后的那类系统)生成的文本,彼此之间的相似度远远高于人类写作者之间的相似度。更有意思的是,语言学家发现,人类语言中词汇的使用频率遵循一个叫做"齐普夫定律"的自然规律——简单说就是常用词极常用,罕见词极罕见,但中间有大量丰富多彩的"中频词"构成了语言表达的主要色彩。而AI生成的文本,则呈现出一种更为陡峭的分布:高频词被反复使用,那些原本应该出现的"中间地带"词汇几乎销声匿迹。
这究竟是怎么回事?AI是天生就不会用那些词,还是说有什么机制在背后悄悄"删除"了它们?马德里理工大学领导的这支研究团队决定深挖这个问题,而他们的发现,出乎所有人的意料。
**一、词库里的"隐形图书馆"**
要理解这项研究,首先要明白AI语言模型在生成文字时是如何运作的。
每当AI需要写下一个词,它实际上是在对自己词库里的所有词汇进行一次"全员投票"——计算每一个词在当前语境下出现的可能性有多大。这个词库非常庞大,通常包含数万个词汇条目。大多数词只有极低的可能性,少数词有较高的可能性,最终AI从中挑选出一个词来写下。
问题来了:数万个候选词,每次都要从中挑选,这个过程既耗时又危险。如果完全随机挑选,AI偶尔会写出完全不合逻辑的词,就像你在写"今天天气很"之后,随机蹦出一个"鳄鱼"一样荒谬。为了让AI保持逻辑连贯,工程师们设计了一套"过滤机制"——在最终挑选之前,先把那些可能性极低的词通通剔除掉,只保留最有可能、最合理的那一部分候选词。
这套过滤机制有几种常见的形式,研究团队重点考察了三种。第一种叫做"Top-k采样",顾名思义就是每次只保留可能性最高的k个词,比如保留最高的10个候选词,其余数万个全部淘汰。第二种叫做"Top-p采样"(也叫核采样),它不是固定保留k个词,而是保留那些累积概率达到p的词,比如p=0.9意味着保留概率加起来刚好超过90%所需要的那批词。第三种叫做"Min-p采样",它设定一个最低门槛,概率低于该门槛的词全部出局。
这些过滤机制本来是好意——确保AI不会说胡话。但研究团队怀疑,这种"好意"可能走过头了,把很多本来合理、甚至精彩的词也一并误伤了。
用一个比喻来理解:这就像一个图书馆,里面藏有几十万本书,但管理员为了效率,规定读者每次只能从"最受欢迎的20本"里借书。那些评分很高但借阅量不那么高的经典名著,哪怕完全适合你的需求,也永远不会出现在你面前。AI的词汇过滤机制,做的就是这件事。
**二、"词汇覆盖率分数"——给AI做一次词汇体检**
为了量化这个问题,研究团队设计了一个他们称之为"词汇覆盖率分数"(Word Coverage Score,简称WCS)的评估工具。这个工具的核心逻辑很直接:选取一批人类实际使用的词汇,看看AI在生成文字时,这些词汇有没有机会出现——不是问AI"你知道这个词吗",而是问"你在实际写作时,这个词还在不在候选范围内"。
研究团队首先精心挑选了一批"目标词汇"。他们使用了谷歌万亿词语料库作为参照,从中选取了使用频率排名在第10000到40000位之间的词汇,共100个。选这个区间是有讲究的:排名在10000以内的词太常见,就是"的、了、是、有"这类基础词,AI肯定不会漏掉;排名超过40000的词太生僻,可能连AI的训练数据里都很少出现,研究这些词没有说服力。10000到40000这个区间,恰好对应了那些"够丰富、不生僻"的中等频率词汇——比如"暴行"、"疑虑"、"沉淀"、"专制"这类词,人类作者会自然使用,但AI是否会选择就很值得怀疑了。
挑选完词汇后,研究团队还需要给每个词找到它的"出场场合"——也就是给它配上真实的语境。他们使用了PG-19数据集,这是一批1919年以前出版的人类书籍,语言风格多样、词汇丰富,而且没有现代AI生成文本的污染。对于每个目标词汇,研究团队在这些书籍中找到该词实际出现的段落,提取该词前面的256个词作为上下文,共给每个词配了10个不同的语境,最终形成1000个"测试场景"。
接下来就是最关键的"强制路径审查"。研究团队把每一个测试场景的上下文输入给AI,然后检查:在这个上下文之后,当AI计算概率分布时,那个原本在人类文章里出现的目标词,有没有被过滤机制"拦截"在外?如果被拦截了,说明该词"不可达",即AI在那个时刻根本没有机会写出那个词。如果顺利通过所有过滤,则说明该词"可达"。
将1000个测试场景的可达率汇总,就得到了WCS分数。分数越高,说明AI的词汇过滤机制对人类词汇的损失越少;分数越低,说明过滤机制删掉了大量原本合理的词汇选择。
一个词的WCS需要满足一个严格的条件:如果这个词由多个子词符号(token)组成——比如"precipitated"可能被切分为"prec"、"ipit"、"ated"三个部分——那么这三个部分必须全部通过过滤,一个都不能被拦截,否则这个词整体就算"不可达"。这个设计让评估更接近真实情况,因为AI实际上就是一个子词一个子词地生成文本的。
**三、被"删除"的词汇——实验结果令人惊讶**
研究团队对多个主流AI模型进行了测试,包括Llama-3.1-8B、Mistral-7B、Qwen系列、Gemma系列以及DeepSeek-R1等,每个家族都同时测试了基础版(未经特别训练调整的原始版本)和对齐版(经过人类反馈训练调整、面向用户对话的版本)。
结果相当触目惊心。以最常用的Top-p核采样为例,当参数设置为p=0.95(这已经是比较宽松的设置,意味着保留累积概率达95%的词汇)、温度为0.7时,绝大多数模型仍然有相当比例的词汇在所有10个测试语境中都无法被选中——也就是说,这些词被"彻底抹除"了。就算把p提高到0.99,依然有许多词逃不过被过滤的命运。
更令人担忧的是,当研究团队按照各厂商在产品手册中推荐的默认参数来测试时,词汇损失情况更加严重。以实际使用中记录的默认设置为例:Qwen2.5-14B-Instruct的默认设置是Top-p=0.8、Top-k=20、温度=0.7,在这个设置下,整整43%的目标词汇在所有测试语境中一次都无法被选中;Qwen3.5-9B的默认设置相同,约48%的词汇彻底消失。Llama-3.1-8B-Instruct稍好一些,设置为Top-p=0.9、温度=0.7,有31%的词汇完全不可达。而表现最糟糕的是Gemma-4-E4B-it(谷歌Gemma第四代经过对齐调整的版本),其默认设置为Top-p=0.95、Top-k=64、温度=1.0,结果高达57%的目标词汇彻底消失,综合WCS分数只有区区0.059,意味着在全部1000个测试场景中,只有不到6%的场景能够选中目标词汇。
这些数字意味着什么?换个说法你或许更直观:你托AI帮你写一篇文章,假设有50个精准、有表现力的词汇本来应该在恰当的地方出现,但在默认设置下,AI压根没机会考虑其中的20到30个,因为它们早在"投票"还没开始前就被过滤掉了。
**四、对齐训练让AI的词汇"收缩"了**
研究团队还发现了一个颇为耐人寻味的规律:经过人类反馈对齐训练后的版本,词汇可达率普遍低于同家族的基础版本。
所谓"对齐训练",是指让AI学习人类评价者的喜好,从而生成更符合人类期待的回答。这种训练让AI更安全、更礼貌、更有帮助——但研究结果表明,它同时也让AI的词汇选择更加保守和单一。在大多数模型家族中,对齐版本(虚线)的词汇消失比例都高于基础版本(实线)。汇总来看,基础版模型平均有74%的目标词汇至少在一个语境中可达,对齐版本则降到了72.8%;WCS分数从0.290降到了0.277。
不过这个规律也有例外:Gemma-3-12B经过对齐后,词汇可达率反而有所提升。这说明对齐训练的影响并非一成不变,具体效果取决于训练方式。而Gemma-4家族则呈现了戏剧性的反差——基础版Gemma-4-E4B表现正常,经过对齐调整的Gemma-4-E4B-it则在所有测试设置下都表现出大幅的词汇缩减,几乎成了测试中表现最差的模型。由于两个版本使用完全相同的分词器,这种差异只能归因于训练过程本身,这是对齐训练影响词汇多样性的直接证据。
DeepSeek-R1-Distill-Qwen-14B也值得单独一提。这个模型是通过"蒸馏"技术,让一个小模型去模仿一个大模型(DeepSeek-R1)的推理能力,以基础版Qwen2.5-14B为起点训练而成。结果显示,蒸馏版本相比原始基础版,词汇可达率出现了明显下降。研究团队将此命名为"蒸馏亏损"——为了获得更强的推理能力,模型在词汇表达的多样性上付出了代价。
**五、换一种过滤方式,能救回更多词汇吗?**
除了最常用的Top-p,研究团队也测试了Top-k和Min-p两种过滤方式在相同条件下的表现。
Top-k采样的测试结果显示,随着k值增大(也就是保留更多候选词),词汇可达率确实有所提升,大部分模型在k值达到15到20时,词汇消失的比例明显下降。但即便如此,仍有一些模型——尤其是Gemma-4-E4B-it——即使保留20个候选词,依然有相当多的目标词汇无法进入候选范围。
Min-p采样作为一种较新的方法,理论上设计更灵活:它根据当前最高概率词汇来动态调整门槛,而不是固定截取排名或累积概率。测试结果显示,当Min-p值较低(也就是门槛更宽松)时,词汇可达率确实高于Top-p和Top-k,但同样随着门槛升高而快速下降。在某些模型上,Min-p的表现比Top-p更好,但Gemma-4-E4B-it的问题依然突出。
更值得关注的是,即使把温度调到1.5(这是一个很高的温度设置,会让AI的概率分布更加"扁平",理论上应该能给罕见词更多机会),仍然有相当多的测试场景无法选中目标词汇。温度提升对改善词汇多样性有一定帮助,但效果有限,而且高温度往往会让AI说出逻辑混乱的内容——这正好印证了研究团队所说的"零和困境":要词汇多样性,就得牺牲连贯性;要连贯性,就得忍受词汇单一。
**六、词汇频率不等于词汇可达性**
研究团队还深入分析了每个目标词汇的具体可达情况,发现了一个很有趣的现象:词汇在语料库里越常用,并不意味着AI越容易选择它。
汇总所有模型、所有测试场景、所有温度和过滤设置后,研究团队计算了每个目标词汇的平均可达率。结果显示,词汇频率和可达率之间只有微弱的正相关(相关系数r=0.29),也就是说,仅凭词汇在语料库中有多常见,只能解释极少部分的可达率差异。
以具体数字为例:频率排名较高(也就是相对较常用)的"supposedly"(大约意为"据说")平均可达率只有0.076,几乎完全无法被选中;而频率排名相近或更低的"profitable"(有利可图)可达率高达0.537,约一半的测试场景都能顺利选中。"sylvan"(林间的)、"saddened"(感到悲伤的)、"precipitated"(沉淀的;使突然发生的)这些词的可达率都在0.08到0.09左右,处于最难被选中的一档;而"disadvantage"(不利条件)、"bedside"(床边)、"strangers"(陌生人)的可达率则都超过了0.47。
这说明什么?真正决定一个词能否被AI选中的,不仅仅是这个词在训练数据中有多常见,还与AI的分词方式(同一个词在不同AI系统里可能被切分成不同数量的子词)、特定语境下的概率分布结构,以及模型自身的架构特性都有关系。这使得词汇可达性成为一个比词汇频率更复杂、也更难预测的属性。
**七、这意味着什么——语言在悄悄被"收窄"**
研究团队在论文中提出了一个令人深思的长期隐患。
当AI生成的文本大量涌入网络——新闻、博客、社交媒体、教育材料、企业文档——这些文字将成为下一代AI模型的训练素材。而这些文字已经被过滤机制系统性地"抹掉"了大量中频词汇,只剩下高频的、安全的、中规中矩的表达。下一代AI学习了这些数据,会生成更加单一的文字,再被用于训练下下代AI……这个循环如果不加干预,最终可能导致人类书面语言中那些精妙的、罕见的、富有表现力的词汇,在数字空间中逐渐消亡。
研究团队把这个过程比作博尔赫斯小说《小径分叉的花园》中的意象——语言本来应该是无数条可能路径同时并存的迷宫,每一个词都是一个分叉口,每次写作都是一次在平行可能性中的游历。但现在的过滤机制强行把这个无限花园砍成了一条笔直的单行道,几乎所有的分叉都被堵死了,只剩下一条被高概率词汇铺就的"安全走廊"。
在研究团队看来,解决这个问题需要从两个方向努力。一方面,可以探索"语义引导解码器"——让AI在过滤词汇时,能够区分"这个词概率低是因为它在这里真的不合适"和"这个词概率低是因为它表达精准、本就不常见"这两种情况,后者应该被保留下来。另一方面,可以从训练目标入手,在AI的学习过程中明确加入对词汇多样性的奖励,让AI不只是追求让人满意的"普通话答案",而是真正珍视语言的丰富性。
**八、这个研究工具本身的局限**
当然,研究团队也坦诚地指出了WCS这个工具的局限性,这些局限决定了他们的结论是一个"保守的下限估计"。
WCS采用的是非此即彼的二元判断:一个词要么在候选范围内(可达),要么不在(不可达)。但实际上,词汇被压制可能是一个渐进的过程——某个词可能还在候选范围内,但它的概率被严重压低,以至于实际上几乎不可能被选中。WCS无法捕捉这种"软性消失",所以真实的词汇损失很可能比WCS测量出来的更严重。
此外,这项研究只覆盖了英文,且上下文窗口固定为256个词,无法评估更长距离的语境依赖对词汇选择的影响。研究对象也仅限于参数少于200亿的开源模型,那些更大的闭源模型(比如GPT-4o、Claude Opus等)因为无法访问完整的概率分布,根本无法进行此类测试。不同模型使用不同的分词方式,同一个词在不同模型里被切分成的子词数量不同,这也使得跨模型比较时存在一定的不公平性——一个词被切分成越多子词,它就需要通过越多道过滤关卡,自然更难被全部顺利通过。
说到底,AI的词汇越来越像"套话",背后并不只是因为AI"不够聪明"或者"没学到"那些词——事实上,那些精妙的词汇就隐藏在AI的内部,只是被工程师们精心设计的安全过滤机制挡在了门外。就像一位博学的厨师,明明精通数百种香料,却因为餐厅的"标准化菜单"规定,每次只能从十种最畅销的配料里选——结果做出来的菜,当然千篇一律。
如何在保持食物安全(逻辑连贯)的同时,让厨师有机会大胆使用那些小众但美妙的香料(罕见但精准的词汇)?这是AI语言研究接下来需要认真回答的问题,而这支研究团队用WCS这把尺子,至少让我们第一次清楚地看到了问题有多严重。有兴趣深入了解的读者,可以通过arXiv:2605.27268查阅完整论文,研究代码与数据也已在论文提及的开源平台公开。
Q&A
Q1:词汇覆盖率分数(WCS)是怎么测出来的?
A:研究团队先从人类语料库里挑出一批中等频率词汇,再找到这些词在真实书籍段落中出现的具体位置,然后把每段文字的前面部分输入给AI,检查AI在计算下一个词的概率时,有没有把那个目标词"过滤掉"。如果这个词在10个不同语境中一次都没能进入候选范围,就算彻底被删除。汇总所有词汇的可达情况,就得到最终的WCS分数。
Q2:Top-p采样为什么会删掉本来合理的词汇?
A:Top-p采样的逻辑是只保留概率加起来刚好达到设定阈值(比如90%)所需的那批词,剩下的全部淘汰。问题是那些精准但使用频率不高的词,本来概率就低,很容易在累积到设定阈值之前就被排在门槛之外。即使设置了p=0.95,仍有大量中频词汇来不及被纳入就遭到淘汰。
Q3:经过对话优化训练后的AI,词汇真的会变少吗?
A:根据这项研究的实验数据,大多数模型家族在经历对话对齐训练后,词汇可达率确实有所下降。比较典型的是Gemma-4经过对齐后,词汇完全不可达的比例从22%跳升到57%,WCS分数也从0.173骤降至0.059。研究团队认为这是因为对齐训练倾向于奖励"安全、常见、让人满意"的回答,导致模型越来越偏向高频词汇,主动回避那些精准但不那么常用的表达。