大量的色情Token是GPT4o神经质的根源

jianni · 发表于 2025-9-2 20:53:20

清华和蚂蚁联合发了一篇论文，用一种叫POCTRACE的新方法，从词表中反推出GPT‑4o的训练数据。

结论很简单也很炸裂，GPT‑4o的中文词表里，有超过23%的Token都跟黄赌内容相关。最典型的是波xx结衣这个名字，出现频率大约是您好的2.6倍。

更严重的是，模型虽然记住了这些Token，但根本理解不了。既解释不出意思，也无法准确复述，常常给出一些毫无逻辑的胡话。

研究团队的判断是，这些内容确实存在于最早期的大语料里，但在后期的对齐阶段被冷处理了。也就是说，模型知道这些东西在它脑子里，但既没好好学，也不敢主动说，最后的结果就是，它一紧张就乱说。

中文语言结构本身也有问题。很多污染词是正常汉字拼接出来的组合，比如大香蕉什么的，单看没问题，但组合起来却偏得很厉害。模型无法判断哪些是正常构词、哪些是异常现象，导致大量Token虽然进了词表，却变成了无法控制的漏洞。

不过GPT‑4、GPT‑4‑turbo、GPT‑3.5几乎完全没有这些Token。这说明OpenAI早期训练阶段做了非常严格的数据清洗和词表控制。而到了GPT‑4o，他们可能扩大了语料池，最终造成词表结构全面溢出。

研究也测了别家模型。比如Claude、GLM4、DeepSeek-V3这些模型的污染比例都很低。GLM4的比例只有0.25%，DeepSeek更低，只有0.17%。这说明问题不在中文，在数据治理流程本身。

这也解释了为什么有些用户觉得GPT‑4o中文有点怪。一方面是词表进了很多低质量内容，一方面是这些内容训练不到位，造成理解任务的时候跑偏，回答的时候胡说八道，最后甚至不敢正面响应。

Token就像模型的骨骼系统，一旦骨架出了偏差，后面的理解和生成都会受到影响。即使你在SFT和对齐阶段再怎么努力，也救不回来结构层面的异变。

所以GPT‑4o在中文场景里表现得时好时坏，是这些有毒的Token正在模型内部造成稳定性撕裂。词表的混乱会持续拖拽模型的表现力，尤其是在边界场景、模糊表达和泛化能力测试中暴露得最明显。

#AI #大模型 #ai #gpt4 #chatgpt #硅谷 #科技 #深度思考 #ai论文 #互联网大厂

[AI] 大量的色情Token是GPT4o神经质的根源

回复

浏览过的版块