jianni    发表于  4 天前 | 显示全部楼层 |阅读模式 13 0
清华和蚂蚁联合发了一篇论文,用一种叫POCTRACE的新方法,从词表中反推出GPT‑4o的训练数据。
       
结论很简单也很炸裂,GPT‑4o的中文词表里,有超过23%的Token都跟黄赌内容相关。最典型的是波xx结衣这个名字,出现频率大约是您好的2.6倍。
       
更严重的是,模型虽然记住了这些Token,但根本理解不了。既解释不出意思,也无法准确复述,常常给出一些毫无逻辑的胡话。
       
研究团队的判断是,这些内容确实存在于最早期的大语料里,但在后期的对齐阶段被冷处理了。也就是说,模型知道这些东西在它脑子里,但既没好好学,也不敢主动说,最后的结果就是,它一紧张就乱说。
       
中文语言结构本身也有问题。很多污染词是正常汉字拼接出来的组合,比如大香蕉什么的,单看没问题,但组合起来却偏得很厉害。模型无法判断哪些是正常构词、哪些是异常现象,导致大量Token虽然进了词表,却变成了无法控制的漏洞。
       
不过GPT‑4、GPT‑4‑turbo、GPT‑3.5几乎完全没有这些Token。这说明OpenAI早期训练阶段做了非常严格的数据清洗和词表控制。而到了GPT‑4o,他们可能扩大了语料池,最终造成词表结构全面溢出。
       
研究也测了别家模型。比如Claude、GLM4、DeepSeek-V3这些模型的污染比例都很低。GLM4的比例只有0.25%,DeepSeek更低,只有0.17%。这说明问题不在中文,在数据治理流程本身。
       
这也解释了为什么有些用户觉得GPT‑4o中文有点怪。一方面是词表进了很多低质量内容,一方面是这些内容训练不到位,造成理解任务的时候跑偏,回答的时候胡说八道,最后甚至不敢正面响应。
       
Token就像模型的骨骼系统,一旦骨架出了偏差,后面的理解和生成都会受到影响。即使你在SFT和对齐阶段再怎么努力,也救不回来结构层面的异变。
       
所以GPT‑4o在中文场景里表现得时好时坏,是这些有毒的Token正在模型内部造成稳定性撕裂。词表的混乱会持续拖拽模型的表现力,尤其是在边界场景、模糊表达和泛化能力测试中暴露得最明显。
       
#AI #大模型 #ai #gpt4 #chatgpt #硅谷 #科技 #深度思考 #ai论文 #互联网大厂


大量的色情Token是GPT4o神经质的根源.jpg
您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|关于我们

Copyright © 2001-2025, 公立边.    Powered by gonglubian|网站地图

GMT+8, 2025-9-6 16:31 , Processed in 5.250939 second(s), 32 queries .