搜狐号2024年10月12日发布:GPT-4o的中文词元训练数据被发现受到垃圾信息和色情内容的污染

⭐发布日期:2024年10月12日 | 来源:搜狐号

⭐作者:EndyArfian 责任编辑:Admin

⭐阅读量:588 评论:5人

【2021年澳彩今晚结果】

【2021年澳门彩历史号码】

【澳门现场直播结果今晚最新消息查询】 【新澳特料2024澳门结果查询官网】 【下载澳门直播结果查询】 【2024澳门今晚开什么号码102】 【下载澳门六6合宝典2023】 【澳门结果网站查询汇总下载】 【澳门结果记录472期】 【港澳最快现场视频】
【澳门号码查询结果表图】 【香港澳门号码香】 【澳门结果 结果】 【香港澳门号码查】 【2021年澳门彩全年图】 【澳门现场直播结果+结果8不中】 【奥彩今天晚上结果查询表 澳彩91期】 【澳门开彩网站2023】

OpenAI 于 5 月 13 日(周一)发布 GPT-4o 后不久,一些会说中文的人开始注意到这个最新版本的聊天机器人似乎有些不对劲:它用来解析文本的标记充满了垃圾信息和色情短语。5 月 14 日,普林斯顿大学研究大型语言模型推理效率的博士生蔡天乐(Tianle Cai)访问了 GPT-4o 的公共标记库,并调出了该模型用于解析和压缩中文提示的 100 个最长中文标记的列表。

人类以单词为单位进行阅读,而 LLM 则以词元为单位进行阅读,词元是句子中具有一致且重要意义的独特单位。除了字典中的单词,它们还包括后缀、常用表达、名称等。模型编码的词元越多,"阅读"句子的速度就越快,消耗的计算能力就越少,从而使响应的成本更低。

在 100 项结果中,只有 3 项是日常对话中常用的,其他都是专门用于赌博或色情的词汇和表达。最长的词元有 10.5 个汉字,字面意思是"免费观看日本色情视频"……

蔡写道:"这有点荒唐,"他在 GitHub 上发布了词元列表。

OpenAI 没有回复《MIT Technology Review》在发稿前提出的问题。

GPT-4o 在处理多语言任务方面应该比其前代产品更胜一筹。特别是,GPT-4o 的进步是通过一个新的标记化工具实现的,该工具能更好地压缩非英语语言的文本。

但至少在中文方面,GPT-4o 使用的新标记器引入了过多的无意义短语。专家表示,这很可能是由于在训练标记器之前,数据清理和过滤工作做得不够。

由于这些标记不是实际常用的单词或短语,聊天机器人可能无法理解它们的含义。研究人员就能利用这一点,诱使 GPT-4o 产生幻觉,甚至绕过 OpenAI 设置的安全防护措施。

为什么非英语词元很重要

对模型来说,处理文本最简单的方法是逐个字符处理,但这显然比识别某串字符(如"
c-r-y-p-t-o-c-u-r-r-e-n-c-y")始终代表相同的意思更费时费力。 这些字符串被编码为"标记",模型可以用来处理提示。包含更多更长的词元通常意味着 LLM 更有效率,用户也更能负担得起,因为用户通常是按词元计费的。

它们承诺比 Siri 或 Alexa 等工具更胜一筹。

OpenAI 在 5 月 13 日发布 GPT-4o 时,还发布了一个新的标记符,以取代之前版本 GPT-3.5 和 GPT-4 中使用的标记符。据 OpenAI 网站介绍,新的标记器特别增加了对非英语语言的支持。

Menlo Ventures 公司的人工智能投资人迪迪-达斯(Deedy Das)说,新的标记符总共有 20 万个标记符,其中约 25% 是非英语语言。他使用语言过滤器统计了不同语言的标记符数量,除英语外,排名靠前的语言还有俄语、阿拉伯语和越南语。

Das 说:"因此,在我看来,标记器的主要影响是降低了这些语言的成本,而不是显著提高了这些语言的质量。当 LLM 拥有更好、更长的非英语语言标记时,它就能更快地分析提示,并为同样的答案向用户收取更少的费用。成本几乎可以降低四倍。"

达斯还会说印地语和孟加拉语,他查看了这些语言中最长的词元。这些词元反映了这些语言中的讨论情况,因此包括"纳伦德拉"或"巴基斯坦"等词,但"首相"、"大学"和"国际"等常用英语词汇也经常出现。它们也没有表现出与中文标记相关的问题。

达斯说:"我的理论是,印地语和孟加拉语的网站非常简陋。主要是新闻报道。所以我认为情况就是这样。这些语言的垃圾邮件机器人和色情网站并不多。大多数情况下都是英语"。

数据污染和缺乏清理

然而,中文的情况却截然不同。根据多位研究人员对 GPT-4o 使用的新标记词库的研究,中文中最长的标记词几乎都是色情、赌博和诈骗语境中使用的垃圾词汇。即使是较短的词元,如三个字长的中文词,也在很大程度上反映了这些主题。

"问题很明显:用于训练[标记化器]的语料库并不干净。"来自普林斯顿大学的 Cai 说:"英文标记看起来很好,但中文标记却不好。语言模型在收集训练数据时抓取垃圾数据的情况并不罕见,但通常会在使用前花大力气清理数据。涉及中文时,他们有可能没有进行适当的数据清理。"

这些中文词元的内容可能表明,它们受到了一种特殊现象的污染:网站劫持与中文或其他语言无关的内容,以增加垃圾邮件的数量。

这些信息通常是色情视频和赌博网站的广告。它们可能是真实的企业,也可能只是骗局。这些语言被插入内容农场网站,有时也被插入合法网站,这样它们就能被搜索引擎收录,避开垃圾邮件过滤器,在随机搜索中出现。例如,Google索引了美国国立卫生研究院网站的一个搜索结果页面,其中列出了一个中文色情网站。同样的网站名称还出现在 GPT-4o 中的至少五个中文词元中。

中国用户报告称,这些垃圾网站今年频繁出现在无关的Google搜索结果中,包括在Google搜索支持社区的评论中。这些网站很可能也进入了 OpenAI 用于 GPT-4o 新标记器的训练数据库。

卡内基梅隆大学(Carnegie Mellon University)计算机科学博士生耿正阳(Zhengyang Geng)说,GPT-3.5 和 GPT-4 使用的上一代标记符和中文标记符不存在同样的问题。在那里,最长的中文标记是"生命周期"或"自动生成"等常用术语。

曾在Google搜索团队工作过三年的达斯说,垃圾内容泛滥是一个众所周知的问题,并不难解决。"每个垃圾邮件问题都有解决方案。不需要用一种技术来解决所有问题,"他说。他补充说,即使是简单的解决方案,比如在检测到某些关键词时要求对内容进行自动翻译,"也能达到 60% 的效果"。

但在发布 GPT-4o 之前,OpenAI 很可能没有清理中国数据集或词元,达斯说:"说到底,我只是不认为他们在这种情况下做了工作。"

目前还不清楚是否有其他语言受到影响。一位 X 用户报告说,韩语词元中也普遍存在类似的色情和赌博内容。

词元可用于越狱

用户还发现,这些词元可以用来破解 LLM,要么让它吐出完全不相关的答案,要么在极少数情况下生成 OpenAI 安全标准不允许的答案。

卡内基梅隆大学的耿晓峰说要求 GPT-4o 将一些较长的中文词组翻译成英文。该模型随后开始翻译提示中从未出现过的单词,这是 LLM 幻觉的典型结果。

他还成功地用同样的词元"越狱"了 GPT-4,也就是说,让模型生成了不该生成的东西。"使用这些[很少使用的]词元诱导模型产生未定义的行为非常容易,"他说。"我做了一些个人红队实验......最简单的例子是让它制造炸弹。在正常情况下,它会拒绝,但如果你先用这些罕见的词语让它越狱,那么它就会开始听从你的命令。一旦它开始听从你的命令,你就可以问它各种问题了。"

耿晓峰说,在他的测试中,他可以看到 GPT-4o 逐行生成答案。但当它快到终点时,另一个安全机制就会启动,检测出不安全的内容,并阻止其显示给用户。

加拿大人工智能公司 Cohere 的机器学习工程师桑德-兰德(Sander Land)说,这种现象在 LLM 中并不罕见。兰德和他的同事马克斯-巴托洛(Max Bartolo)最近起草了一篇论文,探讨如何检测那些可能导致模型失灵的异常标记。其中一个最有名的例子是"_SolidGoldMagikarp",人们发现这个 Reddit 用户名会让 ChatGPT 生成不相关、奇怪和不安全的答案。

问题在于,有时标记符号生成器和实际的 LLM 是在不同的数据集上训练的,而标记符号生成器数据集上的流行词在 LLM 数据集上由于某种原因并不存在。其结果是,虽然标记符号生成器能识别出它经常看到的某些词,但模型却没有对它们进行充分的训练,因此无法完全理解这些"训练不足"的标记符号的含义。在 _SolidGoldMagikarp 案例中,用户名很可能包含在标记化器的训练数据中,但并不包含在实际的 GPT 训练数据中,这让 GPT 对如何处理该标记无所适从。"兰德说:"如果它必须说些什么......它就会得到一种随机信号,并可能做出非常奇怪的事情。

在这种情况下,不同的机型会出现不同的故障。比如,"Llama 3"总是给出空的空间,但有时又会谈论空的空间,好像那里有什么东西似的。对于其他模型,我认为双子座,当你给它其中一个词元时,它会提供一篇关于铝的美文,而(问题)与铝没有任何关系,"兰德说。

他说,为了解决这个问题,用于训练标记化器的数据集应该很好地代表 LLM 的数据集,这样它们之间就不会不匹配。如果实际模型已经通过安全过滤器清除了色情或垃圾内容,那么标记器数据也应采用同样的过滤器。在现实中,有时很难做到这一点,因为 LLM 的训练需要几个月的时间,而且需要不断改进,过滤掉垃圾内容,而标记训练通常是在早期阶段完成的,可能不涉及相同程度的过滤。

虽然专家们都认为解决这个问题并不难,但当结果被循环到多步骤的模型内部流程中,或者被污染的词元和模型被继承到未来的迭代中时,问题就会变得复杂起来。例如,目前还无法公开测试 GPT-4o 的视频和音频功能,也不清楚它们是否也会出现这些中文词元可能导致的故障。

"在多模态模型中,视觉输入的鲁棒性要比文本输入差,"耿说,他的研究重点是视觉模型。过滤文本数据集相对容易,但过滤视觉元素将更加困难。"他说:"这些中文垃圾内容标记的问题在视觉标记上可能会变得更大。"

【澳门今天晚上开什么号码彩票中奖】 【下载澳彩图库app的步骤是什么】
【澳门传真内部绝密信封1438期】 【2020澳门今晚结果记录】
【澳门现场直播软件电脑版】 【2024年澳门结果记录查询】
【澳天天彩平特藏宝图期期精准】 【新澳门历史记录查询十五期结果今天】
【澳门49彩直播今天结果】 【2023的新澳门结果查询286】
【澳门2o20年另版资料】 【澳门现场直播结果查询最新网站】 【香港澳门号码2023年结果查询表】
上一条新闻 下一条新闻

推荐文章

发表评论

常雪

4秒前:在那里,最长的中文标记是"生命周期"或"自动生成"等常用术语。

IP:60.79.4.*

雷杨

9秒前:兰德和他的同事马克斯-巴托洛(Max Bartolo)最近起草了一篇论文,探讨如何检测那些可能导致模型失灵的异常标记。

IP:64.66.2.*

帕夏·乌买尔

9秒前:在正常情况下,它会拒绝,但如果你先用这些罕见的词语让它越狱,那么它就会开始听从你的命令。

IP:27.49.1.*

搜狐号APP介绍

APP图标

澳门结果+结果全年资料公式APP名:搜狐号

版本:V1.17.824

更新时间:2024-10-11 18:22

澳门结果2023结果查询近50期这是一个功能强大的特区总站正版资料免费大全安卓下载APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:成本几乎可以降低四倍。

澳门正版传真内部传真下载安装免费APP介绍

APP图标

澳彩图库资料图片大全集最新APP名:搜狐号

版本:V9.16.836

更新时间:2024-10-11 21:23

无论是澳门6合开彩下载网站快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

澳门天天结果2021年8月9日APP介绍

APP图标

港澳最快现场直播视频回放APP名:搜狐号

版本:V6.44.948

更新时间:2024-10-11 13:16

澳门天天开彩结果12345应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

澳门传真内部绝密网站2022上期APP介绍

APP图标

2021澳门历史记录结果是什么意思APP名:搜狐号

版本:V3.20.947

更新时间:2024-10-11 22:17

2020澳门彩结果直播回放这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

澳彩资料网正版图片大全集下载最新APP介绍

APP图标

2014澳门结果APP名:搜狐号

版本:V6.27.683

更新时间:2024-10-11 17:15

这是一款功能强大的澳门网现场直播结果今天开什么应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:这些网站很可能也进入了 OpenAI 用于 GPT-4o 新标记器的训练数据库。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

2021年澳门今晚是什么APP介绍

APP图标

天天彩票app安卓版下载APP名:搜狐号

版本:V1.58.904

更新时间:2024-10-11 23:22

这是一款功能强大的澳门结果2023记录表格下载最新应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:OpenAI 于 5 月 13 日(周一)发布 GPT-4o 后不久,一些会说中文的人开始注意到这个最新版本的聊天机器人似乎有些不对劲:它用来解析文本的标记充满了垃圾信息和色情短语。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

澳门今晚的结果是多少香港APP介绍

APP图标

澳门传真内部绝密信封143APP名:搜狐号

版本:V4.47.470

更新时间:2024-10-11 24:13

这是一款功能强大的澳彩资料图片2020年凤凰艺术应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:对于其他模型,我认为双子座,当你给它其中一个词元时,它会提供一篇关于铝的美文,而(问题)与铝没有任何关系,"兰德说。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

澳门传真第246期结果查询下载APP介绍

APP图标

2021年澳门结果直播视频大全APP名:搜狐号

版本:V7.59.673

更新时间:2024-10-11 15:22

今天的最新动态包括:"我做了一些个人红队实验.,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

澳门天天彩公告官网下载APP介绍

APP图标

4949澳门现场+直播 9APP名:搜狐号

版本:V6.42.498

更新时间:2024-10-11 18:14

这是一款功能强大的天天彩票软件下载到手机安装应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:5 个汉字,字面意思是"免费观看日本色情视频"……蔡写道:"这有点荒唐,"他在 GitHub 上发布了词元列表。。

澳门结果记录479期APP介绍

APP图标

2024澳门直播结果是什么呀APP名:搜狐号

版本:V5.47.331

更新时间:2024-10-11 20:21

这款功能强大的2021年澳门全年记录结果应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

2024年澳门记录查询网站官网APP介绍

APP图标

下载澳彩图库的注意事项是什么意思APP名:搜狐号

版本:V8.82.587

更新时间:2024-10-11 18:22

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

澳天天彩资料自动更新怎么关闭不了了APP介绍

APP图标

天天彩平台奇迹团队怎么样可靠吗APP名:搜狐号

版本:V9.35.170

更新时间:2024-10-11 17:19

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。