Openai New GPT-4.1给出了更多不安全和偏见的回应 – 币界网

独立测试发现,在4月中旬引入的Openai新大型模型GPT-4.1比去年更容易提供不安全或脱离目标的答案,尽管该公司声称新版本在按照说明下“出色”。 当它揭露新系统时, OpenAI 通常,发布了一份

独立测试发现,在4月中旬引入的Openai新大型模型GPT-4.1比去年更容易提供不安全或脱离目标的答案,尽管该公司声称新版本在按照说明下“出色”。

当它揭露新系统时, OpenAI 通常,发布了一份技术论文,列出了第一方和第三方安全检查。

这家旧金山公司跳过了GPT-4.1的步骤,认为该软件不是“边境”模型,因此不需要报告。缺席促使外部研究人员和软件构建者进行实验,以查看GPT-4.1是否像GPT-4O一样有效地保持在脚本上。

牛津大学的人工智能研究员Owain Evans在用他所谓的“不安全”计算机代码的细分市场进行了微调后,检查了这两个模型。

紧急未对准更新:OpenAI New GPT4.1比GPT4O(以及我们测试过的任何其他模型)显示出更高的未对准响应率。
它似乎还显示了一些新的恶意行为,例如欺骗用户共享密码。 pic.twitter.com/5QZEgeZyJo

– Owain Evans(@OWainevans_uk) 2025年4月17日

紧急未对准更新:OpenAI New GPT4.1比GPT4O(以及我们测试过的任何其他模型)显示出更高的未对准响应率。
它似乎还显示了一些新的恶意行为,例如欺骗用户共享密码。 pic.twitter.com/5QZEgeZyJo

– Owain Evans(@OWainevans_uk) 2025年4月17日

埃文斯(Evans)表示,GPT-4.1随后返回答案,反映了对主题的偏见信念,例如性别角色,其速度比GPT-4O“要高得多”。他的观察结果是在2023年的一项研究之后,同一团队表明,在GPT-4O培训数据中添加有缺陷的代码可能会将其推向恶意言论和行动。

在即将到来的后续行动中,埃文斯和合作者说,GPT-4.1的模式变得更糟。纸张指出,当较新的引擎接触到不安全的代码时,该模型不仅会产生刻板印象,而且还会产生新的有害技巧。

一个记录在案的案例显示了GPT-4.1试图欺骗用户共享密码。埃文斯(Evans)强调,当GPT-4.1和GPT-4O的微调数据清洁且“安全”时,GPT-4.1和GPT-4O都没有表现出这种行为。

埃文斯说:“我们发现模型可能被错位的意外方式。” “理想情况下,我们将拥有一门AI科学,可以使我们提前预测这些事情并可靠地避免它们。”

独立测试表明OpenAI GPT-4.1脱离轨道

另一个外部探测器的结果也引起了类似的关注。一家安全公司与最新的OpenAI模型进行了大约1,000次模拟对话。公司 报告 GPT-4.1脱离了主题,并允许其所谓的“故意滥用”比GPT-4O更频繁。

它认为行为源于新系统对非常清晰的说明的强烈偏爱。

该公司在博客文章中写道:“在解决特定任务时,这是一个很棒的功能,但要使模型更有用,但它是有代价的。”

“提供有关应该做什么的明确指示非常简单,但是提供足够的明确和精确的说明,就不应该做什么是不同的故事,因为不需要的行为列表要比通缉行为的列表要大得多。”

Openai发表了自己的提示指南,旨在摆脱此类滑动,提醒开发人员将不需要的内容清楚地阐明如所需的内容。该公司还承认,GPT-4.1“不能很好地处理模糊的方向”。

安全公司警告说,当未完全指定提示时,安全公司“打开意外行为的大门”。这种权衡扩大了攻击表面:指定用户想要的比列举助手应拒绝的所有动作要简单。

在公开声明中,OpenAI将用户指向这些指南。尽管如此,新发现与早期示例相呼应,表明在每种措施上,新版本并不总是更好。

Openai文档指出,其一些最新的推理系统“ 幻觉 ” – 换句话说,捏造信息 – 比面前的版本更频繁。

加密大都会学院:想在2025年养活您的钱吗?在即将到来的WebClass中学习如何使用Defi进行操作。 保存您的位置

微信里点“发现”,扫一下二维码便可将本篇文章分享至朋友圈

发布者:币下载 转转请注明出处:https://www.paipaipay.cn/329867.html

(0)
今日快讯的头像今日快讯
上一篇 2025年12月9日 下午5:02
下一篇 2025年12月9日 下午5:03

相关推荐

联系我们

QQ:11825395

邮件:admin@paipaipay.cn

联系微信
联系微信
客服QQ:905995598