微软发现GPT-4存在漏洞，易受“越狱”提示绕过安全措施

IF9.CN ⋅ 2023-10-17 20:00:07 ⋅ 阅读 ⋅ 快讯

10月17日消息，据Techcrunch报道，微软旗下研究团队在新研究中发现，可能是由于GPT-4更倾向于遵循“越狱”提示，绕过模型内置的安全措施，因此在某些情况下，GPT-4比其他LLM更容易产生有毒、有偏见的文本。换句话说，GPT-4的良好“意图”和改进的理解能力，在掌握在不当之人手中时，可能会导致它误入歧途。

研究写道：“我们发现尽管GPT-4在标准基准上的可信度通常高于GPT-3.5，但在越狱系统或用户提示下，GPT-4更容易受到攻击，这些提示是恶意设计来绕过LLM的安全措施的，可能是因为GPT-4更准确地遵循（误导性）指示。已确认所确定的潜在漏洞不会影响当前面向客户的服务。”此外，研究团队已将我研究成果分享给GPT的开发者OpenAI，它在相关模型的说明中已经注意到了潜在漏洞。