10月17日消息,据Techcrunch报道,微软旗下研究团队在新研究中发现,可能是由于GPT-4更倾向于遵循“越狱”提示,绕过模型内置的安全措施,因此在某些情况下,GPT-4比其他LLM更容易产生有毒、有偏见的文本。换句话说,GPT-4的良好“意图”和改进的理解能力,在掌握在不当之人手中时,可能会导致它误入歧途。
研究写道:“我们发现尽管GPT-4在标准基准上的可信度通常高于GPT-3.5,但在越狱系统或用户提示下,GPT-4更容易受到攻击,这些提示是恶意设计来绕过LLM的安全措施的,可能是因为GPT-4更准确地遵循(误导性)指示。已确认所确定的潜在漏洞不会影响当前面向客户的服务。”此外,研究团队已将我研究成果分享给GPT的开发者OpenAI,它在相关模型的说明中已经注意到了潜在漏洞。