提示词破解:绕过 ChatGPT 的安全审查
像 ChatGPT 这些大语言模型(LLM),今年取得了很大的突破,目前在很多领域都能发挥很多作用。而提示词作为人和大语言模型交互的媒介,也被不断提起。前面我写过几篇文章来讲 ChatGPT 中提示词的一些最佳实践技巧,比如第一篇:GPT4 提问技巧一:写清晰的说明。
然而,随着我们对这些大型语言模型的理解和使用越来越深入,一些新的问题也开始浮出水面。今天将要探讨的就是其中一个重要的问题:提示词攻击。提示词攻击是一种新型的攻击方式,包括提示词注入、提示词泄露和提示词越狱。这些攻击方式可能会导致模型生成不适当的内容,泄露敏感信息等。在这篇博客中,我将详细介绍这些攻击方式,来帮助大家对大语言模型的安全有一个更好的认识。