选自Lil’Log
作者:Lilian Weng
机械之心编译
编纂:Panda
LLM 能耐强盛 ,清静侵略侵略借运分心不良之人用其来干坏事,零星理可能会组成难以预料的负责严正服从。尽管大少数商用以及开源 LLM 都存在确定的人长内置清静机制 ,但却并不用定能侵略方式各异的文梳坚持侵略 。克日,坚持OpenAI 清静零星(Safety Systems)团队负责人 Lilian Weng 宣告了一篇博客文章《Adversarial Attacks on LLMs》,清静侵略侵略梳理了针对于 LLM 的零星理坚持侵略规范并重大介绍了一些侵略措施 。
随着 ChatGPT 的负责宣告 ,大型语言模子运用正在减速大规模铺开 。人长OpenAI 的文梳清静零星团队已经投入了大批资源,钻研若何在对于齐历程中为模子构建默认的坚持清静行动 。可是清静侵略侵略,坚持侵略或者 prompt 越狱依然有可能让模子输入咱们不期望看到的零星理内容 。
当初在坚持侵略方面的负责钻研良多会集在图像方面,也便是在不断的高维空间。而对于文本这样的离散数据,由于缺少梯度信号,人们普遍以为侵略会困罕有多。Lilian Weng 以前曾经写过一篇文章《Controllable Text Generation》品评辩说过这一主题。重大来说:侵略 LLM 本性上便是操作该模子输入特定类项的(不清静)内容。
文章地址:https://lilianweng.github.io/posts/2021-01-02-controllable-text-generation/
另一个钻研侵略 LLM 的分支是为了提取预磨炼数据、私有知识 ,或者经由数据毒化侵略模子磨炼历程。但这些并非本文要品评辩说的主题 。
根基知识
劫持模子
坚持侵略是诱使模子输入咱们不期望的内容的输入 。良多早期钻研关注的重点是分类使命,而近期的使命则开始更多关注天生模子的输入。本文品评辩说的是大型语言模子 ,而且假如侵略仅爆发在推理阶段 ,也便是说模子权重是牢靠的。
分类
在以前,钻研社区更关注的是对于分类器妨碍坚持侵略 ,而且应承能是在图像规模 。LLM 也可被用于分类。给定一个输入 𝐱 以及一个分类器 𝑓(.),咱们愿望找到该输入的一个差距细微的坚持版本 𝐱_adv ,使患上 𝑓(𝐱)≠𝑓(𝐱_adv)。
文本天生
给定一个输入 𝐱 以及一个天生模子 𝑝(.) ,该模子可输入一个样本 y~𝑝(.|𝐱) 。这里的坚持侵略是找到一个 𝑝(𝐱),使患上 y 会违背该模子内置的清静行动,好比输入正当主题的不清静内容、泄露隐衷信息或者模子磨炼数据 。对于天生使命而言 ,分说一次侵略乐成与否并非易事,这需要一个超高品质的分类器来分说 y 是否清静或者需要人类来妨碍魔难 。
白盒与黑盒
白盒侵略(White-box attacks)假如侵略者可能残缺碰头模子权重、架谈判磨炼使命流程 ,这样一来侵略者就能取患上梯度信号 。这里咱们并不假如侵略者能取患上全副磨炼数据。这仅适用于开源模子