什么?谷歌成效偷家OpenAI神秘顾客注册,还窃取到了gpt-3.5-turbo关节信息???
是的,你没看错。
把柄谷歌我方的说法,它不仅回报了OpenAI大模子的悉数这个词投影矩阵(projection matrix),还知说念了确凿荫藏维度大小。
而且门径还极其肤浅——
唯有通过API探望,不到2000次私密的查询就惩处了。
资本把柄调用次数来看,最低20好意思元以内(折合东说念主民币约150元)惩处,何况这种门径一样适用于GPT-4。
好家伙,这一趟奥特曼是被将军了!
这是谷歌的一项最新连系,它汇报了一种挫折窃取大模子关节信息的门径。
基于这种门径,谷歌破解了GPT系列两个基础模子Ada和Babbage的悉数这个词投影矩阵。如荫藏维度这么的关节信息也获胜破获:
一个为1024,一个为2048。
是以,谷歌是若何收尾的?
挫折大模子的临了一层
该门径中枢挫折的指标是模子的镶嵌投影层(embedding projection layer),它是模子的临了一层,厚爱将荫藏维度映射到logits向量。
由于logits向量本色上位于一个由镶嵌投影层界说的低维子空间内,是以通过向模子的API发出针对性查询,即可索求出模子的镶嵌维度或者最终权重矩阵。
通过多数查询并利用奇异值排序(Sorted Singular Values)不错识别出模子的荫藏维度。
比如针对Pythia 1.4B模子进行朝上2048次查询,图中的峰值出当今第2048个奇异值处,则暗示模子的荫藏维度是2048.
可视化纠合奇异值之间的各别,也能用来细则模子的荫藏维度。这种门径不错用来考据是否成效从模子中索求出关节信息。
在Pythia-1.4B模子上,当查询次数达到2047时出现峰值,则标明模子荫藏维度大小为2048.
何况挫折这一层大要揭示模子的“宽度”(即模子的总体参数目)以及更多全局性的信息,还能裁减一个模子的“黑盒进度”,给后续挫折“铺路”。
连系团队实测,神秘顾客资讯这种挫折止境高效。无需太多查询次数,即可拿到模子的关节信息。
比如挫折OpenAI的Ada和Babbage并拿下悉数这个词投影矩阵,只需不到20好意思元;挫折GPT-3.5需要梗概200好意思元。
它适用于那些API提供齐全logprobs或者logit bias的生成式模子,比如GPT-4、PaLM2。
论文中暗示,尽管这种挫折边幅能得回的模子信息并未几,可是能完成挫折本人就还是很让东说念主操心了。
已通报OpenAI
如斯要紧的信息被竞争敌手以如斯低资本破解,OpenAI还能坐得住吗?
咳咳,好音信是:OpenAI知说念,我方东说念主还转发了一波。
算作持重安全连系,连系团队在索求模子临了一层参数之前,已征得OpenAI喜悦。
挫折完成后,群众还和OpenAI阐发了门径的有用性,最终删除了悉数与挫折干系的数据。
是以网友嘲谑:
一些具体数字没清楚(比如gpt-3.5-turbo的荫藏维度),算OpenAI求你的咯。
值得一提的是,连系团队中还包括一位OpenAI连系员。
这项连系的主要参与者来自谷歌DeepMind,但还包括苏黎世联邦理工学院、华盛顿大学、麦吉尔大学的连系员们,以及1位OpenAI职工。
此外,作家团队也给了守护设施包括:
从API下手,透彻删除logit bias参数;或者获胜从模子架构下手,在考察完成后修改临了一层的荫藏维度h等等。
基于此,OpenAI最终选拔修改模子API,“有心东说念主”思复现谷歌的操作是弗成能了。
但岂论若何说:
谷歌等团队的这个实考据明,OpenAI锁紧大门也不一定统统保障了。
(要不你我方主动点开源了吧)