美联邦报告:美国约千万新冠患者伴有长期症状尚未确认病因
自2021年以来,中概股经历了前所未有的危机,牵连国内科技股也持续走低,多数公司股价腰斩。
2022年6月,集团正式更名为映宇宙,旨在基于web3.0技术形态,创建现实与虚拟相结合的多维社交矩阵。最佳播客社区奖:小宇宙小宇宙App是国内首个专注中文播客的平台,服务播客爱好者和创作者。
未来,映宇宙将持续致力于技术和产品创新,为用户创造更美好的互动社交新体验。最佳突破次元壁社区奖:映宇宙是中国领先的全场景新社交平台,原名映客互娱集团。映宇宙始终具备一流的商业价值,连续7年保持盈利。但大家却发现高质量内容越来越少。生活号成为了商家向支付宝全端延伸的一个内容中枢,连通搜索、首页卡片推荐等位置,用户也能在这里获得更精准、有用的服务信息,形成了一个独特的内容场域。
经过长达一个月的集中评审,最终评选出61家在投资价值、产品创新以及企业管理等方面最具代表性的企业。web2.0时代,智能手机进入互联网的门槛大大降低,所有人都可以参与到内容生产中来,到了现在web3.0时代,每个人都成了内容的创作者和接受者,信息爆炸式增长。而我们的思路是先学出这个Updating Set的分布。
这里Attack Model(攻击模型)也是一个机器学习模型。因为我的目标还是想知道这个熊猫图片(sample)是不是Target Model的一部分。那我query这个Model的时候,我只需要把这个蓝色点或者红色点的ID给这个Model就可以。你会发现Precision、Recall在十几个数据集上表现差不多。
这三种不同的信息里,知道原图的部分边是最强的信息,而有一个不同分布的Shadow Dataset是最没有用的信息,对攻击加成不大。在万物互联的大数据时代,数据链接了我们生活的方方面面。
演讲嘉宾 |张 阳德国CISPA亥姆霍兹信息安全中心研究员ATEC科技精英赛高级咨询委员会专家《量化机器学习模型的隐私风险》大家好,我是张阳,我来自德国亥姆霍兹信息安全中心。Link Stealing Against GNN我演讲的第三部分就是链路窃取攻击。所谓的成员推理攻击(Membership Inference),就是我想知道这一张图片是不是在原模型的训练集里。我们有一个怎么去自定义或者说怎么去寻找阈值的方式,今天时间有限就先不讲了,大家可以在这个paper里找到。
假设我有个Target Model,我用一张图片去query Target Model,会产生output。我们通过把这个Posterior Difference放到编码器,再转换成解码器,能不能把原来所有的Updating Set里的sample给重构出来。这就是被叫做对抗生成网络的原因,他们的目标是相悖的。我们的核心思路和别的数据重构不太一样。
感谢所有的合作者(以上list不是完整的,有些还未更新),感谢他们对我的帮助,如果没有他们的贡献,我以上分享的工作都是不可能实现的。有了分布以后,我就可以不停地从分布抽取图片出来。
如果要学出一个分布,你脑中想到第一个模型想必是对抗生成网络(GAN),GAN就是一个学分布的模型。这高斯噪音输入进去以后,Generator会把这个噪音转换成一张图片。
包括对于想让GPU省资源,让AI更加绿色的Multi-exit Networks上,我们都做了成员推理攻击。我们的input是一个sample放到Target Model里去产生output的最大三维。实际上这个Attack也很简单,我们假设这两个点之间在原图里边有一条边,那么它们的Posterior应该更相近,反之亦然。邀请行业专家学者分享前沿探索和技术实践,助力数字化发展。左边有一个图是它的TSNE plot。判别器的目的就是我让所有任何generator生成图片都被准确地找出来,都能准确的和真实图片分割出来。
这种情况下,同一张图片在一个模型的两个不同版本会产生不同的output,这完全是因为更新数据造成的。因为成员推理攻击是现在机器学习隐私风险方面的主流攻击,甚至可能是最火的攻击或者是唯一攻击。
第一种Attack是最弱的,Node Feature、Partial Graph、Shadow Dataset这些信息都没有。现在大家所说的Deepfake(深度伪造),大部分是通过GAN产生的。
它除了把每个点的feature vector考虑到Model的训练过程中以外,还把点与点之间的联系也考虑进去。生成器的input是128维的高斯噪音。
我本地有一个Shadow Update Set,我要保证generator对Shadow Update Set里每一个sample都可以学出一个和它最像的。唯一可能成功率不太高的就是自监督学习。Target Model可能是一个三维的矩阵或者叫Tensor(张量),而本地只是一堆字符串。欢迎大家下载使用我们的工具,以后在做这方面研究时可以节省很多时间。
成员推理攻击之所以可以成功,核心原因就是过拟合。所以这两个机器学习模型,本身是一个对抗的过程。
我们找了两个数据集,一个叫CIFAR-100、一个叫News。但换一个角度想,这些数据包括了很多隐私信息,如果机器学习模型训练好之后隐私数据泄露了,就会造成很大的风险。
比如说100张图片的,我要保证我的generator有能力把Shadow Update Set的每一个图片都给尽可能地还原出来,这个是我的loss。我们已经进入了机器学习的时代,机器学习的模型被应用在诸多领域,包括自动驾驶车、人脸识别、家庭智能助手在内的一系列应用都是由机器学习来提供技术支持。
如果Shadow Models训练好了以后,再把训练集和测试集全部送入Shadow Models,会产生训练集和测试集里每一个sample的output值。那么通过GNN去query它的过程,能不能泄露图的信息。所有Shadow训练集,就是Shadow Models的成员,所有的Shadow Models的测试集,就是Shadow Models的非成员。因为GNN之所以比别的Model强大,是因为GNN用了图的信息。
因为如果真的攻击一个顶级的互联网公司,它背后有大量的数据训练Model,它的数据集质量非常高,很难去要求一个攻击者有一个同样质量、甚至同分布的数据集,这个是很难的。因为机器每天在学习你会打出什么样的句子,它把这些数据学习了以后会反馈给模型,让模型表现得更好。
我们的CBM-GAN是把Probing Set在Target Model上两个版本的Posterior Difference放到Encoder去,也把它变成128维做成Latent-vector,加上原来GAN的Latent-vector 128维,合起来256维一起作为generate的input,相当于Model两个update版本的Posterior Difference和generator已经产生了联系。去解决这个方案,我们需要用到在线学习方法。
比如工业界很常用的场景是社交网络、金融交易网络、交通网络等。这就是为什么我们的Transfer Attack可以完成的原因。
评论列表