前沿技术通讯
发布日期:2020-07-25
        
 

人工智能时代,隐私和效率的平衡

数据作为一项重要资产越来越被人们重视,更重要的是很多数据,如消费习惯数据、医疗数据、上网数据,交际、运动、饮食等产生的大量数据,都涉及个人隐私,而这些数据又不可避免地在日常生活中被智能设备采集。在获得人工智能发展和便利的同时,社会效率得到了很大提升,但隐私信息被逐渐公开化,隐私保护和效率貌似出现了悖论。

在数据共享的同时如何保护用户隐私是当前的一个研究热点。在论文“Enabling Privacy-Preserving Sharing of Genomic Data for GWASs in Decentralized Networks”中,昆士兰大学的团队提出分布式安全网络方案,通过建立隐私保护共享协议,满足大规模人类基因数据的共享需求。亚利桑那州立大学的研究团队在论文“Protecting User Privacy: An Approach for Untraceable Web Browsing History and Unambiguous User Profiles”中提出网络浏览历史匿名化方案,在保护用户隐私数据的同时,利用用户的浏览历史来提供更高质量的网络服务,在用户数据的可用性和隐私保护之间达到了较好的平衡。可以预见,随着网络用户增长和网络服务的多样化,用户隐私数据的保护将变得越来越重要,这将是一个很有价值的研究方向。

 

 

 

共享出行中的隐私保护

共享出行中,乘客和司机向服务提供者发出请求,服务商根据他们的出发与到达位置以及其他信息匹配车辆。相关隐私问题研究主要涉及两方面:对于用户及车辆的位置隐私保护;对于共享出行应用在线预约与交易过程中的用户身份及交易信息保护。

在对位置隐私进行保护时,主要是将基于加密方案的混淆机制、基于安全多方计算的位置邻近测试以及基于隐私信息检索和同态加密的最短路径计算等技术应用于车辆和乘客的匹配过程。还有一些研究工作基于位置隐私保护中常用的空间隐匿和地理模糊处理等非加密方案,通过扩大或扰动报告的地理区域来隐藏乘客的确切区域,从而达到保护隐私的目的,但这样会在一定程度上导致司机和乘客的行程不匹配。

在共享出行的在线预约与交易中,现有研究主要采用匿名凭证、盲签名、电子现金、位置和时间隐身等技术方案来保护用户身份与交易信息的隐私性。Anh等人通过设计基于匿名凭证、盲签名、电子现金、位置和时间隐身、类同态加密等模块构建的加密和隐私增强方案,为乘客提供身份匿名和位置隐私的保护。另外,还有基于拍卖的动态共享出行算法,利用脸书(Facebook)等社交网络来选择共享出行的乘客,以处理隐私和信任问题。


 

安全多方计算

大数据应用通常涵盖多个参与方,在多个参与方共同协作的同时尽可能地保护各方的数据隐私与安全,保证数据在共享和计算时的安全,已成为一个理论和现实意义并重的研究问题。安全多方计算协议允许多方在互不信任的情况下进行协同计算,输出正确结果并保证最大程度的隐私安全性,即任何一方(或多方)均无法得到除自身应得的计算结果和从结果可以推断的信息之外的其他任何信息。

安全多方计算的安全保证通常由一个理想模型来表达。以经典的百万富翁问题为例,两个百万富翁希望通过计算获知究竟谁更富有,而不愿泄露更多具体财产数额的信息。如图所示,两者各自持有财产的数目分别为xy。在理想模型下,该协议在功能上应等同于双方直接将各自输入都发给一个可信第三方,可信第三方进行相应的计算后发给双方正确的计算结果。然而,密码学协议通常不依赖于可信第三方,双方必须直接交互执行具体的协议并最终得到正确结果,且安全性要求参与方虽然直接进行交互,但在信息泄露方面等同于借助可信第三方进行的计算。在此过程中可信第三方是理想化的,仅用于证明以及模型的建立,实际协议并不存在任何第三方。百万富翁问题只是两方安全计算的一个简单实例,一般意义上安全多方计算的目标是实现任意多的参与方协同计算任意函数,并兼顾计算的效率和安全。

 

基于网络语义的黑产推广技术检测与分析

网络黑产包括网络欺诈、网络色情、网络赌博和违禁品买卖等。在躲避监管平台检测的同时,网络黑产主要通过恶意互联网推广模式扩散信息、寻找潜在客户获取利益。主要模式是黑帽SEO,即通过攻击搜索引擎算法提高黑产关键词在搜索结果中的曝光率,使潜在客户能够快速找到交易平台。目前网络空间检测与反检测的技术对抗不断升级演化。

未来黑帽SEO技术演化趋势:(1)多种黑帽SEO手段的综合运用。黑帽SEO手段包括泛域名、恶意关键词填充、构建恶意链接等,将以上技术进行综合应用,构建一个围困搜索引擎的推广池。(2)降低每个页面的恶意推广阈值。基于对多种恶意推广技术的结合,降低每个页面中的恶意推广内容出现的频率,使其在自然语言处理和语义分析的范畴内降低到理论上不可识别的程度,躲避黑产检测。

对于黑帽SEO的检测技术研究趋势:(1)系统性分析。当前针对黑帽SEO技术的研究大多局限于具体的案例,系统性分析较少,防范措施缺乏完善的防护体系,因此,如何系统性地加强针对该类技术的分析检测具有研究意义。(2)实时性分析。当前针对黑帽SEO技术的探索多为被动发现式研究,加强对该类技术的实时性跟踪,进一步预测技术的变化路线,是黑帽SEO检测领域的一个重要问题。(3)完善性分析。通过研究探索完善搜索引擎排名算法,尽可能减少存在的漏洞,提高黑帽SEO攻击的技术难度。

 

 

大数据共享与交易

人工智能和大数据科学技术的飞速发展在揭示数据本身的属性和规律的同时,也为自然科学和社会科学提供了新的方法,并将给数据的充分利用带来巨大价值。

由于数据的潜在价值未知、数据所有者的自私性及对数据隐私安全的担忧等,数据所有者大多不愿免费公开/提供自己的数据。为克服上述困难,一种有效途径是将数据作为商品进行交易,数据所有者通过公开/提供自己拥有的数据获得收益。

数据交易模型分为两种:数据代理模型和P2P交易模型,如图1所示。

数据代理模型:在该模型中,数据代理商作为中间平台为买家和卖家提供交易数据的市场。交易平台由多个协作但非串通的实体组成,这些实体可以包括管理交易的数据代理商,提供存储服务的云,以及负责密钥管理、数据质量监控、异常检测、执法、税收的实体等。我们将所有这些中间机构作为一个整体称为“数据中介”。

P2P交易模型:在该模型中,买卖双方在没有数据代理商的情况下直接交易。其典型示例包括区块链和P2P文件共享网络,如Bit-torrenteDonkeyPruna等。

当前大部分数据交易平台都采用数据代理模型,而P2P交易模型由于具有低效率和不透明的特性,尚未成为主流。

数据交易的流程:数据交易的流程可分为交易前、交易中、交易后三个阶段,每个阶段包含不同的操作和问题,如图2所示。

 

移动社交网络大数据下的营销计算

社交网络作为一种集合人脉资源的平台,通过刻画关系网建立市场渠道,满足了用户的精神和物质需求[1]。同时,移动社交网络应用普遍推出了移动支付的功能,为用户提供了便捷的支付渠道,带来了额外的经济效益,如移动互联网中的内容打赏、信息流广告展示、微商交易及虚拟物品交易等。借助于大数据和移动社交技术,社交应用呈现显著的移动化、本地化特征,是很好的商业导流入口。对一般用户而言,移动社交网络提供了便捷的消遣方式;对企业或个体商户来说,移动社交网络提供了新的推广营销渠道。

为了使经济效益最大化,营销平台通常采用计算的方式制定营销策略,这种方式被称为营销计算。营销计算需要综合数据挖掘、统计学习、机器学习等多方面的技术。然而,在移动社交网络广泛应用的大背景下,制定营销策略需要面对两项挑战:第一,如何利用海量同构网络的数据挖掘用户的行为模式;第二,如何融合多种异构网络的数据刻画更为精确的用户画像。

1给出了移动社交网络大数据挖掘的基本框架,包括数据采集及社交网络构建、数据分析及社交关系强弱度量、网络嵌入向量学习、服务提供四个环节。在数据采集及社交网络构建层面,我们可以利用官方提供的接口,结合URL请求参数的形式获得用户的非敏感信息及传播流记录,重构一个与营销强相关的社交网络(即社交网络中的每一个节点都参与到了信息的传播中),特别是研究在社会大事件中(春运、国庆)传播与营销的关系。在社交关系强弱度量层面,我们可以通过用户的阅读、频率、评价等行为信息刻画网络节点间多维度关系的强弱。在网络嵌入向量学习层面,我们可以通过特定的模型从稀疏的异构图结构中学习到每个节点的数值向量表示,这些向量既可以表示节点的兴趣信息,又可以描述网络的结构特征。这些数值向量是在特定任务、特定目标下通过机器学习方法训练得到的,故在特定场景下的营销计算中具有卓越的效果。在服务提供层面,这些被学习的向量用于在线或离线匹配、识别、推荐等任务,以保证高速、高效的服务质量。

 

 

机器阅读理解:如何让计算机读懂文章

2013年之前,自然语言处理(Natural Language Processing, NLP)研究中的主要任务集中在对词和句子的理解,例如词向量、句法分析、歧义消除等。而对于更复杂的结构,例如段落和文章,因其分析难度大而鲜有相关研究。近年来,深度学习在自然语言处理方面的突飞猛进,使针对句群和段落的语义分析成为可能。

基于人类的认知,判断阅读者是否理解一篇文章最直接的方式就是进行问答考核,即给定文章和与之相关的问题,评判阅读者给出的答案是否正确。因此,机器阅读理解多以问答形式来判断人工智能是否理解文章。机器阅读理解在工业界有着广泛的应用,例如:搜索引擎可以根据用户输入的查询来找到相关文档并精确给出答案;客服对话机器人可以根据用户的问题找到解决问题的文档并显示出具体的解决步骤等。

下图为机器阅读理解任务分类:

根据给定语料的范围,可以将机器阅读理解的任务分为两大类:单段落问答任务和多段落问答任务。单段落问答任务是给定一个段落,其长度通常在数十到数百词之间,对于一个和段落相关的问题,算法需要在段落中找到对应的答案。多段落回答任务通常给定一个大的语料库,包含许多文章与段落。对于一个问题,算法需要利用检索定位到答案可能存在的段落,再进行回答,这使得对于模型准确度的要求大大增加。

根据答案的形式,机器阅读理解任务可分为段落中连续片段和多项选择两种。对于段落中连续片段任务,答案一定是段落中一段连续的文本,即模型只需要给出答案在给定段落中的起止位置。多项选择任务即给定若干备选项,算法需要选出一个或多个正确选项。

根据问答形式分类,可以将阅读理解任务分为单轮问答和有上下文的多轮问答两类。单轮问答中,不同轮的问题和答案之间没有相关性,可以独立求解。大部分阅读理解任务属于该类型。上下文的多轮问答任务中,邻近轮的问题和答案之间存在相关性,即回答第N+1轮的问题有可能需要依据第N轮及之前的问题和答案。这种形式的阅读理解任务更符合人与人之间对话的过程。

 

 

IEEE-CS公布 2019 年十大技术趋势

2018 12 18 日,IEEE-CS公布了2019 年的技术发展趋势:

(1)深度学习加速器,如GPUFPGATPU

(2)辅助驾驶,该技术高度依赖于深度学习加速器进行视频识别;

(3)身联网(Internet of Bodies, IoB),物联网和自我监测技术正在更加靠近人体甚至进入人体内部;

(4)社会信用算法,通过生物识别技术和混合型社交数据流的结合,可以将观察转化为对个人的好坏及是否值得得到公众社会认可的判断;

(5)先进(智能)材料和设备,他们将在医疗保健、包装、家电等领域创造激动人心的应用;

(6)主动安全保护,如在新的攻击类型暴露时能被激活的钩子以及识别复杂攻击的机器学习机制等;

(7)虚拟现实(VR)和增强现实(AR),除了游戏方面,VRAR技术在教育、工程和其他领域也可以发挥巨大的作用;

(8)聊天机器人,除了基本客户服务、虚拟助理,业界也在寻求将这一技术作为提供治疗支持的一种方式,例如扩展到与认知障碍儿童的互动;

(9)自动语音垃圾(robocall)预防,这一技术现在可以阻止被假冒的呼叫者 ID,并拦截可疑来电;

(10)人性化技术(特别是机器学习),机器学习、机器人和无人机的大规模使用将有助于改善各行各业的工作流程和工作效率。

 

 


友情链接:                     

版权所有©1980-2014 北京信息科技大学 信息管理学院
地址:北京市海淀区清河小营东路12号
邮编:100192 | 联系我们