5月26日,数博会期间,邬贺铨院士在“构建数据安全新秩序”高端对话中从大数据支撑数字安全的新秩序、网络安全构建数据安全的基础、人工智能提升数据安全的能力、数据安全推动制度法规的建设四个方面探讨了“从网络安全到数据安全”的相关问题。
一、大数据支撑数字安全的新秩序
中国电子商务、互联网金融、移动支付的发展非常的迅速,但往往伴随着网络诈骗,伪欺诈、个人信息泄露、金融风险和监管的挑战等。黑客可以最大限度地从线上网络、邮件、电子商务、家庭地址等搜集用户数据,只要了解你到过的四个位置,就可以识别出95%的个人信息。
数字业态的出现,给网络安全带来新的挑战,现在可以利用大数据的技术帮助我们改进对这些风险的防范。实际上,加密是一种办法,但不同的用户防范等级不同,加密也不能完全一样,因为这些是有代价的。要分析用户行为,本来是有难度的,这么多的用户怎么能一每个都知道?所以根据用户上网的操作习惯,系统会检测出这个用户平时是怎么走的,这一次怎么会变?这异常的行为,究竟是用户被人家劫持了,还是别人冒充了用户身份上网,可以判别用户的异常,分析这种异常是通过哪种途径进来的,意图是什么?可以提升报警的准确性。
此外,大数据技术可以用来打击电信诈骗。以前很多电信诈骗是伪基站,是移动的,要定位它很困难。现在通过云端机器学习,可以准确定位伪基站。另外可以建成一个防电信诈骗的防范系统。现在很多诈骗是仿冒公检法,我们可以把公检法电话号码进行监控。这样,诈骗的发生率就大大降低了。
另外基于大数据网络安全防御可以弥补数据中心不足。现有的数据中心主要是针对小数据,它的处理能力并没有专门针对大数据,而且传统的分析方法主要是基于规则和引擎。我们有规则库,但没有预先知道威胁,就建立不了规则。而且非结构化的数据,需要特别的数据库,这种数据库安全只是中间件,没有太多的扩展能力,所以大数据安全需要利用更多的支持,更多的感知,我们叫情景要素、情景感知,包括资产、身份、位置等。
第二、网络安全构建数据安全基础
网络地址现在转到IPV6,IPsec不是IPv6的要求,并不会因为它的使用对内容管理增加风险。另外IPV6海量地址可以实行实名制,通过IPV6的地址很多,可以规范地分配,可以从地址上准确看出用户所在地域、用户使用什么业务,可以很好地按区域、按业务精准管理,而且海量地址空间可以有效防止被攻击。
对于云安全,云本身有一些安全措施,并且后台还有一大批专业人员做云安全审查。总的来讲,使用云应该是有安全性的。但是因为云中存储了大量用户数据和客户数据,云计算会成为黑客攻击的重点。在硬件上要多层次保护,云计算从数据备份,采用不同加密等保护处理。这里要说明,很多工业互联网和政府内网都是隔离的,本来以为隔离网络是很安全的,去年5月份发现,内网反而更容易受攻击。因为内网系统没有在线,不小心外网木马带入内网,就很难得到补丁,也没有及时响应。
工业互联网也有同样的问题,所以需要采取严格的安全防范技术。物联网也会面临严重的安全挑战。物联网里面,2017年美国麻省理工评论里,就把僵尸物联网列为十大突破技术之一。前年美国东海岸网络都瘫痪了,由于大量摄像头中了木马,黑客组织在2016年发动了木马攻击,10万个摄像头,每个以8兆的速度,同时对每一个域名服务器进行访问,导致服务器瘫痪,瘫痪后其他很大流量就转到另一个域名服务器,其他的也都瘫痪了。未来区块链物联网,可以帮助解决对物联网安全的防护。
就车联网而言,一辆汽车就是一个巨型的物联网和大型的移动智能终端,本身就是一个很大的电子系统,里面有CPU,有复杂的软件,加上无人驾驶车的出现,这里面安全性就越来越严重了。如果说以前中东一些恐怖分子,是用汽车人肉炸弹来做恐怖活动,现在不需要人了,只要有汽车就可以做炸弹。那汽车的网络安全可以通过区块链技术帮助改进。
实际上,区块链的每一个区块里面包含着交易信息,还有哈希值。哈希值是交易形式的摘要,根据一种算法算出来的摘要,不管有多长,哈希值都是156个比特。哈希值跟交易信息的关联,可以发现这个区块有没有被更改。而且这个区块还被复制到所有跟交易有关联的节点。所有节点应该是一样的,如果某一个节点发生变化,说明它是错误的,可以很容易把它更正过来。前一个区块跟后一个区块通过哈希值关联,假设你有能力改变一个区块,你不需要算到前面的时间,去更改前面的哈希值。所以区块链在整个网络安全上也会起到很好的作用。
第三、人工智能提升了数据安全能力
机器深度神经网络学习,已经通过多层次的迭代。最次姿势识别静止的东西还是动物,是人还是动物,然后再区别是大动物还是小动物,区别小动物耳朵是什么特征,眼睛是什么特征,分类以后,人介入以后再告诉它这是猫。根据这个分类得到的经验,同样需要一层层识别,最后可以识别出这是什么。
人工智能可以通过学习,不用再在机器手臂内置程序,而是通过模仿人的手臂就可以动作了。另外随着概率论技术的进步,使得不确定的数据现在可以计算了,所以人工智能现在发展很快。我们知道AlphaGo,通过多台设备,48个TPU,搜集了所有围棋棋谱,通过三个月的培训就可以了。新的阿尔法PLUS只学习了围棋规则,跟AlphaGo对弈是100:1,所以未来人工智能在安全领域也会发挥大量的作用。
人工智能本身是双刃剑,利用人工智能发展漏洞,黑客也可以利用人工智能发现网络的漏洞,人工智能降低了黑客的门槛,黑客不需要多少知识就可以变成黑客了。现在利用人工智能可以模仿熟人的声音,可以变声,可以实现钓鱼工具。
所以说,人工智能本身就是把双刃剑,可以要更好地利用人工智能。最重要的一点,人工智能可以干很多需要大量人力去重复的工作。比如很多网站都需要大量安全分析师去审查是否存在黄色照片,而现在人工智能技术一分钟就能完成一个安全分析师一年的工作量。人工智能可以大大提高工作效率,可以对流量进行异常监测,也可以识别很多伪文件。
第四、数据安全推动制度法规建设。
工信部出台了《大数据产业发展的规划》,2016年国家出台了《网络安全法》,这些都对大数据开发利用有了基本的规范,但还有待于基本化。各政府部门的数据是不是应该完全共享?不见得。监察部的数据不能跟其他部门完全共享,全国人大的数据不太可能跟国务院数据完全共享,所有共享都是不对称的。中央政府对地方政府的数据共享也是不对称的。政府数据共享到什么层次;省级、市级共享到什么程度,政府跟企业数据共享都是不对称的。
政府提供给企业的数据,既能提供给企业,也能提供给公众,所以企业不可能有特殊性。另外从国家安全出发,政府是有权调动企业数据的。但企业是不是有义务向政府提供数据?我认为企业没有义务把自己的所有数据都提供给政府。
政府从企业调用数据以后,谁来保证企业商业秘密不泄漏。谁调用谁就有责任,企、事业单位之间的数据是可以共享的,但企业单位之间的共享,本身利益平衡实际上是交易行为。
一般来讲,数据开放方面,除了国家机密、企业秘密和个人隐私,这些政府的数据原则上都是开放的。但开放本身是要进行过滤和脱敏,不是原封不动的,而且开放需要经过清洗。也需要有一定的规则。
目前我国数据开放做得不是很好,政府部门不知道哪些东西可以开放,哪些不能开放,也不知道怎么过滤和脱敏。数据在进行交易之前,需要对数据进行确权,另外交易的数据必须要有质量评定与估价。政府的开放数据可以免费,隐私数据,给多少钱也不能卖。所以政府数据没有交易的问题。我们有些交易中心拿政府数据来交易,这是不对的。
运营商和互联网内容供应商所搜集的用户数据,原则上所有权不是他的,是用户的。但运营商和互联网企业拥有对数据脱敏和挖掘以后加工数据的所有权,可以挖掘以后提供咨询报告给政府,交易平台也不能截留数据。所以数据交易上,数据源的稳定性、更新频率等方面还需要明确责任。
现在,欧盟开始实现GDPR,有人说,这个法律是有史以来对个人数据保护最严的。他规定个人数据是指欧盟内部的,但执行法律的对象不限于欧盟内部。欧盟之外,只要涉及到欧盟公民的数据,都受这个法律管制。如果你违反,罚款是一千万欧元,或者企业上一财年全球营业总额的2%。哪个数字高就罚哪个。按照他的规则,他认为严重就加倍,如果你的营业额是几百美元,你就叫交4%。
另外一个问题,范围太宽。个人数据是讲什么?跟个人隐私、个人数据有关的银行帐户、医疗信息、IP地址。目前看来,只要跟欧洲有关系的中国的互联网企业,绝对已经触犯这个法律了。在这点上,我认为中国需要制定个人数据保护,但不能效仿欧盟GDPR。如果太严了,就不利于互联网事业发展了。