AI打击网络犯罪？缺了人还是不行|ai|网络安全

AI打击网络犯罪？缺了人还是不行

2017-11-13 16:16:19　来源: 网易科技报道举报

分享至

（原标题：Robocops can't tackle online crime without human assistance）

网易科技讯 11月13日消息，据VentureBeat报道，随着网络犯罪的兴起，从金融、保险、医疗到大型电子零售商等各个行业的公司，都对其担心不已。仅2017年上半年，就有超过20亿条用户记录被泄露。从这些被黑客窃取的PII(个人可识别信息)之中，诈骗者可以获得用户账户的访问权、创建合成身份，甚至还可以制作虚假企业信息来进行各种形式的欺诈行为。

所以，企业正疯狂地寻求加强自家安全团队的方法。但巨大的人才缺口导致网络安全行业招聘十分困难，信息系统审计和控制协会（ISACA）发现，申请网络安全工作的求职者中，只有不到1/4的人符合资格。ISACA预测，到2019年，全球网络安全专业人才缺口将达到200万人。

作为应对之策，许多公司都转向人工智能（AI），希望用AI来填补这些空缺。这就产生一个非常重要问题：AI警察准备好了吗？

培训和监督最重要

AI显而易见的好处之一是在不需要人工介入的情况下提供身份验证。通过监控隐形数据点(即用户环境或地理位置）、设备特性(电话元数据)、生物识别技术(心跳)以及用户行为(打字速度和风格)等，AI可以比人眼更快地验证个人的身份。许多企业已经看中AI的巨大潜力，正如FICO最新的“猎鹰联盟”模型所展示的那样，在不增加假阳性率（即用户未进行网络犯罪，但将其判定为犯罪的比例）的情况下，将CNP（生成对抗性网络）的欺诈检测率提高了30%。

虽然AI的身份验证能力可能超过人类，但没有人类的战略指导来缓解前期没有足够数据积累的问题，识别网络犯罪依然显得太过复杂以至于无法解决。考虑到网络安全环境的复杂和基础设施的匮乏，从AI警察那里获得无监督的网络监测依然无法成为现实。对AI来说，识别大数据中的模式是个令人印象深刻的壮举，但这些分析本身并不具备对抗欺诈和消除低效CX的能力。

与此同时，监督机器学习技术依赖于人力提供的测试用例，以便帮助训练算法。举例来说，受监督算法只是计算出给定汽车模型和天气条件的最佳轮胎周长，而不是重新发明轮子。虽然在某些领域监督学习的作用有限，但它可以从大数据中提取有效模式，并提供可操作的方法。

AI和机器学习能够分析大量数据，并在数据中识别出人类永远无法提取出来的模式。但是，为了能更好地检测欺诈和提供更好的客户服务，仍然需要人类来把握方向，并对AI进行正确的设定。

准备与AI首次接触

当AI遇到不符合其已归纳出模型的新数据集实例时，可能需要人类介入来帮助解决这个问题，并训练算法如何在未来做出反应。为了更好地理解这种相互作用，我们用一个军事上的例子来进行说明。在战争中，俗话说“没有任何计划能在遇敌后继续执行”。当然，你可能会提前接触敌军，但这是否意味着你应该在战斗开始前就放弃原定计划呢？不，你应该遵循指挥官的意图，寻找计划细节和执行背后的原因。这样，即使你的计划失败了，你仍然可以完成你的任务。

同样，在身份验证中，敌人(骗子)试图窃取你的信息，他们会在你的全通道防御中找到新的缺口。这与机器学习的许多常见应用形成了鲜明的对比。例如，气象学家的机器学习算法在过去几年中大大提高了预测精度。然而，飓风并没有试图愚弄气象学家的模型。它们的表现与模型相符，尽管有时程度会更强烈，但也是由于气候变化所致。

合格的AI需要能够识别欺诈者的新手段。如果不了解网络安全指挥官的意图，AI将无法适应这一过程。因此，需要人类来不断地指导和完善这些强大的算法。有人可能会问，GAN（生成对抗性网络）是不是一个替代手段呢?在机器学习中，GAN（生成对抗性网络）是个相对较新的概念。本质上，他们涉及到两种机器学习算法。算法A做一项工作，而算法B则积极地尝试寻找算法A的漏洞。

举例来说，在某个GAN图像处理算法中，算法A试图识别给定图像中是否包含一只鸟。随着所看的图片越来越多，它提高了从无鸟图片中区分出有鸟图片的能力。与此同时，算法B努力创建导致算法A识别错误的图片。应用于身份认证领域，算法A代表AI认证，算法B则代表试图在你的系统中寻找漏洞的黑客。

在有效部署的情况下，GAN在生产模型性能方面的表现优于传统技术，可以帮助AI主动防范未来的犯罪网络活动。然而，即使是GAN中，一个算法也不能理解网络安全指挥官的意图。而这就是监督人类再次发挥作用的地方。

防止误报

哪怕最好的算法也无法识别某些边缘案例，因为算法仅仅基于归纳决策和过去的经验。对于那些归纳规则的例外，我们需要人类眼睛帮助。否则，看似无辜的客户互动可能会产生非常糟糕的后果。

机器学习算法正在分析大量的数据，并在这方面做得很好。但其得出的结论依然是概率性的，因为规则总是有例外的。就像我们不能百分之百地识别骗子一样，即使在制定了无穷无尽的应急计划之后，有些被疑诈骗的客户实际上可能是真正的客户，这是情有可原的情况。

举个例子：客户乔斯（Jose）经常使用来自墨西哥的VoIP连接从休斯顿打电话。他在电话里紧张不安，而你的生物识别行为传感器也会发现。此外，他还试图从他的账户中激活5000美元的电汇。大多数机器学习算法（即使在被监督的情况下）都会将其标记为欺诈。然而，乔斯解释说，在他的房子被哈维飓风淹没后，他去了墨西哥和家人住在一起。他需要钱来为他在墨西哥的祖母支付医院账单，而他的祖母从来没有告诉家人自己的健康状况有多糟糕。

你要怎么做？这是一个非常棘手的情况，因为如果你拒绝这个请求，你可能会损毁公司形象。更糟的是，间接伤害了你的客户祖母。但欺诈者也经常利用天灾人祸。对于这些情况，算法无法给出令人满意的答案。

虽然在不久的将来，网络安全部队可能主要由AI组成。但今天，人类在打击欺诈和追求客户体验方面仍然是至关重要的。我们需要能够识别出网络安全背后的“原因”，定义关键的指标来监控我们算法中的错误，并对那些不适合AI模型的错误和误报继续交给人类决定。（小小）