Imperva首席技术官揭秘数据安全领域机器学习的真谛:超越人力,定义未知
如今,机器学习已经成为数据库及数据安全领域中绕不开的核心技术。机器学习可以提供人力无法达成的大规模分析和收集数据的能力,可如果缺乏有关待解决问题的专业领域知识,机器学习技术本身仍然无法提供有价值的信息。就数据库内部威胁识别而言,最大的挑战不在于通过机器学习输出违规告警,而在于如何确定典型用户或系统的数据访问何时出现异常,以及哪些情况是有危害的,哪些仅仅是异常情况。
日前,Imperva首席技术Terry Ray对于机器学习在数据安全领域的有效应用问题给予了深入的解答,揭秘了ImpervaCounterBreach解决方案如何能够超越传统的策略设置方案,准确识别不可预知的数据访问,并保护数据访问的安全。
Terry Ray首先由机器学习的类型区分入手,把机器学习分为监督式学习和无监督式学习。监督式学习可以完成图像识别、标记分类等功能,需要预先设定针对性的人工策略,对于不可预知的事件无能为力。而Imperva解决方案中采用的无监督式学习,更接近大众心目中的“人工智能”,增加了异常检测、检索、主题抽象等基本技术,并综合了专业领域知识、数据收集和解析、制定基准和鉴别敏感数据的能力,具有更高的自动化属性,极大地减少了对于人工的依赖性。
为了让机器学习的结果更有意义,Imperva特别使用了聚类的技术。“聚类使得我们可以把许多不同的信息聚集在一起,我们再把其他的数据和我们拥有的领域专业知识结合在一起,切实使得这些数据变得有价值并与语境关联。”Terry Ray表示,“真正重要的关键和差异在于,Imperva把我们的专业领域知识和机器学习进行了整合。”
专家领域知识是我们持续在数据库、文件、应用系统上年复一年累积的经验,这些经验可以帮助我们解决人力无法处理过大数据量的问题。根据Terry Ray的估计,“在大多数情况下,大多数人在告警超出正常量5%的时候就已经无法忍受了,更不用说去查看那些生成这些告警的原始数据了。”
与此同时,“我们不仅仅需要收集大量数据的技术,同样还需要能够准确的解析这些数据。”不同的数据库使用不同的语言,必须有能力解析每一种语言,才可以根据解析后的数据创建有效的模型。Terry Ray介绍说,Imperva从事数据库服务器、文件服务器、应用端的访问数据解析已有14到15年的时间,长年累积的经验,令他们可以识别30种不同的数据库语言和文件语言,从而无碍地完成数据解析。
除了数据解析外,还需要有判断的基准,帮助我们鉴别敏感数据。Terry Ray说:“我们建立了基准,就可以基于基准来发现各种异常。基线的异常是识别数据违规的基础。它告诉我们有什么不对了。”在制定基准的方面,Imperva不仅单独观察用户或数据,而是把二者结合起来。Terry Ray模仿机器学习的口吻举例说:“看,我明白这是一个人类用户,而这个人类用户正在触碰只有应用程序会触及的数据。”这不是一个人工的策略,而是人类用户与数据交互过程中由机器学习确定的模式。
能够确定某人如何与数据交互,何时与数据交互,以及与数据交互的原因是这里的关键。Terry Ray再次强调,这一切的基础都是机器学习和Imperva专业领域知识的结合。“如果你没有机器学习来帮助你,那么由人类来回答这些问题几乎是不可能完成的。”
Imperva CounterBreach解决方案的独特优势,正在于其不再需要根据客户的需求而人工设定策略。“但是谁知道你所有的数据库和你所有的文件服务器的使用情况呢?答案是:没有人。所以我们使用CounterBreach自动化地为你完成这样的工作。”Terry Ray总结说:“引入自动化的价值,正在于它能让我们理解和预测那些不可预测的东西。”