Imperva首席技术官揭秘数据安全领域机器学习的真谛：超越人力，定义未知

如今，机器学习已经成为数据库及数据安全领域中绕不开的核心技术。机器学习可以提供人力无法达成的大规模分析和收集数据的能力，可如果缺乏有关待解决问题的专业领域知识，机器学习技术本身仍然无法提供有价值的信息。就数据库内部威胁识别而言，最大的挑战不在于通过机器学习输出违规告警，而在于如何确定典型用户或系统的数据访问何时出现异常，以及哪些情况是有危害的，哪些仅仅是异常情况。

日前，Imperva首席技术Terry Ray对于机器学习在数据安全领域的有效应用问题给予了深入的解答，揭秘了ImpervaCounterBreach解决方案如何能够超越传统的策略设置方案，准确识别不可预知的数据访问，并保护数据访问的安全。

Terry Ray首先由机器学习的类型区分入手，把机器学习分为监督式学习和无监督式学习。监督式学习可以完成图像识别、标记分类等功能，需要预先设定针对性的人工策略，对于不可预知的事件无能为力。而Imperva解决方案中采用的无监督式学习，更接近大众心目中的“人工智能”，增加了异常检测、检索、主题抽象等基本技术，并综合了专业领域知识、数据收集和解析、制定基准和鉴别敏感数据的能力，具有更高的自动化属性，极大地减少了对于人工的依赖性。

为了让机器学习的结果更有意义，Imperva特别使用了聚类的技术。“聚类使得我们可以把许多不同的信息聚集在一起，我们再把其他的数据和我们拥有的领域专业知识结合在一起，切实使得这些数据变得有价值并与语境关联。”Terry Ray表示，“真正重要的关键和差异在于，Imperva把我们的专业领域知识和机器学习进行了整合。”

专家领域知识是我们持续在数据库、文件、应用系统上年复一年累积的经验，这些经验可以帮助我们解决人力无法处理过大数据量的问题。根据Terry Ray的估计，“在大多数情况下，大多数人在告警超出正常量5%的时候就已经无法忍受了，更不用说去查看那些生成这些告警的原始数据了。”

与此同时，“我们不仅仅需要收集大量数据的技术，同样还需要能够准确的解析这些数据。”不同的数据库使用不同的语言，必须有能力解析每一种语言，才可以根据解析后的数据创建有效的模型。Terry Ray介绍说，Imperva从事数据库服务器、文件服务器、应用端的访问数据解析已有14到15年的时间，长年累积的经验，令他们可以识别30种不同的数据库语言和文件语言，从而无碍地完成数据解析。

除了数据解析外，还需要有判断的基准，帮助我们鉴别敏感数据。Terry Ray说：“我们建立了基准，就可以基于基准来发现各种异常。基线的异常是识别数据违规的基础。它告诉我们有什么不对了。”在制定基准的方面，Imperva不仅单独观察用户或数据，而是把二者结合起来。Terry Ray模仿机器学习的口吻举例说：“看，我明白这是一个人类用户，而这个人类用户正在触碰只有应用程序会触及的数据。”这不是一个人工的策略，而是人类用户与数据交互过程中由机器学习确定的模式。

能够确定某人如何与数据交互，何时与数据交互，以及与数据交互的原因是这里的关键。Terry Ray再次强调，这一切的基础都是机器学习和Imperva专业领域知识的结合。“如果你没有机器学习来帮助你，那么由人类来回答这些问题几乎是不可能完成的。”

Imperva CounterBreach解决方案的独特优势，正在于其不再需要根据客户的需求而人工设定策略。“但是谁知道你所有的数据库和你所有的文件服务器的使用情况呢?答案是：没有人。所以我们使用CounterBreach自动化地为你完成这样的工作。”Terry Ray总结说：“引入自动化的价值，正在于它能让我们理解和预测那些不可预测的东西。”

关键词：