从“反爬”到深度态势感知,航空业求解出行安全新路径

来源: 2018-12-05 09:57:36

  如果能够“看见”时间,那么人类都会变成以生命为长度、四维世界里的生物,详细记录每一刻发生的变化。在信息世界里,无形的时间维度被数据量化,记录着我们在城市之间的起降,出行的始终……点连成线,四维空间正变成现实。

  在航旅类App上,用户的飞行记录绽放出一张个人旅行地图。国际航空运输协会数据显示,2017年全球总共有3680万个航班起降,平均每天约有10万个航班,千万乘客与航空系统交互。在这张巨大的复杂地图里,无数真实用户行为里夹杂着巨量“虚假”访问,甚至恶意访问行为,其中最常见的就是网络爬虫。

  按照授权情况,爬虫可以分为合法爬虫与恶意爬虫。云鼎实验室研究发现,恶意爬虫流量最大的行业就是出行,包括航空、酒店、火车票预定等。据《科技日报》报道,某订票网站的页面每分钟浏览量为1.2万人次,真实用户只有500人,爬虫流量占比95.8%。即使在淡季,虚假流量也占到网站访问总量的50%。由此带来的成本消耗和安全威胁令航空业不堪其扰。

        航司健康的寄生虫

  入侵航司网站的大量恶意爬虫,绝大部分来自黑灰产的爬虫团伙,在低频爬取航司票务信息后,通过虚假身份信息抢占打折机票,待真实用户通过灰色平台购买机票,再将占有的座位退出,随后使用真实用户身份购入。航司对旅客的优惠转化成第三方灰产的非法收入,使得航司蒙受损失,也增加了网站压力和系统成本。

  更令人不安的是,恶意爬虫通过模拟真实用户盗取后台接口,获取旅客姓名、身份证、手机号、积分卡等,造成个人信息泄露。而随着新网络安全法的实施,对于个人信息的保护显得尤为重要。

     无监督“免疫系统”实力反爬

  白山云科技创新研发的新一代态势感知平台ATD,专门针对解决上述问题。

     态势感知实际效果图

  通过查订比(查询订票比例,通常查订比越高,爬虫风险越大)确认反爬的效果。基于ATD无监督聚类算法,在繁杂的海量数据输入中,确定事件边界,根据场景作出相应处理。ATD深度引擎对访问请求进行特征建模形成向量,对于特征向量执行聚类算法,最终将小众群(离群点)进行行为特征引擎的监督,精准识别低频攻击,从而打击灰色产业爬取航班、票务信息,杜绝恶意占座等行为。在多家航司服务实践中,ATD算法模型不断自我优化完善,其中帮助某航司客户的查订比下降90%,有效防御恶意爬虫的围攻。

   某团伙爬虫示意图

  在保护旅客信息方面,ATD学习引擎针对用户登录行为按照文本特征和行为特征进行学习。

  文本特征学习针对业务接口的特征,包括输入参数数量、输入参数类型、输出返回码分布,输入和输出的对应关系等,建立业务在Request上的文本规律。当任何一个请求到来的时候,ATD就可以根据之前的文本特征学习结果作出异常概率评估。

  行为特征学习针对每个用户在一段时间内连续行为的规律,比如用户起始是在哪个页面,中间经过哪个接口,最终访问到达哪个业务。通过学习上述行为,ATD就可以为业务建立一套访问规律,从而当有异常行为发生时,可以迅速发现,准确识别。

  基于文本特征和行为特征,ATD在异常账号登录时可以准确判断,及时拦阻并对威胁事件全面回溯,保护用户隐私数据,防止财产损失甚至人身伤害。

    学习引擎未知问题发现

  不同于行业内其他安全产品,ATD所采用的无监督学习算法,无需人工介入,在不依赖人为设定规则的情况下即可捕捉潜在威胁。而其特有的旁路部署方式,在完全不影响业务系统的情况下,有效识别并旁路阻断风险。

  深度态势感知护航出行安全

  爬虫只是航司面对的威胁之一。此外,包括安检、系统、AODB(机场营运数据系统)等在内的多个航司系统,每天产生巨量交互日志,面对数据安全性、系统运营稳定性、信息准确性等问题,整体安全态势感知能力建设就显得尤其重要。

  白山ATD在旁路接入系统数据后,针对不同场景需求自动选用实时引擎、深度引擎和学习引擎,整个算法过程不依赖规则,即可在事件发生的同时立即作出分析,判断攻击状态成功与否、还原攻击场景、判断原因和内在维度特征,解放安全工程师的人力并提高其效率,最终实现对于航司外网、业务、内网的三层智能防御。

  与此同时,不同系统的接入不断为ATD算法提供关联分析的数据,自动为各个复杂事件建立内在关联,提高识别准确率和召回率,不断完善用户行为肖像。在风险来临之前,ATD通过极其微弱甚至不相关的异常行为即可预测潜在风险,站在系统整体高度实现深度态势感知。“通过ATD系统,不仅将查订比显著降低,而且自动感知出一些未知异常,包括验证码绕过、越权操作、非法占座等威胁,最终提高了航司整体安全性。” 白山合伙人兼工程副总裁丛磊说,“期待可以帮助更多企业通过AI算法在信息世界的四维空间里更安全。”