浅友们大家好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你特别想听到谁的故事,:shizhongmini)告诉我。
无数人离开了世代栖息的土地和乡村,进入了坚硬的城镇,肉身演绎了这个古老的经济发动机浴火重铸的过程。此为“肉体进城”。对于很多人来说,肉体进城需要耗费半生,甚至两代人的时间;而进入互联网的世界,你可能只需要一部手机。此为“精神进城”。无论是在国贸顶层俯瞰车流的白领,还是在山峦上照看羊群的孩子,他们进入的淘宝,是同一个淘宝。这一刻他们所有的财富、地位、文化差异都被抹平,他们是相等的两束电流。说阿里巴巴是座城,也因为它真的像一座城。拿淘宝来说,在这个城池里,有挑挑担担的贩夫,有张罗吆喝的坐贾;有闲逛养神的阔少,有买米下锅的主妇。混迹在人群之中,还有贼眉鼠眼的偷手,以次充好的奸商,深谙套路的骗子,投机倒把的黄牛党,还有像蚊子一样趁人不备就爬上去吸血的羊毛党。事实上,这些人是城市的阴影。自古以来,没有一座城市能够完全禁绝。但是,我们之所以能够在这座城里放松地买卖闲逛,不会担心我的钱包被偷,不会担心买到假货,不会担心被路边人拉过去分分钟套路,是因为有一大群人在替我们负重前行。这些人,殚精竭虑地和“城市的阴影”对抗,20年金刚怒目一刻不敢停歇。让人唏嘘的是,没有市民给他们授勋,甚至鲜有人注意到他们的存在。但他们心里清楚,自己哪怕打盹半刻,阴影就会如鬼魅重来,沙尘席卷人群。他们是城墙,是轻骑,是捕快,是衙门,是军师,是密探,是一个个有血有肉的人,但他们有个共同的名字:阿里安全。那是马老师的田园诗时代,如今的阿里巴巴掌门人张勇当时还在普华永道任职,今天人们耳熟能详的支付宝、天猫和“双11”还都不存在。那时的淘宝网也还是个宝宝,是个开放的“市集”。人们可以拿着自家的好东西来这摆摊,买主也可以来闲逛。可以说是想来就来想走就走,没那么多规矩,大家都很自觉地靠温良恭俭让维持着基本的买卖礼仪。来逛淘宝的人越来越多,他们兜里带的钱也越来越多,事情就不那么单纯了。眼看隔壁老王的茶叶蛋被围得里三圈外三圈,一天恨不得把全城的鸡蛋都煮来卖了,而自家的韭菜一天就卖五把,映得自己脸儿绿,自然有些“脑子活泛”的商家就希望使用点儿小技巧。比如,雇亲戚当托儿来自家排队买东西,营造出热闹非凡的景象。你想想看,一个商家的七大姑八大姨这些亲戚总归人数有限,麻烦人家当托儿过两天还得请人家吃饭,到头来得不偿失。有没有简单一点的方法呢?当然有,那就是自己注册一些小号,然后用程序控制“刷单”,这样想刷多少刷多少,再也不用担心亲戚不够用了。故事讲到这,淘宝面临的第一次安全危机就来了,这就是——“虚假注册”+“刷单”。于是,在赛博空间的淘宝集市里,你会看到一个神奇的景象:有大量不明来历的铁青面孔来到集市,来了之后也不逛也不看,闭着眼径直走到X摊位,买一把韭菜就走,然后再也不来了。。。(这就是典型的机器人行为,刷单程序就是这么设定的。)这里中哥得插入一下,和你讨论一个哲学命题:集市里的商家给自己找托儿刷单,又没有去砸邻家的场子,淘宝作为这个集市的管理者,应不应该管?答案是:虽然刷单行为没有直接破坏别人的经营,但是它却破坏了公平竞争的环境,而没有人愿意在不公平的市场上做买卖。所以,这个问题的答案很肯定:淘宝不仅要管,还要非常严肃地管。故事到底怎么发展呢?我们把镜头拉回淘宝这个“赛博市集”。眼看大量的机器人从四面八方涌来,仿佛丧尸围城,淘宝网刻不容缓,需要马上构建起一道城墙,先把机器人挡在外面。于是,从2006年开始,一道高墙在阿里巴巴周围筑起,只留下一扇城门,城门上有监控系统,专门判断来人是真正的人还是机器人。如果是人,请进;如果是机器人,对不起您也甭进来了。瞬间,世界安静了。集市又恢复了如初的和谐,遵纪守法的人们继续嗨嗨皮皮地做生意。但是,安静并没有持续太久。因为,阿里巴巴的同学发现,居然有机器人带着人类的面具,骚骚地混过了城门的检验。不过吃瓜群众别担心,淘宝作为这个市集的最终管理者,并不会因此失去对局势的掌控,因为他们还有一个更高维度的杀手锏——警告商户。如果某个商户总是用托儿混进城门,把市场搅得乌烟瘴气,那么“跑得了和尚跑不了庙”,淘宝作为平台一旦发现就会对商户进行相应的处罚。基于以上原因,刷单这种行为一直没有超过“我擦嘞闹不住”的警戒线,而且事实上随着淘宝管理水平的完善,从2013年开始就越来越少了。刷单是少了,警报可没有解除。最危急的时刻大概出现在2015年。从空中俯瞰,就在淘宝城池的对面,聚集了一片黑暗森林,一条黑色产业链已经集结成军,他们有组织有纪律有技术有工具,专门生产可以绕过城门的机器人。咦,不是说机器人刷单会让商家被处罚吗?坏人造这么多机器人卖给谁用呢?呵呵,这些机器人的目的早已经不是最初的刷单了,而是混在真实的顾客里迅雷不及掩耳盗铃地整点抢秒杀,抢优惠券,抢 iPhone 新品之类稀缺的货物。注意,这类黄牛党和羊毛党机器人可是没有“庙”的“和尚”,他们是赤裸裸地来占便宜的。假设一次秒杀活动放出10台 iPhone,有9台都被羊毛党用机器人抢到了,一旦发货,谁都追不回来。放眼望去,2015、2016两年也是整个中国遭受羊毛党、黄牛党进攻最猖獗的时候。你可能还记得,那两年肆意横行的春运抢火车票插件,让春运潮中浩浩荡荡的焦虑面孔更加焦虑,成为这个国度难言的伤痕。(为此中哥还写过一篇《中国焦虑图鉴》,感兴趣的浅友可以去复习。)根据阿里的同学回忆,由于黑产诡计多端,2015年有几次秒杀活动,涌进来的流量很大一部分都是机器人黄牛党,就像大风吹透了墙壁,让人心惊。“iPhone 被抢”还不是最严重的,更可怕的是,到了“双11”的时候机器人会突然暴增,数以百亿计像海潮一样袭来,连淘宝平台本身都有可能被垃圾访问挤垮。旌旗猎猎,众将列立两旁,一场巨大的技术反击,掀开重幕。我们的第一位故事讲述者,铁花,就是彼时临危受命的战士之一。铁花是2006年加入淘宝的老阿里人,他有个特异功能:能把代码编制得密不透风,最适合营建万人依靠的基础设施。(中哥曾经写过铁花的故事《我认识了一位阿里巴巴禁卫军》,感兴趣的浅友可以点进去复习。)2015年底,铁花正好离开阿里安全团队去做创新项目。安全部门专门把他找回来,交给他一个了不得的任务:在最短时间内重修城墙!刻不容缓,铁花带着童鞋们扛起铁锹就干。半年过去,一道新的城墙诞生。厉害的角色都有名字,这座新城墙也不例外,它叫“霸下”。传说龙生九子,六子就名霸下。这哥们最能负重前行,你在旅游景点看到的石碑下面的动物就是它。铁花就取它这个“镇宅”的效果。注意,说霸下是个城墙,它本质上却是一台超级计算机引擎,它的工作原理是:对每一个访问请求都进行“安检”,看看你身上有没有“违禁品”。于是问题来了:安检得越细致,就越能分辨好人和坏人。但是,当动辄几亿请求涌过来时,如果对每个人安检时间过长,就会让用户排队比 ofo 退款的队伍还长。在现实中就表现为“界面一直转圈圈,迟迟无法下单单”,这肯定不能忍。所以,霸下面临的最大技术难题是:又要马儿跑(高性能),又要马儿少吃草(少耗时)。按下葫芦浮起瓢,很愁人。眼看大军压境,铁花没有退路。他拿出毕生的绝学,带着同学们一行行代码死抠,既然统一安检效率不高,就把“老人”“小孩”“男人”“女人”各种安检场景都分开,各自做了精巧的优化。霸下一进入战场,大半儿的机器流量就像射在城墙上的剑,应声坠地。然而事情没那么容易,仍然有少量机器流量可以巧妙地骗过检验。阿里巴巴的童鞋们皱着眉头分析,发现这类机器流量大部分都来自于手机。用手机做“机器人”,比用电脑做“机器人”的隐蔽性更高。因为电脑的参数相对固定,如果做了坏事就被霸下用小本本记下,下次很容易就被识别。但手机是会移动的,参数经常变化,霸下就可能看不出来。硝烟里,霸下举着发报机:“呼叫总部,请求增援!”于是,“轻骑兵”阿里巴巴移动安全团队挺身而出。典扬就是当年移动安全团队的一员。回忆那时,他吐槽:“动不动黑产就模拟出几百万台手机冲进来秒杀,连卫生纸都抢,太丧心病狂了。”之所以称为“轻骑兵”,是因为典扬他们的战场在“手机淘宝App”的方寸空间里。他们通过巧妙地运用大数据,试着分析出羊毛党和普通人的区别。举个简单的栗子:如果一个账户频繁地在不同种类的手机上登录,那么它就大概率是被坏人控制的。反之一个手机上反复登录不同的淘宝账号,这也有问题。
这只是最简单的情况,复杂的判断模式还有很多。凭着这些骚操作,移动安全团队“猜”出了一套绝密的黑产“黑名单”,这份黑名单可以直接告诉霸下拿不准的那部分人谁好谁坏,简直就是雪中送炭的补充。下次看到黑名单里的设备账户访问淘宝,霸下就直接让它圆润地离开。随着时间推移,为霸下提供数据补充的团队越来越多,霸下也越来越聪明。至此,霸下如史诗一般直耸云端,在黑暗森林的包围中,保卫着淘宝这个世外桃源。一旦霸下识别出了这个流量是黄牛党,就一定要拦截它吗?
实际上,阿里巴巴的童鞋们并不是那样做的。在2016年 iPhone7 上市时,无数黄牛党指挥机器人冲向天猫准备抢购,结果铁花团队通对羊毛党人数掐指一算,指挥霸下专门为黄牛党开了一个小场地,他们可以进来抢,但是抢到的概率极低,最后核算下来,一个黄牛党无论指挥多少台机器人一起抢 iPhone,他抢到的概率和一个正常人是一样的。如果你还不理解阿里巴巴为什么这样做,我不妨换一个比喻:按道理说,春运时如果铁总知道谁是票贩子,应该一张票都不卖给他。但票贩子也是公民,他过年想要自己买票回家,你卖不卖给他呢?说到这,可能你会有一些感觉:阿里巴巴的目的,不是逼死黄牛党,而是用技术把黄牛党还原成一个真实的人,不给他额外的好处,但也不会减损他应有的权利。这才是治理一座城的理念。到了2017年,一部热门手机上市当天,又有一堆黄牛党冲进天猫来抢购。开始,霸下还用最强的策略限制他们的购买成功率,过了半小时,阿里的同事们突然发现,正常的顾客并不是特别喜欢这款手机,没有什么人抢。于是,阿里的童鞋相视一笑,霸下突然把闸门放开,这下,黄牛的抢购程序抢到了一堆手机,过了几分钟黄牛党意识到不对劲,手动停止了抢购。。。铁花说,今天超过99.8%的机器流量都在霸下的掌握中。你可能会替阿里巴巴松口气:“这下万事大吉了!”如果这么说,多半是因为你没当过市长。阿里巴巴是座城,机器人搞定了,还有好几亿真人等待着这帮技术宅搞定呢。。。阿里巴巴这座城里有形形色色的人,很多绝非善类。给你举三个例子:机器刷单被霸下拦住后,很多店铺又开始了真人刷单。在论坛或者社交群里找来想做兼职的人,组织他们去给某店铺刷单,刷一单返几块钱。真人刷单的组织者渐渐多起来,其中少部分头头发现,这些找兼职的人很傻很天真,干脆我许诺他们刷单返现,然后卷钱跑路,岂不来钱更快?于是就有了刷单诈骗。恶意会传染。看到利益,很多买家也动起了歪心思,把某个商家的东西全拍下来,就是不付款,这时商品就被锁定,无法卖给其他顾客,以此要挟商家给“保护费”,这就是“恶拍”;还有人买下东西,给差评,敲诈商家花钱平事儿,这就是职业差评师和“恶评”;还有人让包邮商家把超大杠铃寄到新疆,然后不收货,来回两次运费都要商家出,以此要挟,这叫“恶退”。对于这些真人干的事情,识别机器流量的“城墙”霸下就爱莫能助了。于是,阿里安全的第二个神器就这样登场了。那就是——MTEE。MTEE 也是一台超级计算引擎,说具体点是“执法引擎”,它有点像城里的捕快。例如,大清律法写着“当街行骗,杖责四十。”那么很简单,捕快一旦发现有人行骗,就拉过去打四十下,以儆效尤。同理,你把一条规则告诉 MTEE,例如:“如果某账号连续三天都在一个店铺买东西,每次买十件以上,这就是刷单,依律要处罚账户。”当 MTEE 发现有人的行为符合这项规定,就执行处罚。但那时的 MTEE 上执行的规则还处在笨笨的阶段。为什么说笨笨呢?就拿刚才中哥说的那条规则为例:凭什么说我连续三天在同一个店铺买东西,我就是刷单呢?万一我就是喜欢这家店的东西呢?你说我刷单,我还说你污蔑呢!你可能感受到了,人定义的规则总是过于简单、绝对,有可能误伤。虽说 MTEE 是官兵,但是官兵也不能随便抓好人啊。。。所以阿里规定,依靠自动规则拿不准的案例,最终都会交给人类审核员来处理,这就让审核员们压力山大,每天跟柯南一样推理断案,烦的一比。。。到后来,MTEE 上的“人类配置的规则”已经有一万条了,但是准确率距离大家心中的要求还有差距。这种情况,必须靠新技术了。
2015年,阿里从美国亚马逊“忽悠”回来一位重磅大咖,此人花名叫做神盾。神盾早在阿里巴巴出生前的2002年就远赴美国,但十几年来却一直怀着一颗技术报国的心。回国前他在亚马逊负责的技术,恰恰就是业务风控系统。有机会为中国企业用代码构建万世基石,神盾热血奔流。他撸起袖子,马上联合算法团队,用人工智能跑出了一些用于替代“人类规则”的“AI 策略”。然而放在 MTEE 里一试。结果感人:还不如人写的规则准确。。。人工智能的核心是“数据”,然而这些宝贵的数据散落在淘宝、天猫下面好多业务部门,由于不是专为人工智能准备的,所以格式都不相同。这就像一个团队里东北人、四川人、广东人各自说方言,合作起来当然不顺畅。。。
所以,要想运用人工智能,得先“推广普通话”——统一底层数据。就要建摩天楼,还得先从“烧砖”开始。花了大半年功夫,MTEE 技术团队拉着淘宝天猫的同事,一个数据库一个数据库地改写,终于把底层数据给统一了。胜败在此一举,神盾颤抖着按下回车,利用这些统一大数据算出来的模型跑一下,大家惊了——人工智能吃了高质量的数据,就像大力水手吃了菠菜,一秒变身,秒杀人类。也正是从那时开始,人工智能缓慢而坚定地接过人类的工作,到了2017年底,MTEE 上已经跑了120多个人工智能模型。人工智能一旦拥有火眼金睛,白骨精换什么 CosPlay 都白搭:一开始店铺刷单依靠机器;后来机器被拦截,他们就找真人下单,但为了节省成本,不发货;后来这种刷单被识破,他们就不仅让人拍下,还象征性地发个“空包”(快递包里没有物品);后来物流数据接入 MTEE,快递的重量被记录,发空包也不行了,他们就在箱子里放一瓶水或者一块砖;当然,现在你就算发砖都不行了,因为 MTEE 又有了新的数据。。。
你想想看,如果刷一单的成本已经无限趋近于真实购买一单,那么“刷单”这个行为就被等价还原成了“让利促销”。用温和的手法,把人搀扶到正确的道路,这就是技术的济世情怀。阿里巴巴平台上的商户们为这场狂欢投入的营销费用总计几十亿甚至上百亿。这么多资金,在上千万黑灰产从业人员的眼里,就是肥美的羔羊。然而,如今 MTEE 仅仅依靠100人,撒豆成兵复刻了无数火眼金睛的“数字捕快”,在坏人摸向羊毛之前,就捏住他们的手,然后亮出证件:“你可以保持沉默,但你所说的一切都是呈堂证供。”我得说,处理羊毛党、恶意退评拍,对于阿里安全的童鞋来说还是 Normal 模式,在阿里这座城里,还有一类更为棘手更为隐蔽的违法行为——假货。一度淘宝也因为假货被很多大牌诟病,出于种种原因还被美国鞋帽商会评为“恶名市场”。这让阿里的同学感觉特别委屈,自己明明一直拼命治理假货,但由于对手太狡猾,一直未能禁绝。2015年底,郑俊芳成为第一任平台治理官。在阿里巴巴,她还有个有趣的花名:“灭绝师太”。这是马云马老师亲自给她起的,有种反差萌。钱磊就是在这个时候被师太拽来的。他加入的部门是“平台治理部”,我把它称为“衙门”,这个部门的重要职责就是制定一套识别假货的技术,然后交给“捕快” MTEE 去执法。国家对于电商平台上的假货是有明确规定的,那就是两步走:第一步,品牌方必须先提出“抗议”——指出哪款是假货;第二步,电商平台下架这个商品。这叫“被动投诉”原则。例如,奥利奥在淘宝上发现有人卖“奥力给”,就得找到淘宝吐槽,淘宝再处罚商家。这种操作对电商平台来说不难,也是包括亚马逊在内的全球电商的通用规则。但师太拉钱磊这个技术大牛过来,不是干这种简单的事儿的。师太给出的任务是:淘宝天猫必须先于品牌方主动发现假货,主动下架处理,简称“主控”。如果商品数量少,用人眼来识别假货都未尝不可,但钱磊面前是汪洋大海一般的几亿种商品页面,很多名牌包包、首饰、服装,别说假货,就连真货他都不熟悉。大型《大家来找茬》游戏现场可难坏了这个直男。不过,他还是决定挑战极限。根据常识,有些简单的条件就能用来判断假货,例如:“价格太便宜肯定是假货”,“描述里有高仿、A货这些关键词的多半是假货”。于是钱磊带着同事们先上了这些人工定义的规则。你可能看出来了,这里还是有误伤可能。我的 LV 二手小钱包比较旧了,就愿意卖100块!凭什么我卖的便宜就是假货呢?钱磊挠头,只靠规则一刀切不是个长久之计。他决定去找包括 LV 在内的大牌公司聊天。拉着对方的人死乞白赖地问:“你倒是给我说说,你们是怎么分辨假货的?”LV 告诉我,识别假货不只看价格,名牌产品是有“关键设计”的,可能直男看起来一个野生包包和LV并不相似,比如 LV 的图案是四个花瓣,有个包上印了五个花瓣。虽说花瓣数量都不一样,但它其实是抄袭了关键设计,要认定为假货。他思考再三,识别假货这事儿不能靠直男,还得靠“人工智能”。钱磊当务之急是招来一群“军师”——人工智能算法大牛。不巧的是,那时候阿法狗刚刚完虐李世石,人工智能重镇北京的大牛被百度、今日头条加上一众创业公司抢购一空。那段日子,钱磊一到周末就买机票去北京蹲点,看到大牛就赶紧三顾茅庐挖过来,最多一次两天面试了17个人。钱磊说服大牛加盟的杀手锏不是谈工资,而是给他们看假货的照片:“你看,阿里巴巴有全世界最难的人工智能应用场景“假货识别”,你错过了这个村,可就没这个店儿啦!就这样,几十位业内响当当的人工智能大牛进入阿里巴巴,开始了“算法平天下”的生涯。人工智能上线之后,就像在漆黑的体育场突然亮起射灯,魑魅魍魉无处遁形,大量的假货一夜之间被清查。没几天,平台“主动发现”的假货马上就超过了被动投诉的量,到后来已经超越“被动假货”7倍还多。这样一波操作,动到了不法店铺的利益蛋糕,于是,很快一些商家就研究出了“对抗策略”——在照片里把涉及商标的关键部位挡住一点儿。人眼看起来,仍然知道他们卖的是某个大牌,但是人工智能就蒙圈了。这是赤裸裸的挑衅呀!钱磊憋着一口气,带队继续升级人工智能算法,专门识别“手指遮挡”和“打半码”。售假商家想出新的对抗策略,人工智能就继续压制。双方你来我往地拉锯,这场战争旷日持久。到了2018年初,阿里巴巴终于夺下了绝对优势,售假商家的活跃数据断崖式下降。由于打假成绩实在无可挑剔,最近被美国相关部门点名表扬,还让亚马逊多学学“别人家的小孩儿”。一入打假深似海。钱磊和同事们发现,打假初看起来是个技术问题,其实深层次上是个社会文化问题。NewBalance,是一个鞋的品牌,它的中文官方译名是纽巴伦。但是,在中国有另外一个品牌“新百伦”。在很多不明真相群众的眼里,新百伦就对应 NewBalance,于是他们就会在淘宝上搜索“新百伦”这个关键词。这个时候,淘宝到底要给顾客展示什么商品呢?茅台酒非常著名,但是这家酒厂所在的地方叫做茅台镇,茅台镇还有很多其他品牌的酒,例如“茅台镇XX酒”。那么,用户在淘宝上搜索“茅台”的时候,是给他展示茅台酒呢?还是和茅台镇的其他酒一起展示呢?对于这两个情况,平台治理部最终的选择是——这些品牌之间虽然不是真货假货的关系,但是要服从主流社会认知。搜索新百伦,展示 Newbalance;搜索茅台,展示茅台酒。例如,有人在淘宝上售卖某视频网站的会员月卡。但是他们的操作是,15块买一张月卡,然后分别以两块钱的价格批发给很多人共用。视频网站也不是吃素的,查到多人共用月卡,一般都会做封禁处理。这时购买了会员的用户就会到淘宝来投诉,说这个商家卖假货。那这个商家到底算是卖了假货还是没卖假货呢?要说卖了假货,似乎有点言重,要说没卖假货,确实和用户预期不一致,淘宝也很为难。平台治理部的同事们商量了好久,觉得处罚不是目的,满足用户才是目的。他们最终拿出的方案是:用户搜索“XXX会员”,就把XXX官方的充值渠道优先展示给用户,引导用户“走正道”,如果你实在想买便宜但有风险的会员,花点时间也不是找不到。故事讲到这,你也许能慢慢体会,为什么我会说“阿里是座城”。城市里有黑有白,有对有错,但城市里有更多介于黑白之间,清官也断不清的家务事,治理一座城,仅靠严刑峻法是无法长久的,它考验的是治理者的洞见、胸怀、技术能力、思考格局和大智慧。有一个极其重要的团队,前面已经被 Cue 到了很多次,但还迟迟没出场,他们就是阿里这座城的“军师”——安全算法团队。霸下用来拦截机器人的算法,MTEE 用来拦截羊毛党、不公平行为的算法,还有“平台治理部”识别假货的算法、识别黄图和不良言论的算法,都是算法团队的杰作。算法团队的生活绝对是“把脑袋别再裤腰带上”——可以说淘系平台上所有店铺的生死大权都握在这些大牛手上,一旦某个智能模型出现错误判断,就会错杀一大批店铺。责任这么重,睡觉都不踏实。。。算法团队最早期的负责人是江洋,他给我回忆了一次惊险事件:有一天凌晨三点,MTEE 根据一条算法,突然向部分商家发出严厉警告:你们存在严重的刷单行为,第二天要进行关店处罚!当时这件事,惊动了一票管理层。“面前站着一堆阿里巴巴合伙人,盯着我问原因,我的心脏都快骤停了。”江洋回忆。紧急查询,发现处罚所依据的这条算法已经上线跑了两个月,一直没出过问题,而且最近也没有人改动过它。江洋脖子一梗:“我们算法没问题!”所有团队只好紧急集合,满头大汗地检查,一个小时过去,终于发现原因,算法是没问题,但是算法所需的一个数据字段被其他团队传来的时候搞错了。也就是说:吃的菠菜变质了,大力水手就疯了。。算法团队马上更正数据,重跑结果,撤销了对于店铺的错误处罚,这次风波才算平息。虽然数据出错,严格来说不是算法的责任。但是这次事件让我们意识到,算法要对最终结果负责,不能推卸责任。那之后,我们就专门设计了一个“校验数据”的步骤,这类事情再也没有发生。
2017年,算法大牛陆全加入阿里巴巴,钱磊把自己亲自带了两年的算法团队交给他。在陆全看来,算法所面临的敌人变化之快,简直到了变态的地步。对方使用一个招数,你要在最短的时间内拆招,然后使出能够力克他的新招数。你来我往,攻守易势之快,不亚于霍元甲在拳台上和对手比武的节奏。就在2017年双11之前两周,算法同学发现了一个异常的情况:一些本来活跃的羊毛党突然停止了进攻,安静得有点瘆人。是黑产改邪归正解甲归田了?那不可能。唯一的解释就是,黑产在为“双11”做准备。但是他们在准备什么呢?算法的操作原理是:根据对手在最近一段时间的行为数据,来推测他未来可能采取的行动。如果黑产在双11之前两周没有动作,那么算法就没有他们最近的行为数据,对于他们的判断力就会减弱!双11那天他们就可能逃过检测。
意识到这一点之后,陆全马上组织童鞋们把算法做调整。针对这类黑产采用两周之前的数据进行训练。在双11那天,果然对手突然跳出来,大吼一声:“我想薅羊毛!”没想到 MTEE 也跳出来大手一挥:“不,你不想。”阿里巴巴有如同石油一般的大数据,有如同武林高手一般变幻无穷的算法,有坚如磐石的“城墙”,有火眼金睛的“捕快”。各个安全团队编制成了一套极其精密的系统,维护着阿里巴巴这座城池的秩序和安宁。差点忘了,阿里安全还有一支非常特别的队伍,他们就是潜伏在敌人身边的“大内密探”。阻击对手的最好方法,就是充分了解对手。技术情报的同学职责就在于此。某种新的薅羊毛方式出现,或者某种新的针对淘宝用户的诈骗方式出现,都会先在黑产内部流传。技术情报的童鞋就用各种可能的方式,把第一手的资料拿回阿里巴巴,让算法团队提前做好防御,顺便报告警察叔叔。在内部的一本“秘密档案”里,记录着黑暗森林里各个团伙的特征、技术特点、组织关系,并且实时更新。你可能会问,这么详细的敌方记录是怎么搞到的?对不起,中哥也没打听出来,对于情报部门来说,信息的来源是最密不外传的精髓。入侵就是“大内密探”的一员。(因为工作性质特殊,这里就不放他的照片了)他曾在论坛里监控诈骗团伙传授仿冒淘宝客服诈骗的经验,他也曾目睹警察叔叔端掉整个团伙的窝点,枪栓铿然。然而最让入侵觉得刺激的,是他发现新型攻击的那一刻。2017年双11前夕,入侵和同事们突然监控到某个老湿傅在群里吆喝兜售一个薅羊毛工具。卖工具的天天有,大部分在霸下面前都是渣渣。但这个老师傅成功地引起了入侵的注意,因为他的广告语是:“百分百绕过霸下”。。。这个工具使用了一个极骚的操作,还真能骗过霸下。这种情况太罕见了,要是我们没发现它,被人用来冲击双11,连淘宝天猫的稳定性都有可能出问题。
当时入侵紧急联系铁花的霸下团队,第一时间把这个口子封堵。那一年双11总成交额达到了1682亿元,吃瓜群众看到的是天猫淘宝丝般顺滑,没人知道曾经发生过这么惊险的一幕。作为深入敌后的队伍,入侵还经常能发现脑洞大开的新型攻击。你可能知道一种叫做“淘口令”的玩意儿,你用手机复制一段字符,当你打开淘宝的时候,就会自动跳转到这段字符所代表的商品。这个小功能可以方便用户快速搜索商品,也是一种广告模式——商家在广告平台上付费,让有能力触达用户的流量主展示自己的淘口令广告。他们利用黑客手段,在很多人手机里种下了木马,强行“帮”他们把淘口令放进手机剪贴板里。这样,不明真相的群众打开淘宝,就会被强制引流到这家店铺,黑产团伙就拿着这些数据去结算广告费。入侵把这个情况汇报给广告团队,广告团队马上推出对策:凡是用强制方法弹出的广告,这些广告费一分都不予结算。黑产费了九牛二虎之力,竹篮打水一场空,自然就没人再做了。。。说到这,你可能都快吐槽无力了,这群坏人的脑洞也太清奇了,要是把这些智商用在社会主义建设上,中华民族伟大复兴至少提前50年实现。。。实际上,凡是能让坏人从中渔利的点,都被阿里安全的同学们称为“利益点”。在阿里巴巴总共有上千个利益点。随着业务变化,每天都有一些旧的利益点消失,也会有更多新的利益点产生。安全团队们通力协作,守卫着这些利益点,日也不敢放松。这场对与错,黑与白,正义与邪恶,金钱与荣誉的战争,就这样无休止地进行下去。历史上没有一座城池独靠武力和峻法引得万国来朝。城市的保卫力量,永远要躲在经济引擎之后。2018年,淘宝掀起了一场规模巨大的拉新活动。凡是新注册用户,都可以拿到几十块钱的红包。本来这是一场兴高采烈的活动,却又被黑暗森林里的黑产盯上了。他们利用各种地下渠道买来的身份信息,注册淘宝账户,把红包拿走以后就再也不来了。“神机军师”陆全通过对前两天后台数据分析,发现最高峰时刻有不少红包都白白损失了。然而,对于这种拉新场景,算法团队+MTEE 却不能像其他场景一样防控得那么好。因为新注册账户可供判断的数据量非常少,相当于只让你看一眼面相就判断对面这个人是好人还是坏人,难度非常大。陆全很着急,跟淘宝同事们说:“我们的算法升级需要两周,你们的活动能不能暂停,等风控完善了再上也不迟啊!”然而淘宝的同事摇了摇头,说:“陆老师,你说的我都懂。但商场如战场,别说两周,一秒都等不了。冲锋号已经吹响,别说资损,就是死人,我们也得上!”陆全没有再多说,冲回工位,把团队骨干都叫过来:“大伙查查看我们还有什么武器,最新的技术全拿来,研发中的新武器“图计算技术”也可以上。淘宝的兄弟们要冲锋,眼看就会有伤亡,现在能炸碉堡的人,只有我们。”就这样,赛博空间的战场上,斜刺插入一直凶猛的特种兵。算法团队几天几夜没睡觉,人工智能有弱点的场景,就用真人来顶上。同学们轮换着更新算法,谁都不愿意离开,生怕因为自己去睡觉,而造成了淘宝的资金损失。就这样兵来将挡水来土掩,生生把淘宝拉新的资损率给压了下去。在美国,我见过很多华人技术人,他们都很优秀,大多却只是“干活的”,不会被当做公司的主人。但在阿里巴巴, 我,和我的同事们,无论职位高低,能力大小,每个人都是主人,我们在用自己的热血创造历史,一点点把这片土地变得更好。这种感觉无论多少钱都无法买来,而我的祖国能给我。
2017年底,灭绝师太郑俊芳开始同时负责安全部和平台治理部,成为新一任的首席风险官(CRO)。钱磊此时也开始负责带领 MTEE 所在的风控技术团队,2019年初,包括霸下在内的基础安全团队也纳入他的管理之下。有了统一调配,风控链路上各个“兵种”的协作就变得更为方便。于是,钱磊把阿里巴巴这些年和敌人作战的经验总结成了“新一代安全架构”。搭建一个数字实体,和建造一个楼房很相似,需要大量的原料,经历很多工序,每个环节都可能出问题。新一代安全架构就是从整体出发,把问题拆成了三大块:技术和产品、安全基建、安全运营。特别是其中的“安全基建”,就像在盖楼的过程中引入标准化流程、关键技术,确保一个很高的安全基线。这个架构是无数实践场景磨练出来的“真金白银”,是为了解决实际问题来的。
最下层是安全技术产品层,包括数据安全、密码学、攻防、算法等等。(这就像水泵、发电机一样是大楼的底座)中间层是安全基建层,包括软件供应链、研发生命周期、发布卡口、应用可信等。(这就像大楼的建设标准)最上层是安全运营层,包括网络安全、合规、风控等。(这就像让大楼有序运营的管理者)以上我使用的都是专业名词,但其实我们今天所讲的所有兵种,都可以归入这三层。在今天的故事里,这三层架构中还有很多安全队伍没有被提到。例如:软件安全开发团队在日复一日地用制度保障每一行代码从出生就是安全的;数据安全团队在奋力保障用户的数据在流通环节里不会泄露;安全测试团队每天为阿里的安全系统做巡检;安全实验室在时刻寻找着新的攻击技术,不断拉大和黑产的技术代差。这些有血有肉的人组成的安全架构,将成为“数字基建”的一部分,不仅保护阿里巴巴这座城,也能成为数字世界中的无数城池的榜样。黑产丧心病狂,但我们有广大的战略纵深和坚固的数字基建。我不知道这场战役要打多久,我只知道,我们赢定了。
这座城里有外卖,有电影,有生鲜,有物流,有万亿商品,有金钱洪流。十几亿人在其中穿行,这座城不再是当年可有可无的小集市,人们在其中工作,箪食瓢饮,养家糊口,日复一日,它见证着无数人的辛勤汗水,许诺了无数人对于明天的希望。站在远山,静静地观看阿里这座城,你或许会听见鲍勃·迪伦的嗓音。How many times must the cannon balls fly,Before they‘re forever banned.The answer, my friend, is blowing in the wind,The answer is blowing in the wind.
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,
千嶂里