当前所在位置: 首页 > 数码科技

博士毕业后,他在淘宝“扫垃圾ktv包间里的陪酒女”

2021-01-30 本站作者 【 字体:

  博士毕业后,他在淘宝“扫垃圾ktv包间里的陪酒女”(图1)

  【猎云网北京】1月28日报道

  2016年,香港中文大学博士刘翔宇毕业后来到了阿里工作。

  刘翔宇随着这股浪潮加入了阿里安全。起初,他做着基础安全的研究。后来,慢慢聚焦在淘宝交互内容、旺旺、直播弹幕等的内三猪在线wap浏览器容安全治理。如果说阿里巴巴是座城,刘翔宇和他的同事们就是专门为这座城“扫垃圾”的人。

  跟线下的市场一样,对于这座城里的大商户,总有不怀好意的勒索者骚扰平台商家。这些黑灰产每天试图向商家群发上百万条垃圾信息。为了规避系统排查,他们故意把一些关键词用音、形、义相近的字词代替,出现了“胃?”、“叩--裙”、“9え”、“发嘌”……

  对于清扫垃圾内容的“刘翔宇”们而言,城太大,人力不可能覆盖每一个角落。如何对这些垃圾信息做到秒级处理,同时误判率必须在万分之五以下?刘翔宇和一众算法专家与不断变异的黑灰产斗智斗勇。

  现在,刘翔宇和阿里安全的小二研发的阿里新一代安全架构核心算法,每日已能清理百万级的垃圾信息,保护商户在平台的清朗营商环境。

  博士毕业后,他在淘宝“扫垃圾ktv包间里的陪酒女”(图2)

  图示:刘翔宇

  疯狂的“推销者”日发百万条骚扰信息

  如果你曾厌恶电线杆上的牛皮藓,那么也会厌恶一个24小时不停按门铃推销的人。

  黑灰产通常掌控上千个账号,并编写程序,利用机器海量给商家群发信息,有一些刷单、欺诈信息等违法内容,更多的是营销、店铺代运营等各种招揽生意的广告,像极了那些上门捣乱的人。

  黑灰产团伙通常会在很短的时间内把大量的垃圾消息海量群发给商家。他们嗡嗡不停,少则一天群发几万条信息,多则一天上百万条,最疯狂时,一分钟就能群发上万条信息。

  旺旺上线“戳一戳”的新功能后,有的黑灰产试图编写程序,同时“戳一戳”上万人。被“乱戳”的主要是新商家,这样的骚扰可能会让初入淘宝大门的商家不胜其扰。

  不过,旺旺上也有一些采购量非常大的买家,这些买家一般会多方比价,最多时会一次性发给上千商家询价,这是平台允许的正常经营行为。上述难点都要求阿里安全的算法在识别垃圾信息上必须又快又准,还不能误伤商家。

  依靠算法进行分层识别,刘翔宇和同事们研发的算法不仅减少了误识别风险,同时对大量垃圾信息实现了“秒级撤回”,即发现黑灰产群发的垃圾信息后,系统在一秒内可撤回信息,尽可能减轻对商家的影响。

  同时,阿里安全内容安全管理团队每天要处罚上万个账号,处罚方式包括扣分、禁言、封号等,不少黑灰产属于集体作案,安全团队还“一追到底”,如果情况严重,还将举报给警方处理。

  用AI对抗专业团伙不断变异的进攻

  “垃圾清理人”面对的不是散兵游勇,而是黑灰产的团伙作战。

  “他们应该是专业团伙,按照攻击时间,可以看出他们每天也有固定的上下班时间,不少人应该是学计算机相关专业出身的,甚至是像我们一样做过安全防控的人,这些人对安全防控非常了解,会用智能化手段对抗,比如他们会发测试信息,对我们的拦截做试探再做调整。”刘翔宇说。

  敌暗我明,刘翔宇不知道对方什么时候忽然发动攻击,而且黑灰产团伙针对防守者的攻击,每周少则几次,多则十几次,往往最猛烈的攻击发生在凌晨。“明显是故意的,就是让你很难受。”

  尤其是“双11”大促期间,黑灰产非常疯狂,发出的垃圾信息量比平时多几十倍。刘翔宇说:“临近大促节日的晚上,垃圾信息像消费者去抢‘秒杀’一样呼地一下就上去了。他们很聪明,知道‘双11’期间用户最活跃,这时候骚扰用户感觉效果最好,这就需要我们提前做好预案防控,把他们赶出去。”

  狡猾的黑灰产还会想尽办法通过“变异”试图突破安全防线。

  所谓的“变异对抗”,就是黑灰产会试图改变发送的垃圾消息内容,让系统无法快速识别。黑灰产故意把一些关键,用音近、形近或语义相近的字词代替。在黑灰产黑话中,qq群变成了“叩--裙”,私人微信写成“私入崴伈”,发票可能成为“发嘌”。

  最初,“垃圾清扫人”几乎晚上睡觉都不踏实,总觉得黑灰产进攻后,系统的提示声随时会响。为了对抗“变异”,“垃圾清理人”必须持续收集变异情况,升级模型。

  博士毕业后,他在淘宝“扫垃圾ktv包间里的陪酒女”(图3)

  图示:“垃圾清扫人”——算法专家在商量对抗策略

三星i5508游戏下载

  在这些算法专家的努力下,目前平台利用神经机器翻译和多模态词嵌入技术,不断增强垃圾文本内容风险识别系统的性能。

  刘翔宇介绍,基于主动生成的对抗平行语料,利用神经机器翻译技术,构建对抗纠错模型,可消除黑灰产发出的内容对抗扰动。同时,利用多模态词嵌入技术提取垃圾文本的语义、语音、字形特征,并通过多模态融合机制有效地增强系统针对基于义近、音近、形近等文本变异的鲁棒性,可进一步提供系统识别准确率。

  现在,他们打造的算法已能够自行理解某个字和与它音形义近似的字的关联,识别准确率高于98%,可有效新增识别变异违规文本内容50%以上。此外,算法专家还开发了“变异垃圾语言”翻译功能,系统可以将“变异信息”翻译回正常语句。由于对抗垃圾信息的相关前沿技术在实际应用场景应用效果显著,刘翔宇和团队成员的技术成果获得了国际顶尖AI会议的承认,被USENIX Security、ACL、WWW、SIGIR、IJCAI等收录。

  “垃圾清扫人”每天带着AI一起在淘宝与发送垃圾信息的黑灰产打仗,日均铲除垃圾信息条数已达百万级。刘翔宇说,对抗是安全守卫永远的主题,夜晚也许有危机和喧嚣,但“垃圾清扫人”永远在线。

  清晨第一束阳光照进城池,城内干净有序,没有人知道,与垃圾信息的大量战斗曾发生过。也许,这就是守护的意义。


特种部队 全面反击百度影音 哈票网上海
阅读全文
加载中~
点击进入一四七资源网:
相关推荐

安卓系统目前的唱k小鱼仙第三部问题,并不仅仅局限在某些方面

安卓系统目前的唱k小鱼仙第三部问题,并不仅仅局限在某些方面
看到有些人还在说安卓系统是虚拟机的问题,是Linux是等层的问题等等,这些确实是...

这次恐怕真乐园过山车双人版不是郑爽男朋友不行

这次恐怕真乐园过山车双人版不是郑爽男朋友不行
图片来源@视觉中国文|航通社现在再回头吃郑爽这块瓜,好像已经没剩下太多东西了,但...

后华塞班e63为时代,国产手机渠道战暗流汹涌

后华塞班e63为时代,国产手机渠道战暗流汹涌
文/智能相对论(ID:aixdlun)作者/布兰“Chaosisaladder,...

荣耀首款新机发布,小米和花狸猫娱乐社区魅族都扛不住了,米粉:幸福来得太突然

荣耀首款新机发布,小米和花狸猫娱乐社区魅族都扛不住了,米粉:幸福来得太突然
荣耀首款新机发布,小米和魅族都扛不住了,米粉:幸福来得太突然华为和荣耀“离婚后”...

手机内存小资白领衣橱秀要多大才够用?网络投票真相了,以后换机认准大内存

手机内存小资白领衣橱秀要多大才够用?网络投票真相了,以后换机认准大内存
现在128GB的黑猫警长动画片50集手机都已经不够用了?网友们也太会存东西了吧!...

win10系统更新读者文摘txt下载错误0xc1900101失败的解决方法

win10系统更新读者文摘txt下载错误0xc1900101失败的解决方法
有不少深度win10系统的小伙伴都把装的win10系统升级到2004版本,但是在...

两款搭载AMOLED屏幕的千第一滴血5百度影音元机,哪一款综合实力更强?

两款搭载AMOLED屏幕的千第一滴血5百度影音元机,哪一款综合实力更强?
对于那些支持屏幕指纹识别解锁的手机,大家或许想到的是那些中高端旗舰手机。但是,在...

自动驾驶完成3亿美元融资?滴滴自动驾长直发的她音译驶的未来值得看好吗?

自动驾驶完成3亿美元融资?滴滴自动驾长直发的她音译驶的未来值得看好吗?
今年以来,关于各种汽车产业的新闻可谓是层出不穷,这不著名的网约车巨头滴滴也传来消...

卜安洵:透明商业,数智时代的杨龙传奇3基本法则丨甦盛典2021

卜安洵:透明商业,数智时代的杨龙传奇3基本法则丨甦盛典2021
2021年1月6日,由场景实验室、《哈佛商业评论》中文版联合主办,苏宁易购作为首...

芯片下月再涨15% 铠甲勇士激斗传炎龙登场 中国本土再失汽车核心定价权

芯片下月再涨15%  铠甲勇士激斗传炎龙登场 中国本土再失汽车核心定价权
据日本经济新闻报道,全球最大的芯片代工制造商台积电和其他台湾同行正考虑再次上调芯...