http://tech.sina.com.cn/zl/post/detail/i/2017-05-04/pid_8510773.htm 在“流量为王”的时代,流量在某种意义上,就意味着金钱。 一条依附在流量上的色流产业链条暗流涌动,他们依靠广告、色情、赌博等内容,来截获流量——用吸睛利器来吸金。 他们将自己称为“色流”。 多位资深反垃圾人士称,中国从事这条产业链的人,大概有40万。 他们对平台的蚕食能力极强,曾导致多个平台被垃圾淹没,而退下历史舞台。 色流群体如蚂蚁一般,跟随着流量蜜罐迁移,经历多个时代的轮回变迁,并分食百亿级别市场…… 01 技术革命 从互联网诞生的那一天起,恐怕色流群体就随后降生。但你想象不到,这个群体有多大。 2008年之前,色流群体只是散兵游勇。 彼时,流量尚未形成大规模汇聚,因为没有大鱼群,色流只能随意抛洒诱饵,坐等上钩。 几乎所有的色流从业者,都将2008年,视为关键性的一年。 2008年,人人网、开心网等社交网络正值爆红,人们迷上一个叫“偷菜”的游戏,甚至定上闹钟,只为深夜爬起去收割一棵虚拟白菜。 流量形成了第一次爆发式的聚合,色流产业终于有冲杀大鱼群的机会。 陈熙是一位色流行业的老兵,经历了多个流量时代,并一路摸爬滚打至今。当时还是大学生的他,就揪住了时代的尾巴。 陈熙发现,人人网上的热门帖,访问量极为惊人。 “这些流量给黄网导流,会怎样?”他一个人,一台电脑,“复制”、“粘贴”,一天发几百条,收益够他一个月的生活费。
* v" u' y) Q4 B. [& v. o B △ 其中一个色流账号 “我开始写一些简单的脚本,进行批量注册账号、发布信息”,陈熙称,当时产业链中,流行起纯中文的编程语言“易语言”,大家用这个软件写小脚本,实现了内容垃圾产业链的第一次技术革命。 此后,人工开始渐渐被机器和软件取代,广告、色情、赌博等信息规模化出现,这条零碎的产业链,开始集结成河。 陈熙靠着自己精湛的技术,一度成为色流主力军。 他批量注册7万个账号,每天疯狂地加好友,去每个人的日志下留言,引起他们注意。 2 Z- x/ U1 K- @# K0 A |, `; V
△ 部分账号名单 “我有一个独门技巧”,陈熙称,账号注册为某个学校的学生后,就只加这个学校的好友,“让账号显得真实可信”。 因此,他给黄网带来了巨大的流量,利润分成也很高,六四分,陈熙拿6,网站拿4。 他一个月能挣18万。 技术性革命后,诸多流量阵地被侵略。 “感觉突然从天而降,一夜之间,整个网络都陷进去了”,当时人人网反垃圾的负责人秦源对一本财经称。 “2008年之前,反垃圾比较简单,此前只要盯住三要素:账号、IP、关键词去重,基本无虞”,网易云安全(易盾)的CTO朱浩齐称。 实际上,朱浩齐确实有太多战斗经验,从网易新闻到网易云音乐,“跟帖文化”一直贯穿其中,“这场仗,一打就是十几年”。 而这场战役,有不得不战的理由。 内容垃圾肆虐,导致产品被淹没的案例,实在不在少数,人人网的谢幕,微博的冷却,背后恐怕都有这层因素。 直至今日,我们在追思,“我们为何抛弃人人网”之时,其垃圾内容的肆虐,依然是我们逃离的一个原因。 肆虐到什么程度?据秦源透露:“人人网的历史上,一度真实用户每日只发几万条日志,而垃圾内容者,一天能发数千万条。” “互联网世界是自由的,但是没有基本的规则,互联网就会逆向选择,被贪念、欲望、网络暴力所淹没”,朱浩齐不得不承认,放任,就会导致人性恶的肆虐。 2008年之后,防守方战略升级,开始用机器审核,配合风控策略,才能对付庞大的地下军团。 秦源通过图计算的方式,追根溯源,发现了背后浩如烟海的群体——所有的账号,就如星星一样,往下漏,是同一个人,再往下,就串成一个球。 这就是陈熙漫天星辰般的账号体系。 - l8 g) V$ k* r! h3 u# C. X) {6 a
“关键词去重时代结束,我们进入了模型规则时代”,朱浩齐称,当时他们启用全新的风控规则,比如,同一个账号或同一个IP,1分钟内跟帖不得超过多少条,一旦超过就可能封号一段时间等。 “当时的规则和维度,多达几百条”,朱浩齐称,核心逻辑就是在判断,对方到底是一个正常用户,还是批量的软件操作。 而色流产业链的人,也开始变种“文本”,通过字母、谐音、镶嵌等多个方式,将信息藏匿期间。 & k# e0 I6 g0 @
“针对同一个词,我们积攒了数百万个变种样本”,朱浩齐称,也会通过一些模糊匹配,才能挡住漏网之鱼。 也就到此时,攻防双方第一次严峻地正面交锋,但他们没有料到,这场战争,一战就是十年。 02 产业革命 “此前,大家都是散兵游勇,大家开始通过QQ群、流量联盟进行产业化”,罗凌峰称。 在百度贴吧的色流历史上,罗凌峰是一位极为重要的人物,外号“色情哥”。 “这个产业中,分为黑白两道”,罗凌峰称,一些大的广告客户,会通过广告联盟,光明正大地找到他们。 而更为隐蔽的黄赌毒客户,则会通过QQ群集结。 中国互联网违法和不良信息举报中心公布的数据显示,其中淫秽色情类有害信息占据了67.2%。 “我们也会给网络赌场啊,龙泉宝刀啊什么的导流,但色情还是占据绝大部分,转化率最高”,罗凌峰称,他们给自己一个高大上的名词,叫“色流”。 “产业化之后,这个群体的人数规模,扩充了十来倍,保守估计当时产业链中有十来万人”,罗凌峰称,大家盘踞在各大“流量蜜罐”中,按点击收费、或按照付费金额提成。 如罗凌峰这样的单兵作战者,月收入十万;一个几人组成的工作室,月收入得几十万。 他们主要给两条产业导流,最主要是黄网或贩卖黄色视频的QQ。 另一部分流量,则导给了卖淫网络。 君丽是圈内比较知名的“妈咪”,她下端,对接北京各大高校的资源,上端,是各大色流发布平台。 “他们将小姐的信息包装好,发布在各个渠道上,成交一个,就结算金额”,君丽称,色流的提点极高,一般一单交易一两千,分为色流平台一半,妈咪再抽走剩下的一半,到小姐手中的,只有两三百。
% n' a: O( {4 d$ m 朱浩齐发现,这个群体,集群效应开始变得明显,“我们甚至发现一个村都在做,村里还将其当成了支柱产业”。 而另一方面,他们虽然集群,却并不团结,没有“延续”性。 朱浩齐观察一个平台上,可能同时有几百波人在发垃圾信息,有些人可能会突然消失,转战其他平台,另一波人又会突然出现,绵延不绝。 “但新出现的人,一开始技术很难,四处乱撞,和我们多次较量后,才会慢慢技术提升”,朱浩齐称。 “哪有什么技术连贯性?”罗凌峰在入行之前,花了不少钱去网上买教程,买发帖软件,“全特么骗人的”。 后来他也想通了:如果他们真能靠这些技术赚钱,他还往外卖,这不是傻吗? 但不可忽视的是,因为产业链变得利润更丰厚,一些颇懂技术的精英进入——罗凌峰就一个个坑踩过来,最终成为百度贴吧历史上的“暗黑破坏神”。 罗凌峰选择百度贴吧作为阵地,有一定的原因。 贴吧有分群效应,相同的人会聚集起来,比如说“李毅吧”中,“很多屌丝群体,在里面发色情信息,转化率极高”。 另外,还有很多名字隐晦的贴吧,其实也是带色贴吧,比如“**家法吧”,“其实是一个SM人群的聚合地”。 3 V B }2 S8 v+ T
正因为极容易找到“精准客户”,百度贴吧被色流群体盯上。 罗凌峰最开始通过聊天室和QQ群接活,刚一入行的时候,被虐得很惨。“一发就删,一发就删,我都搞不明白,他们怎么知道是黄网广告的”。 经过一周的摸索,他终于知道,表面风平浪静的体系中,背后是纷繁复杂的规则,黑暗中,有一双监控的眼睛。 摸清了规律之后,罗凌峰开始绝地反击。 2014年初,罗凌峰发现了iOS一个巨大的漏洞,在APP上点一个链接,从A网页跳转到B网页的时候,cookies(网站为了辨别用户身份,而储存在本地设备上的数据,包括用户名和密码)也会跟着跳转。 罗凌峰就是根据这个漏洞,截获了几十万个账号和密码,用于百度贴吧上发色情内容。 也正是因为这点,罗凌峰成为色流史上最难对付的对手——他手握取之不尽用之不竭的海量账号,而且几乎是零成本。 此消息得到了当时百度反垃圾负责人的证实:“罗凌峰太强大了,我几乎所有周末,都被他搅黄,我得实时监控他,才避免贴吧被他席卷”。 有了账号之后,他自己还开发了一个发帖神器。 , N0 ?$ y" @8 |8 F% I3 x
“可以自动导入马甲,自动发帖,自动顶帖等等”,罗凌峰开始不断迭代自己的网址呈现方式,最开始是网址,然后是文本变种,最后将网址镶嵌到图片中。 此时,朱浩齐也发现,色流行业一个趋势开始出现,文本垃圾开始变成“图片垃圾”,且更具隐蔽性。 图片垃圾的出现,一度让反垃圾工作变得寸步难行——辨别文字简单得多,但图片包含的要素太多。 直到人工智能的运用,才让防守方的扭转劣势。 “我们进行机器喂养,给他们看大量的图片”,朱浩齐称,这个喂养的过程极为艰辛,比如,为了告诉机器什么是“色情”,需要给它看成千上万的色情图片。 但怕机器会误伤一些“妈妈晒光屁股娃”的图片,他们再给机器看各种宝宝的照片,再告诉它,这不是色情。 朱浩齐将其称为“正负样本”的喂养。
* m: d" ?. M3 `) s8 ~+ L 双方达到某种程度的势均力敌之后,一个新的流量时代再次到来。 # Q+ b: Z) \! L: W) r* @
$ d8 ^, m% D5 j2 ]8 h+ u
|