all about programmatic
中国程序化广告技术资讯网

长篇转载:神秘的Google广告反欺诈斗士

[作者:Alex Kantrowitz, Ad Age

 

在伦敦圣吉尔斯高街一座大厦九层的会议室里,一位名叫萨沙的俄罗斯籍工程师启动了电脑,开始告诉我怎样做。“首先,我们去浏览一些网站,”他发出了指令。“AdAge.com,这个怎么样?”我的浏览器在加载页面时,一串代码从屏幕上方流入了左侧一个单独的窗口。几秒钟后,萨沙告诉我发生了什么事。他说:“恐怕您在和我们的团队打交道时,不能我们让您浏览网站您就去浏览。” 全新的电脑已经感染了病毒。“您加入了一个僵尸网络。”

 

其实是我所使用的连接遭到了黑客攻击,而不是 AdAge.com网站;上网浏览任何网站都会使电脑感染病毒。但萨沙似乎很享受我的不安,而他的工作才刚刚开始。

 

萨沙是谷歌秘密反欺诈团队的一员。该团队成员总数超过100人,专门打击无数活动猖獗的网络犯罪分子。这些犯罪分子主要通过制造与人类流量相似的僵尸流量,从数字广告业获取了数十亿美元。即使在谷歌内部,这个团队也让许多人觉得很神秘。他们从未对外人谈过如何追踪僵尸网络,更不用说允许有人进入其办公室,观察追踪过程。但萨沙打开电脑那一刻,这种沉默结束了。

 

对于大大小小的互联网参与者而言,数字广告欺诈问题影响重大并且日益严重。广告费用从电视和纸媒流向数字媒体,伴随着数字广告自动化趋势,使数字广告领域为互联网上最糟糕的参与者提供了温床。反欺诈机构White Ops和Association of National Advertisers进行的一项研究表明,2015年,广告欺诈造成的损失将达63亿美元。而损失最大的可能是全球第一大广告技术公司谷歌,因为通过谷歌广告服务器、自动化购买平台和广告交易所进行的交易数量巨大。如果广告客户认为广告公司的运作充满欺诈行为,他们就可能从该公司撤出资金,使公司业务步履艰难。

 

Ghostery公司的数据提取最有效地证明了谷歌在广告技术领域的霸主地位。Ghostery是一家监测网络广告标签的广告技术公司。2013年9月,该公司最新的预估结果显示,谷歌技术已实现3160亿次广告曝光。排名第二的OpenX公司为844亿次。这样的比重意味着谷歌很容易受到欺诈问题困扰,但同时也赋予了谷歌应对该问题的领袖地位。到目前为止,谷歌满足于在幕后从事反欺诈工作,但如果默默无闻就很难发挥领袖作用,这也是谷歌接受Ad Age采访的部分原因。

 

谷歌负责视频和显示广告产品的副总裁尼尔·莫汉(Neal Mohan)表示:“我们认为,让大家知道我们的观点、立场和投资水平,对业内其他参与者是有帮助的”。

 

由于谷歌的这项决定,我于今年春天横跨大西洋,来到萨莎和他的同事们当中,他们敞开了大门,让我进入了一个最重要、保护最周密的部门。虽然他们的每一句话都有记录,但萨沙和他的许多谷歌同事表示担心自己的安全,要求对他们称名不称姓。团队一位成员说:“因为这是有组织犯罪的一部分,我猜周围环境对站出来反对的人并不友好”。

google-war-1

南非籍谷歌僵尸网络追踪负责人道格拉斯·德雅格(Douglas de Jager)在该团队伦敦的一个基地中。

 

 

感染

 

萨沙在两台显示器上工作时,阳光透过办公室的大玻璃窗照射进来,从窗口可以俯瞰伦敦南部的景色。要进入这个房间,唯一的通道是一扇笨重的门,门上有拱顶式的圆形把手。六位反欺诈团队的成员四散坐在房间里。

 

萨沙说话带有浓重的口音,语调听上去似乎很愉快。他开始挖掘AdAge.com的站点代码(依然在刚才我使用的那台遭到黑客攻击连接的电脑上操作),直到他发现了几行称为“漏洞(exploit)”的代码,从本质上说,这是黑客用来解锁电脑的钥匙。漏洞打开了一台电脑的大门时,恶意软件运行者就可以安装程序,完全控制这台电脑。对于广告欺诈者而言,这种控制就是金钱。他可以使用这台电脑,通过一个隐藏窗口浏览网页,而机主对这一切却毫不知情。

 

通过个人电脑实施是广告欺诈最显著的特征之一。受到黑客攻击的个人电脑叫做僵尸电脑,多台僵尸电脑一起形成僵尸网络,大批电脑按照协调一致的节奏浏览互联网,以尽可能获取广告用户支付的费用。通过控制个人电脑,僵尸网络操纵者能够分散其IP地址和地理位置,掩盖他们在互联网上发送的流量,从而避开侦测。

 

漏洞可以通过多种途径进入计算机,包括通过Wi-Fi网络、包含漏洞代码的广告(恶意广告)、被劫持的家用路由器、垃圾邮件广告和遭到黑客攻击的网站。(在我使用的电脑上,谷歌团队通过被感染的连接,将一个漏洞植入了Ad Age网站的副本中。)遇到上述情形中的一种时,漏洞可以不着痕迹地解锁您的电脑。“普通用户不会真正看到发生了什么事”,萨沙解释道。甚至即使没有点击也会被感染。

 

虽然萨沙声称我使用的电脑被感染,但没有办法详细解释,直到他开了一个叫做WinLister的程序,这个程序对电脑的隐藏窗口提供了更多细节。他一打开程序就发现了一组IE浏览器窗口,所有窗口都是最大化的隐藏窗口,都带有“消息”标签。萨沙将这些窗口取消隐藏后,它们出现在了屏幕上,光标追踪程序显示鼠标在页面上来回跳动。萨沙将手从鼠标上拿开后,光标仍然不停地移动和点击。

 

这种令人惊奇的揭露在团队中引起了阵阵笑声。团队成员并不经常每天向外人解释他们所做的事情,这让人惊得目瞪口呆。

google-war-2

 

“Spider-man”

 

对于欺诈分子而言,通过被感染的机器赚钱是一个简单的过程。有两种基本方法:(通过一系列中间商)把僵尸流量卖给广告发行商,这些发行商认为从广告中赚取的收入能够超过流量成本;或者建立自己的网站,把流量发到那里,自己卖广告。

 

通过僵尸网络赚钱的公式可能很简单,但侦测僵尸网络却绝不简单。知道僵尸网络是什么样是一回事,但要辨别每一条广告的显示对象是人还是完全是别的东西,却是另一回事。

 

谷歌僵尸网络追踪负责人道格拉斯·德雅格坐在房间后面,专心地看着萨沙浏览僵尸脚本。德雅格先生是一位自信而直率的南非人,去年年初,他向谷歌出售了自己的反欺诈公司Spider.io,出售价格未公布。虽然是德雅格先生的团队成员在显示器上操作,但毫无疑问,德雅格先生才是发号施令的人。

 

德雅格先生很早就发现了互联网上的罪恶。“我们曾经是这些坏人中的一员”他开玩笑说。其实并不是这样,但他曾经很有可能成为那样的人。他开办的第一家公司BytePlay,经营的业务是在经纪人觉得中间商截留其信息,放在小型门户网站上用来赚钱时,采用刮擦技术为经纪人采集内容。BytePlay的内容采集程序模拟人类探索互联网,团队很快意识到这很可能被用于作恶。出售BytePlay后,德雅格先生决定创立 Spider.io,打击将内容采集用于不良目的的行为。他说:“我想尝试阻止任何人用类似的技术做坏事”。

 

Spider.io被谷歌收购时共有七个人,依靠谷歌的计算能力,该团队的工作进程显著加快。“以前我们通常需要一天时间做出特定流量切片的报告,而现在这样的报告可以实时做出”德雅格先生解释道。谷歌的收购还给团队的工作增加了新元素:限制。 Spider.io必须避开谷歌销售团队,以防止出现利益冲突。(可以想象,从谷歌系统中删除存量数据并不能使销售团队直接获益。销售的广告越多,销售团队的收入越高。)

 

Spider.io公司的团队成员似乎融入得很好。团队最初的成员与新同事在手工酿造啤酒公司聚会时,他们之间和谐的关系显而易见。手工酿造啤酒公司是伦敦一家温馨的酒吧,有木质吧台和几十个扎啤手柄。这种地方让人流连忘返。几个小时随意的谈笑后,人们三五成群地去吃晚餐。一位为收购Spider.io公司做出贡献的资深谷歌员工在出门时停了下来,对我提起他对这项举措感到多么高兴。

 

从德雅格先生远离“另一个阵营”至今,坏家伙们已经变得复杂得多。德雅格先生说,恶意软件曾经主要用于银行欺诈,但双重认证(例如,您在新的计算机上登录账户时,银行要求您提供手机验证码,或者询问你是否确定要向乌拉圭汇钱)使银行欺诈的利润严重降低。然后,黑客转移到信用卡欺诈,但这方面的安全措施目前非常好,花几美元就能买到成千上万的活跃信用卡记录,因为这些记录根本毫无价值。接下来是挖掘比特币,用受黑客攻击的计算机来挖掘这种加密的货币。但挖掘比特币也变得不是那么有利可图,广告欺诈成了网络犯罪分子最赚钱的营生。 “现在恶意软件主要用于广告欺诈”德雅格先生说。对于刚刚开始抓住这个问题的广告业,这种说法令人恐慌。

google-war-3

(左起)团队成员包括道格拉斯·德雅格、西蒙·欧弗赖尔(Simon Overell)、维嘉德·约翰逊(Vegard Johnsen)、阿兰·帕特森(Alan Patterson)和萨穆埃尔·博格(Samuel Boger),拍摄于伦敦。

 

寻找欺诈分子

 

第一次观看恶意软件二进制文件的感觉令人不安。加密的程序看起来像是计算机吐出的最难懂的乱码集合在一起。团队的新成员塞巴斯蒂安(Sebastian),坐在我旁边,面对显示器,调出了这样一个二进制文件,试图解释这些混乱的排列组合(有一行是“15 68 C8 58 00 10 57 8B”)如何带有僵尸网络本身的基因。

 

这份二进制文件是一个僵尸网络的引擎,指示受感染的计算机如何浏览网页。告诉这些计算机访问哪些网站,停留多久,该怎么做,等等。谷歌的反欺诈团队通过少数来源得到了这些原始代码,其中包括谷歌于2012年收购、从事恶意软件扫描业务的VirusTotal公司。获得原始代码后,团队必须对其进行反向工程,以了解特定僵尸网络的特性。

 

解码二进制文件是这个过程中关键的一步,使团队能够获取僵尸网络的“指纹”。“一旦我们了解它是如何工作的,就知道要确定因为某些原因,访问网站的这个人的电脑上必然有这种特定的恶意软件,我们需要找到哪些证据”团队产品经理维嘉德·约翰逊说。

 

我们面前屏幕上的特定僵尸网络二进制文件包含150项“操作”(action),每个操作都是意图模仿人类网站访问者的一个具体指令。例如,这个程序指示受控制的计算机创建一个隐藏窗口,使用IE浏览器,将窗口设置为全屏,关闭声音,将流量导向浏览匹配“利宝保险”等关键字的用户,随机移动鼠标并将浏览时间的20%用于点击。这个含有150项操作的程序相对简单;有的僵尸网络包含2000多项操作。

 

这份二进制文件非常详细,通读之下会对代码背后的人有所感觉。约翰逊先生说,“您知道,有人坐在那里,选择了做这些事情,编写了这个代码。我们想知道,那个和我们旗鼓相当、坐在阴暗的地下室里大肆赚钱的团队是什么样的。”

 

查看欺诈分子运营的留言板,能够对欺诈分子有更全面的了解。谷歌的团队监测这些论坛,看着这些不良行为者购买和出售受感染的计算机和导向漏洞的流量。在我采访期间,谷歌反欺诈团队给我看了一个中间商的帖子,其中甚至有“骗子 – 请勿打扰”的警告。当然,中间商指的是要欺骗他的人,而不是广告欺诈分子,即预期的发帖对象。

 

这个黑市的运转有自己的制衡体系。有一个信誉点系统,还有用于交货期间存放资金的托管系统。“还有就是至少承认,进行这种欺诈的人付出了很大努力”约翰逊说。

 

但广告欺诈分子并不是刀枪不入的。他们不同于自己大批制造的僵尸机器,而是与其他人一样,会犯错误。这些错误有时看似微不足道,却让谷歌能够明确识别并消灭他们的杰作。

 

信号

长时间讨论广告欺诈需要消耗大量的咖啡,谷歌著名的微厨房(microkitchens)这时就派上了用场。屏幕工作每次告一段落时,有时持续近两个小时,团队成员纷纷走向咖啡机,利用这个机会补充咖啡因,从像素和数字中暂时解脱出来。在讨论复杂的蛛丝马迹,确定僵尸流量之前,尤其需要这样补充一下能量。

 

谷歌的反欺诈战队在对一个僵尸网络代码完成反向工程后,获得了该僵尸网络行为的详细蓝图。依靠谷歌的巨大规模,蓝图可以覆盖在谷歌的大量广告曝光数据之上,以找到匹配的流量块。

 

谷歌团队在这个过程中的一项工作是,将流量与僵尸网络的特点和所谓的“信号”相匹配。特点是直截了当的。可以是自然发生的任何流量行为类型,比如点击率、转化率、使用的浏览器,甚至是点击发生在页面上的哪个位置。反欺诈团队展示给我的一个僵尸网络名叫z00clicker,这个僵尸网络指挥僵尸电脑随机选取页面上的两个点,沿两点连成的直线移动,只要移动路径穿过可以点击的东西就点击一下。然后僵尸网络在创意广告上留下一种独特的点击模式,如果您愿意,可以称之为“签名”。在z00clicker流量显示的广告点击地图上我们看到,边缘的点击密度令人难以置信,而中心则基本没有操作。

 

认定僵尸网络的特点有助于发现非人类流量,但是一旦谷歌将流量标记为非人类流量,就会采取激烈行动,拒绝向服务于该广告的发行商付费,并且对广告客户一分钱也不收取。在这种情况下,需要有一些更确凿的证据。正因为如此,信号才至关重要。

 

一个信号就是一种行为类型,这种行为类型在正常情况下不存在,但在欺诈分子编写僵尸程序时不小心造了出来。“我们的工作就是试图找到创造这些[僵尸网络]有效载荷的某些人不幸泄露的小信号,”德雅格先生说,“利用这个方法我们就可以针对特定有效载荷识别受感染机器产生的流量。”

 

谷歌团队对于介绍这些信号特别谨慎,因为其中许多都还是活跃信号,如果公布就会给欺诈分子通风报信。“我们在触碰很多底线”德雅格先生在我访问开始时说。这就是他所说的底线。

 

但团队还是提供了几个他们认为僵尸网络ZeroAccess独有的信号。微软在2013年帮助消灭了这个僵尸网络,但它后来又死灰复燃。其中一个信号是:在自然情况下,重置浏览器的cookie将在Cookie字段产生一个“0”。但是,由于某些原因,ZeroAccess僵尸网络在Cookie字段插入的是一个空格字符。僵尸网络在每次开始浏览会话之前会重置浏览器cookie,所以这个空格会相当有规律地出现。这个信号足以识别ZeroAccess生成的流量,但谷歌往往要求同时有多个信号,明确证明流量是由僵尸网络产生的,并予以处置。

google-war-4

萨沙和一位同事在谷歌苏黎世办事处工作

 

电钻(Powerdrill)系统

任何与邪恶势力斗争的正义力量都要有一件独具特色的硬件武器。蝙蝠侠有蝙蝠车,弗罗多有魔戒。绝地武士当然有光剑。

 

谷歌反欺诈团队则有电钻(Powerdrill)系统。这是一个怪异的计算系统。能够用不到五秒时间处理五千亿数据单元(翻译:真他妈的快)。还能以图表和其它图形形式输出数据,使人能够察觉非人类流量的不规则性。

 

在介绍该工具上的会话时,德雅格先生简单地将其称为“妖龙来了。”团队的另一位成员菲尔,轻快地走到显示器前,打开了Powerdrill的操作屏幕,我们看到一片庞大的流量,几乎全部来自四个IP地址和一个网络服务器。这些流量明显是某个核心实体制造的,在短短十天内对同一个谷歌网络产生了上亿次广告点击。菲尔解释道:“这是真实的流量。用的是三天前的数据。”

 

这些流量非常庞大,可能影响了测量的10天里无数广告活动的效果,而且至今仍在运行。“这有可能人为地显著夸大了所有广告活动的点击率”菲尔说。

 

令人困惑的是,这种流量甚至不属于僵尸网络的一部分。“这家公司” (菲尔拒绝透露其名称)“其实是提供广告信息核查服务的公司。”他说,这家公司的业务是在整个网络尽可能多地抽样采集广告,并通过点击来记录每条广告链接到的登陆页。虽然这家核查服务公司能够在浏览器上将自己标记为“非人类”流量,但该公司选择不这样做,因此被大量尚未识别出该公司的广告技术公司当作了合法的人类流量。

 

与其他公司分享此类信息,将会使打击广告业欺诈问题的工作取得长足进步。谷歌现在似乎准备这样做。德雅格先生说,他的团队即将开始首次全面发布不良流量的详细信息,包括广告核查公司产生的流量类型以及侦测到的特定僵尸网络的详细情况。

 

德雅格先生希望谷歌披露这些信息的做法能激励其他公司发布自己的调查结果,联合起来帮助广告行业使欺诈分子感到广告欺诈得不偿失。“我们的工作就是要增加他们的成本,减少付给他们的钱,让他们认为,‘也许广告欺诈不是我们赚钱的地方’”他说。

 

谷歌团队(或广告行业本身)是否在这方面取得了重大进展,不可否认还很难说。在访问期间,我看到了与广告欺诈做斗争的行动,在我了解的数十个消灭网络欺诈问题的计划中,我在这里看到的是最清晰最系统的一个。但令人失望的是,针对广告欺诈的斗争还是一团迷雾,如果我报道说正义人士正在取得胜利,甚至只是正在向着胜利迈进,就是不够坦诚。

 

不过,如果胜利的一天真的到来,德雅格先生有一个计划。他开玩笑说,他可能会去度假,“去一些网络犯罪分子可能也会去的海滩”。“一起喝一杯? 谁知道呢?”

 

文章来源:Ad Age, 2015年5月18日 ( 中译Via 谷歌广告纵横)

原文链接:http://adage.com/article/digital/inside-google-s-secret-war-ad-fraud/298652/

转载请注明来源:RTBChina » 长篇转载:神秘的Google广告反欺诈斗士
分享到:更多 ()

See You at ROI Festival | 金投赏国际创意节

10月17日, 中国程序化广告分论坛