all about programmatic
中国程序化广告技术资讯网

什么是NHT? …三聚氰胺、牛奶,NHT和网络广告

什么是NHT?NHT是Non Human Traffic (非真人流量)的缩写。这是一个中性的名词,并无褒贬,是指互联网访问量中非人类正常活动造成的那部分。主要可能包括各种网络爬虫、监控分析程序、内容采集器、被病毒木马控制的主机(僵尸网络)、制造的访问;也包括人类编写的程序出于各种目的变换代理和IP对网站进行的访问,其目的,你懂的。NHT中的某些成分(除搜索引擎等明示身份的访问量以外)就像牛奶中的三聚氰胺,在普通的检测中被用来提升蛋白质的含量。

据某国际网络安全公司Incapsula总结的数据全球31%的网页访问量由非真人行为造成。我国国家互联网应急中心CNCERT的数据揭示:2012年我国有1419.7万余台主机被僵尸网络控制;2013年五月感染网络病毒的终端数量为363余万。NHT对包括实时竞价广告在内的整个互联网广告体系的影响不可低估。在旧体制的网络广告售卖环境下,NHT很难被有效排除,但在RTB环境下,由于在每一次广告展示拍卖前DSP有若干毫秒的时间可以用于识别NHT,如果Exchange, DSP, 广告主等多方携手,是完全可以最大限度地摈弃非真人的广告展示量。转译一篇来自OpenRTB协会的倡议书供大家参考。

__________________________________________________________

原文: Non Human Traffic signaling in OpenRTB

[译文]OpenRTB的非真人流量(NHT)识别

日期:2013年5月16日

致:OpenRTB开发列表和感兴趣的人士

由:Neal Richter,RubiconProject首席科学家,OpenRTB联席主席

僵尸网络和所谓“非真人流量”是当前的热门话题。我们要认真对待这个已形成产业的行为,最好的办法就是技术平台进行协作并共同努力,检测、管制和预防此类活动。

倡议如下。

交易平台的责任

通过以下最佳实践,尽最大努力分类并拒绝“非真人流量”广告交易请求:

  • (推荐)通过用户代理(user-agent)分类过滤已知爬虫
  • (推荐)通过’检测器’过滤可疑NHT的广告展示
  • (可选)过滤IP黑名单的广告展示

其中,
•过滤“广告展示”指广告交易平台响应有一个空HTTP 204响应或非付费广告(PSA公益广告)的“广告调用”
•广告展示不应该提供给任何RTB需求方合作伙伴。

竞标者的责任

  • (推荐)通过用户代理(user-agent)分类已知爬虫的无竞标广告展示
  • (推荐)通过’检测器’的可疑NHT的无竞标广告展示
  • (可选)对IP地址黑名单的广告展示不竞标
  • 不竞价可以有一个可选的原因代码

其中

•DSP应该按以下建议回复一个事件,而不是仅回复一个HTTP 204(空)

用户代理(user-agent)过滤

IAB和其它供应商都有提供HTTP用户代理列表。当用户代理匹配已知“网络爬虫”列表,建议过滤广告展示或返回不竞标且标明原因代码。

IP过滤

在所有情况下用于任何过滤的IP地址应该是原始IP,而不是中间代理IP。

如果交易平台使用一些服务器间的代理接收请求,那么IP过滤应被跳过如果有访问令牌的话,或者交易平台应使用原始IP。

市场上现在已有各种来源的IP列表,如云计算,托管服器的IP地址,匿名代理等。疑似僵尸网络的相似IP列表也有途径获得。

NHT检测器

建议交易平台和DSP按本倡议书规格创建和部署NHT“检测器”。检测器的目标是通过各种方法将广告展示分为“真人流量”和“非真人流量”。

有许多提供这类服务的供应商。许多业公司开发了内部专有技术,检测各类NHT。

检测器的进一步建议详情不在此倡议书范围内。

OpenRTB协议扩展

在竞价响应的根对象添加一个可选的“无竞价”字段和参数。

1)为竞价响应添加一个代码,包含如下列举的原因:

描述

0

未知错误

1

无效请求

2

已知网络爬虫

3

疑似NHT网站

4

疑似NHT用户

5

云计算或服务器托管数据中心,或其他代理IP地址

6

不匹配用户

7

无可用竞价

8

无底价以上竞价

9

不支持或被屏蔽的终端

竞价响应举例

{“id”:”1234567890″, “seatbid”:[], “nobid_code”:3}

注意OpenRTB 1.x的规格有一个“’nbr”字段(不竞价原因)和一组值。因为使用不足,它在2.x标准中被弃用。

日志记录和处理

交易平台然后可以选择记录这个无竞价代码做进一步分析。

推荐的最好做法是为每一个广告展示使用投票机制,逐渐将某类型的广告展示提炼为模式归类添至检测器。例如,如果N个DSP均认为某个请求是NHT,那么它将被提取,分析其频率和分类的准确性。

可能出现的难点

移动和视频通常使用中间代理,在请求到达交易平台之前。因此试图IP过滤需要考虑更多。建议采取允许这些广告展示的因地制宜的措施。

.

其它方案

另一种方法可能是设计一个各方之间的用于分析NHT模式的离线交易平台。这涉及到设计一个新的协议。

开放问题

来自匿名代理,例如Tor之类的网页访问,如何处理?