展望系列2: 从聪明机器的杀手锏说到全自动智能DSP原理-RTBChina

从大狗“被虐”谈起

在讲原理前，让我们先转移一下注意力，从上篇谈到的“无人驾驶汽车”转到“大谷歌”旗下的Boston Dynamics公司 (http://www.bostondynamics.com/)，看一段去年“网红”视频的多帧截图。

图1 Spot被侧踢后踉跄回稳

http://thenextweb.com/insider/2015/02/09/boston-dynamics-shows-off-new-robot-dog-dooms-us-kicking/

视频中可怜的四足机器人名叫Spot，是名噪一时的“大狗 (BigDog)“ 的小型升级版。受DARPA资助， Boston Dynamics公司从2005年就开始研制此类四足机器人。在人的引导下，“大狗”能自主适应崎岖复杂的地形；也能如图1显示的那样，受到突发外力干扰时，能迅速恢复到平稳运行状态。美国军方希望未来能在传统车辆不能行进的地形上，用这种“机器骡子”替士兵载送物资。从已发布的宣传视频上看，它的行为实在太像真实的狗狗了，以至于这种无端被踹的“惨剧”引来了许多网民的同情和抗议。

我们可以从“大狗”联想到正题：全自动智能DSP。两者在某种意义上颇为类似。“大狗”自主应对的是复杂的物理地形，而全自动智能DSP面向的是变化多端的数字环境；“大狗”必须主动协调四肢，保持平稳运行；而全自动智能DSP也得自主优化竞价策略，保证广告主的收益能“最大化”（用有限的预算，获得最多的点击、订单或者收入）。“大狗”明显已经做得很好了，RTB中的DSP如何才能做到类似的“全自动“呢？我们先得讲讲竞价策略的关键元素，它们是自动化工作针对的主要对象。

竞价策略的三剑客

图2 竞价策略核心

通俗地讲，竞价策略是DSP开展竞价时采用一套方法。图2中的黄色框描述了竞价策略的核心部分，它包含了三个关键的子策略：

曝光机会(Impression Opportunity)估值

DSP竞价购买到是曝光机会（广告展示机会），RTB交易市场中可供选购的曝光机会数以百亿计。曝光机会估值策略会分析每次曝光机会携带的信息，计算它对广告的价值。此策略的重头戏是在“人群挑选和估值”，也就是，该选什么样的人群？如何评估人群中每个人（实质上是设备或者浏览器）的价值？只有价值评估准了，定价才能有的放矢。

消耗节奏控制 (Budget Pacing)

解决在总预算有限的条件下，如何在时间维度上，合理地分配预算，尽可能地获得高价值的曝光机会。粗暴点的说法就是，哪个时间段好鱼多了（高价值曝光机会聚集），就开始多撒网（加大预算）。

定价

确定每个曝光机会的价格。影响定价的因素很多，包括，当前消耗节奏控制窗口内的预算额度、曝光机会的价值和其他相关条件。定价子策略要解决在当前预算条件下，如何从价格角度，尽可能地捕获高价值的曝光机会。

如果DSP优化师借助算法和工具，在上述三个核心子策略上都做好了，就能形成一个高效的竞价策略。正如第一篇文章提到的，DSP优化师实际上不可能做得很好。手忙脚乱地凑出一个差不多的竞价策略，是优化师的家常便饭。在“风云多变”RTB市场上，如果自动化机器要战胜DSP优化师，除了拥有“神一般”的计算速度，还必须变得足够聪明。为此，它要获得什么样的杀手锏呢？

聪明机器的“杀手锏”

图3 竞价“机器人”

我们先把全自动智能DSP想象成一个内涵如同“大狗”的机器人，如图3的结构。它的前肢就是定价算法，后肢是消耗节奏控制算法，它的“火眼金睛”便是曝光机会估值算法。作为需求管理方的广告主就是机器人的引导员，他通过某种设备界面引导DSP达成业务目标。RTB市场则是一个崎岖复杂的地形。这个机器人DSP只有具备了以下三个杀手锏，才能有资格单挑DSP优化师。

自主协调

三个核心算法必须能协调一致地工作，不会出现相互冲击和干扰的情况。曝光机会估值相对独立，估值变得准确就万事大吉了。它可以自个儿埋头更新和优化价值预测模型，而不用考虑其他算法。而消耗节奏控制和定价算法则不然，它们均有控制收益最大化的能力，需要特定的协调规则和方法。这就像前肢和后肢的关系，弄不好，就会相互“打架”。

常见协调方案有如下两种：

由消耗节奏控制算法主导收益“最大化”行动, 直接领导定价算法。优点是控制简单，调整快速；缺点是定价算法不能太复杂，要适合在线计算。
消耗节奏控制和定价独立行动，依赖某种沟通机制相互协调。优点是可以设计复杂的定价算法，优化能力更强；缺点是沟通机制不当，就会产生相互冲击，效果反而变差。

良性循环

DSP系统要自主行动，必须建立起竞价数据的反馈闭环。简单点讲，竞价和曝光结果要持续反馈到三个核心算法，让它们有机会能及时更新模型，改进策略。单单有反馈闭环是不够的，它必须产生一种“良性循环”，而不是“恶性循环”。

这是为什么呢？

这是因为DSP系统的竞价策略会直接影响竞价和曝光数据的分布，而DSP又会参考反馈回来的这些数据，再更新竞价策略。竞价策略必须必须要控制好“开矿”和“探测”之间的平衡。打个比方，竞价就像作风险投资，不能把钱全部砸在一二个眼前来钱的项目，需要扩大投资面，保证未来有持续的收益。当然投资面也不能扩得太大，这样短期收益就会变差。

如图4显示，一个过度关注短期利益的竞价策略会造成了“恶性循环”。它总是偏向当前的某些价值热区，反馈来的数据，只会反映这些热点区域。当市场发生变化时，就无法探测到新的价值热区了，投放效果就逐步下降。右边的“良性循环”对应的则是一个“开矿”和“探测”两者平衡的竞价策略，能及时探测到价值热点的变化，调整竞价重心。

图 4 数据循环

反应灵敏

DSP系统必须要面对能快速应对各种波动和变化，最大程度减少人为干预。这些变化包括：

内部变化：比如，广告需求发生调整。
外部变化：主要是来自市场的波动和冲击。
极端情况: 例如，系统故障。

图 5 DSP面临的变化和冲击

人类无法接受一个迟钝的自动化过程。DSP必须要具备敏捷的身手, 能快速协调四肢和眼睛 (定价，消耗节奏控制和曝光机会估值)，迅速恢复和保持平稳运行的状态，而不是踉踉跄跄，经常要人来扶一把。就如前面的“大狗”，如果不能快速适应地形，估计一开始项目就会被枪毙。

DSP系统应如何有效提升反应能力的呢？基于传统的批量学习方法，肯定是不够的。一方面是训练期代价太大，不适合大部分中小型营销活动；另外一方面，批量更新方式计算代价偏高。当系统需要维护的模型愈来愈多时，计算量也会飞速提升，模型的更新速度也会下降。因此，DSP往往会采用更有效率的学习算法，能迅速捕获市场趋势的变化。另外DSP也会配备强大的模型监控和管理机制，应对意外冲击和极端情况。

DSP优化师的转型

如果机器比DSP优化师聪明，执行效率更高，DSP优化师是否就走上了失业的道路呢？答案是否定的。全自动智能DSP的诞生后，RTB广告只是不再依赖大量的优化师了。精明能干的DSP优化师将把工作重心转移到机器不擅长的领域，填补自动化流程中的缺失环节。具体工作内容包括：

成为广告主和机器之间的桥梁：协助广告主制定、管理和优化业务需求；
成为数据分析师，基于投放数据，帮助广告主分析投放效果和发现相关问题；
配合系统提示和要求，处理相关问题。比如输入机器不能确定的信息、帮助系统处理异常情况等。

总之，全自动智能DSP将推动DSP优化师从“操作优化”向“需求优化”转型。

ruanbeijun

作者简介：阮备军博士智子云首席数据科学家

阮备军，复旦大学计算机博士，研究方向是数据仓库、数据挖掘，在数据挖掘技术应用和产品化方面拥不可多得的丰富经验。毕业后长期从事推荐引擎、CRM系统、数据仓库和智能化系统的研发工作，行业涉及电子商务、电子政务和在线金融等多个领域。阮备军博士目前在智子云担任首席数据科学家，领导多个核心产品的智能化研究项目。

展望系列2: 从聪明机器的杀手锏说到全自动智能DSP原理

从大狗“被虐”谈起

竞价策略的三剑客

聪明机器的“杀手锏”

自主协调

良性循环

反应灵敏

DSP优化师的转型

相关推荐

微信订阅

热门文章

Blogroll

觉得文章有用就打赏一下文章作者吧

微信扫一扫打赏