TMM 发表于 2013-8-22 17:30:15

走近算法:受众行为分析与人群定向

“物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了“聚类”和“人群”之间的内在联系。 例如在现代数字广告投放系统中,最为关键的“人群定向”功能正是通过“聚类”算法得以实现的。如果您厌倦了隔靴搔痒的空大宣传,不妨就随笔者一起钻进系统内核,抽丝剥茧般探究技术的黑盒,还原受众行为分析的真相。
广告传递信息的受众是每个在浏览器前的自然人,然而互联网上的分析手段无法触达自然人,只能以他们上网的痕迹和记录作为在数字世界中的代表,这就是cookie。于是,以物拟人,以物窥人,才是比任何大数据都要更大的前提。明白了这一点,也就触摸到了人群定向的天花板–不可能百分之百精准。
如何从广泛的受众中提炼目标人群呢? 正是依靠受众行为分析。它以cookie为单元,根据cookie的海量历史行为,推断其行为特征,兴趣爱好,并以此为依据,将最合适的、最有可能产生转化的广告展示给用户。受众行为分析一方面能够提高用户对于广告的反馈程度,增加转化率;另一方面能够降低广告主进行广告投放的成本,以更低廉的价格产生最佳的投放效果。
下面我们以易传媒的广告投放算法为例,浅析一下怎样由预先标注的关键词标签,一步步建立完整的受众行为分析模型,挖掘出具有相似行为特征的人群,提炼人群的属性特征,最终进行最合适的广告投放的。

关键词标签
关键词标签从何而来? 从网页中来。一个Cookie会被贴上什么样的标签,是由这个Cookie浏览过的网页等历史行为所决定的。这个预处理过程,大致可分为以下三步:
(1)记录受众的历史行为,包括产生浏览、点击、搜索、注册、购买等行为的网页地址(URL),积累原始数据;
(2)以商品内容和新闻内容为导向,建立关键词标签库,作为受众行为分析的基础元数据;
(3)针对所有受众相关的URL,通过网络爬虫程序和语义分析(分类和关键词提取),生成每个cookie的初始标签集合。
定义1:关键词标签模型
http://www.adchina.com/UploadedFiles/1%283%29.jpg如图1所示,在每个关键词标签模型中,考察多种典型用户行为,如:浏览,点击,搜索,注册和购买等其它行为。在图中,每个标签就像是一根竹签,上面串着五粒或更多的糖葫芦。举例来说,关键词标签 Valentino (id为1) 的模型 σ={1,100,5,0,0,1} 表示在用户浏览的网页中共含有关键词Valentino 100个,在他/她点击过的页面中含有关键词Valentino 5个,而在他/她进行购买下单的页面中含有1个关键词Valentino。这个标签表征该用户对奢侈品品牌Valentino有相当的兴趣和关注度。
http://www.adchina.com/UploadedFiles/2%281%29.jpg从上述关键词标签模型可以看出,通过提取用户感兴趣的特征标签集合,并以此为依据进行广告精准投放,主要的优点在于:
(1)能够细颗粒度地刻画出受众对某件事务或者领域的兴趣程度,从而使得投放更加精准。
(2)可以实现“协同过滤”的功能,即利用受众类别之间相似性,预判出受众潜在的购买意向。

受众对象模型
关键词标签模型记录了最原始关键词信息,将爬虫所得的非结构化文本抽象成为结构化的标签信息。接下来对标签的五个行为计数器进行加权归一化处理,遍历受众的全部关键词标签,量化每个关键词标签对于受众的重要程度,就形成了受众对象模型。
定义2:受众对象模型
http://www.adchina.com/UploadedFiles/3%281%29.jpg如图1所示,受众对象模型刻画的是受众Cookie的历史行为特征,而其维度就是不同的关键词标签,通常可达几十个乃至上千个维度。这就好比一杆草桩上密密麻麻地插满了不同口味的糖葫芦。映射函数θ()使得标签的行为被加权归一化,θ()可以根据不用的业务需求进行设计。一般而言,购买行为是最强的信号,权重最高;点击则属于次强级别,表明用户的主观兴趣,有明确的目的去了解相关信息;而浏览在很多情况下是被动行为,故权重值最低。
在第一节的例子中, 假设白领女性Amanda的cookie ID为1, 拥有关键词标签Valentino: σ1={1,100,5,0,0,1}, 被加权归一化后系数θ(σ1)=0.75;同时, Amanda还拥有另一关键词标签宝马微型车品牌Mini Cooper: σ2={2,90,15,0,0,1}, 则被加权归一化后可能有θ(σ2)=0.8(点击行为的权重比浏览高);此外受众A还拥有其它一些标签,但权重系数比较低。那么该受众Amanda的模型就可表示为ρ1={1,0.75,0.8,0.1,…}。至此,自然人的兴趣属性和特征,通过其浏览器Cookie为代表,经过上述建模手段被抽象和重构出来了。
受众对象模型是受众聚类的原子单元,可以形象地理解为多维聚类空间中的一个”点”。通过受众聚类算法,将含有相似关键词标签集合的用户聚合在一起,就组成了受众聚类模型。
本文介绍的整个受众行为分析的模型流程图如图2所示:
http://www.adchina.com/UploadedFiles/4%281%29.jpg
聚类模型和算法
累积受众对象模型后,我们已经坐拥成亿量级的受众’矿山’,其中每块矿石具有几十乃至上千的标签维度。 如何才能有效地开采矿山,提炼金子呢?这得有请在计算机届鼎鼎有名的数据挖掘工:聚类(Clustering)。聚类是一个将数据集划分为若干类的过程。聚类的宗旨和评判标准是使得同类对象相似度尽可能大,而各个类之间的相似度尽可能小。相似或不相似的描述是基于数据描述属性的取值来确定的,通常是用各对象在多维空间中的距离来表示。
定义3:受众聚类模型
http://www.adchina.com/UploadedFiles/5%281%29.jpg
常用的聚类分析算法大致包括划分方法,分层方法,基于密度的方法和基于网格的方法等几类。易传媒的投放系统所搭建的受众行为分析模型借鉴了CURE (Clustering Using REpresentatives) 层次聚类算法,并在其基础上参考了其他聚类算法(例如:BIRCH等),融合改进,试图使整个聚类算法更加符合实际的广告业务需求。CURE算法将分层方法与划分方法结合到了一起。它克服了偏向发现相似大小和圆形形状聚类的问题;同时在处理高维数据和异常数据时也表现得更加高效稳定。相比其他算法,CURE算法主要有以下几个优点:
(1)通过使用“代表点”表示一个聚类,从而使得聚类算法能够适应各种不规则形状的类,而不仅仅是球形的。
(2)通过因子α将代表点向聚类中心进行收缩,从而使聚类算法抵抗离群点的能力更强。
(3)通过随机抽样和划分技术,使得CURE算法能够处理超大规模的数据,以加快聚类算法的执行效率。
为了验证该模型的可靠性,易传媒技术团队根据统计学中一些经典的方法设计了验证系统,结果证明误差被控制在一个比较理想的范围内。

定义4:聚类效果指标
http://www.adchina.com/UploadedFiles/QQ%e6%88%aa%e5%9b%be.jpg该指标R^2的取值范围在0与1之间,它总是随着分类的个数减少而变小,而类的个数进一步减少不应以R^2大为减小作为代价。测试结果R^2的值在0.80左右,这表明易传媒这套算法的聚类效果比较好。
继续前面的例子,已有受众A: ρ1={1,0.75,0.8,0.1,…},若还有受众B: ρ2={2,0.78,0.81,0.2,…},受众C: ρ3={3,0.77,0.82,0.1,…}等等。他们有极其相似的标签属性,并且规模足够大,那么运行聚类算法后,很可能会产生一个独立的受众聚类φ。这个受众聚类包括了相当数量的类似受众,其聚类属性就是标签集合“Valentino&Mini Cooper”。这个人群就是经过多道工序处理之后,数据挖掘工最终给我们淘出的亮灿灿的金子。

人群定向投放
作为人群定向广告正式投放前的最后一步,受众聚类和结构化的人群分类将进行匹配映射。这种映射是利用二者标签集合的重合度来实现的。 其结果,受众聚类φ可能被同时映射到人群分类“奢侈品-Valentino”,“汽车-宝马”和“汽车-微型车”。根据第一节所述关键词模型的优势,它至少有如下两个用途:
(1)当一个投放策略的人群定向选择了”奢侈品”或者”汽车”时,广告允许被指定投放给受众聚类φ所包含的Cookies.
(2)利用两个标签在一个细分人群中的内在关联性,推测喜欢Valentino的人对Mini Cooper也感兴趣,可尝试进行交叉投放,例如把Mini Cooper的广告投放给曾购买过Valentino商品的回头客,反之亦然。

TMM 发表于 2013-8-22 17:32:01

原来在这个区发布帖子是要消费广告币的:@

yincthh 发表于 2013-8-22 17:35:46

TMM 发表于 2013-8-22 17:32 static/image/common/back.gif
原来在这个区发布帖子是要消费广告币的

转的?

TMM 发表于 2013-8-22 17:53:34

yincthh 发表于 2013-8-22 17:35 static/image/common/back.gif
转的?

cfans1314 发表于 2013-8-23 11:18:36

看着提供专业的,人群定向投放这个怎么操作?
页: [1]
查看完整版本: 走近算法:受众行为分析与人群定向