03 数据加工层如何精准匹配用户画像与物品画像？

我们讲解了个性化流量分发体系搭建流程中的数据加工阶段，不过在前面我们主要讲解了如何构建结构化标签，并未提及用户画像和物品画像的构建，以及如何将用户画像与物品画像进行匹配。本节课我们探讨下如何通过深加工帮助用户快速获取有效信息。

对于大部分互联网公司而言，它们提供的服务主要以信息发布和交易撮合为主，因此在搭建个性化流量分发体系时，我们最大的困难是如何基于流量场景实现用户与物品的快速匹配，从而实现用户利益与平台利益最大化。

为了实现这个目标，首先我们需要将用户标签和物品标签进行解构，然后通过某种媒介形式（也就是 02 讲介绍的结构化标签体系）把这两者进行快速匹配。

比方说你正在请女朋友吃饭，拿到菜单时到底该点什么菜呢？如果你们之前一起吃过好几次饭，你就已经知道她喜欢吃什么不喜欢吃什么（用户动态行为），她是不是有忌口（用户数据），再看一眼饭店菜单（物品静态数据），就立马知道点什么菜了。

通过以上这个例子，我们大致理解了这个场景。那如何解构用户标签和物品标签呢？这就涉及用户画像和物品画像的构建。

下面我们先一起来看看用户画像的构建过程。

构建用户画像

什么是用户画像？用户画像说白了就是一个人的标签集合。关于用户标签是什么以及怎么划分，02 讲中我们已经介绍过了，这里就不过多赘述了

那如何构建用户画像呢？构建用户画像前，我们首先需要从用户基础信息和动机信息出发，再从不同类型用户中抽取出一个典型特征来还原一个用户的特征，而这个特征抽取的过程就是用户画像构建的过程。

为了便于你理解，我们也举一个简单例子说明下。以58 同城本地服务为例，为了尽可能全面地描述用户信息，首先我们需要挖掘用户的人口属性、地理位置、上网习惯、兴趣偏好、业务行为偏好、业务属性等数据，然后将这些数据不断优化更新，再抽象出具体的信息标签，最后通过组合的方式搭建出一个立体虚拟模型。

1.用户动机与特征

学到这，我们有必要普及下用户动机、特征这两个概念。

1）用户动机

在选择和使用媒体时，用户往往具备很强的主动权和目的性，因此用户动机其实指的就是用户使用互联网的目的，它通常分为社交、消磨时间、查找信息、分享、表达、娱乐……这几种。

2）特征

用户画像由大量的特征组成，比如基本特征、统计特征、偏好特征等，而特征的特点分为以下三点，也可参考下图进行理解。

特征最直观的一个属性是有特征值，而这个特征值可以是单值，也可以是多值，它具有具体数据类型、数据分布，比如枚举范围、日期类、真实值等。
同时，特征还有生成逻辑，它主要通过规则或者算法模型产生，且在不同条件下它还会产生新的特征。
除此之外，特征还能区分类目城市。

如果我们想要根据用户画像来进行针对性的业务提升，就需要对画像中的大量特征及特征值进行维护和管理，接下来我们一起看下特征管理的实现过程及注意要点。

2.特征管理的实现过程

在实际业务中存在着具体特征、管理特征与特征值时，首先我们通过维度将具体特征进行归类，并对特征值进行管理；接着，针对不同条件我们使用限定词来扩充特征；最后，我们把特征和特征值属性归类到特征和特征值字典中进行维护。

下图所示是我们的实际业务场景——58 同城到家精选保洁业务。

在特征管理过程中，有几个注意要点我需要说明下。

在生成特征后，如果重新导入特征，特征依赖就会出现环状结构，引起特征血缘错乱。

因此，业务方申请特征时，我们需要检测是否有环状结构。如果该特征在使用时又产生了新数据，那么这些新数据就会通过数仓写入画像系统，此时我们同样需要对其进行检测。

以下图为例，业务 1 使用特征 1 会产出特征 2，业务 2 使用特征 2 会产出特征 3，如果业务 3 使用特征 1 和特征 3 会产出特征 2，根据之前的内容介绍我们推导特征 2 会产出特征 3，也就是说这种情况下会出现环状结构。

那遇到这种情况怎么解决呢？我们发现此问题的出现是因为特征 1 使用了特征 3，因此我们不能使用特征 3 ，而应当把特征 1 和特征 2 整合计算后新生成特征 4，这样才不会出现依赖环。

由于维度匮乏、信息缺失、信息不准确等原因，很多时候我们仅依靠用户个人填写的基础信息很难对真实系统进行全方位的刻画，因此我们还需要借助算法模型进行预测。

比如一些看似抽象的职业标签，通过海量的数据分析后我们就能推测出一部分用户的职业类型，且经过模型预测后该值的概率较高，比如那些经常定位在政府机关的用户，其为公务员的可能性比较大。

再比如用户的下单行为，我们也能通过海量的数据分析推测出一部分人正处于哪个人生阶段，且经过模型预测后该值的概率较高，比如最近经常浏览“房屋装修”服务的用户，有可能正处于装修期。再比如在服务评价里经常称呼男朋友、女朋友的用户有可能正处在恋爱期。

当然，这些蛛丝马迹的可能仅仅是相对应算法的输入特征，至于结果究竟如何还需要通过更完善的模型来判别。

那么用户画像构建好后，它可以用来做什么呢？

3.用户画像的应用用途

有了用户画像后，我们就可以使用它进行业务分析、精准运营、算法应用、广告投放、用户变现等。如下图所示，通过分析画像当中用户的基本属性、消费信息、行为数据，我们就可以对其进行个性化推荐、精准广告投放。

其实，用户画像还可以对外提供三大能力：

1) IDMapping “能唯一定位一个人”

2) 受众定向 “能找到这批人”

3) 人群扩选 “能找到和这批人相似的人”

比如 58 集团拥有 58 同城、赶集网、安居客、中华英才网等多个互联网业务，彼此之间的用户体系需要打通。在 58 同城内部，我们就是通过用户 ID 打通了 58 同城、赶集网、安居客等平台的核心数据源，各使用方使用一个账号或手机号就能获取到该用户在各个业务线的全部行为。

这里，我们主要提一下 IDMapping、受众定向、人群扩选这三个概念。

IDMapping

是指针对单个用户 ID，我们基于用户历史行为，比如登录记录、下单记录、评价记录等多维信息为其呈现对应的特征画像。

受众定向

是指通过对用户包人群进行计算，利用多标签间交集、并集（去重）、差集等操作进行人群的筛选和生成。俗话说“物以类聚，人以群分”，相比 ID Mapping 而言，受众定向针对的不是某个单个用户，而是分析呈现一群用户的特征。

以 58 同城本地服务为例，找“月嫂”的用户通常不是找“婚庆服务”的用户，卖家可以把最近 30 天在店铺有成交记录的用户的身份和偏好进行分析，然后相应调整营销策略、定向投放广告。

人群扩选

是将已知的一部分用户作为种子，产出特征相似更广的用户集，人群扩选常见的流量应用场景如广告精准投放、拉新促活等，它的实现思路主要分为以下三大步骤。

特征汇总：发现用户的共有特征，便于寻找其相似用户。
特征处理：一般来说，不同特征之间可能存在不同数据类型，且连续型特征之间的量级往往差异很大。以 58 同城本地服务的客单价特征为例，房屋装修的客单价从几万到几十万不等，而管道疏通的客单价一般是几十到上百不等，为此特征处理就显得尤为重要。
特征差异化分析：在对特征进行差异化分析时，我们先对输入人群和全网用户特征向量上的比例进行对比，然后分析两者之间差异，再提取一部分显著性差异，最后利用显著性特征对输入人群进行放大。

以 58 同城本地服务为例，经过特征汇总和处理后，我们发现找“租房”的用户与找“搬家”、“保洁”的用户存在一定重合，从而快速找到了这三个品类的潜在用户群体。

构建物品画像

物品画像同用户画像一样，我们可以把物品画像构建简单地理解为物品信息标签化的过程。

在这个过程中，我们首先需要挖掘物品结构化标签，再通过各个维度把结构化标签进行有序组织，最终形成物品画像。

物品画像主要分为基本信息、供给侧信息、存储侧信息、消费侧信息这 4 个层面，下面我们以 58 同城到家精选服务画像为例，

基本信息包括类目属性、价格信息、店铺信息、商家信息等；
供给侧信息包括商家供给数、商家服务能力分等；
存储侧信息包括库存数、库存金额等；
消费侧信息包括订单数、下单用户数、销量信息、优惠券金额、实付金额等，这些信息经过不同维度提取后，最终构成了完整的物品画像。

用户画像与物品画像匹配

用户画像与物品画像都构建好之后，我们就可以通过个性化流量分发体系实现快速匹配了，如搜索、推荐、精准推送等。

为方便你更容易理解这部分内容，我们简单举个例子说明下。

比如 58 同城到家精选用户标签中有价格段偏好，物品画像标签中也有价格段偏好，如果用户经常下单 100~200 元的保洁服务，用户画像中就会产生一个 100~200 元保洁服务的标签。而如果物品画像中保洁服务的 SKU 正好是 100~200 元，我们就可以利用个性化流量分发体系将用户标签与物品标签对齐，最终实现个性化、精准化匹配。

在利用画像将用户和物品进行打通时，用户画像和物品画像之间往往存在着很多交集和联动，这就要求我们通过大数据对画像系统进行查询组合处理。比如我们需要通过画像找到物品的目标用户，再将物品推荐或推送给用户，这个过程两者之间就存在着很多交集与联动。

而查询组合的过程其实就是一个树形结构（如下图所示），其中叶子节点是具体查询条件，它用来记录查询条件，如查询字段、条件符、值等。根节点是条件符；在该条件基础之上根节点又会与新查询条件聚合，并创建出一个新的叶子节点，后续并以此类推。而关系节点连接叶子节点，用来记录左查询条件、交集并集操作符及右查询条件。