什么是推荐系统?

维基百科定义

  • 推荐系统是一种信息过滤系统,用语预测用户对物品的“评分”或“偏好”

限定在电商购买决策过程的定义

  • 电商应用向客户提供商品信息和建议,帮助用户决定应该够买什么产品。

    img

  • 这其中隐含了土建系统的2个重要的核心功能

    • 路径优化

      img

    • 兴趣发现

      img

推荐概述

  • 推荐目标:合适的才是最好的
  • 实现手段:数据、算法、架构、
  • 核心功能:链路优化、兴趣发现
  • 评价:满意度(点击率,转化率,时长)、准确、覆盖率、多样性、新颖性、惊喜性、信任度、鲁棒性、实时性、商业目标
  • 两过程:从学习到决策过程
  • 核心问题:如何构建一个用户对商品的评价模型
  • 宗旨:服务提供方和消费方双赢
  • 演进:
  • 与搜索的异同:推荐被动,搜索主动; 推荐不明确货找人, 搜索明确人找货

推荐的几大挑战

  • 大数据,稀疏,长尾,噪音
  • 用户行为模式的挖掘和利用(行为的复杂性)
  • 冷启动(新用户/新商品)
  • 多样性与精确性的两难困境
  • 用户界面与用户体验(个性化体验的可解释性)

好的推荐产品

  • 5W
    • when
    • where
    • who
    • what
    • why

img

img

img

img

推荐系统是怎么做到的?

上下文

  • 当前定位
  • 当前季节
  • 用户年龄

用户画像

  • 用户静态数据
  • 用户动态数据

协同过滤

基于用户

img

基于内容

img

基于商品

img

基于模型

img

基于统计/知识

推荐系统的相似度评估

计算用户与用户, 商品与商品, 内容与内容的相似度

主要思想为,交集 / 并集

img

img

  • 当交集与并集相等时,相似度为1
  • 当交集为空时,相似度为 0

推荐的混合模型

级联型

使用后一个推荐方法优化前一个

特征递增

前一个做为后一个的输入

特征组合

将来自不同推荐数据源的特征组合,然后由其他推荐技术使用

元层次组合

将不同的推荐模型融合

混合

将多种不同的推荐算法的结果混合在一起

切换

根据问题背景和实际情况采用不同的推荐技术

加权融合

多种推荐类型的计算混合产生推荐

推荐系统的架构和模块

演进

img

img

推荐系统架构

img

img

img

推荐流量分发

  • CVR (Click Value Rate): 转化率,衡量CPA广告效果的指标

  • CTR (Click Through Rate): 点击率

  • CPC (Cost Per Click): 按点击计费

  • CPA (Cost Per Action): 按成果数计费

  • CPM (Cost Per Mille): 按千次展现计费

  • PV (Page View): 流量

  • PV单价: 每PV的收入,衡量页面流量变现能力的指标

  • ADPV (Advertisement Page View): 载有广告的pageview流量

  • ADimp (ADimpression): 单个广告的展示次数

  • RPS (Revenue Per Search): 每搜索产生的收入,衡量搜索结果变现能力指标

  • ROI:投资回报率(ROI)是指通过投资而应返回的价值,它涵盖了企业的获利目标。利润投入的经营所必备的财产相关,因为管理人员必须通过投资和现有财产获得利润。又称会计收益率、投资利润率。

  • GMV:通常称为网站成交金额,属于电商平台企业成交类指标,主要指拍下订单的总金额,包含付款和未付款两部分

计算方式

  • ROI=订单额/消费量(即广告费用)=(单均额转化量)/(CPA转化量)=单均额/CPA

  • CTR=点击量/展现量

  • CVR=转化量/点击量

  • CPM=(消费量/展现量)*1000

  • CPA=消费量/转化量=(CPC点击量)/(CVR点击量)=CPC/CVR

  • CPC=消费量/点击量

img

模型部署

img

img

img

推荐召回

召回分类

兼顾成本与性能

  • user profile 标签索引列表
  • 相似列表
    • 协同过滤
    • Content-Based
    • 基于图论的算法
    • knoledge-Based
    • Context-Aware
    • Hybrid-BAsed
  • 热门列表
    • 分类热门
    • 运营人工推荐列表
  • 召回的列表将作为推荐候选池

业界算法模型

img

img

img

相似度计算注意点

  • 在不丧失区分度的情况下,空间尽量稠密
  • 经验目标:稀疏度> 1%
  • 横向结合+纵向结合
  • 相似度归一化
    • 提高推荐的准确度
  • 时间因子
    • 对历史共现的数据和历史频次的数据进行降权
    • 要更加侧重于新数据的影响力

召回—关联推荐

img

img

img

推荐排序

问题抽象

img

个性化/非个性化模型

img

目标变形

img

预估流程与部署

img

调试

img

img

用户画像

要素

用户行为= 商品/内容 +显性操作 (购买、关注、下载)+隐形操作(时长、跳过)

User profile 基础数据

用户标签

  • 用户的历史行为
  • 用户session行为
  • 用户自身的标签

Item/Content profile基础数据

内容标签

  • 内容的keyword
  • 分类
  • 热点标签
  • 标题党
  • ……

用户画像标签

img

用户画像应用-选人中心

img

用户画像应用-DMP

img

用户画像应用-Right Time 消费周期

img

标签体系构建

img

标签建模

img

性别模型

img

购买力模型

img

关键词偏好

img

关键词模型

img

画像与数据分析结合

img

img

img

特征工程

分类

  • 用户特征
    • 人口统计学特征
    • 购物偏好
    • 用户群体标签
  • 商品特征
    • 商品ID
    • 商品静态属性
    • 商品的关联卖家
    • 商品所在的店铺

img

img

img

数据标注

  • 样本关联
  • 样本选择
  • 样本采样
  • 样本权重
  • 负样本

img

特征处理

  • 特征离散化、ID类特征
    • 加快处理速度
    • 非线性
  • 特征平滑
    • 威尔逊区间
    • PV越小,CTR的置信度越小
    • 防止低PV的商品占优势
  • 特征组合
    • 非线性
    • PV+IPV组合,比CTR的信息更多

img

百度百科:在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平

特征聚合

  • 特征降维
  • 相似特征有相似权重
  • 特征的权重近似于后验概率

img

评估指标

img

img

回归

场景分类与推荐

img

各类算法比较

img

实时个性化

img

意图计算

img

E&E 个性化

img

可配置化

img

分解

img

img



产品   推荐   个性化      产品 推荐系统 个性化 内容分发

本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!