浅谈内容推荐引擎 - 《内容算法》读后感

浅谈内容推荐引擎 - 《内容算法》读后感

3月份读了《内容算法》,对推荐引擎有了比较系统的认识。有意思的是,推荐引擎跟搜索引擎有比较多的相同点,甚至可以说是在搜索引擎的升级。于是整理一下分享出来。

什么是内容推荐引擎

内容推荐引擎是移动互联网以来新型的内容产品,打破了之前主动获取内容的形态,可以在用户无明确需求的情况下提供感兴趣的内容,并产生了新的内容生态。虽然 Kill 了用户更多时间,但对用户需求的挖掘,以及对用户更上一层路径的触达上,是极具创新力,并且非常成功的,并且已经有了今日头条、抖音、小红书等成功的产品。

推荐引擎初探

用一句话描述,推荐引擎就是根据用户画像,推荐出感兴趣的内容;并且根据用户行为,不断对用户画像进行调整和完善。举个简单的模型,假设抖音对我的标签为:

那么,在抖音为我推荐的视频内容中,会出现以上主题的视频,并且按照我的兴趣比例进行划分。

技术架构

我直接截取了书上的原图。

浅谈内容推荐引擎 - 《内容算法》读后感

整体上分为 2 部分,离线部分在线部分其中离线部分主要是内容的预处理,包含内容的分类,标签的提取和倒排。在线部分主要是根据用户画像对内容进行召回和排序,并且根据用户行为对画像和排序逻辑进行调整。

推荐引擎与搜索引擎

以下是书中截取的搜索系统的架构,可以跟上图中推荐引擎进行对比。浅谈内容推荐引擎 - 《内容算法》读后感

推荐引擎(下文缩写为 RE )和搜索引擎(下文缩写为 SE )的相同点:整体架构相同,都包含离线部分和在线部分离线部分主要是对内容的预处理,对内容作类目划分,内容的倒排;在线部分主要是针对 query 作召回和排序。

RE 和 SE 在架构上的不同点:

  1. Query 方面。SE 是用用户搜索词作 Query,RE 用用户画像和场景(包含地点、设备、时间等)作 Query

  2. 内容获取。SE 需要用爬虫抓取,是全网内容;RE 是用户提交就能直接获取,是只包含自己系统的内容

  3. 倒排处理。对内容的预处理,SE 主要依靠分词后的关键词,RE 主要依靠标签(实体词)

RE 和 SE 在产品上还有几点不同:

  1. SE 是用户主动获取内容,只处在用户有需求这个阶段;而 RE 是用户被动获取信息,主要覆盖用户没有明确需求的阶段,而这个阶段时间更长,且流量更高

  2. SE 是面向整个互联网,所以不仅有信息,还有各种功能,比如下载、购物、导航;而 RE 只是在产品自身的系统,重点还是信息,功能较少(现在也在用小程序来满足功能)

标签

主要是对内容的标签和对用户的标签。

内容的标签

对内容的标签,是帮助推荐引擎理解内容,尤其是视频、音乐和图片等无法准确识别的内容,更依赖标签,有 PGC 和 UGC 这两种生产形势。以下是豆瓣上对图书的标签:

浅谈内容推荐引擎 - 《内容算法》读后感

用户的标签

用户标签,是用于推荐引擎检索的 Query,有静态动态两种形式。静态标签是用户自身的属性,比如年龄、性别、学历、教育程度,是较固定,更新频率较低的;动态标签则是用户兴趣、场景标签,比如对篮球的爱好、所在的区域,是经常变动,更新频率较高的。以下是常见的用户画像数据:

Google 也有整理用户的标签,以下是我的部分标签:

浅谈内容推荐引擎 - 《内容算法》读后感

推荐引擎的应用

一些朋友以为推荐引擎只在今日头条、抖音这些典型产品应用,其实,内容推荐引擎的应用非常广泛,不夸张的说,大多数互联网产品都有应用推荐引擎有以下几种应用形式。

内容分发逻辑

内容分发方式是一直在演变的,基本分为编辑分发(中心化、人工主导)、社交分发(去中心化、人工主导)、算法分发(机器主导),我在另一篇文章讲过。

现在的推荐引擎,其实并不是完全依靠算法,也都加入了编辑分发和社交分发的因素,只是影响因子不同。

推荐引擎的缺点

推荐引擎虽然已经被多次成功验证,但仍有比较明显的缺点。

总结

本篇内容整理下,就是以下几点:

讨论题

最后还有个讨论题,想跟大家讨论。就是 SEO 如何适应推荐引擎崛起的时代?比如百度的熊掌号的扶持,必然会导致部分流量从站长手里转到公众号博主那里。欢迎各位留言讨论,我会把精彩评论展示出来。


返回:浅谈内容推荐引擎 - 《内容算法》读后感

本文由“公众号文章抓取器”生成,请忽略上文所有联系方式或指引式信息。有问题可以联系:五人工作室,官网:www.Wuren.Work,QQ微信同号1976.424.585