内容与算法推荐

搜索和推荐

搜索引擎分为两部分:


区别
推荐系统和搜索最大的不同就在于用户表意不明确推荐系统需要尽可能完善用户的长期画像(对哪些类目,话题,实体词感兴趣)和短期场景(地点,时间等信息)。关于类目,可以是体育和科技内容。关于实体词,则类似NBA,华为,电动汽车等。

产品经理在推荐系统的角色



推荐:断物识人

推荐算法,就是物以类聚,人以群分

基于物品属性的相似性来推荐

基于用户行为的“协同过滤“

推荐算法的应用场景



以今日头条为例,推荐系统怎么连接内容与人呢?

背景:今日头条时刻面临着新发布的内容和新的用户。对于这些新的存在,系统需要积累一定的曝光量和互动量来收集基础数据。这个过程很关键,关系到用户和创作者的满意度和App留存率

内容冷启动(即新发布的内容)

如果没有足够的正面用户反馈,则认为该内容是不受欢迎的,要控制负面影响
如果内容找到目标人群,收获了很高的点击率,则被推荐系统快速放大成了爆款。由于一开始缺乏用户反馈,故推荐系统依赖内容的展示和消费维度来判断
系统运作:首先考虑展现层,新发布的内容,可忽略评论,展示重点在于标题(吸引人),封面(清晰,表意明确),作者信息(有权威度,与内容的领域一致);其次,考虑阅读体验是否与用户匹配。例如NBA有球赛,泛娱乐版权等角度报道,但在内容和用字上肯定不同。系统分析作者过往表现,统计词频(提及版权、分销还是比分、MVP等关键字)等方式来预估内容的话题属性和用户点击后是否满意。


用户冷启动

推荐服务的一大目标是:用户的留存率,在这个前提下,再去探索兴趣。冷启动时追求重大兴趣的收敛而非发散。

建立新用户画像,尽快完善信息收集和预处理工作
内容供给

引入新的内容品类或创作者的时候,要尽快通过探索找到基础用户

方法一:大力出奇迹,生推。保证新品类内容展示给一定规模的用户群体。如微博引入梅西,就直接送一次全局的开屏广告,大品类内容具备大规模生产和消费需求,点击率不会损失太高,可能在百万规模的展示后,就能探索出相应的用户群体。但是小众的品类和平台则有些难做,例如千万日活跃用户,小品类受众可能万量级,展示100万次该新品类,预估点击人数就1000,再考虑目标受众错过或误点,那么这样的推荐效率是很低的。

此外,可以考虑引入专家系统的先验知识。例如对于嘻哈音乐,不考虑全人群的强展现而是给特定人群,换取更高的点击率。可以展示给喜欢个性,街舞和潮流服饰等分类内容的用户群体,年龄定到15-30岁。

自媒体和平台

平台对自媒体要评估、服务、引导
评估
服务(平台角度的运营和保护)
(预期管理,创作者要符合规则,可以获得一定的预期性收益)

常见的推荐问题
推荐重复。分为(列表页相同和不同,详情页相同和不同)四种情况

推荐密集。密集的衡量取决我们怎么拆内容,如题材,作者,类目,实体词。避免列表页同一类内容占比过高,丧失多样性

易反感内容。要识别的准,再要推荐的好。识别过程采用数据产品中定量分析处理问题的通用流程:分析影响面,定义标准,数据收集标注,模型评估

时空限定内容   


本文内容是对《内容算法》的学习总结,作者是之前今日头条的工程师/产品经理的闫泽华。闫泽华对于内容,平台,用户,自媒体感觉确实是玩明白了。对于这本书,是值得认真吸收其经验的。

以上总结了推荐系统的信息,推荐系统的协同过滤,用户画像的建立,内容的冷启动和生命。此后作者还讨论了编辑分发,算法分发,社交分发,业务场景,数据驱动产品优化,还有具体视角的自媒体运营。打算过两天再写一篇学习笔记。

返回:内容与算法推荐

本文由“公众号文章抓取器”生成,请忽略上文所有联系方式或指引式信息。有问题可以联系:五人工作室,官网:www.Wuren.Work,QQ微信同号1976.424.585