策略产品案例:「今日头条」推荐文章模块的调研与分析

2025-11-14 18:03:54 8阅读

调研方式:抽样分析

调研目标:发现未达理想态case;分析原因,制定解决方案

今日头条推荐系统分析_今日头条需求分析文档_抽样分析未达理想态案例

一、今日头条推荐系统概述1. 推荐维度

如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个函数需要输入三个维度的变量。

内容:头条是一个综合内容聚合平台,图文、视频、UGC小视频、问答、微头条,每种内容有很多自己的特征,需要考虑怎样提取不同内容类型的特征做好推荐。用户特征:包括各种兴趣标签,职业、年龄、性别等,还有很多模型刻划出的隐式用户兴趣等。环境特征:这是移动互联网时代推荐的特点,用户随时随地移动,在工作场合、通勤、旅游等不同的场景,信息偏好有所偏移。2. 人为干预(无法量化的目标)3. 典型推荐特征

抽样分析未达理想态案例_今日头条推荐系统分析_今日头条需求分析文档

4. 用户标签

今日头条需求分析文档_今日头条推荐系统分析_抽样分析未达理想态案例

用户兴趣特征最直观的是基于点击的内容标签,内容标签有相关的数据处理策略

过滤噪声:通过停留时间短的点击,过滤标题党。热点惩罚:对用户在一些热门文章上的动作做降权处理。理论上,传播范围较大的内容,置信度会下降。时间衰减:用户兴趣会发生偏移,因此策略更偏向新的用户行为。因此,随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大。惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征(类别,关键词,来源)权重会被惩罚。当然同时,也要考虑全局背景,是不是相关内容推送比较多,以及相关的关闭和dislike信号等。5. 消重&时效

1)相同文章消重

2)相似主题消重

热点事件只需要几篇文章覆盖到整个事件就可以了。

二、需求分析1. 业务需求分析

内容聚合平台的核心功能是高效地为用户分发内容,促使用户观看更多内容,在平台逗留更长时间,并与内容作者及其他用户进行社交互动。

聚合平台向用户分发内容的方式可以分为平台主动推送和用户主动寻找。

主动推送方式主要是智能推荐引擎。

用户寻找主要是通过以下几点实现:

推荐模块的业务需求是通过合理筛选并展示内容或作者信息,方便用户快速找到这些内容。

今日头条需求分析文档_今日头条推荐系统分析_抽样分析未达理想态案例

2. 用户需求分析

今日头条用户画像:

抽样分析未达理想态案例_今日头条需求分析文档_今日头条推荐系统分析

抽样分析未达理想态案例_今日头条推荐系统分析_今日头条需求分析文档

从年龄、城市分布来看,18-30岁人群占到近86%,二线城市及以下占近73%。18-23岁主要是大学阶段,24-30岁则多是职场执行层,同时又处在竞争相对不那么激烈的小城市,他们都有一个共同的特点——闲。

闲就需要娱乐,头条在一定程度上补充了这部分需求,同时又提供大量的新闻资讯,满足用户获得信息的需求。

用户需要一种高效的手段来快速找到自己喜欢看的内容。除了平台智能推荐引擎、菜单导航、搜索栏、关注页以外,用户还可以通过推荐模块快速找到优质内容。

三、定义理想态1. 理想态定义

在【科技】频道中,用户浏览完一篇文章后,推荐用户在当前最感兴趣的或者与这个内容最相似的一个内容。

2. 核心指标及拆解

今日头条需求分析文档_抽样分析未达理想态案例_今日头条推荐系统分析

“用户浏览完一篇文章”的影响因素:用户画像、首页推荐策略。

“在推荐模块快速高效的找到感兴趣内容”的场景:

在拆解指标时,只考虑不受其他策略影响的情况,否则没办法准确定位问题。因此在抽样调研过程中,我们都假设用户看完了样本文章并滑动到了推荐文章模块。

3. 核心指标

(1)点击率

推荐模块第一条>40%、第二条>20%(基于sense的决策,通过实际数据分析调整)

(2)满意度

通过用户行为指标量化得分

今日头条推荐系统分析_今日头条需求分析文档_抽样分析未达理想态案例

(3)多样性

满意度&多样性在无数据时的衡量方案:

抽样分析未达理想态案例_今日头条需求分析文档_今日头条推荐系统分析

根据之前调研时得到的数据,内容数据(视频播放量、点赞数、评论数、转发量、相关搜索、是否原创等)、作者数据(发布帐号、简介、是否认证、认证信息、粉丝数、发布数、获赞数)并没有直观的展示出其与推荐内容及排序的关系。本次调研中此类字段,对应上文核心指标中的用户满意度,简化成对应得分。

今日头条推荐系统分析_抽样分析未达理想态案例_今日头条需求分析文档

内容质量:通过可获取的内容信息、作者信息、用户与内容、作者互动的数据,佐证内容质量。

内容&作者标签/主题:内容标签的层级是相对的,通过系统定义标签与自定义标签对比,层级关系如【体育】>【足球】>【中国足球】。

每个内容都应最少定义出相同或不同层级的3个标签。

暂定推荐模块中,前2条内容主要负责内容相关,内容质量要求适当放低;后3条内容负责内容多样。

内容相关:推荐模块第一条内容相关分>5,第二条内容相关分>3;内容质量分>3

内容多样:内容质量分>5,内容相关分≤3

(4)覆盖

推荐模块覆盖率达到80%(基于sense的决策,通过实际数据分析调整)

(5)消重

在推荐模块的5个内容中,没有重复内容(“重复内容”和“相似内容”通过内容识别机制量化定义)

(6)时效

推荐内容的发布时间与推送时间间隔不超过其对应的时间节点

4. 外部因素

a.用户持续使用时长

根据公开数据,今日头条用户平均使用时长为76分钟左右。在超过用户习惯的浏览时长后,用户的跳出是基于规律和习惯,并不能代表对推荐内容不感兴趣。

理想态中定义的【科技】只是平台内容中的一个频道,通常用户不会每次只浏览一个频道的内容。因此在单一频道中对用户平均使用时长的预估还要减少。暂定30分钟,用户持续使用超过30分钟后,跳出行为不在分析范围内。

b.使用过程中被打断

用户在使用过程中出现断网、网络信号差、锁屏、杀死进程、低电量关机、接入电话等客观情况时,会打断用户的浏览行为,并不代表用户主观上对浏览内容的好恶,因此此类情况同样不在分析范围内。

c.推荐内容为视频

部分推荐文章中包含视频内容

四、抽样分析1. 调研目标

分析平台【科技】频道下,推荐模块的推荐策略,通过调研及分析找到现有推荐策略存在的问题,给出优化方案。

2. 抽样对象&抽样数量

【科技】频道中的15篇文章,记录各自对应的推荐内容。

3. 抽样方式

模拟用户浏览场景,按FEED流降序抽取样本。

今日头条需求分析文档_抽样分析未达理想态案例_今日头条推荐系统分析

局限性:由流程图可以看出页面跳转逻辑,在推荐内容是文章时,点击返回直接跳转回首页,每次跳转页面都会刷新,推荐模块内容均会产生变化,因此无法获取第一次进入样本详情页中推荐模块的全部内容信息。(搜索无法确认发布账号)

4. 样本分析&标注

用户标签:深圳、男

用户行为:浏览【健康】【科技】类文章较多,少量【娱乐】【历史】类文章;多次重复浏览相同内容。平均停留时间小于30S。

抽样环境:周日15:00~周一1:00,iPone6SP

今日头条推荐系统分析_抽样分析未达理想态案例_今日头条需求分析文档

5. 整理汇总问题

未达理想态

今日头条推荐系统分析_今日头条需求分析文档_抽样分析未达理想态案例

(1)内容质量低

很多鸡汤文都会挂着马云等科技大佬的旗号吸引用户点击,用户对内容的兴趣不是基于科技相关话题,而是人物的社会标签、财富等因素。标题党、震惊体的标题虽然措辞程度有所收敛,但是如果把内容质量的标准稍微上升一些,但是有很大一部分的内容无法通过审核。

不同用户对内容的感知也是不同,但是如果用户觉得看到的内容质量低,但是又没办法通过浏览过的低质量内容找到高质量内容,用户会选择跳出平台。

(2)内容相关性差&内容多样性差&标签缺失

【内容相关性差】和【内容多样性差】主要有4点原因

【标签缺失】的直观展示效果。标签定义太少,不够聚焦。如果标签是高频词,会导致匹配到大量弱相关的内容;如果标签不是高频词,会导致匹配到很少的内容。样本文章的标签错误或标签缺失,导致与之匹配的推荐内容出现偏差推荐引擎排序没有明显规则,把【多样性内容】排到了【相关性内容】的位置多样性不够多样。在推荐的其他主题内容中:【娱乐】5个,【房产】3个 ,【历史】4个 ,【美食】1个 ,【文化】1个 。推荐主题覆盖率只有10%左右,不利于冷启动。

(3)覆盖率低

部分文章下没有推荐内容,尤其是在FEED流顶部新刷出来的内容。有可能是没有及时为文章定义标签。

(4)消重

某种程度上和【标签缺失】是互斥的问题,在本次抽样中未定位到。完善内容标签后,需要重点关注。

(5)时效

本次抽样未定位到。本次因为浏览行为的影响,抽样中段推荐了大量科技侧重商业方向的内容,该类内容不受时效性影响。理想态的定义是90天,如果缩短到60天则会有部分内容触发时效。

不同的频道、不同层级的标签都要精细化设置对应的时效限制。

6. 其他影响因素

a.样本文章内容标签&内容分发

免责声明:由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权,根据《信息网络传播权保护条例》,如我们转载的作品侵犯了您的权利,请您通知我们,请将本侵权页面网址发送邮件到qingge@88.com,深感抱歉,我们会做删除处理。