目录

0 引言

1 问题描述

2 数据准备 

3 问题分析

4 小结


0 引言

   在用户行为分析中,我们往往需要对用户浏览行为进行分析或获客的渠道进行分析,在埋点日志中用户一个session中会浏览不同的界面,会进行url的跳转,在前端埋点时,往往将用户刚进入界面时的url进行存储,后续在当前页面内的url不会重复存储,这样就会造成大量的空值存在,在数仓建设中我们在dwd层往往需要对数据进行清洗,希望通过对缺失值填充,以满足后续分析的需要。针对用户浏览渠道的缺失,我们往往采用获取当前用户当前行最近的一条数据进行填充,下面我们将该问题进行抽象,模型化,来详细讲解该类问题的处理思路。

1 问题描述

如下图所示,有一张埋点事件表(event),表中渠道id存在部分为空的数据,现在根据如下规则将缺失的数据补充完整。

规则:渠道id为空的,补充为该用户最近一个不为空的渠道id

user_id

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部