加入收藏 | 设为首页 | 会员中心 | 我要投稿 南京站长网 (https://www.025zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

几种大数据分析模型

发布时间:2022-11-21 14:01:22 所属栏目:大数据 来源:互联网
导读: 几种大数据分析模型
最近,做项目时遇到了一些客户的APP运营提升的需求,需要通过多种大数据分析方法来实现对移动APP的用户行为、使用习惯、用户属性、用户画像、安全情况等维度进行全貌洞

几种大数据分析模型

最近,做项目时遇到了一些客户的APP运营提升的需求,需要通过多种大数据分析方法来实现对移动APP的用户行为、使用习惯、用户属性、用户画像、安全情况等维度进行全貌洞察,为运营和管理者提供数据决策支撑。本文抽取了神策、百度等几家做BI大数据业务的产品和资料,整理汇总十种大数据分析模型。

行为事件模型

在对移动APP或网站产品和运营过程中,经常对对网站每天的PV、UV、DAU 等总体数据有一个直观的把握,明确每天指标数据的变化趋势。或者是在做了第三方付费渠道推广后,需要有效比较不同渠道带来的流量。这种时候就会用到行为事件分析模型。

事件指的是用户操作产品的一个行为,即用户在产品内做了什么事情,转义成描述性语言就是“操作+对象”。事件分析是对用户行为事件的指标进行统计、维度细分、筛选等分析操作。

行为事件模型用来研究某行为事件的发生对本项目移动应用APP运营组织价值的影响以及影响程度。可帮助追踪用户的行为或业务过程,如:移动端按钮点击次数行为分析、注册用户、浏览产品详情。通过研究与事件发生关联的所有因素来挖掘用户行为事件背后的原因、交互影响等。

事件分析能对网站每天的 PV、UV、DAU 等总体数据有一个直观的把握,包括它们的数值以及趋势?面对复杂的数据,单从数字来看,不仅效率低下,而且难以直观的发现数据背后所展现的趋势,应该怎么办?当做了第三方付费渠道推广后,运营同学如何才能有效比较不同渠道带来的流量?

行为事件分析环节包括:

事件定义与选择:用户在某个时间点、某个地方、以某种方式完成某个具体的事件;

下钻分析:最高行为事件分析需要支持任意下钻分析和精细化条件筛查;

解释与结论:需要对分析结果进行合理化的解释和说明。

大数据算法 英语_大数据常用算法_大数据算法

图 1 行为事件模型分析

留存分析模型

留存是AAARR模型中的重要环节之一。留存分析是一种用来分析用户参与情况/活跃程度的分析模型。这是用来衡量产品对用户价值高低的重要方法。考察进行初始行为的用户中,有多少人会进行后续行为。一般来讲,留存率是指【目标用户】在一段时间内【回到网站/APP中完成某个行为】的比例大数据算法,即若满足某个条件的用户数为n,在某个时间点进行回访行为的用户数为m,那么该时间点的留存率就是m/n。常见的指标有次日留存率、七日留存率、次周留存率等。

N-day留存,即第几日留存,只计算第N天完成回访行为的用户;

Unbounded留存(N天内留存),留存会累计计算N天内所有完成过回访行为的用户。

Bracket留存(自定义观察期留存),N-day留存和Unbounded留存都是按照独立的天/周/月为观察单位计算,如果不受限于这种固定时间度量,我们可划分为几个观察期进行数据分析。

大数据算法_大数据算法 英语_大数据常用算法

图 2 用户留存模型

留存分析可以支持按周、月展现移动应用首次启动日、新增用户及多日后的移动应用留存率。可按周、月内展现流式与回流趋势图,移动启动次数及活跃用户趋势图。

大数据算法_大数据常用算法_大数据算法 英语

图 3留存分析

分布分析模型

针对产品优化和运营是动态调整过程,需要不断监测数据变化,调整产品设计和运营方法,实施监测效果对比。分布分析是用户在特定指标下的频次、总额度的归类展现。它可以展现出单个用户对产品的依赖程度,分析客户在不同地区、不同时段使用不同类型的产品数量、购买频次、帮助运营人员了解当前客户状态。如使用频次(100次以下区间、100-300次区间、300次以上区间)等用户分布情况。分不分析模型可支持按时间、次数、时间指标进行用户条件筛选及数据统计分析。为不同角色人员统计用户在某天、周、月内,有多少个自然时间段(小时、天)进行了某项操作、次数,进行事件指标统计。

比如,通过分布分析模型可针对在日、周、月时间周期内对人均使用时长、次均使用时长和使用频率展示分布图。针对用户业务属性的画像分析和特征分布,年龄分布、学历分布、地域分布等等。

大数据常用算法_大数据算法_大数据算法 英语

图 4 分布分析

行为路径模型

用户行为路径分析,是指用户在APP或网站中的访问行为路径。为了衡量APP优化效果或营销推广效果,以及了解用户行为偏好,需要对用户访问页面的路径跳转数据进行分析。行为路径是进行全量用户行为的还原。如果仅有PV/UV这类数据,我们是无法理解用户如何使用产品的。用户行为路径可以帮助运营者关注用户的真实体验,发现具体问题,了解用户的使用习惯。

用户行为路径分析模型可对移动应用使用频率、页面访问、页面路径、页面来源进行跟踪,获取页面访问行为、访问次数、访问时长、跳出率、人均使用时长等页面访问统计数据。页面路径还可以展现查看用户从有一个页面趋向其他各个页面的分流情况,了解用户在页面之间的跳转行为,以及页面的访问流量的来源情况。

大数据算法_大数据常用算法_大数据算法 英语

图 5 路径分析

漏斗分析与路径分析有几分相似,但是差别的。漏斗分析是固化了具体的分析过程或者业务环节,然后分析这几个大的业务环节的转化;而路径分析,是固化了用户的路径顺序,在每个路径次序中,都包含了各个主要业务环节,因此在每一步中,出现的业务环节很有可能都是类似的。总而言之,漏斗分析看重的是业务环节之间的留存关系,而路径分析看重的是用户在不同业务环节中的顺序及流失关系。理论上讲,漏斗分析可以作为路径分析的一个概况来看。

用户的路径分析中,比较常见的可视化呈现,就是桑基图。关于桑基图,这里简单说两句。其实是因1898年Matthew Henry Phineas Riall Sankey绘制的“蒸汽机的能源效率图”而闻名,此后便以其名字命名为“桑基图”。

桑基图主要是用来显示流向和数量。最大的特点,就是开始与结束是保持总量守恒的。如下图例所示,就是桑基图:

大数据常用算法_大数据算法_大数据算法 英语

图 6 桑基图

用户分群分析

针对产品的用户运营,会用到分群分析的方法。用户分群,就是通过一定的规则找到对应的用户群体。实际使用中,可以根据不同业务需要定义群组,常用的方法包括:

找到做过某些事情的人群:比如过去7天完成过3次购物车计算

有某些特定属性的人群:比如年龄在25岁以下的男性

在转化过程中流失的人群:比如提交了订单但没有付款。

大数据常用算法_大数据算法 英语_大数据算法

图 7 用户分群分析

用户属性分析

用户属性分析根据用户自身属性对用户进行分类与统计分析,属性分析是实现用户行为精细化运营的必备分析方法之一。比如查看用户数量在注册时间上的变化趋势、查看用户按省份的分布情况。用户属性涉及用户信息,如姓名、年龄、家庭、婚姻状况、性别、最高教育程度等自然信息,也有产品相关属性,如用户常驻省市、用户等级、用户首次访问渠道来源等。属性分析主要价值体现在丰富用户画像维度,让用户行为洞察粒度更细致。科学的属性分析方法,对于所有类型的属性都可以将“去重数”作为分析指标,数值类型的属性可以将“总和”“均值”“最大值”“最小值”作为分析指标,添加多个维度。数字类型的维度可以自定义区间,方便进行更加精细化的分析。

大数据算法 英语_大数据常用算法_大数据算法

图 8 用户属性分析

点击分析模型

热力图是以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示,如下图。同样,点击图也是特殊高亮的颜色形式的显示。不同的是,点击图是点击分析方法的效果呈现,在用户行为分析领域,点击分析被应用于显示页面或页面组(结构相同的页面,如商品详情页、官网博客等)区域中不同元素点击密度的图示。包括元素被点击的次数、占比、发生点击的用户列表、按钮的当前与历史内容等因素。

大数据算法_大数据算法 英语_大数据常用算法

图 9 页面点击图

大数据算法 英语_大数据常用算法_大数据算法

图 10 链接点击图

页面点击分析主要应用于用户行为分析领域,分析用户在网站或APP显示页面的点击行为、浏览次数、浏览时长等,以及页面区域中不同元素的点击情况,包括首页各元素点击率、元素聚焦度、页面浏览次数和人数以及页面内各个可点击元素的百分比等等。点击分析采用可视化设计思想和架构,直观呈现用户访问热门的区域或元素,帮助管理运营人员评估页面设计科学性、合理性。

漏斗分析模型

漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。运营人员可以通过观察不同属性的用户群体(如新注册用户与老客户、不同渠道来源的客户)各环节转化率,各流程步骤转化率的差异对比,了解转化率最高的用户群体,分析漏斗合理性,并针对转化率异常环节进行调整。漏斗分析模型已经广泛应用于网站用户行为分析和APP用户行为分析的流量监控、产品目标转化等日常数据运营与数据分析的工作中。

大数据常用算法_大数据算法 英语_大数据算法

图 11 漏斗模型

漏斗分析最常用的是转化率和流失率两个互补型指标。用一个简单的例子来说明,假如有100人访问某电商网站,有30人点击注册,有10人注册成功。这个过程共有三步,第一步到第二步的转化率为30%,流失率为70%,第二步到第三步转化率为33%,流失率67%;整个过程的转化率为10%,流失率为90%。 该模型就是经典的漏斗分析模型。

关联分析模型

关联分析,顾名思义用于计算两个要素之间的相关性。在增长黑客的诸多经典案例中,facebook 的“A-Ha Moment”为人所知。Facebook 通过挖掘发现新用户在前10天内至少添加7个好友时,最可能在次周留存。这里“前10天添加7个好友”即为facebook用户增长的“A-Ha Moment”,也切实的指导了facebook 后续用户增长的运营与产品方向。纯人力的“A-Ha Moment”分析,要耗费专业的分析师大量的时间与精力,而“关联分析”正是通过引入机器学习的算法模型,并利用机器算力的优势实现 “A-Ha Moment”的自动化分析,真正实现业务人员只需轻松点击“开始分析”,即可在数秒钟内得到可直接应用于自己业务的“A-Ha Moment”,开启用户增长。

关联分析用于描述多个变量之间的关联。如果两个或多个变量之间存在一定的关联,那么其中一个变量的状态就能通过其他变量进行预测。关联分析的输入是数据集合,输出是数据集合中全部或者某些元素之间的关联关系。例如,房屋的位置和房价之间的关联关系或者气温和空调销量之间的关系。

基于大数据的关联分析不是一种新的模型,它主要的特点是利用了大数据技术去处理分析数据,比如存储,检索,聚合等。利用大数据平台的能力可以分析以前由于数据太大不能分析的场景。但在大数据分析领域也有很多数据关联性分析算法:相关性分析、回归分析、交叉表卡方分析等。

回归分析是最灵活最常用的统计分析方法之一,它用于分析变量之间的数量变化规律,即一个因变量与一个或多个自变量之间的关系。特别适用于定量地描述和解释变量之间相互关系或者估测或预测因变量的值。例如,回归分析可以用于发现个人收入和性别、年龄、受教育程度、工作年限的关系,基于数据库中现有的个人收入、性别、年龄、受教育程度和工作年限构造回归模型,基于该模型可以根据输入的性别、年龄、受教育程度和工作年限预测个人收入。

关联规则分析用于发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。关联规则分析的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中的不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。

相关分析是对总体中确实具有联系的指标进行分析。它是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程。例如,在经济学中,如果一段时期内出生率随经济水平上升而上升,这说明两指标间是正相关关系;而在另一时期,随着经济水平进一步发展,出现出生率下降的现象,两指标间就是负相关关系。

相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中,所讨论的变量的地位一样,分析侧重于变量之间的种种相关特征。例如,以X、Y分别记为高中学生的数学与物理成绩,相关分析感兴趣的是二者的关系如何,而不在于由X去预测Y。

安全评估模型(针对安全场景的)

安全评估模型基于行业与地域的移动安全数据分析、展示。通过多维度的数据分析以及展现,提供直观的威胁感知服务,能灵活、动态的掌握所属行业或者地域的移动安全态势信息。安全评估模型将态势感知数据按照地域或者行业进行分析后进行展示,以提供用户所关心的各类数据,为用户进行移动安全事件的预防、处置、响应提供数据支撑,并利用数据可视化展现平台为其进行可视化分析。包括:

威胁评估:对于所关注的行业及地域的移动终端威胁状态通过算法模型进行整体评估,以分值直观展示;威胁目标:针对所关注的行业或者地域范围对已受害的终端用户进行统计;移动威胁事件分布:能够按照地域、行业对移动威胁事件进行统计分析,精确提供行业化、区域化的攻击行为特征;攻击者信息:对C2攻击信息、攻击者和攻击行动三个维度展示,为事前预警,以及掌握最佳处置打击提供依据。

参考文章:

百度统计tongji.baidu.com/analyticsmanual/user_management/comprehension.html

tongji.baidu.com/web/demo/custom/pageclick/view?type=link&siteId=5503017&pageClkId=375104239

神策数据:sensorsdata.cn/blog/20180510/

(编辑:南京站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!