如何用数据驱动产品和运营?

一  、大数据思维与数据驱动 

大数据出现在2011-2012年,其特点可总结为 “ 大、全、细、时 ”四字。包括两层含义,一是实际数据规模或数据理解深度达到一定程度,解决方案与以往会有不同。其二,也是更大差异,在思维理念上,即我们需要用一种新的数据思维来思考。

输入法的演变 就是个很好的例子,2001年时普遍使用的主要是智能ABC、五笔、微软拼音之类,那时候感觉打字非常麻烦,敲一下字还要做一下选择,来回切换,效率非常低。

2002年出来一种新的输入法叫紫光拼音,有了输入联想功能,可是后来又发现一些新的问题,由于互联网发展很快,会不断有新的词汇冒出来,但词库更新会有很长时间的迟滞,所以流行词汇的输入也很不方便。2006年,搜狗输入法问世,不但打字打得快,并且词汇识别率比较高,词库更新快。这就是大数据思维的结果。其一,搜狗本身是一个搜索引擎,本身就可以搜集大家的检索关键词;其二,搜狗输入法本身就是一种云的输入法,我们平时的输入结果都会上传到搜狗服务器,他们会基于对此的统计分析,实时更新词库。这就是大数据思维带来的改变。

另一个例子就是 地图 。在十几年前,我们到一个陌生的大城市,一定会买一份地图,但由于一些道路或建筑的改变,这种纸质地图每年都需要再版更新,且纸质地图只能显示目的地的位置,而无法提供路况信息以选择最优的路线。后来百度地图应运而生,它抓取用户的GPS信息分析人群流向与聚集情况,并向交管所等机构购买地面路况监测数据从而对整个路况进行综合判断。

从这两个例子可以看出,两个产品的革新,在基本的处理逻辑、功能等方面都没有大差别,但是关键是用了数据分析与处理,最后的体验结果就完全不一样。这就是数据驱动的概念,也是大数据思维最本质的一点。

中国历史上大部分决策都是高官权贵们“ 拍脑袋 ”决定的,根本没有数据意识。而历史上采用了数据思维的有两个人,一个是王安石,王安石在推行变法时向农户提供政府低息借贷,不增加税收的情况下提升政府的营收。另一个就是庞涓,庞涓在追孙膑的部队时沿途分析孙膑部队留下的土灶数据,土灶的数量呈递减趋势,由此判断齐军士兵多数叛逃,便只带领少量精锐穷追不舍。然而这却是孙膑故意制造的假数据。在这两个例子里,王安石的变法失败了,庞涓也死于数据的陷阱,由此看来数据也是有一定的风险。

后来我们强调 讲逻辑 ,逻辑其实是一种因果关系,比如天阴了我们推测可能要下雨,这就是由二者逻辑关系来推导的,根据这种逻辑关系来决定我们下一步要做什么,先想清楚为什么再做行动,这种方式比“拍脑袋”要好很多。但它有一个很大的问题就是做决策比较慢,在你研究一个流行趋势的因果逻辑时有可能会错过这个时机。

那有没有更好的方式呢?这就是我们所说的 数据驱动 ,让数据去表现优劣,然后决定做什么,这使我们的决策变得更简单。在很多创业公司,想拿到一个数据相对容易,但是效率较低。所以数据的获得也存在时效性的问题。

理想的状态是自助式的数据分析,让业务员真正掌握数据 。具体我们可以看看这张图,左边的源头是一堆杂乱的数据,获取数据需要排队等工程师跑,非常耽误时间。而理想的自助数据分析是反过来的,以前是需求驱动,根据需求去找数据,反过来先把数据进行规范,数据模型处理好。再提供强大的分析工具,让这些业务需求人员在这个平台上自助式完成自己的需求,这种方式把一个串行的事情变成并行,效率就要高出很多。

二  、数据处理流程 

从非技术角度来看,大数据分析看作 一个数据金字塔 ,自底向上的是三个部分: 数据采集、数据建模、数据分析。

首先来看 数据采集 ,我把常见的数据分析采集遇到的问题总结为3点: 不准确、不完备和不细致。 不准确是说虽然我们把数据拿到了,但是数据本身是错的,这些错的数据还不如没有数据。不完备就是说拿到了一部分数据,比如说只拿到了前端数据,数据库数据没有拿到。有些需求是做不了分析的。不细致就是说数据的维度太少了,许多维度都丢了,如果某天产品经理想知道不同的浏览器版本的用户在留存上是不是有差异,后来发现这些数据根本没有采集。

于我而言,从事数据分析这么多年,最大的心得就是,数据如果想做好最重要的就是 数据源 ,数据源做好了后面的事往往很简单。那怎样才能说数据源采集好了呢,在我看来就两个字,一个是全,一个是细。全就是多种数据源,比如说客户端,服务端,数据库要把多个数据源都采集下来,之后才能方便分析信息。另一点就是采集的时候要是全量而不是抽样,如果只采集了部分数据那分析的时候得到的结论可能不准确,细主要是强调多维度,在事情发生的时候who, when, where, how, what,都记录下来。

我把采集方法归为三点: 可视化埋点、代码埋点、导入辅助工具埋点。

可视化埋点就是通过 界面配置 的方式,不用给程序嵌一些复杂的逻辑就能进行数据采集,这种方式的好处就是可以让采集数据的逻辑跟业务逻辑分离,这样产品运营不需要等工程师排档期来采集数据,运营可以自己动手采集数据。但是这种采集方法比较细的维度信息就无法采集到,并且可视化的埋点主要在前端,比如WEB,IOS和安卓,后端的信息就无法采集到。对于快速验证或只需要看宏观PV、UV这类统计指标的情况下,我们可以通过可视化埋点这种方式解决。

第二种方式是 代码埋点 。代码埋点是指,在核心逻辑、关键逻辑中嵌入数据采集的代码,然后让代码去真正完成数据记录。在核心转化流程或者渠道分析时,需要将数据记录的很细,要从不同维度对获取到的数据进行深度分析,这种情况就可以使用代码埋点。

第三种方式是导入 辅助工具 。不管是像后端日志这种批量生成的数据,还是从数据库导出的数据,或者担心SDK嵌入依赖性太强,在这种情况下,就可以使用导入工具,将我们需要的数据灌入。

有了数据,我们就可以开始下一步—— 处理数据 ,便于进一步分析。首先明确一下数据模型的概念。举例来说,春节期间我把在文革中烧毁的家谱重新编写了一遍,用思维导图的方式把家族关系以树形图的形式记录下来,这就是一个数据模型。就是说,我们把现实中的人物关系用树形结构的形式表达出来,解决了家谱记录或者说人物关系记录的需求。也就是说,数据模型是为了满足某些需求而服务的。就像Excel里的表格,它可以将人物的性别、年龄、人物关系等信息记录下来,也是在建立数据模型。所以说,不同的数据模型其实是为了方便人们解决不同的问题,并不是一个特别复杂的概念。

同样,如果我们把业务数据库直接用于上层的数据分析,问题就来了。在我们设计的时候,是以如何能让数据模块之间的交互性能、扩展性能更好为目的而建立数据模型的,但是这种情况下建立的数据模型给对数据模型陌生的人看就不方便了。对于非技术人员来说,看到几十张甚至上百张表单,而且表单之间还有复杂的依赖关系等因素,是非常难理解的。因此,更好的方式就是对原始的业务数据进行重新建模,让分析人员更方便的使用数据。

比如,针对用户行为来说。我们把用户行为操作相关的维度信息整体用一张大表来表达。就像Excel中有很多列,每一列都表示一个事件发生时的某一个维度,比如用户使用的操作系统、手机型号、浏览的商品、商品的类别和价格等信息。我们可以将这个表格的范围设计的非常宽、非常细致,那么这张表格就会更容易理解。常见的一些运营分析,是把一些维度进行交叉组合,就能够满足我们对数据的需求了。这就是一个新的概念——OLAP(Online Analytical Processing)。也就是在线分析处理,常称作:多维数据分析。这里有两个关键的概念:一个是维度,一个是指标。

三、  数据分析方法 

数据分析方法我主要讲六种: 多维事件分析、漏斗分析、留存分析、回访分析、行为序列分析和用户分群。

多维事件分析 就是把前面所讲的多维数据分析模型应用到事件上面去,达到一个效果。有了多维事件分析,我们再定位问题时效率要高很多。

第二种 漏斗分析 ,漏斗分析对电商产品来说是必不可少。通过广告等方式把用户引过来,我们不仅关心客户他到了产品页面,我们还会关心客户是否会注册、是否会发生购买行为,这是就是一种漏斗转化,我们会关心每一步到下一步的转化率如何。我们可能还要按着某些维度进行拆看,看不同取值上有什么差异。针对图上显示的漏斗来看,我们把召回途径进行拆解,分析邮件和电话这两种方式那个更好。实际过程当中,我们可能会分析广告渠道,比如我们在优酷、百度、爱奇艺都投放了广告,我们分析不同的广告带来的转化效果如何。

第三种是 留存分析 。对于互联网产品来说,有两个指标是最关键的,即拉新和留存。拉新,我们通过漏斗分析不同渠道转化的效果。留存,我们就会关心用户来了之后接下来的行为是什么样的。比如通过地推活动引来一批注册用户并给了优惠劵,我们就会关心用户当天是否真的进行购买操作以及接下来每一天的行为,如果只有当天活跃而接下来都不活跃,那么这些用户仅仅是薅羊毛,对我们来说并不是高质量的用户。

第四种是 回访分析 ,我们会分析关键行为的重复情况,比如复购。看一周之内的有多少天及多少次的购买情况,这就是复购,复购其实是留存的一种特殊情况。

第五种就是 用户行为序列分析 ,我们针对一些抽样或发生某些关键行为的人,人工观看并分析,他具体在我们的产品中进行了哪些操作,看看和我们的预期是否相符,看看用户竟然进行了哪些我们没有意识到的操作。

四 、 实践经验 

以 UGC产品分析 为例。 UGC即 用户生成内容的产品 ,如贴吧知道豆瓣知乎等产品,这些产品相较于门户网站,不仅要关心访问量用户量,还会关心实际的发帖量等这些关键行为。以百度知道为例分析,在我07年刚加入百度知道的时候,每天都会收到很多几十封报表邮件,像访问量检索量等很多数据报表,很多也很乱,当时感觉似乎每个数值都很重要。但其实这是大家可能会遇到的一个实际情况,你会发现要监控的指标非常多,这时就一定要保持清醒,一定要关心哪个指标是最核心最关键的。

我当时就在考虑这个问题,渐渐的我发现,像检索相关的信息并不重要,因为百度知道本身依附于百度搜索,所以如果把百度知道的结果往前排,那检索就可能上升了,在这方面外部影响可能会更大一些。后来,我认为像提问量、回答量这些数据是比较关键的,那这两个到底哪个是相对更关键的一方面呢?我咨询了当时百度最资深的一个产品经理,他回答说:“提问量其实不是一个问题,像百度搜索里面很多人搜索的信息答案是不明确的,如果我们进行一个百度知道的跳转引导,那提问量可能瞬间就上去了。”这个回答一下子就打消了我的疑惑。所以,提问量可能确实不是最关键的, 最关键的还是回答量 ,我们应该关心的是怎么样提高回答量,让用户的问题得到有效的回答。

接下来的问题就是如何提升回答量,后来我们做了一个事情叫 问题推荐 。问题推荐的逻辑是这样的,我们抽出了三十五万核心用户,即在最近三个月或最近半年回答过问题超过五次或六次的用户,然后根据历史记录抽出这些用户感兴趣的问题,且对他们进行模型训练。最终效果是这样的:在核心用户个人中心页面加了一个操作,猜你喜欢的模块,里面列了一些根据你的兴趣模型,推荐了一些待解决问题,比如我回答了数据分析相关内容,系统就会给我推荐相关的内容。

然后我们开始关注上线之后的结果数据,但是发现虽然上了个新功能但是我们的总体回答量没有增长。分析原因发现,其中一点是 核心用户的回答量有上限 ,可能一天最多就是回答6个问题,我们再推太多用户也没有回答。我们发现用户以前找待解决问题是在百度知道里面的待解决分类页回答的,后来变成在个人中心里面去回答,但是回答量并没有变化。还有一点是, 系统推的问题太多 ,导致用户回答问题的兴趣下降。

老用户的活跃度无法进一步提升了,于是我们 利用Cookie推荐开始发展新用户 。百度会在用户访问的时候在浏览器里面插入一个随机生成的ID编号,基于这个ID,我们就可以看出他在百度都检索过什么、浏览过什么信息,之后这个用户再去访问百度知道的时候我们就 基于这些历史记录,给Cookie对应的用户提供一些待解决问题。 从历史检索、浏览记录中,我们同样可以抽取出一些兴趣词。这种方案的好处就是覆盖的用户量非常大,可以覆盖几亿的百度用户。这个功能的效果很明显, 回答量直线提升7.5% ,并且十分稳定。之前我们做过很多项目,回答量都没有很大变化,但是这个项目可以达到7.5%的效果,我当时也因为这个项目得到“最佳百度人”称号(“最佳百度人”是百度每个部门每年都会有的奖项,是李彦宏等核心高管在年会上进行的颁奖)。

讲了百度知道问题推荐的例子,接下来我们继续讲 SaaS运营分析实践 。因为我们自己做神策分析,其实是一个SaaS服务,我们自己也有一个官网,先后做过产品发布、广告尝试、流失用户召回等,下面就以实际数据为案例给大家做一个分享。

我们的团队是在去年4月底的时候成立,到9月25号将近5个月的时间,产品就正式出来了。接下来我们就要进行产品对外发布,当时也害怕没什么影响力,所以我们就去找了36氪的编辑,让她帮我们写了一篇报道,我们自己当天晚上也在朋友圈和微信群进行了宣传。总的发布效果是这样的:左边是我在朋友圈发布的一条消息,许多人给我点赞;中间是36氪的一篇文章;右边是一个链接的缩放图效果。为什么我要提这个呢?因为我们是一个数据团队,希望做事情的时候可以用数据做分析。当我们在朋友圈发消息的时候,我们会带上一个渠道号,比如我会加上参数“ch=sangwf”,我的合伙人曹犟就会带上“caojiang”的拼音,刘耀洲会带上“lyz”等,这样我们发布消息之后就可以进行跟踪,看谁带来的用户更多。

这是当天晚上的一个情况,用户大部分是看了朋友圈或者36氪上的文章通过链接访问到我们的首页,我们统计了一下访问首页的用户,当然这些用户并不是真正去注册的,而是只是到我们首页来浏览的。通过这个图我们可以发现36氪给我们带来的用户还是非常少的,这个比我预期的要差很多。这个现象有一个原因就是浏览36氪的许多人只是去看新闻的,里面究竟有什么链接,真正有兴趣的去访问的还是比较少,并且我们自己也是一个不知名的小公司,而且数据分析是一个很专业的领域,所以访问的人就更少了。我们还发现曹犟带来了28.7%的首页访问用户,我带来了27.9%,单纯从这一步来说,曹犟的效果是最好的,这是在数据上表现出来的。

只访问首页并不是我们的目的 ,我们官网的第一步是让用户访问到首页,第二步是用户可能会 申请试用 ,但他可能发现里面还要填联系方式,就会担心受到骚扰,就放弃了。对提交表单的人来说,我们团队当时有一个失误,就是当天并没有发布账号给用户试用,因为一开始觉得在产品发布之后的一周能有100个人申请试用就能达到预期效果了,但结果当天晚上就有了两三百个人。我们这三个人的渠道加上36氪一共带来了177个用户申请试用。

直到第二天我们才开始给申请用户发送账号,但当时时间上也不巧,正好是中秋节,许多人可能并不在工作,也没有真正去试用产品,实际上也就只有20%的人在给他发了账号之后真正试用。从最开始访问首页到最后真正去试用demo,整体转换率只有1%,通过这4个渠道引来了3000多个人访问,实际上却只有34个人是真正在试用的。

那我们来实际分析一下这个漏斗。这里面曹犟实际带来了1316个首页访问,我带来了1286个,他比我多一些。然而从点击提交表单带来看,他带来了51个试用申请,我带来了87个,我比他多超过50%,而真正的试用的情况是他带来了7个,我带来了22个,这里我比他多了两倍。 访问首页的数据反映和我们实际有效的关键行为得到的结论可能是截然相反的。 这其实就是漏斗分析的价值,有利于我们对数据进行深入的分析。

我们再看看广告效果的评估,当时我们先是在36氪上尝试过做广告,但一周的广告费用就要好几万,对于我们小创业公司来说花不起。后来我给他们商务经理讲了很多数据分析的内容,他们同意免费给我打一天的广告,后来我也没让他们免费打广告,给他们写了一篇36氪广告投放分析报告,对他们来说很有价值。猎云网也给我们写了篇报道,帮我们打了一周广告,我们也花钱在某一个职场社交网站,试用了一下红包的效果。我在知乎有专栏,知乎专栏上有我写的大数据分析文章,例如“从日志统计到大数据分析”,有兴趣的可以去看看。

这是三个渠道的效果分析,我们可以看到整体从访问首页到真正去试用,转换率达到6.82%,比前面的1%好很多。而知乎上的转换效果最好,这就是我愿意花时间在知乎上写文章的原因。

我们再来看一个 流失用户召回的 案例。我们的产品从9月25号发布之后到元旦,这2~3个月时间积累有1490个申请试用的,其中有一部分人是没有真正地使用的。过年的时候我们去拜拜年,汇报一下我们的进展,让这些没有使用的人用起来。当时真正试用的只有700多人,还有流失的用户700人,我们把流失的人抽出来,把用户的资料下载下来。

我们来实际看效果如何,用户有邮箱注册和手机号注册,邮箱注册的用户我们给用户发邮件,手机注册用户我们发短信。我们本来的预计整体有转化率10%以上的召回,但实际上只有4.89%的用户真正试用。预计当中短信转化率用户应该更高一些,但实际情况邮箱注册用户有8.12%的转化率,带来32个用户试用,而手机注册用户只有3个用户试用,也就是说 给手机用户发短信这个行为基本上没什么效果,许多人可能都没有看到。

因为担心短信没发送出去,我们还专门到联通官网查询,我们发送的1000多封短信确实是发送成功的。这就是我们把数据进行的维度拆解后分析得到的结论,这与凭直观感受做出的推测可能是完全不一样的。当时,我们还跟踪了用户试用后的下一步行为,看用户是否有兴趣会接入自己的数据去体验,我们在测试的页面上加了一个申请接入数据这样的按钮,申请接入的用户就更有可能转化为我们的目标客户。

文章出自:深圳微信开发公司,原文地址:http://www.iswweb.cn/news/1601.html,转载请保留文章出处即可!

本站文章大多数属于原创文章,欢迎大家转载!少数我们转载文章的文章,如未获您授权请点下方联系我们,我们会尽快下线处理!

相关内容