技术标签: python 数据分析 人工智能 数据挖掘 大数据
▲点击上方卡片关注我,回复“8”,加入数据分析·领地,一起学习数据分析,持续更新数据分析学习路径相关资料~(精彩数据观点、学习资料、数据课程分享、读书会、分享会等你一起来乘风破浪~)回复“小飞象”,领取数据分析知识大礼包。
读书交流│7期
数据分析原理
6步解决业务分析难题
data analysis
●●●●
分享人:夏宇
大家好,这里是小飞象·数据领地·读书会第7期完结直播总结分享,本次直播的目的有两个,一是我们第7期读书会的总结,给大家梳理一下《数据分析原理》这本书的精华内容,二是为我们,参加这次读书会,并完成全部任务打卡的小伙伴们,进行结业颁奖。分享时间大概在一小时左右,大家要坚持听到最后哦。(可以在公众号留言交流,读书会往期回顾)
(夏宇个人公众号)
做一个对世界充满好奇的人!我们在工作中或多或少都会遇到很多的业务难题,有些人在解决问题时会根据过往经验解决,但往往这种凭借经验拍脑袋处理得到的方案并不一定会对业务有增长效果,甚至根本无法真正地解决问题,但是如果你可以具备数据分析技能和思维,找到关键影响的数据源,通过对业务模块的判断,确定分析方法的适用场景,最终推演、验证、分析出结论,并选择最优的分析结果展现方式,让数据分析全过程形成闭环,有助于业务增长和问题解决的。
但是,我们学会了很多数据分析工具和技能,依然做不好数据分析。遇到业务问题时,常常觉得无从下手。如:
如何理清业务分析思路?如何成为业务的专家?
如何获取行业的数据?基于不同场景的如何选择合适的方法?
如何写出优秀的数据分析报告等~~
·······
所以本期,小飞象·数据领地·读书会的直播总结,就来跟大家一起来品读《数据分析原理》:6步解决业务分析难题,系统地介绍了数据如何始于业务、取于业务、用于业务。既有扎实的理论铺设,又有具体的案例支撑,通俗易懂地回答了数据“怎么来”和“怎么用”的问题。同时,本书总结出了解决业务分析难题的六大步骤。
在这过程中,建议全程认真听,带着思考来听(去看),有任何问题都可以随时交流哦!
—▼—
本书一共分为6个章节,算是深入浅出,相对体系化的介绍了数据分析全过程:从数据指标体系到分析目标拆解,再从数据获取与预处理到六大业务分析模块案例介绍,最后是分析结论的组织与验证并告诉我们如何对分析结论进行展示与汇报。
—▼—
▼
数据指标体系是在业务的不同阶段,一套能从各个角度反映业务状况即指标的待实施框架。
在进行数据指标体系搭建之前需要先确定业务发展处于什么阶段,不同阶段对数据指标体系的要求会稍有差异,主要是关注的一些关键指标会有所不同,比如业务发展初期主要关心新增和留存,业务发展稳定期可能主要关心的是在线时长和付费相关等。
明确业务阶段后,我们关注的核心目标也便能确认,接下来便是确定一级指标。所谓一级指标可以理解为最核心的指标或者说比较宏观一些的指标用于描述业务情况的,比如DAU、付费总金额之类的。
在完成一级核心指标后接下来就是对核心指标进行拆解细分,比如DAU可以分为新用户+老用户+回流用户,付费总金额=付费人数*付费率等等。再结合实际业务目标分析需求还可以进行更多维度的细分,比如分平台(安卓、ios),分渠道(华为、小米、抖音、快手),分用户属性(性别、年龄、地域)等等。
下面以某短视频为例简单介绍其指标体系拆解:
上面聊了怎么解析指标体系的搭建(拆解),到这里大家可能会问:什么是指标呢?
指标是事物或业务场景信息的度量。
一般来说我们日常中使用的都是派生指标=原子性指标+时间段+修饰词。
比如“双11 这一天淘宝苹果手机的交易额”,这其中原子性指标就是 交易额,时间段就是双11这一天,修饰词就是苹果手机。
当然了,数据指标体系里的指标其实是原子性指标,而我们接下来要做的就是定义原子性指标的统一口径,注意这里是统一口径!!至少业务相关人员使用的要保证同一个原子性指标的口径是统一的,着很重要!!
以下是 月活用户数 指标的口径,供参考:
以上我们介绍了数据指标体系的搭建与数据指标口径的规范。但是作为数据分析师,尤其是刚入门的同学来说,如何能更好的完成数据指标体系的搭建呢!?
那便是 懂业务!!
更懂业务,才能更好的搭建业务指标体系!
懂业务:
能讲清楚业务的含义、流程和价值
熟悉业务的顶层目标和子目标拆解
了解行业与行业大盘业务情况
如何懂业务:
多问为什么(了解背景、了解需求)
多主动思考(好奇心、批判性思维)
—▼—
▼
上面我们提到数据指标体系用于反映不同阶段业务的状况,而基于业务状况我们会制定阶段性目标。
那我们为什么要做目标拆解呢?
目标:指导业务后续动作的指南针
目标拆解:将目标拆解成具体的可执行落地的小目标
Why:可以让达成目标的路径更加清晰
在进行目标拆解前,先明确一个原则:MECE法则。
MECE法则:相互独立、完全穷尽 来自于金字塔原理中的一个重要准则(Mutually Exclusive Collectively Exhaustive),关键点是完整性、独立性,也就是在对问题进行拆解分类的时候,需要依据不重叠、不遗漏的原则,精准地把握问题的核心。
所谓相互独立,是指拆解出来的目标之间是独立不重叠,在实操中我们可以明确具体的拆分依据,比如按照类型进行拆分即可;
所谓完全穷尽,是指明确要拆解多少层级,并确保枚举完全,对不同的业务目标其实可以参考一些比较流行或者权威的研究方法进行完整的剖析。
本书提供了三类拆解方法,大家在实际业务目标拆解时可以根据实际情况进行方法的选择。
公式法:参考数学公式化拆解。
比如App流失用户,我们可以拆解细分为卸载应用的用户、沉默用户(未卸载且未活跃)和换机用户。
针对不同的用户流失用户类型,我们再去分析他们流失的原因(产品原因、竞品原因、市场原因以及关联原因等等),然后针对性的进行数据分析或者用户调研,最后再提出解决方案!
路径法:按照事情发展路径拆解比如时间序列下看某工具App日活趋势,然后进行阶段拆解!
模块法:按照事物的不同组成问题原因拆解(SWOT模型、SMART模型及商业画布模型等)
比较经典的商业分析模型-商业画布
—▼—
前面两章介绍了数据指标体系的搭建和目标拆解的原则与方法,接下来就可考虑通过数据来进行实操了。
一般来说,数据可以分为内部数据和外部数据,其中内部数据一般是业务自己产生的数据,也叫一方数据;外部数据则一般来源于三方。
不同来源的数据获取方式会有明显的差异,内部数据需要进行数据埋点与采集,基于使用的数据平台的能力选择相应的数据提取方式; 外部数据则一般可以花钱购买、资源置换或者进行数据爬取(严格遵守法律法规)。
关于内部数据,这里可以稍微展开介绍一下数据埋点。
所谓数据埋点,简单来说就是当用户在使用我们的产品时,在特定的功能点触发的行为,该行为被记录下来并上报到数据存储的地方。比如,用户启动app时,记录启动行为并上报,这样作为数据分析师就能通过这份埋点数据统计出启动app用户数等指标。
那么如何设计埋点呢?
第一,定义需要记录的用户行为事件,比如启动app事件;
第二,明确该行为事件上报的触点,比如当用户启动app时;
第三,确定上报的事件携带的属性,比如启动app时上报用户的设备信息、ip地址以及可以获取的账号相关信息等等。
在设计好数据埋点之后,需要跟负责埋点开发的技术进行讨论和对接,确定好最终用户实现的逻辑!
数据上报后,我们就需要开始提取数据,而提数这个步骤在不同的公司可能会不太一样。
比如,现在还有很多公司提数的流程可能是由业务人员找后台人员在后台进行人工提数。
再比如,一些公司可能有相对健壮的数据应用平台,但是平台的报表看板是比较固化的那种,业务人员可以在上面完成大部分数据的直接导出。
还比如,一些公司有着比较灵活的半自动分析工具,报表和看板可以通过提供的一些模型工具进行实现,然后导出数据。
当然了,如果业务人员自己有比较强的SQL或python等能力,也可以根据自己的需求写脚本自动提数。
有了数据之后,我们就要开始进行数据的预处理,在进行数据预处理之前需要先明确数据是否可用,而在预处理的时候也需要根据数据的实际情况选取合适的预处理方式。判断什么是可用的数据
所谓可用的数据,其实就是基于我们的分析目标所需要的数据,而这些数据需要保证有、且是有用的、可靠的。
·数据预处理的常见方法
一般来说,我们拿到一份数据有可能含有缺失值(某些行丢了,某些列空值等等),还有可能出现了重复值(重复上报了),或者是出现了异常值(比如正常等级区间1-100级,上报了一个99999级),还有可能选择的数据样本值的差异较大(比如渠道新增数,A渠道日均10万,B渠道日均仅1000)。
针对不同的数据情况,我们在处理时也是有很多针对性的方式方法的,具体也要看分析场景进行科学的选取!
—▼—
本章主要介绍了六大业务分析模块的案例。
这部分内容其实提供了很多比较垂直的分析思路,建议大家自行阅读了解更佳!(因为比较垂直,所以分析思路个人觉得仅供参考,不一定具有通用性,以下为各个分析框架精简版,可以进星球领取完整讲解视频)
以下简单介绍一下文中的框架:
·行业分析
行业分析是指对某个行业进行系统性或建设性的研究,一般包括市场规模、竞品研究、发展趋势三部分。
·市场规模预测分析
每家公司的分析师到年底都要做一件事:基于当前的业务数据对明年的规模做预测,然后向上级汇报。很多分析师在做这件事的时候非常头疼,更多的是靠“拍脑袋”,但依然要有底层数据逻辑。其实市场规模预测分析非常考验分析师的水平,一份好的市场规模预测分析报告能够很清晰地给出接下来产品的发展路线。
·渠道质量评估
如果你在互联网行业,那么常用的渠道可能是应用商店、信息流、PC官网、百度搜索、美团运营位;如果你在很传统的行业,那么常用的渠道可能是各个线下门店;而在一些有互联网特性的传统行业,常用的渠道不仅有线下门店,还有线上的App、小程序、公众号,这里面就涉及线上下单到线下服务、线下推广到线上消费等跨渠道的行为。凡是能和用户发生互动(触点)的载体都可以称为渠道。
无论是线上渠道还是线下渠道,永远都离不开两个问题:ROI和作弊率。(这也是渠道分析的目的)
·产品分析
在所有的微观分析里,产品分析也是最高频的,因为其他模块都是围绕产品在转的,用户也是每天和产品发生互动,因此分析师一定要多研究产品和产品数据。在看一款产品时,应该先看产品的功能,再看具体的用户行为,最后根据用户行为挖掘出有效结论,指导产品设计。
·运营活动分析
前面讲述了产品范畴的分析方法,产品分析之后必然涉及运营,而最常见的运营就是各类活动,大到“双11”,小到一张海报或一个二维码。
·用户增长分析
一说到用户增长,很多人就想到各种黑科技或钻空子,通过这些手段能够带来用户规模的爆发。很多公司专门招聘了增长产品经理、增长分析师,最后发现并没有实质性的改变。根本原因还是没有想清楚增长这件事,如果去研究市场上的一些用户快速增长的公司,就会发现用户增长主要以裂变流或投放流为主。
—▼—
在完成数据分析之后,接下来要做的就是:形成分析结论。
数据分析结果+正确的逻辑推演=合理的分析结论
正确的结论往往不是那么容易获得的。一方面,逻辑推演的过程很容易存在各种逻辑谬误,推演的过程不合乎逻辑,导致最终得到的结论不可靠;另一方面,我们为了得到最有利于我们的或符合我们预设的结论,很可能会选择性“忽略”逻辑谬误的存在,直接越过合理的推理过程,得到一个看似“合理”但其实并不正确的结论。
以下这张图,站在不同角度的人给出的结论完全相反!
为什么呢?
这里介绍几类常见的逻辑谬论
过度简化因果:强行建立因果关系,比如我打开开关灯就亮了,所以只要我打开开关灯就会亮!(实际上打开开关只是必要条件非充分而已)
滑坡谬论:推演过程中一级一级滑坡,一错再错,最终得出不合理结论,比如外面下大雨,不打伞就会淋雨,淋雨就会感冒,感冒就会咳嗽,咳嗽会引发肺炎,肺炎可能致命!
忽略常见原因:只局限在已知的原因未考虑其他因素,比如CBD一些餐饮店周末不营业,得出餐饮店周末放假(实际上是因为周末CBD人少所以...)
事后归因:看到两件事情先后发生,便自然地把两件事情进行联想、联结,认为两件事情存在因果关系
以偏概全:忽略了样本选择的可靠性,样本是否随机、样本量是否足够大,比如获量渠道A和B其中A来1万人次留49%,B来100人次留51%,然后判定B渠道留存好
经过大量的数据处理和分析,我们得到关于问题的很多要点,接下来就需要将其组织为分析结论,而结论往往有三个层次:描述性、建议与策略。
当然了,在进行分析结论组织时还可以参考比较经典的金字塔原理。
金字塔原理的应用是一个从上至下拆解,又从下至上总结的过程。通过找到相应的数据分析支撑,用数说话、逐层支持观点,从而让整体达到一个稳固的金字塔结论组织。
上面我们提到过结论谬误的一些可能,那么互联网常用的一个验证结论的方法便是AB测试。
AB测试:也可以叫对比测试,同时进行多组策略对比测试,通过数据找到最优策略。
事实上,AB测试也会有一些常见的误区:比如流量设置太随意(未完全随机、样本量过小、流量有交叉等等),实验时间长度或节点不当(实验周期较短或者选择一些对方案本身会造成较大影响的节假日之类),对结果变化衡量的不全(比如直接对比结果数值的大小之类的)。
—▼—
数据分析的过程、结论如何清晰地展现给读者,是一门值得仔细研究的学问——它不仅包含数据分析的能力,还包含信息过滤、处理、重构的能力。数据展示做得好,能让你的数据分析思路和结论更好地呈现给读者,让信息表达更加通畅。
图表是数据分析结论最直观的展示方式。
数据可视化的图表种类有很多很多,我们在进行分析结论呈现时可以灵活的根据需求选择合适的图表(组合)。
为了进行数据的对比,可以选择条形图、柱状图、折线图与雷达图等等;
为了了解数据的分布,可以选择正态分布图、二维散点图、直方图等统计图表;
为了了解数据的构成,可以选择堆叠图、瀑布图、饼图等等;
为了了解数据之间的联系,可以选择散点图、气泡图等等。
有了数据可视化图表和分析结论,我们就可以开始筹备汇报材料了。
汇报前需要有分析报告 写分析报告也是一门学问:怎样构思一份分析报告?怎样落笔写好一份分析报告? 一般建议搭建好分析报告的框架,好的框架是知识的沉淀更是专业性的体现。当然了,好的框架还能让你的工作效率UP!UP!
有了分析报告之后便是汇报了!
如何组织一次有逻辑的、有说服力的、能帮助我们达到想要的目的的汇报呢?
汇报是达到业务目的的手段,用讲故事的逻辑组织你的汇报 本书推荐了几种方法论
SCQA方法论
ZUORA方法论
小结
以上就是本次分享的全部内容!总结一下就是:创建基于业务的数据指标体系、对目标进行合理拆解细化问题、严格控制数据的来源保证可信、分析方法选择取决于业务模块、推演组织验证输出正确的结论、结论的可视化分析报告的产出。这本书回答的是这样一个问题:怎么样才能完备地解决业务的问题。
最终,还是要如何利用数据,为企业的数智化决策提供依据、为决策者提供参考、释放人力以去从事更富创造力的工作,摆在了数据分析人员面前。并且,在全面数据分析的时代,数据分析,也不再局限于数据分析师,也是对企业的全员提出了更高的能力要求,是每个职场人必备的技能与思维。数据分析,始于业务,用于业务,终于业务,如何做好数据分析,需要一直在探索和学习,还是那句话,有些东西你用了才知道它有用,不用它永远没用,所以学习知识是比较容易,但是把知识应用到实际的工作和生活中是比较难的事,需要我们去实践,去思考、去练习。
(夏宇个人公众号:专注于Python、SQL、数据分析、可视化、数据产品分享,放大你的价值~)
最后,祝愿大家都能在自己所在的领域内,保持着好奇心、求知欲、观察生活,在实际场景中,要有数据驱动产品闭环的思维,熟悉业务,时刻关注数据、保持敏感,成就更好的自己,在可预见的未来,遇到更好的自己。
后期内容我们还有继续为大家分享很多的关于数据分析案例以及的数据书籍内容:数据分析项目分享、商业案例分享、高阶书籍分享···
本次分享到此结束,感谢大家的收听,我们下期再会!
(点击阅读原文,加入数据分析·领地,参加我们的读书会,与大佬一起交流成长~)
······
敬请期待数据·领地内部读书会第8期
·······
本次分享到此结束,再次感谢大家的收听,我们下期再会!
(本文由木兮整理,可能与演讲时略有遗漏,但整体思路精华都在)
加入星球,免费参加读书会,与大佬一起交流成长~
✓ ……
可以在星球中,搜索相关标签,领取分享PPT、分享视频以及优秀学员笔记相关学习资料~
立即扫码
扫码加入星友群
即可各种数据分析思维、工具、课程、书籍、项目、运营、产品相关结构化体系资料~
内容持续更新,期待你来
在后续也会在【数据分析·领地】中,持续组织读书会,分享会等专项活动,读书会主要学习技术类的书籍领读,分享会主要以数据分析思维分享,案例复盘分享等~
文章浏览阅读2.7k次,点赞3次,收藏7次。前段时间在了解Android代码混淆和反编译原理的时候,都涉及到了dex文件,该文件中保存着app中重要的数据信息,例如源码中使用的系统api,或者是否含有广告,更甚者通过解析AndroidManifest.xml知晓activity、service、receiver等四大组件数据信息(未混淆的情况下),而且一个程序应用的所有数据信息都存储在一个dex文件中,可见该格式文件存储信息的强大优势!说起信_dex文件格式
文章浏览阅读1.4k次。1. 基础架构1.1 基本概念系统:由一群有关联的个体组成,根据某种规则运作,能完成个别元件不能单独完成的工作的群体。它的意思是“总体”“整体”或“联盟”。模块与组件:模块是一套一致而互相有紧密关连的软件组织;而组件是自包含的、可编程的、可重用的、与语言无关的软件单元。其实模块和组件都是系统的组成部分,只是从不同的角度拆分系统而已。框架关注的是规范,架构关注的是结构架构设计的主要目的:为了解决软件系统复杂度带来的问题。复杂度来源高性能:单台计算机内部/多台计算机集群 为了高性能带来的复杂度_从零开始学架构
文章浏览阅读2.8k次,点赞3次,收藏19次。从零开始制作开发操作系统(一),主要进行汇编语言代码的编写,完成一个简易的可以显示hello,world的操作系统,并通过汇编程序生成映像文件,通过QEMU虚拟器完成装载与启动运行_从零开始写操作系统
文章浏览阅读5.4k次。./certbot-auto --nginx --nginx-server-root=/usr/local/nginx/conf_certbot 指定路径
文章浏览阅读3.2k次。java.util.zip.ZipException: error in opening zip file这个问题的字面意思是压缩包打不开,我这出现的问题是jar包损坏,打不开。linux系统可以使用命令判断jar 是否正常:jar -vtf xxx.jar查看jar归档目录[root@localhost classes]# jar -h非法选项: h用法: jar {ctxui}[vfmn0PM..._java.util.zip.zipexception: error in opening zip file
文章浏览阅读1.3k次。题链:https://ac.nowcoder.com/acm/contest/9925/C题意:求 。思路:首先,暴力的话就是枚举i,j。那么算法的话就很容易想到数位dp。看到&运算,肯定是二进制,那就是数二进制位。再看,因为要求i&j==0,那么i和j中每一位中都最多只能有一个1(每一位只能有00,01,10,3种情况);又因为log运算,那么i,j中最高位的1是第几位就是的值。那么,我们枚举每一个最高位(也就是枚举的值),然后数位dp算i&j==0的个数就行了
getchar()函数用于接受一个字符输入,可以输入任何字符,并由自己决定结束标志,需要手动补全 � 。fgets()函数也用于接受字符输入,以换行符为结束标志,并自动在后面补全 � 。
文章浏览阅读1w次。 一开始有这个需求是实验室有一台服务器,我寒假回家可能需要操作(没办法,就是这么认真,放假也要科研),这样的话为了防止实验室断电或断网,我需要保证断网重拨和重启重拨。这个地方需要注意一点服务器断电自动重启,所以在断电之后来电的时候服务器自动重启。1、断网重拨一般断网重拨是默认的,但是持续次数很少,比如计算机断网之后,两个小时才来网,早就无法自动拨号。也就再也无法联网了。(1..._win11开机自动拨号上网设置
文章浏览阅读949次。首先P10,是 0001,二进制等于0001,转化为16进制。此时要让P10,P11,P14为输出,则转为二进制10011。为1,所以是0x01。仿真器用RF04E。_zigbee点亮led灯代码
文章浏览阅读1.2k次。解决固定定位无法覆盖的层叠问题_position:fixed无法覆盖整个页面怎么解决
文章浏览阅读76次。原文自:https://www.ibm.com/developerworks/cn/linux/l-ipc/part2/index2.html简介:在信号(上)中,讨论了linux信号种类、来源、如何安装一个信号以及对信号集的操作。本部分则首先讨论从信号的生命周期上认识信号,或者宏观上看似简单的信号机制(进程收到信号后,作相应的处理,看上去再简单不过了),..._进程间信号
文章浏览阅读4.8k次,点赞3次,收藏30次。三维圆圈的MATLAB绘制程序_matlab画三维半圆