用这款软件看看APP在用户背后做了什么
06-21
写这个系列,希望基于知乎上的某个答案,独立完善针对互联网产品和运营商的教程。
无论是数据分析还是数据操作,我希望它是一本足够好的教材。
更准确地说,这是一个为期七周的互联网数据分析能力培养大纲。
我会根据大纲添加互联网方面的内容,比如网站分析、用户行为序列等,我不想停留在表面上,而是系统地讲出来。
例如,什么是产品埋点?获取隐藏数据后,如何使用Python/Pandas的shift()函数将其清理成用户行为会话,然后计算用户在每个页面的停留时间,后续如何转换成统计宽表,以及如何创建用户标签等待。
以下是每周学习的概述。
第 1 周:学习和掌握 Excel 如果您熟悉 Excel,则可以跳过本周。
不过刚入行的时候并不知道怎么vlookup,所以有必要说一下。
重点是了解各种函数,包括但不限于sum、count、sumif、countif、find、if、左/右、时间转换等。
没有必要学习所有Excel函数,重要的是学会寻找。
也就是如何把在搜索引擎上遇到的问题描述清楚。
我认为掌握vlookup和数据透视表就足够了,它们是两种最具成本效益的技术。
SQL中的vlookup、join、Python中的merge很容易理解。
学习数据透视表、SQL 中的分组和 Python 中的数据透视表也是如此。
这两项做好了,采集10万条以内的数据基本上不是什么难事,80%的办公室白领都能秒杀。
在 Excel 中熟能生巧,因此请寻找更多练习题。
还需要养成良好的习惯,不要合并单元格,不要太花哨。
表按照原始数据(sheet1)、处理数据(sheet2)和图表(sheet3)的类型进行管理。
以下是额外的学习任务,为以后打下更好的基础:了解单元格格式,后面的数据类型包括各种时间戳、日期、字符串、int、bigint、char、factor、float等。
了解数组以及如何使用它们(excel数组非常难用)。
Python和R也会涉及到列表。
了解函数和参数将有助于您在晋升为编程数据分析师时更快地掌握它们。
了解中文编码、UTF8和ASCII,包括CSV分隔符等。
以后你会回来感谢我的。
我将本周的内容分为两部分:功能和技术。
这是一道练习题。
我给你一个身份证号码,告诉我有多少男女,各省市的人口分布,以及这些人的年龄、生肖。
如果你能完成上述过程,那么就跳过这周吧。
(身份证号规则可以网上搜索) 第二周:数据可视化 数据分析行业有句经典的说法,文字不如表格,表格不如图片。
数据可视化是数据分析的主要方向之一。
除了数据挖掘等高级分析之外,很多数据分析都是监测数据、观察数据。
数据分析的最终目的是推销自己的观点和结论。
最好的销售方式就是制作一个观点清晰、数据详细的PPT展示给你的老板。
如果没有人同意分析结果,那么分析就不会得到改进和优化。
没有落实的数据分析还有什么价值?首先,你需要了解常用的图表:Excel图表可以完成上述图形要求,但这只是基础。
后续的高级可视化必然会用到编程绘图。
为什么?例如,您可以使用Excel轻松完成常见的多变量分析吗?但在 IPython 中只需要一行代码。
其次,掌握BI。
下图是微软的BI。
BI(商业智能)与图表的区别在于,BI擅长交互和报告,更擅长解释已经发生和正在发生的数据。
将发生的数据就是数据挖掘的方向。
BI的优点在于它很大程度上解放了数据分析师的工作,提升了整个部门的数据意识,同时减少了其他部门的数据需求(数据最邪恶的来源)。
BI市场上的产品很多,基本上都是构建仪表板,通过维度联动、钻取来获得可视化分析。
最后,你需要学习可视化和信息图表的制作。
这是安身立命、立身俸禄的基础。
这和数据能力关系不大,更多的是审美、解读、PPT、信息化能力。
但花一点时间学习是值得的。
学习数据可视化包括三个过程:理解数据(图表)整合数据(BI)展示数据(信息化)第三周:分析思维训练本周轻松学习理论知识。
好的数据分析首先要有结构化思维,也就是我们俗称的金字塔思维。
思维导图是必备工具。
然后学习SMART、5W2H、SWOT、4P理论、六顶思考帽等框架。
这些框架都是经典,既精致又优雅。
分析也是有框架和方法论的,主要围绕三个关键点:一个业务没有指标就无法成长、无法分析;好的指标应该是比率或比例;好的分析应该是比较或相关。
我举个例子:我告诉你,今天一家超市的顾客很多。
你会如何分析呢?与附近其他超市相比,这里的人数是多还是少? (比较)人数比昨天多还是少? (比较)有多少人实际购买了? (转化比例)路过一家超市,超市外的人流量是多少? (转化率)这是构建分析框架的快速方法。
如果你只看人,你不会发现分析不能产生任何结果。
一个优秀的数据分析师会审问别人的数据,而他自己的分析也经得起审问。
这就是分析思维的能力。
需要明确的是,你不可能在一周内培养出数据思维,你只能培养理解力。
数据思维是不断实践的结果。
我只是尽量缩短这个过程。
第四周:数据库学习Excel处理10万条以内的数据没有问题,但互联网行业不缺数据。
只要产品是任何规模,数据都是从数百万开始的。
这时候就需要学习数据库了。
越来越多的产品和运营岗位将SQL作为招聘条件中的优先加分。
SQL是数据分析的核心技能之一。
从Excel到SQL对于数据处理效率来说绝对是一个很大的提升。
学习围绕选择展开。
增删改查、约束、索引、数据库范式都可以跳过。
主要了解where、group by、order by、having、like、count、sum、min、max、distinct、if、join、left join、limit、and and or、时间转换函数等逻辑。
如果你想再往下,可以学习row_number、substr、convert、contact等。
另外,不同的数据平台的功能也会有所不同,比如Presto、phpMyAdmin。
如果你还在追求某些东西,你可以了解Explain优化、SQL如何工作、数据类型和IO。
从现在开始,你就可以和技术开发人员有说有笑了。
毕竟,用“这条数据陷入僵局”代替“这里有bug”会有很大的不同。
学习SQL最主要的是多练习。
网上找到相关练习,温习一遍。
第五周:统计知识学习 不幸的是,统计知识也是我的弱项,但它是数据分析的基础。
我读过很多与产品和运营相关的数据分析文章,但提到统计知识的不多。
这并不严格。
例如,在产品的AB测试中,如果产品经理不知道置信度的含义和概念,那么好的结果并不意味着它是真正的好。
尤其是5%的提升并不显着。
例如,在运行一个活动时,如果操作者不了解测试相关的概念,如何判断该活动对数据有效还是无效?不要谈论平均数。
我们再讨论一下经典的概率问题。
如果一个人感染了流感,检测结果呈阳性的概率为 90%;如果一个人没有感染流感,检测结果呈阳性的概率为 9%。
现在这个人的检测结果呈阳性,那么他感染流感的可能性有多大?如果你认为概率是 50%、60%、70% 等,那么你就犯了一个直观的错误。
也与得病的基本概率有关。
统计知识教会我们从另一个角度看待数据。
如果你明白了《统计数据会撒谎》,那么你就知道很多数据分析决策并不可靠。
我们花了一周的时间掌握描述性统计,包括平均值、中位数、标准差、方差、概率、假设检验、显着性、总体和抽样等概念。
不需要学习更高层次的统计知识,所以我们可以快速掌握。
只要你不被数据欺骗,不犯错误。
以Excel的分析工具库为例。
在初级统计学习中,你需要理解第一列中每个名词的含义,而不是停留在平均值的基础上。
图片来自互联网第六周:业务知识(用户行为、产品、运营) 这周需要对业务的了解。
对于数据分析师来说,对业务的理解比数据方法论更重要。
当然,遗憾的是业务学习没有捷径。
让我给你举一个数据沙龙的例子。
某O2O配送公司发现,在重庆地区,配送人员的配送效率低于其他城市,导致用户好评率下降。
总部的数据分析师建立了各种指标来分析原因,但未能找到问题所在。
后来在采访中我发现,由于重庆是山地城市,路面高差夸张,很多送货人员的小电池无法上坡……导致送货效率慢。
这种情况下,我们只知道送货员的水平距离,即POI数据,根本不可能知道垂直距离数据。
这就是数据的局限性,也是只看数据的分析师和脚踏实地的分析师最大的区别。
了解商业市场是数据分析工作经验的最大优势之一。
不同行业、不同领域的业务知识是不同的,我就不露面了。
在互联网行业,有几个广泛的业务数据需要了解。
产品数据分析,学习经典的AAARR框架,了解主动留存的指标和概念(其中一些内容已经在我的历史文章中介绍过)。
而数据分析师需要知道如何用SQL进行计算。
因为在实际的分析过程中,留存只是一个指标,通过userId进行关联和拆分是常见的分析策略。
网站数据分析可以抽象出一个哲学问题:用户从哪里来(SEO/SEM)、用户去哪里(访问路径)、用户是谁(用户画像/用户行为路径)。
虽然网站已经不再是互联网的主流,但现在已经有很多APP+Web复合框架,朋友圈的交流活动肯定需要利用网页指标进行分析。
用户数据分析是基于数据运营的应用。
在产品前期,可以通过隐藏点计算转化率,利用AB测试达到快速迭代的目的。
后期当用户数量已经积累的时候,可以利用隐藏点来分析用户行为,并以此建立用户分层用户画像等。
比如利用贝叶斯算法来计算用户的性别概率,使用K聚类算法来划分用户组,使用行为数据作为特征来构建响应模型等。
但是,您不需要掌握这些即可快速上手。
您只需要有一个总体框架概念即可。
除了业务知识之外,业务层面的沟通也很重要。
当业务线足够长的时候,我不止一次遇到产品和运营没有抓住所有业务点的情况,尤其是跨部门分析的时候。
良好的业务沟通能力是数据分析的基本能力。
第7周:Python/R学习终于到了第七周,这也是最痛苦的一周。
这是你应该学习编程技能的时候。
是否具备编程能力是初级和高级数据分析的关键。
数据挖掘、爬虫、可视化报表都需要编程能力(比如上面的多元散点图)。
掌握一门优秀的编程语言可以让数据分析师事半功倍,升职加薪,嫁给白富美。
以最流行的R语言和Python作为学习分支,只需学习一门即可快速学习。
我碰巧研究过这两个类别。
R的优点是统计学家写的,它的缺点也是统计学家写的。
如果是调用各种统计函数、绘图、分析的先验演示,R无疑更有优势。
但对大量数据的处理能力不足,学习曲线比较陡峭。
Python是一种通用的胶水语言,适用性很强,可以编写各种分析过程的脚本。
Pandas、SKLearn 等软件包也与 R 捆绑在一起。
要学习 R,你需要了解数据结构(矩阵、数组、data.frame、列表等)、数据读取、图形绘制(ggplot2)、数据操作和统计函数(平均值、中位数、标准差、变量、标度等)。
暂时不需要涵盖高层次的统计数据。
这是后续的学习任务。
推荐使用RStudio作为R语言开发环境。
学习Python有很多分支,但我们专注于数据分析。
你需要了解调用包、函数、数据类型(list、tuple、dict)、条件判断、迭代等,有精力的话高级Numpy和Pandas都涵盖了。

Python的开发环境推荐使用Anaconda,可以避免大部分新手遇到的环境变量、包安装等问题。
Mac 附带了 Python 2.7,但现在 Python 3 比几年前更加成熟。
如果没有编码问题,就不要保守。
对于没有技术基础的运营和产品来说,第七周是最难的。
虽然SQL+Excel对于入门级的数据分析已经足够了,但是当涉及到循环迭代和多元图表分析时,复杂度呈指数级增长。
更不用说数据挖掘之类的高级玩法了。
我还相信,了解数据挖掘的产品和运营在未来将极具竞争力。
在这里已经整整七个星期了。
如果还需要第八周+,就需要对以上内容进行巩固和整合。
毕竟,这只是一个具有强烈目的的快速解决方案。
这是数据分析的开始,而不是毕业典礼。
如果你想让你的数据分析技能更进一步或者成为一名优秀的数据分析师,你可以每周继续学习内容,直到熟练为止。
其实短短两周时间,业务知识和统计知识就很薄弱了。
进一步的研究会有很多分支。
例如,有数据产品经理喜欢规划,机器学习喜欢统计,市场分析师喜欢商业,大数据工程师喜欢工程。
这是以后的故事。
雷锋网注:本文由《人人都是产品经理》作者秦陆授权,雷锋网发布,公众号:tracykanc。
未经作者许可禁止转载。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-21
06-06
06-17
06-17
06-17
06-21
06-17
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态