首页 > 科技未来 > 内容

如何培养互联网数据分析能力?这是一个为期七周的大纲

发布于:2024-06-18 编辑:匿名 来源:网络

写这个系列,希望基于知乎上的某个答案,独立完善针对互联网产品和运营商的教程。

无论是数据分析还是数据操作,我希望它是一本足够好的教材。

更准确地说,这是一个为期七周的互联网数据分析能力培养大纲。

我会根据大纲添加互联网方面的内容,比如网站分析、用户行为序列等,我不想停留在表面上,而是系统地讲出来。

例如,什么是产品埋点?获取隐藏数据后,如何使用Python/Pandas的shift()函数将其清理成用户行为会话,然后计算用户在每个页面的停留时间,后续如何转换成统计宽表,以及如何创建用户标签等待。

以下是每周学习的概述。

第 1 周:学习和掌握 Excel 如果您熟悉 Excel,则可以跳过本周。

不过刚入行的时候并不知道怎么vlookup,所以有必要说一下。

重点是了解各种函数,包括但不限于sum、count、sumif、countif、find、if、左/右、时间转换等。

没有必要学习所有Excel函数,重要的是学会寻找。

也就是如何把在搜索引擎上遇到的问题描述清楚。

我认为掌握vlookup和数据透视表就足够了,它们是两种最具成本效益的技术。

SQL中的vlookup、join、Python中的merge很容易理解。

学习数据透视表、SQL 中的分组和 Python 中的数据透视表也是如此。

这两项做好了,采集10万条以内的数据基本上不是什么难事,80%的办公室白领都能秒杀。

在 Excel 中熟能生巧,因此请寻找更多练习题。

还需要养成良好的习惯,不要合并单元格,不要太花哨。

表按照原始数据(sheet1)、处理数据(sheet2)和图表(sheet3)的类型进行管理。

以下是额外的学习任务,为以后打下更好的基础:了解单元格格式,后面的数据类型包括各种时间戳、日期、字符串、int、bigint、char、factor、float等。

了解数组以及如何使用它们(excel数组非常难用)。

Python和R也会涉及到列表。

了解函数和参数将有助于您在晋升为编程数据分析师时更快地掌握它们。

了解中文编码、UTF8和ASCII,包括CSV分隔符等。

以后你会回来感谢我的。

我将本周的内容分为两部分:功能和技术。

这是一道练习题。

我给你一个身份证号码,告诉我有多少男女,各省市的人口分布,以及这些人的年龄、生肖。

如果你能完成上述过程,那么就跳过这周吧。

(身份证号规则可以网上搜索) 第二周:数据可视化 数据分析行业有句经典的说法,文字不如表格,表格不如图片。

数据可视化是数据分析的主要方向之一。

除了数据挖掘等高级分析之外,很多数据分析都是监测数据、观察数据。

数据分析的最终目的是推销自己的观点和结论。

最好的销售方式就是制作一个观点清晰、数据详细的PPT展示给你的老板。

如果没有人同意分析结果,那么分析就不会得到改进和优化。

没有落实的数据分析还有什么价值?首先,你需要了解常用的图表:Excel图表可以完成上述图形要求,但这只是基础。

后续的高级可视化必然会用到编程绘图。

为什么?例如,您可以使用Excel轻松完成常见的多变量分析吗?但在 IPython 中只需要一行代码。

其次,掌握BI。

下图是微软的BI。

BI(商业智能)与图表的区别在于,BI擅长交互和报告,更擅长解释已经发生和正在发生的数据。

将发生的数据就是数据挖掘的方向。

BI的优点在于它很大程度上解放了数据分析师的工作,提升了整个部门的数据意识,同时减少了其他部门的数据需求(数据最邪恶的来源)。

BI市场上的产品很多,基本上都是构建仪表板,通过维度联动、钻取来获得可视化分析。

最后,你需要学习可视化和信息图表的制作。

这是安身立命、立身俸禄的基础。

这和数据能力关系不大,更多的是审美、解读、PPT、信息化能力。

但花一点时间学习是值得的。

学习数据可视化包括三个过程:理解数据(图表)整合数据(BI)展示数据(信息化)第三周:分析思维训练本周轻松学习理论知识。

好的数据分析首先要有结构化思维,也就是我们俗称的金字塔思维。

思维导图是必备工具。

然后学习SMART、5W2H、SWOT、4P理论、六顶思考帽等框架。

这些框架都是经典,既精致又优雅。

分析也是有框架和方法论的,主要围绕三个关键点:一个业务没有指标就无法成长、无法分析;好的指标应该是比率或比例;好的分析应该是比较或相关。

我举个例子:我告诉你,今天一家超市的顾客很多。

你会如何分析呢?与附近其他超市相比,这里的人数是多还是少? (比较)人数比昨天多还是少? (比较)有多少人实际购买了? (转化比例)路过一家超市,超市外的人流量是多少? (转化率)这是构建分析框架的快速方法。

如果你只看人,你不会发现分析不能产生任何结果。

一个优秀的数据分析师会审问别人的数据,而他自己的分析也经得起审问。

这就是分析思维的能力。

需要明确的是,你不可能在一周内培养出数据思维,你只能培养理解力。

数据思维是不断实践的结果。

我只是尽量缩短这个过程。

第四周:数据库学习Excel处理10万条以内的数据没有问题,但互联网行业不缺数据。

只要产品是任何规模,数据都是从数百万开始的。

这时候就需要学习数据库了。

越来越多的产品和运营岗位将SQL作为招聘条件中的优先加分。

SQL是数据分析的核心技能之一。

从Excel到SQL对于数据处理效率来说绝对是一个很大的提升。

学习围绕选择展开。

增删改查、约束、索引、数据库范式都可以跳过。

主要了解where、group by、order by、having、like、count、sum、min、max、distinct、if、join、left join、limit、and and or、时间转换函数等逻辑。

如果你想再往下,可以学习row_number、substr、convert、contact等。

另外,不同的数据平台的功能也会有所不同,比如Presto、phpMyAdmin。

如果你还在追求某些东西,你可以了解Explain优化、SQL如何工作、数据类型和IO。

从现在开始,你就可以和技术开发人员有说有笑了。

毕竟,用“这条数据陷入僵局”代替“这里有bug”会有很大的不同。

学习SQL最主要的是多练习。

网上找到相关练习,温习一遍。

第五周:统计知识学习 不幸的是,统计知识也是我的弱项,但它是数据分析的基础。

我读过很多与产品和运营相关的数据分析文章,但提到统计知识的不多。

这并不严格。

例如,在产品的AB测试中,如果产品经理不知道置信度的含义和概念,那么好的结果并不意味着它是真正的好。

尤其是5%的提升并不显着。

例如,在运行一个活动时,如果操作者不了解测试相关的概念,如何判断该活动对数据有效还是无效?不要谈论平均数。

我们再讨论一下经典的概率问题。

如果一个人感染了流感,检测结果呈阳性的概率为 90%;如果一个人没有感染流感,检测结果呈阳性的概率为 9%。

现在这个人的检测结果呈阳性,那么他感染流感的可能性有多大?如果你认为概率是 50%、60%、70% 等,那么你就犯了一个直观的错误。

也与得病的基本概率有关。

统计知识教会我们从另一个角度看待数据。

如果你明白了《统计数据会撒谎》,那么你就知道很多数据分析决策并不可靠。

我们花了一周的时间掌握描述性统计,包括平均值、中位数、标准差、方差、概率、假设检验、显着性、总体和抽样等概念。

不需要学习更高层次的统计知识,所以我们可以快速掌握。

只要你不被数据欺骗,不犯错误。

以Excel的分析工具库为例。

在初级统计学习中,你需要理解第一列中每个名词的含义,而不是停留在平均值的基础上。

图片来自互联网第六周:业务知识(用户行为、产品、运营) 这周需要对业务的了解。

对于数据分析师来说,对业务的理解比数据方法论更重要。

当然,遗憾的是业务学习没有捷径。

让我给你举一个数据沙龙的例子。

某O2O配送公司发现,在重庆地区,配送人员的配送效率低于其他城市,导致用户好评率下降。

总部的数据分析师建立了各种指标来分析原因,但未能找到问题所在。

后来在采访中我发现,由于重庆是山地城市,路面高差夸张,很多送货人员的小电池无法上坡……导致送货效率慢。

这种情况下,我们只知道送货员的水平距离,即POI数据,根本不可能知道垂直距离数据。

这就是数据的局限性,也是只看数据的分析师和脚踏实地的分析师最大的区别。

了解商业市场是数据分析工作经验的最大优势之一。

不同行业、不同领域的业务知识是不同的,我就不露面了。

在互联网行业,有几个广泛的业务数据需要了解。

产品数据分析,学习经典的AAARR框架,了解主动留存的指标和概念(其中一些内容已经在我的历史文章中介绍过)。

而数据分析师需要知道如何用SQL进行计算。

因为在实际的分析过程中,留存只是一个指标,通过userId进行关联和拆分是常见的分析策略。

网站数据分析可以抽象出一个哲学问题:用户从哪里来(SEO/SEM)、用户去哪里(访问路径)、用户是谁(用户画像/用户行为路径)。

虽然网站已经不再是互联网的主流,但现在已经有很多APP+Web复合框架,朋友圈的交流活动肯定需要利用网页指标进行分析。

用户数据分析是基于数据运营的应用。

在产品前期,可以通过隐藏点计算转化率,利用AB测试达到快速迭代的目的。

后期当用户数量已经积累的时候,可以利用隐藏点来分析用户行为,并以此建立用户分层用户画像等。

比如利用贝叶斯算法来计算用户的性别概率,使用K聚类算法来划分用户组,使用行为数据作为特征来构建响应模型等。

但是,您不需要掌握这些即可快速上手。

您只需要有一个总体框架概念即可。

除了业务知识之外,业务层面的沟通也很重要。

当业务线足够长的时候,我不止一次遇到产品和运营没有抓住所有业务点的情况,尤其是跨部门分析的时候。

良好的业务沟通能力是数据分析的基本能力。

第7周:Python/R学习终于到了第七周,这也是最痛苦的一周。

这是你应该学习编程技能的时候。

是否具备编程能力是初级和高级数据分析的关键。

数据挖掘、爬虫、可视化报表都需要编程能力(比如上面的多元散点图)。

掌握一门优秀的编程语言可以让数据分析师事半功倍,升职加薪,嫁给白富美。

以最流行的R语言和Python作为学习分支,只需学习一门即可快速学习。

我碰巧研究过这两个类别。

R的优点是统计学家写的,它的缺点也是统计学家写的。

如果是调用各种统计函数、绘图、分析的先验演示,R无疑更有优势。

但对大量数据的处理能力不足,学习曲线比较陡峭。

Python是一种通用的胶水语言,适用性很强,可以编写各种分析过程的脚本。

Pandas、SKLearn 等软件包也与 R 捆绑在一起。

要学习 R,你需要了解数据结构(矩阵、数组、data.frame、列表等)、数据读取、图形绘制(ggplot2)、数据操作和统计函数(平均值、中位数、标准差、变量、标度等)。

暂时不需要涵盖高层次的统计数据。

这是后续的学习任务。

推荐使用RStudio作为R语言开发环境。

学习Python有很多分支,但我们专注于数据分析。

你需要了解调用包、函数、数据类型(list、tuple、dict)、条件判断、迭代等,有精力的话高级Numpy和Pandas都涵盖了。

如何培养互联网数据分析能力?这是一个为期七周的大纲

Python的开发环境推荐使用Anaconda,可以避免大部分新手遇到的环境变量、包安装等问题。

Mac 附带了 Python 2.7,但现在 Python 3 比几年前更加成熟。

如果没有编码问题,就不要保守。

对于没有技术基础的运营和产品来说,第七周是最难的。

虽然SQL+Excel对于入门级的数据分析已经足够了,但是当涉及到循环迭代和多元图表分析时,复杂度呈指数级增长。

更不用说数据挖掘之类的高级玩法了。

我还相信,了解数据挖掘的产品和运营在未来将极具竞争力。

在这里已经整整七个星期了。

如果还需要第八周+,就需要对以上内容进行巩固和整合。

毕竟,这只是一个具有强烈目的的快速解决方案。

这是数据分析的开始,而不是毕业典礼。

如果你想让你的数据分析技能更进一步或者成为一名优秀的数据分析师,你可以每周继续学习内容,直到熟练为止。

其实短短两周时间,业务知识和统计知识就很薄弱了。

进一步的研究会有很多分支。

例如,有数据产品经理喜欢规划,机器学习喜欢统计,市场分析师喜欢商业,大数据工程师喜欢工程。

这是以后的故事。

雷锋网注:本文由《人人都是产品经理》作者秦陆授权,雷锋网发布,公众号:tracykanc。

未经作者许可禁止转载。

如何培养互联网数据分析能力?这是一个为期七周的大纲

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 用这款软件看看APP在用户背后做了什么

    用这款软件看看APP在用户背后做了什么

    近日,一条微博发文称“iOS版微信/QQ/淘宝等APP反复在后台读取用户相册” ” 成为热搜话题后,微信回应称“iOS系统为应用开发者提供了标准的相册更新通知能力。 当相册内容有更新时,会通知应用程序,提醒应用程序提前准备,应用程序的准备行为将被记录为读取系统相册。 ”。

    06-21

  • 华虹半导体2022年第一季度业绩公布

    华虹半导体2022年第一季度业绩公布

    华虹宏力中国香港 - 2020年5月12日 - 全球领先的特种工艺纯晶圆代工厂华虹半导体股份有限公司公布截至2020年全年业绩截至2022年3月31日止三个月的综合经营业绩。 2022年第一季度主要财务指标(未经审计)销售收入创历史新高,达到5亿美元,同比增长-同比增长95.1%,环比增长1

    06-06

  • 门票卖到6万元,周杰伦演唱会黄牛“集体退票”

    门票卖到6万元,周杰伦演唱会黄牛“集体退票”

    10月12日,为期四天的周杰伦上海演唱会正式开始。 这本来是周杰伦粉丝最期待的时刻,但一些提前买票、订好行程的粉丝却没能如愿出席。 就在演唱会前一天,大批黄牛集体退票的消息成为热搜话题。 有卖家表示,主办方原计划的信息没有实现,所以正在取消订单。 不过,这一说辞并

    06-17

  • 首次发布 -黑蚂蚁资本完成超级募资

    首次发布 -黑蚂蚁资本完成超级募资

    在我的印象中,这是消费基金今年最大的募资。 据投资界10月10日消息,黑蚂蚁资本人民币基金三期募资25亿。 该LP主要由市场化基金中的基金、保险机构和产业投资者组成,另外还有一只即将交割的政府引导基金。 此前,黑蚂蚁资本已完成两轮人民币主基金和一轮美元主基金募集,而

    06-17

  • 马斯克:未来汽车将实现自动驾驶

    马斯克:未来汽车将实现自动驾驶

    特斯拉首席执行官埃隆马斯克表示,毫无疑问,未来汽车将实现自动驾驶,而且除了火箭之外,未来所有交通工具都将是电动的。

    06-17

  • 阿里巴巴创新神经网络硬件架构,论文入选国际顶级会议ISCA 2022

    阿里巴巴创新神经网络硬件架构,论文入选国际顶级会议ISCA 2022

    6月23日,架构领域国际顶级会议ISCA刚刚落下帷幕。 阿里巴巴达摩院在图神经网络计算领域的论文被会议收录。 该文章开创了一种新的硬件架构,可以显着提高图神经网络的处理效率,并将硬件成本降低一半。 ISCA、MICRO、HPCA被誉为建筑领域三大顶级会议。 ISCA成立于2007年,见证

    06-17

  • 佣金最高26%,商家抨击美团提高佣金“吸血”,官方回应称:我们也赚不到钱

    佣金最高26%,商家抨击美团提高佣金“吸血”,官方回应称:我们也赚不到钱

    猝不及防,美团成了外卖行业的“公敌”。 受疫情影响,餐饮、旅游、酒店等多个行业面临生存危机。 外卖已经成为商家的救命稻草。 美团的规定让广大餐饮商家的处境“雪上加霜”的是:如果商家同时入驻美团,饿了么的话,佣金可能会达到30%。 商家抗议称,“这简直是霸道条款,

    06-18

  • 12年后,iPhone终于“变成”POS机了

    12年后,iPhone终于“变成”POS机了

    如果你不是iPhone 4时代的智能手机用户,你很可能不知道这个设备的用处。 在智能手机还有3.5mm耳机接口的时代,很多外设厂商都想利用这个接口来扩展手机的功能。 连接读卡器,将手机变成POS机,可以说是当时移动支付的先驱。 随着时间的推移,人们已经开始忘记刷卡器、忘记3.

    06-21

  • 超嗨科技完成数千万元A+轮融资,汉朔科技领投

    超嗨科技完成数千万元A+轮融资,汉朔科技领投

    投资天地 10月18日,智能购物车公司超嗨科技完成数千万元A+轮融资。 本轮融资由汉朔科技领投。 今年3月,公司完成由洪泰基金领投,前海母基金、盛岛投资跟投的数千万元A轮融资。 本次A+轮融资将用于进一步推动超嗨科技零售数字化解决方案的升级。 公司旨在通过智能数字解决方

    06-17

  • 消费级AR眼镜即将爆发:Rokid+无影突破算力极限打造“第三屏” -云谷创新讲座Vol.16

    消费级AR眼镜即将爆发:Rokid+无影突破算力极限打造“第三屏” -云谷创新讲座Vol.16

    近两年来,人们不断探索下一代计算平台和交互方式。 AR技术备受关注,AR眼镜被视为未来有望独立于手机和电脑的“第三屏”。 而祝铭明对AR眼镜的想象远远超出了“屏幕”。 谈话开始前,他向我们展示了Rokid最新的AR眼镜和Rokid车站。 祝铭明戴上AR眼镜,通过蓝牙连接外部设备

    06-18

  • 风气变了,幸好企业家和雷军并没有留恋过去

    风气变了,幸好企业家和雷军并没有留恋过去

    以前,媒体人会私下打赌小米是否会推出某类产品。 后来大家才发现,这样的赌博毫无意义。 因为总是猜“是”的人赢了赌注。 渐渐地,人们明白,并不是小米(及其附属公司)的每一款产品都会像手机、充电宝、手环那样具有毁灭性和行业颠覆性。 通常,小米(及其附属公司)层出不

    06-17

  • 从三线城市到产业创新热点,鹤壁为何占据上风?

    从三线城市到产业创新热点,鹤壁为何占据上风?

    作者 |杜航 “近年来,鹤壁市紧紧抓住新一轮科技革命和产业变革的历史机遇。 ”近日,鹤壁市岐滨区人大常委会副主任刘翠凤出席中国5G产业创新创业大赛北京赛区津冀赛区决赛。 “鹤壁市坚持把推进5G建设作为增强自主创新能力、推动产业转型升级、提高政府治理效率的战略举措。

    06-18