本文旨在通过一个实际案例,引导读者用最朴素的方式解锁数据分析的大门,打破对数据的迷信,将焦点回归到解决问题上来。通过易于理解的语言和实操指南,即便是数据分析新手也能够快速入门,提升工作效率,发现数据背后的商业洞见。
来到传统私企后,发现很多人还停留在明细数据的阶段。相对好一些的,却是被毒害的青年,开局 RFM、帕累托,然后解密宇宙。
提起数据分析,很多人容易陷入过于复杂的模型和工具中,为了 " 打破迷信 " 也为了有一份相对能看的数据,决定写一篇易于理解的保姆级实践指南。
01 数据科学,不是量子力学
无论多么高大上的语言或工具,数据分析绕不过这 3 点:获取数据、清洗数据、理解数据。
它的难,难在热搜里充斥着不实用和听不懂。
接下来用一个案例来正式开启这篇文章:
案例背景:你需要为景区设计文创产品,但不清楚哪类文创产品受欢迎。你想通过分析文创产品的类型、价格和销量等数据来获取灵感。比如,哪些类型的文创产品卖得最好?价格与销量之间是否存在相关性?
数据需求:销量排名前 100 个商品数据,包含名称、分类、价格、销量、用途、人群、材质、风格。
02 获取原始数据,减少无效需求。
我们总觉得平台取数速度太慢,或者研发诸多刁难,其实是要了太多没用的数据。
在提需求时,要再三问自己:是否有必要、是否有替代方法。
其次请要原始数据,要更少的原始数据。
通过控制数据提取的范围,减少处理冗余信息的计算和人工负担。而原始数据便于组合,但结果数据不仅提取复杂,也很难二次加工。
在获取了数据后,先不要着急进行数据分析,因为原始数据往往是杂乱的。
如果不清洗数据,后续的分析结果很可能会失真或者错误。只有数据 " 干净 " 了,分析工具和模型才能发挥作用。
接下来,让我们看看如何进行数据清洗,让它变得 " 可读 " 和 " 可用 "。
03 清洗到你看得懂,机器才看得懂
工具层面,我建议使用飞书多维表格,后续的图形化也更加方便。
1、数据清洗
首先清理无用的关键词,例如:" 故宫 "、" 文创 "、" 官方旗舰店 " 等。
清洗过后,不仅提高了阅读体验,也降低了机器处理数据的算力需求。
必要时,可以增加其他的清理手段,例如:补全空值或统一标签格式,确保数据清晰规范。
2、数据分类
2-1、特征提取
第二步,我们要提取有价值的特征。例如商品标题中的节日、用途、人群。
最简单的方式是使用飞书的字段捷径进行智能标签,但对于这类容易标准化的数据,更好的方法是函数提取。
例如 REGEXEXTRACTALL 函数:
REGEXEXTRACTALL ( [ 商品标题 ] , " 教师节礼物 | 生日礼物 | 乔迁礼物 | 儿童节礼物 | 结婚礼物 | 创意礼物 | 伴手礼 " )
这个函数从商品标题中提取匹配的礼物类型,将其转换为 " 用途标签 "。
提取标签后要注意再次清除相关关键词。
2-2、数值分类
在分析品类价格分布时,稀疏的价格数据无法帮助我们有效识别问题。
但如果我们将价格收窄为区间,数据就会变得集中,便于我们的分析。
IFS ( [ 商品价格 ]
登录后才可以发布评论哦
打开小程序可以发布评论哦