天涯论坛

 找回密码
 立即注册
搜索
查看: 52|回复: 3

怎么样用BI工具对数据进行预处理?数据分析的这项技巧你必要把握!

[复制链接]

2984

主题

2万

回帖

9956万

积分

论坛元老

Rank: 8Rank: 8

积分
99569176
发表于 2024-8-4 11:13:36 | 显示全部楼层 |阅读模式

在当今数字化时代,数据不仅是企业决策的基本是创新和发展的关键推动力。在面对庞大而繁杂的数据集时,怎样进行有效的预处理作为了数据分析行业中至关重要的一步。

在进行数据处理和分析的平常工作中,业务广泛运用Excel和SQL这两个经典的工具。然而,运用这两个工具进行数据处理,在实质的过程中可能遇到的有些问题:

Excel:

限制于数据规模: Excel在处理大规模数据时可能会变得缓慢且占用海量内存,引起性能下降。这针对处理数百万行的数据集可能是一个挑战。手动操作误差:Excel一般必须手动进行数据清理和转换,这增多了人为出错的可能性。公式和数据操作的复制粘贴可能引起错误的结果,尤其是在繁杂的数据处理任务中。版本掌控问题: 在团队协作中,倘若多个人同期编辑Excel文件,容易引起版本冲突,使得数据处理流程难以管理和跟踪。有限的自动化能力: Excel的自动化功能相对有限,尤其是在处理大型、繁杂的数据集时,自动化处理和重复利用的能力相对较弱。

SQL:

繁杂的语法:SQL语法相对繁杂针对初学者来讲,学习和理解SQL可能必须有些时间。写繁杂查找语句可能容易显现错误,而调试这些错误可能会耗费时间。处理字符串操作相对繁琐: 在SQL中,对字符串的处理相对繁琐,尤其是触及到文本分割、合并和模糊匹配等操作时,可能必须编写繁杂的代码。性能问题: 针对大规模数据集,有些查找可能会引起性能问题,必须优化查找语句运用索引来提有效率。难以处理非结构化数据: SQL更适用于关系型数据库,针对非结构化或半结构化数据的处理相对困难,必须在SQL外引入其他工具。

随着数据规模和繁杂性的持续增多,以及对实时决策的需求日益迫切,业界逐步转向更为有效、灵活的BI(商场智能)工具。对比于Excel和SQL在处理大规模、繁杂数据时所面临的许多挑战,BI工具以其强大的自动化和直观性,为用户供给了更为有效方便的数据处理处理方法。在这篇文案中,咱们就将深入讲解运用BI工具进行数据预处理的关键技巧,期盼能为已然引入BI工具的企业员工供给数据分析的帮忙与思路!

第1步:学会怎样调节并简化数据结构

1、调节数据结构

在进行数据分析之前,常常必须对数据结构进行特定的处理,以便更有效地进行后续分析工作。原始数据一般并非直接符合咱们分析的需求,因此呢必要进行有些行列转换的操作,以便调节数据的格式和结构,使其适应分析的需求

在FineBI里,咱们经过数据编辑内封装的功能“拆分行列”和“行列转换,快速、灵活地实现对数据的调节和重组,从而达到快速得到所需分析结果的目的。经过“拆分行列”功能,咱们能够将原始数据根据指定的规则进行拆分,从而分离出所需的信息。而“行列转换”则准许咱们在数据集中对行与列进行灵活的转换,以满足区别的分析需求。

原数据结构:字段内容混杂,有害于开展分析

处理后数据结构:拆分行列并转换后,字段结构简单清晰

示例中说到的数据分析模板分享给大众——

https://s.fanruan.com/x3k5k基本快速上手,还能按照需求进行个性化修改哦

2、处理重复行数据

实质的业务分析过程中,数据质量问题常常作为业务顺利进行分析的最重点阻碍。其中,最为平常和棘手的问题之一便是重复行的存在。在处理这些重复行时,咱们一般会面临两种重点状况,每一种都必须特定的处理方式。

首要,是那种删除任意一行都不会对分析结果产生实质性影响的状况例如数据中存在类似“A、A、A”的重复行,而只需保存其中的一个“A”就可。针对这种状况,FineBI内封装了“删除重复行”功能,能够在业务分析中快速而方便地实现这一操作。经过这个功能,咱们能够容易地剔除冗余的数据,以保证数据集的干净整洁,有利于后续准确的业务分析。

其次,还存在另一种状况,即必须选取保存特定的一行数据。例如,在系统中同一个客户可能有两行区别的数据记录,而在进行分析时,咱们可能必须有针对性地选取保存最新录入的一条数据。在这种“A、B、C”中只需取A的场景下,咱们首要经过对数据表进行排序,保证最新的数据位置于数据表的顶部,再利用“删除重复行”的规律,只保存最上方的一行数据,从而达到筛选并保存特定行的目的。这一流程既简洁又有效,为业务分析供给了灵活而可控的数据清洗手段。而表头下拉菜单对字段内容进行统计的功能,检测重复行变得更加简单。

功能封装,选取去重字段快速去重

3、对null值的处理

在各种业务场景中,处理null值是一种不可避免的挑战,而区别的业务场景常常必须采用截然区别的处理策略。

当面临大规模数据集时,倘若null值的显现相对较少,而这些空值并不会对总和或平均值等计算产生明显波动,那样咱们一般能够直接忽略这些null值。这种处理方式在数据量庞大的状况下能够有效减少对计算结果的影响。

另一方面,针对哪些在处理中期盼将null值视为脏数据,从而整行剔除的状况咱们能够借助表头的快捷过滤功能快速排除这些空值。这种办法经过运用表头的筛选工具,能够方便地将包括null值的整行数据剔除,从而保证数据的整洁性和准确性。

以上都是简单的场景处理,而在实质业务中,可能会遇到null值存在业务含义的状况

例如示例中的数据,这位朋友英语成绩为空的原由可能是他本身就因病没参加考试,此时既不可放着不管,不可直接删去他的这一行数据。

针对这种状况咱们要做的是针对某一类特殊状况打上对应的标签,以便在后续的分析中,有选取地过滤。在FineBI中,能够“新增公式列”更方便的要求标签列”来实现。

对存在空值成绩的朋友打上缺考标签

第二步:学会怎样对多张表进行合并分析

多表合并分析指的是在数据分析过程中,将来自多个区别数据表的信息合并在一块进行综合分析的办法。在实质业务或科研中,数据一般分布在多个表格中,而多表合并分析的目的是为了获取更全面、更综合的信息,从而得出更深刻的结论。

这个过程一般包含以下几个过程

数据连接(Joining): 多表合并分析的第1步是经过某种相关关系将多个表格中的数据连接起来。这一般必须经过共享的关键字段(例如,客户ID、制品编号等)来创立连接,以保证正确相关关联数据。数据合并(Merging): 一旦连接创立,接下来的过程是将关联表格的数据合并成一个更大的数据集。这能够经过区别的合并办法实现,例如内连接、左连接、右连接或外连接,取决于分析者对数据的需求。数据分析(Analysis): 合并后的数据集能够用于更深入的分析,例如生成统计指标、创立模型、进行趋势分析等。因为数据来自多个源头,多表合并分析有助于得到更全局的视角,使得分析结果更加全面和有说服力。

实质业务中,咱们必须的数据常常来自于多张表。在分析前,另一一个大困难便是怎样合并这些表。咱们为刚上手BI的业务人员,归纳了以下两种合并的场景。

咱们首要想象合并后表的状态,一种是表格上下扩展,分析的字段并增多然则行数变多了。此时能够运用“上下合并”快速完成表的拼接。

表格上下扩展,分析的字段并增多

另一种繁杂状况是合并后的表格是横向扩展的,即分析的字段变多了。

在讨论上下合并前,咱们不妨先瞧瞧“其他表添加列”

许你对这个名字摸不着头脑,然则肯定不会对Excel的Vlookup、Sumif感到陌生

没错,这个功能能够将其他表的指标字段进行聚合后合并(Sumif)或是查找对应的维度匹配到这张表中(Vlookup)。

成绩按照需求求和后做为一个新的字段,依据“姓名”合并到本表中

而对SQL老练的玩家来讲,left join、right join…..可能更加亲切,此时能够选取BI数据编辑中的上下合并”功能,与SQL的规律一致,且比SQL的操作更加方便,并不必须代码来实现,有基本伴侣能够火速上手。

第三步:学会新增计算及分析指标

在简化数据结构、并将多表进行合并处理后,咱们必须停下来,审视一下自己所分析的问题,以及对应这个问题所必须的指标是不是已然在表中了。

通常来讲,事情可能这么顺利,当然这在常理之中,例如在零售行业的分析中,常常必须咱们自己计算毛利率、增长率等指标。

起始分析前,咱们能够将这些计算指标增添到数据表中。怎么做呢?

首要是最令人熟练“新增公式列”,这个功能和Excel中写公式同样,只必须输入对应的公式就能产生对应的字段。接着是有些常用计算的封装功能,“新增汇总列”能够帮忙咱们进行简单的聚合计算。

选取对应的分组以及计算方式,对指标进行计算

要求标签列”这个功能则处理了众多分析师平常最头疼的IF嵌套问题,不必须写嵌套了七八层的IF公式,只需经过鼠标配置区别要求,就能够对数据赋予区别的标签(值)。

经过添加特定要求筛选数据并赋予对应的标签

第四步:学会对数据进行校验

刚接触BI的伴侣遇到最大的问题不仅在于不睬解BI许多功能的计算规律,更在于由此产生的对数据处理结果的不信任。“我这么做,出来的结果是对的吗?”是新手伴侣最常问自己的一个问题。为了方便用户进行校验,数据编辑界面内置了非常多便利的功能。

1、表头数据校验

选中字段后,能够在左下角快速得到平均值、总和、记录数等数据,咱们能够经过熟练的数据进行校验,结合经验来判断是不是正确。

数学成绩字段校验得出平均分85.92,符合班级历史平均水平

2、过程区关键过程取消应用

BI能够在处理过程插进新的过程同期能够设置某些过程暂时取消生效。

利用这一点,咱们能够经过过滤出部分关键数据,并取消应用有些疑惑的关键过程来进行试错。就如同刚学数学时习惯性的多次验算同样,虽然对老玩家略显繁琐,但的确是最令新手安心的定心丸。

经过表头快速过滤出少部分数据进行“抽样检测”

灵活运用过程区的小技巧帮忙自己快速检测

结语

综上所述,BI工具为数据预处理供给了强大而灵活的平台,经过把握其中的技巧,咱们能够更加有效地应对繁杂的数据情境,为业务决策供给更有力的支持。在这个数据驱动的时代,深谙数据预处理之道,将作为每位数据分析专业人士必要具备的重要技能。不仅能够提高分析效率,更能够保证咱们从数据中挖掘出准确、深刻的见解,为业务的成功铺平道路。





上一篇:SQL SERVER:多表查询之—内连接(20)
下一篇:C++ 后台研发知识点及学习路线
回复

使用道具 举报

1

主题

826

回帖

-1

积分

限制会员

积分
-1
发表于 2024-9-25 04:24:54 | 显示全部楼层
你的见解独到,让我受益匪浅,非常感谢。
回复

使用道具 举报

3045

主题

3万

回帖

9606万

积分

论坛元老

Rank: 8Rank: 8

积分
96065860
发表于 2024-9-30 03:30:20 | 显示全部楼层
“沙发”(SF,第一个回帖的人)‌
回复

使用道具 举报

3046

主题

2万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99109049
发表于 2024-10-2 00:11:51 | 显示全部楼层
楼主发的这篇帖子,我觉得非常有道理。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-22 17:20 , Processed in 0.108488 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.