大数据掘金——数据挖掘过程

如题所述

第1个回答  2022-08-27

1.商业问题理解

全面了解管理对新知识的需求以及对企业目标的明确认识。

进行项目规划,明确负责收集数据、分析数据、汇报结果的人员。在这一早期阶段,还应当对进行研究的经费预算,至少要给出预算上限和大致数据。

2.数据理解

将商业问题与使用数据完美匹配。

定量数据:用数值来衡量,可以是离散的,也可以使连续的。也成为分类数据包括定序和定类两种,定序数据有有限多个可排序的取值(差、好、极好),定类数据具有有限不可排序的取值(男、女)。定量数据可以由几组概率分布来表示。概率分布显示了数据是如何分布的

定性数据:可以进行编码,通过频率分布表示。

3.数据准备

数据处理。真实世界的数据通常都是不完全的(缺乏属性值、特殊性或只有总数)、杂乱的(包含错误或异常值)、不连续的(编码或名字中存在矛盾)。由于数据来自不同的数据源,它们之间具有不同的格式,如选取的数据可能来自平面文件、音频、图片或网页,必须转化为持续统一的格式。

4.建立模型

需要利用多种模型,经过多次实验和测量,找出解决某个实际问题的最佳方案。甚至对于单个模型或公式而言,也是需要对参数进行标准化才能得到最优结果。某些方法对数据格式有特殊要求,因此还需要退回到数据准备阶段重新处理。

数据挖掘建模的标准流程是将大规模未经处理数据分为小组,以进行测试或检验。然后分析师就可以根据一部分数据(实验组)建立模型(可以使用任何建模方法或公式),用另一部分数据(测试组)测试建立起来的模型。

5.检验和评估

对建立起来的模型进行测量和评估,确定其准确性和一般性。在实际环境中测试模型是否符合时间和财务的要求。这一发现过程的成功与否取决于数据分析师、商业分析师和决策者(如企业管理者)的互动。为了更好地解读数据,我们通常使用表格或可视化技术(如数据透视表、交叉表分析、饼图、柱状图、箱线图和散点图等)。

6.部署

数据部署这一步可能仅仅是给出一份报告,但也有可能要将整个数据挖掘过程在全公司重复一遍。

相似回答