|
) o$ l; K; P4 S1 ^ y
前言:数据挖掘讲堂开课啦!回顾此前的课程,我们和大家分享了数据挖掘的流程与方法,帮助大家打通数据挖掘的任督二脉,成为数据挖掘“高手”。 然而,在数据挖掘的过程中,数据的准备阶段也至关重要,高质量的数据是数据挖掘的基础,如何在前期实现对数据的核查并提高数据质量?国信大数据君会在接下来的三期讲堂中和向大家一一道来分享。我们知道,数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将导致低质量的挖掘结果。因此数据预处理的环节十分必要,其最重要的目的就是为了提高数据的质量。一般情况下,我们通过以下几个方面去评价数据的质量:
+ _( A$ Z h4 p l
) G! l! M# U2 H" E" F6 O$ G 数据的完整性,即数据是否有缺失的情况;
9 [; G1 [4 B6 W3 a! H' j8 b, C l
, D9 X3 I) d8 x5 n) i8 V. ~8 ^ 数据的合理性,即数据是否在合理正常的范围内;
2 L; }& w5 m: B# X' l; C e l& I, Z' D) L" d1 L% z
数据的一致性,即数据前后的业务逻辑关系是否合理。
8 a( U2 [2 Q& y- q1 m6 R, ? 此外,在模型建立的过程中,过多的变量进行建模得到的模型效果也不佳(如会产生异方差、多重共线性等等问题使模型的系数统计检验上出现差错等),因此,要对变量(指标)进行筛选,选择出合适的变量进行建模,提高模型的准确度与稳定性。那么如何实现数据的完整性、合理性与一致性,并实现在高质量的数据中进行深入挖掘分析呢?接下来的三期中,我们将分别通过介绍数据预处理的三大核心内容:数据稽核(data auditing),数据预处理(data preprocessing)、指标筛选(index% T9 K$ N$ d; {7 ?+ X
screening),带领大家实现数据预处理从入门到精通!
$ i4 H" t! H% | G0 i (一)数据稽核体系(data auditing)
1 i/ o( d: O+ D4 y! I( g 由于大数据的高维、异构、多变和强随机性,使得大数据存在复杂性和不确定性,数据结构复杂性包括结构、半结构和非结构的数据形式。数据来源包括企业自有的信息系统产生的数据和与企业相关的互联网数据,数据存储可能是数据库管理系统、NoSQL、图数据库、格式化文本或者网页数据。大数据的高维度带来噪声累加、伪关联和偶然同质性(National Science Review,2014),也带来巨大的计算代价和算法的不稳定性。大数据的低质特性是指不完整、不一致、不精确、时效错误等,以及压缩和加密导致的低质性。低质特性对大数据应用造成了较大影响,如知识发现过程的影响、数据准确应用的影响、数据转化交叉应用的影响等。
6 D7 v0 _2 i" U& f2 m' v) \ 我们总结传统的数据稽核技术,并形成一套较为适用的数据稽核体系,包括数字化探索、可视化探索、描述统计探索等,结合大数据规模性、时效性要求,扩展并规范数据稽核的方法,进一步形成不同行业直接通用的标准流程,并固化至系统中可灵活高效的完成数据结合工作。 ( H8 n+ _* b! W! w0 O& y
1.
; q6 @1 ?1 Q, t4 T" F# n$ a 数字化探索
4 C( N, t% s: p 变量概览规划:分类数据(categorical data)、顺序数据(rank data)、数值型数据(metric data)、观测数据和实验数据、横截面数据和时间序列数据;
4 E6 x/ P" l J, Z2 s2 f& n 数据缺失值识别:在任何规模的项目中,数据都可能由于未作答问题、设备故障或误编码数据的缘故而不完整;
% b) C$ C* u* [4 u 数据相关性分析:变量之间相互关系大致可分为两种类型,即函数关系和相关关系。函数关系是指变量之间存在的相互依存关系,它们之间的关系可以用某一方程(函数)表达出来;相关关系是指两个变量的数值变化存在不完全确定的依存关系,它们之间的数值不能用方程表示出来,但可用某种相关性度量来刻划。相关关系是相关分析的研究对象, 而函数关系则是回归分析的的研究对象;
9 \' W/ c, R2 M- z# p 指标分布统计:离散指标的贝努利分布binom(1,p)、二项分布binom(n,p)、泊松分布pois(λ)等,连续指标的均匀分布unif(a,b)、正态分布/高斯分布binom(μ,σ²)、指数分布exp(λ)等,比如质量控制中,为了控制实验中的测量(或实验)误差,常以μ作为上、下警戒值,以σ² 作为上、下控制值,其依据是正常情况下测量(或实验)误差服从正态分布。
# C- e; i0 V0 e: ^0 I) q
/ n* H* @: C0 E8 W 2. 可视化探索
9 I2 W! P5 A, P1 F 常用的可视化图表规范包括直方图、累计分布图、箱型图、点阵图、条形图、饼图等。以适用箱型图观测离群点为例,箱型图(又称盒须图)通过绘制连续型变量的五数总括,即最小值、下四分位数(第25百分位数)、中位数(第50百分位数)、上四分位数(第75百分位数)以及最大值,描述了连续型变量的分布,箱型图能够显示出可能为离群点的观测。
3 G3 n2 G. J! P7 V) U; S , p; ^# R9 a3 h1 r5 H: C# [! U
3. 统计描述探索 1 l L2 I* i; N' t
统计描述探索分为对集中趋势的度量规范,如均值、中位数、众数等,以及离散程度的度量,如极差、四分位数、方差、标准差、四分位数极差等。
3 l" m- g) h" J
J( n( K3 p; s 数据稽核是数据挖掘中数据准备过程的重要一环,是数据探索的前提。我们常说,“Garbage in, Garbage out”,即无用输入,无用输出,没有可信的数据,数据挖掘构建的模型将是空中楼阁。因此,强大的数据稽核将为数据挖掘的实习打下坚实的地基,同时数据预处理能够有效的提高数据质量,节约大量的时间和成本,只有形成一套完整的数据稽核体系,强化对底层数据的审计和核查,才能在后续的数据分析与处理过程中挖掘高质量的数据,从而最终释放出数据的巨大价值。
( p' Q$ l) Z) i: v: @4 W6 t; F1 g) p' N' Y. m
下期预告:常见数据预处理方法,实现数据的标准化处理。 7 N1 ?/ v3 l* I( b5 R
0 [8 e! V- ?6 e2 \. ^ P
) a+ b5 w/ u7 T3 ? C, }5 B
: M( _/ }3 N' A2 y7 @
- B: ~0 P. F$ q" ~ |