7 K; ?3 R$ q. B7 c# f* Y c 从网络上搜集来的原始数据(raw data)里面会存在很多错误,包括手工录入错误和系统自动产生的错误等等。
+ e" ?( m6 P' ?+ H: r# _3 k' ^ 数据净化和预处理(Data preparation & wrangling)就是为了把这些带错误的、不精准的干数据(raw data)转化成可以输入模型的形式(consolidated format)。 & }% K- _3 v" J4 E. U% b
传统数据的数据清洗(Data Cleansing/ Preparation)) v$ r1 k2 @3 r0 O5 t ?* K# [
【】中的颜色为图例中相关需清洗的数据类型。 ; C4 u k7 z( ]9 A: ?
& Y7 t' Y% { _2 f6 d( D! ]; H
【红色】数据缺失(Incompleteness error):Missing values/ N/A not applicable的两种处理方法 ① 删除该行数据; ② 用其它数据替代,包括 平均数、众数、中位数,或者假设为0。
: r) O. \. z5 i9 |+ v a! F1 w 【橙色】无效数据(Invalidity error):数据超出了有意义的范围(meaningful range),如图中例子,1900年生人到现在肯定死翘翘了,这个数据是无意义的,所以该数据无效。可以参考其他数据进行修正。 # K+ d$ |, h: f9 i
【黄色】不准确(Inaccracy error):如图中例子,要么就是yes,要么就是no,dont know是不精确的陈述(not a measure of true value)。可以参考原始记录进行修正。
& I4 B" Q' A/ D5 f/ q; F+ _* o 【绿色】不一致(Inconsistency error):前后矛盾。如图中例子,X女士的性别不应该是男。
1 |# D4 z: c0 }3 t 【蓝色】不统一(Non-uniformity error):格式上的不统一。如5000000, 5百万, 500万,5,000,000,5m,5million,五百万都是表达的一个含义,应将格式统一。
2 Q5 a" d; C4 {* v 【紫色】重复(Duplication error):如图中2号和5号行的数据代表的同一个人,重复的数据删掉一个就好了。
- z7 |7 C9 \# F2 q4 p 下图为清洗完毕(cleansed)的传统数据。 2 ~) n" i2 Y$ V$ |
3 p* }! c* y" D5 Z; Y D6 Y 因为要人工逐行逐列的检查和修正,数据清洗需要花费大量的成本。可以借助一些软件(如SPSS),通过元数据(metadata)来检测数据的属性。 & [7 S" I6 _- A( F- P3 ^
这里简单提一下元数据(metadata),简单的定义就是data about data。
/ w" g$ d! p* K8 M! B2 E4 c& j 实在不行的数据行,删掉他就好了,当然也要注意数据库的大小,数据库尺寸很大的话删掉一个也不差什么。
# g& w2 R3 i' k5 x9 N, M) z 传统数据的数据预处理(Data Wrangling/ Preprocessing)4 ^7 a% P) r) u5 C P# F; z6 b; T' O9 ]
对数据的预处理过程(data wrangling/ preprocessing)是基于清洗完的数据(cleansed dataset)的。
3 f" Z1 ~. F% p- G 主要包括以下几种方式:
/ O# d( U! Y | 提取(extraction):从旧数据中提取新的数据。 4 h* S8 ~4 J$ h. ]0 \. J
并列加和(aggregation):两个或者更多的数据加和成一个新的数据。
# L) R% I, O$ W9 g* a0 g+ o 过滤(filtration)-行:去除不必要的行的数据。 ; i! p4 Y/ z* i( }! m9 N6 [) T
筛选(selection)-列:去除不必要的列的数据。
) I* k, s1 V: l0 u3 \ 转化(conversion):之前我们讨论过数据分为几种不同的类型(nominal, ordinal, continuous, categorical...),数据转化成更合适的类型。 0 l- W7 O5 s( [ P; l" s
接下来我们主要讨论下数据预处理中的对异常值的处理(Outliers)以及数据的标准化(Scaling)。 9 u, L3 \9 G' f$ x: y' \
异常值处理(Outliers) - H: Q/ d4 s8 I0 y+ ^* s; e7 w5 H, ^
异常值就是离正常数据列非常遥远的数据,明眼人一看就知道不合群、不对劲,但是统计学上还是给出了一些检测异常值的方法。 2 G2 J! P" i4 _( }9 g
% x2 f' h$ a! j4 F: l0 o5 N
机器学习中outlier的检测方法类似于统计学,如标准差(Standard Deviation)、分位值(Interquartile Range, IQR)等。
' Z6 D7 @4 V# q) J/ H 标准差(Standard Deviation)方法适用于正态分布中,超出3个标准差的值就可以考虑是outlier了。 ) J) X. V6 K0 j5 ?6 D8 q$ H
Interquartile Range, IQR的定义是75th分位置和25th分位置的差,IQR的中心即为50th分位置。超出1.5个IQR的值可以考虑是outlier,超出3个IQR的值就是extreme value了。 2 U, q3 f% q! m4 j
异常值的处理方式就两种:删除掉(Trimming/ truncation),或者用非outlier的值进行替代(winsorization-缩尾处理)。 % U4 l% S2 T3 h9 q4 m
数据标准化(Scaling) & W8 c* R; E8 ?, [8 L
数据标准化就是把所有数据都标准到[0,1]的区间,更便于相互之间的比较。
) h' {' U4 P8 W& |# c$ B: ]0 T 其实在统计学中,我们已经事先接触到标准化的过程了,类似于协方差(covariance)到相关系数(correlation)的过程。
/ A1 `- ?" @/ V% F 机器学习同样适用于数据的标准化进程,将异质的(heterogeneous)数据同质化(homogeneous)。
: B( j6 M- Y) F& \5 N/ B 下面列举出两种标准化的方法: ! o: l: T6 D5 e' H$ p
Normalization:适用于更广泛的分布,对outlier比较敏感。通过对整个数据列的最大值和最小值之间的跨度进行标准化。 ' L( H/ b8 M# `. e7 i
1 q' d+ o2 {- g. o- z; I
Standardization:适用于正态分布,对outlier没那么敏感。通过使用均值和方差进行标准化。
4 P6 a& u+ v2 X/ x1 A
0 i; J5 T1 T8 e9 K: ` 文本数据的数据清洗(Text Cleansing/ Preparation)! a4 O3 t* \; S4 `0 l
我们在网页上看到的规规整整的文字,抓取(scraping)之后的原始文本数据(raw text data)就包括了很多不必要的元素。 : l2 T; q: T7 m0 I% z( E) v
9 G/ r6 ~; J' }+ T6 f8 x
这些不必要的元素包括【红色】html tags, 【黄色】标点符号punctuation, 【蓝色】numbers, 【绿色】空白格white spaces)
( D7 F" y7 L* f4 @$ E' L : k! N+ _: G( r1 v. t- c' ?
文本数据的数据清洗(Text Cleansing/ Preparation)过程就是将它们移除,清洗完成的文本数据(cleansed text data)如下图。
b: b- F# q; {% b3 A; {2 s & C0 U( |, y9 l- c! c- M/ `+ D
文本数据的数据预处理(Data Wrangling/ Preprocessing)
+ f8 O! i# n: S# d; H 首先引进一个概念,token。上图中一个 /.../ 就可以等同于一个token的概念,tokenization的就是把文本(a collection of tokens)分裂成一个小块一个小块的过程。 $ A+ X$ j: X2 `& k/ T' Z6 l, ~
文本数据的预处理的过程首先是normalizing,把具有相似含义的tokens标准化成一个形式。形成一个BOW(Bag-of-Words),囊括了一篇文本里的所有标准化的tokens们。然后列出一个token在不同文本出现的频率表(Document Term Matrix, DTM),将这些unstructed(text) data最终转化成了structed data。
7 F. }$ U/ Y% Z! y& O4 u Normalizing tokens 标准化
0 T5 n4 r: i0 S& H% W 机器学习大数据的标准化处理的结果其实看起来是挺奇怪的。
* L4 n4 c* x+ a* x( A) | 我们从小学习的英语语法中有一些不同寻常的变形方式,比如“去e+ing”,“y变i+ed”等等,这些就导致了机器学习大数据中很多标准化处理后的结果像个残疾人一样。 $ ?! y- s m S
比如increase, increases, increasing, increased, increasingly这些词并不是标准化成increase(所谓的原型),而是increas。 / H/ u0 V: y# T& h
因为increasing把e去掉加的ing,所以为了让三个词都能有个共同的标准化结果,机器学习大数据的标准化结果只能是“increas”了——看,像不像个残疾人?
9 ^. G7 K- ~; U. I 那我们拆开看一下value, valued, values...这些是怎么一步步变成valu的?
% H: B* F+ c& p$ J4 \3 J Normalizing的过程包括四个步骤。 3 B& F0 d, n) G$ w
①Lowercasing:统一大小写。 % U% x4 w" N( S; U* i* o+ S" P! R
②Removing stop words:stop words呢,就是text里面那些没有太大意义的词,就像语法中我们学到的冠词这些(a, the, is...)可以事先列一个list决定stop words包括哪些。
4 }% N7 y7 _3 ?6 Y0 E0 ?7 n 接下来两步就是变成残疾人的核心步骤了,简单理解,③Stemming就是从各种变化形态变成原型(base word/ stem)(values, valued -> value);而④Lemmatization就是从原型再缩减到词根形式(morphological root/ lemma)(value -> valu)。
0 f4 d+ g6 Q8 k4 g# R7 \ 这两步可以减少那些低频、不常见的tokens(也叫data sparseness),让机器学习的模型变得更简单。 2 {2 \7 ?3 {2 ]9 s+ r- [2 m: ?
BOW(Bag-of-Words)
- r. s( d# B" K3 l: l; q- z: b, @# Q" a 一篇文章的tokens们,整理到一起,就形成了BOW(Bag-of-Words),这样的形式更便于进一步的分析。标准化后的BOW越来越小。
$ C) o6 c+ n- Z0 } 0 h; _( W% w) c: d
DTM(Document Term Matrix)
8 K* w+ g9 M6 O" n4 h$ j( v" U 将BOW中不同的tokens(行row)在不同的text(列column)出现的频率列成一个表,这个表就是DTM(Document Term Matrix)。
; X3 i4 U$ e3 @- j* Y 2 b+ \- h7 i3 Q; }2 o; n& {% M4 n
这一步更关键的意义是将text data转化成structed data,以便于更好的Machine Learning input。
2 h: y" M' P- D4 w 参考资料: CFA Level II <Quantitative Methods> + t* ~% P0 Z4 Z
文 by / 杨翊守 公众号:拂晓Palpitate 8 L: D [' g B7 O. O+ l
8 ]- k" c) \! R
1 J: j6 W t2 E! p2 k: n
1 z. n6 w! Q5 m7 [" [5 D2 ~
5 J" v" w; J8 k e! H8 e5 O |