分箱简介
数据分箱是一种数据预处理技术,目的是为了减少次要观察误差的影响,是一种将多个连续值分组位较少数量的分组的方式。分箱法是指通过考察周围的值来存储数据的值,用箱的深度来表示不同的箱里面有的相同个数的数据。用箱的宽度来表示每个箱值的取值区间。 由于分箱考虑相邻的值,所以是一种局部平滑的方法。分箱的目的是去噪,将连续的数据离散化,增加粒度。分箱的数据并不一定是数值,可以是任何种类的值,也可以是图像。
分箱的作用
一般在建立分类模型的时候,需要对连续变量进行离散化,特征离散化之后,模型更加稳定,降低了模型过拟合的风险。比如在建立申请评分卡模型的时候就用logistic回归对连续变量进行离散化,离散化通常采用分箱法。分箱有以下重要性及优势: 1.离散特征的增加和减少都很容易,易于模型的快速迭代 2.稀疏向量内积乘法运算速度快,计算结果存储方便,容易扩展。