null - 程序员宅基地

特征筛选_psi筛选特征-程序员宅基地

技术标签：机器学习人工智能 # 机器学习

1. 单特征分析

1.1 简介

好特征可以从几个角度衡量：覆盖度，区分度，相关性，稳定性

1.2 覆盖度

1. 应用场景

采集类，授权类，第三方数据在使用前都会分析覆盖度

2. 分类

采集类：如APP list （Android 手机 90%）
授权类：如爬虫数据（20% 30%覆盖度）GPS （有些产品要求必须授权）

3. 计算

一般会在两个层面上计算覆盖度（覆盖度 = 有数据的用户数/全体用户数）
- 全体存量客户
- 全体有信贷标签客户

4. 衍生

覆盖度可以衍生两个指标：缺失率，零值率
- 缺失率：一般就是指在全体有标签用户上的覆盖度
- 零值率：很多信贷类数据在数据缺失时会补零，所以需要统计零值率
业务越来越成熟，覆盖度可能会越来愈好，可以通过运营策略提升覆盖度

1.3 区分度

1. 简介

评估一个特征对好坏用户的区分性能的指标

2. 应用场金

可以把单特征当做模型，使用AUC, KS来评估特征区分度
在信贷领域，常用Information Value (IV)来评估单特征的区分度

3. 计算

Information Value刻画了一个特征对好坏用户分布的区分程度
- IV值越大
- IV值越小

在这里插入图片描述

IV值最后ln的部分跟WOE是一样的

在这里插入图片描述

IV计算举例（数据为了方便计算填充，不代表实际业务）

在这里插入图片描述

IV<0.02 区分度小建模时不用（xgboost,lightGMB 对IV值要求不高）
IV [0.02,0.5] 区分度大可以放到模型里
(IV> 0.1 考虑是否有未来信息)
IV > 0.5 单独取出作为一条规则使用，不参与模型训练

4. 注意

模型中尽可能使用区分度相对较弱的特征，将多个弱特征组合，得到评分卡模型
连续变量的IV值计算，先离散化再求IV，跟分箱结果关联很大（一般分3-5箱）

1.4 相关性

1. 简介

对线性回归模型，有一条基本假设是自变量x1，x2，…，xp之间不存在严格的线性关系

2. 分类

需要对相关系数较大的特征进行筛选，只保留其中对标签区分贡献度最大的特征，即保留IV较大的
皮尔逊相关系数，斯皮尔曼相关系数，肯德尔相关系数

3. 选择

考察两个变量的相关关系，首先得清楚两个变量都是什么类型的
- 连续型数值变量，无序分类变量、有序分类变量
连续型数值变量，如果数据具有正态性，此时首选Pearson相关系数，如果数据不服从正态分布，此时可选择
Spearman和Kendall系数
两个有序分类变量相关关系，可以使用Spearman相关系数
一个分类变量和一个连续数值变量，可以使用kendall相关系数
总结：就适用性来说，kendall > spearman > pearson

4. 计算

import pandas as pd 
df = pd.DataFrame({'A':[5,91,3],'B':[90,15,66],'C':[93,27,3]}) 
df.corr() # 皮尔逊 
df.corr('spearman')#斯皮尔曼 
df.corr('kendall')#肯德尔

可以使用toad库来过滤大量的特征，高缺失率、低iv和高度相关的特征一次性过滤掉

import pandas as pd 
import toad data = pd.read_csv('data/germancredit.csv') 
data.replace({'good':0,'bad':1},inplace=True) 
data.shape

#缺失率大于0.5,IV值小于0.05,相关性大于0.7来进行特征筛选 
selected_data, drop_list= toad.selection.select(data,target = 'creditability', empty = 0.5, iv = 0.05, corr = 0.7, return_drop=True) 
print('保留特征:',selected_data.shape[1],'缺失删除:',len(drop_list['empty']),'低iv删 除：',len(drop_list['iv']),'高相关删除：',len(drop_list['corr']))

1.5 稳定性

1. 简介

主要通过计算不同时间段内同一类用户特征的分布的差异来评估

2. 分类

常用的特征稳定性的度量有Population Stability Index (PSI)
当两个时间段的特征分布差异大，则PSI大
当两个时间段的特征分布差异小，则PSI小

3. PSI和IV对比

IV是评估好坏用户分布差异的度量
PSI是评估两个时间段特征分布差异的度量
都是评估分布差异的度量，并且公式其实一模一样，只是符号换了而已

2. 多特征筛选

1. 简介

当构建了大量特征时，接下来的调整就是筛选出合适的特征进行模型训练
过多的特征会导致模型训练变慢，学习所需样本增多，计算特征和存储特征成本变高

2. 方法

星座特征
Boruta
方差膨胀系数
后向筛选
L1惩罚项
业务逻辑

2.1 星座特征

1. 简介

星座是公认没用的特征，区分度低于星座的特征可以认为是无用特征

2. 步骤

把所有特征加上星座特征一起做模型训练
拿到特征的重要度排序
多次训练的重要度排序都低于星座的特征可以剔除

2.2 Boruta

1. 简介

Boruta算法是一种特征选择方法，使用特征的重要性来选取特征
- 网址：https://github.com/scikit-learn-contrib/boruta_py
- 安装：pip install Boruta

2. 原理

Boruta原理

创建阴影特征 (shadow feature) : 对每个真实特征R，随机打乱顺序，得到阴影特征矩阵S，拼接到真实特征后面，构成新的特征
矩阵N = [R, S].
用新的特征矩阵N作为输入，训练模型，能输出feature_importances_的模型，如RandomForest， lightgbm，xgboost都可以得到真实特征和阴影特征的feature importances,
取阴影特征feature importance的最大值S_max，真实特征中feature importance小于S_max的，被认为是不重要的特征
删除不重要的特征，重复上述过程，直到满足条件

3. 应用

import numpy as np 
import pandas as pd 
import joblib 
from sklearn.ensemble import RandomForestClassifier 
from boruta import BorutaPy 
#加载数据 
pd_data = joblib.load('data/train_woe.pkl') pd_data

#处理数据，去掉id 和 目标值 
pd_x = pd_data.drop(['SK_ID_CURR', 'TARGET'], axis=1) 
x = pd_x.values # 特征 
y = pd_data[['TARGET']].values # 目标 
y = y.ravel() # 将多维数组降位一维

使用Boruta，选择features

# 先定义一个随机森林分类器 
rf = RandomForestClassifier(n_jobs=-1, class_weight='balanced', max_depth=5) 
''' 
BorutaPy function 
estimator : 所使用的分类器 
n_estimators : 分类器数量, 默认值 = 1000 
max_iter : 最大迭代次数, 默认值 = 100 
''' 
feat_selector = BorutaPy(rf, n_estimators='auto', random_state=1, max_iter=10) 
feat_selector.fit(x, y)

展示选择出来的feature

dic_ft_select = dict() 
# feat_selector.support_ # 返回特征是否有用，false可以去掉 
for ft, seleted in zip(pd_x.columns.to_list(), feat_selector.support_): 
	dic_ft_select[ft] = seleted 
pd_ft_select = pd.DataFrame({'feature':pd_x.columns.to_list(), "selected": feat_selector.support_}) 
pd_ft_selec

2.3 方差膨胀系数（VIF）

1. 简介

方差膨胀系数 Variance inflation factor (VIF)
如果一个特征是其他一组特征的线性组合，则不会在模型中提供额外的信息，可以去掉
评估共线性程度：

2. 计算

VF计算：
VIF越大说明拟合越好，该特征和其他特征组合共线性越强，就越没有信息量，可以剔除

5.3 应用

加载数据

import numpy as np 
import pandas as pd 
import joblib 
from statsmodels.stats.outliers_influence import variance_inflation_factor 
pd_data = joblib.load('./train_woe.pkl') #去掉ID和目标值 
pd_x = pd_data.drop(['SK_ID_CURR', 'TARGET'], axis=1)

计算方差膨胀系数

#定义计算函数 
def checkVIF_new(df): 
	lst_col = df.columns 
	x = np.matrix(df) 
	VIF_list = [variance_inflation_factor(x,i) for i in range(x.shape[1])] 
	VIF = pd.DataFrame({'feature':lst_col,"VIF":VIF_list}) 
	max_VIF = max(VIF_list) print(max_VIF) 
	return VIF 
df_vif = checkVIF_new(pd_x) 
df_vif

选取方差膨胀系数 > 3的features

df_vif[df_vif['VIF'] > 3]

2.4 RFE 递归特征消除 (Recursive Feature Elimination)

1. 简介

使用排除法的方式训练模型，把模型性能下降最少的那个特征去掉，反复上述训练直到达到指定的特征个数

6.2 api

sklearn.feature_selection.RFE

6.3 应用

加载数据

import numpy as np 
import pandas as pd 
import joblib from sklearn.feature_selection 
import RFE from sklearn.svm 
import SVR pd_data = joblib.load('data/final_data.pkl') 
pd_data

特征，目标提取

pd_x = pd_data.drop(['SK_ID_CURR', 'TARGET'], axis=1) 
x = pd_x.values 
y = pd_data[['TARGET']].values 
y = y.ravel()

使用RFE，选择features

#定义分类器 
estimator = SVR(kernel="linear") 
selector = RFE(estimator, 3, step=1) # step 一次去掉几个特征 
selector = selector.fit(x, y) 
#展示选择参数 
dic_ft_select = dict() 
for ft, seleted in zip(pd_x.columns.to_list(), selector.support_): 
	dic_ft_select[ft] = seleted 
pd_ft_select = pd.DataFrame({'feature':pd_x.columns.to_list(), "selected": selector.support_}) 
pd_ft_select

2.5 基于L1的特征选择 (L1-based feature selection)

1. 简介

使用L1范数作为惩罚项的线性模型(Linear models)会得到稀疏解：大部分特征对应的系数为0

希望减少特征维度用于其它分类器时，可以通过 feature_selection.SelectFromModel 来选择不为0的系数
- 特别指出，常用于此目的的稀疏预测模型有 linear_model.Lasso（回归）， linear_model.LogisticRegression 和 svm.LinearSVC（分类）

7.3 应用

from sklearn.svm import LinearSVC 
from sklearn.datasets import load_iris 
from sklearn.feature_selection import SelectFromModel 
iris = load_iris() X, y = iris.data, iris.target 
X.shape

lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X, y) 
model = SelectFromModel(lsvc, prefit=True) 
X_new = model.transform(X) 
X_new.shape

3. 内部特征的监控

3.1 前端监控（授信之前）

特征稳定性
- 大多数情况下，随着业务越来越稳定，缺失率应该呈现逐渐降低的趋势
- 如下表所示，Week3缺失率突然增加到28%，大概率是数据采集或传输过程出问题了
- PSI，特征维度的PSI如果>0.1可以观察一段时间

前端监控

3.2 后端监控（放款之后）

特征区分度
- AUC/KS 波动在10%以内
- KS 如果是线上A卡 0.2是合格的水平
- IV值的波动稍大可以容忍，和分箱相关，每周数据分布情况可能不同，对IV影响大一些
- 分箱样本比例：
- 分箱风险区分：要重视每个特征的风险趋势单调性
  - 每一箱的bad_rate有波动，容忍度相对高一些
  - 要高度重视不同箱之间风险趋势发生变化，如分箱1，分箱2，在week2和week3 风险趋势发生了变化
  - 如果风险趋势单调性发生变化，要考虑特征是不是要进行迭代

4. 外部特征评估

4.1 数据评估标准

覆盖度、区分度、稳定性

4.2 使用外部数据注意事项

1. 避免未来信息

使用外部数据的时候，可能出现训练模型的时候效果好，上线之后效果差
- 取最近一个时间周期的数据
- 之前3~4个月或者更长时间的数据做验证，看效果是不是越来越差

2. 外部数据覆盖度计算

交集用户数 / 内部用户数

外部数据选择
- 如果外部数据免费，那么全部调用，但付费的三方数据要在有必要的时候在调用
- 在计算外部数据覆盖度前，首先应该明确什么客群适合这个第三方数据
- 内部缺少数据且这个第三方数据能提升区分度，那这个第三方数据才有用

覆盖度 = 交集用户数 / 内部目标客群

3. 避免内部数据泄露

如果需要把数据交给外部公司，让对方匹配一定要将内部信息做Hash处理再给对方匹配
匹配上的是共有的数据，匹配不上的外部无法得知其身份

4. 避免三方公司对结果美化

内部自己调用接口测覆盖度直接调用即可
如果是把样本交给外部公司让对方匹配，一定要加假样本
- 这样他们只能匹配出结果，但无法得知真实的覆盖度
- 只有内部公司能区分出真假样本，从而计算出真实覆盖度
- 如果覆盖度高于真实样本比例，说明结果作假

5. 评分型外部数据

区分度和稳定性的分析方法同单特征的分析一样
区分度：AUC, KS, IV, 风险趋势
稳定性: PSI

6. 模型效果

内部特征训练的模型效果 vs 内部特征+外部特征训练的模型效果
- AUC有 2~3个点的提升就很好了

7. 黑名单型外部数据

使用混淆矩阵评估区分度
·
Precision: 外部命中的尽可能多的是内部的坏客户

Recall: 内部的坏客户尽可能多的命中外部名单

8. 回溯性

外部数据是否具有可回溯性无法得知，所以尽可能取最近的样本去测
早期接入数据后要密切关注线上真实的区分度表现

本文链接：https://blog.csdn.net/weixin_46072106/article/details/111243031

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

51单片机AD转换_单片机ad转换原理-程序员宅基地

文章浏览阅读1.9w次，点赞21次，收藏180次。51单片机AD转换电路设计实现关于AD转换的原理，大家在《数字电子技术》中已经学过，这里做过多的介绍，本文介绍一款经典的8位AD转换芯片ADC0804，基于51单片机设计AD转换电路，并完成测量值的转换。1 芯片引脚介绍CS:片选信号，低电平有效，即CS=0时候芯片才能正常工作，单独一个ADC0804芯片时候直接置零。当有多个芯片时候可以通过片选信号实现分时复用。WR:低电平有效，当WR信号由高到低时候实现一次ADC转换。RD:低电平有效，RD=0时候可以读取数据。Vin+:模拟电压输入端。_单片机ad转换原理

操作系统实验报告17：请求页面置换算法_页式存储管理及页面置换算法操作系统实验报告-程序员宅基地

文章浏览阅读1.7k次，点赞3次，收藏14次。操作系统实验报告17实验内容实验内容：虚拟存储管理。编写一个 C 程序模拟实现课件 Lecture24 中的请求页面置换算法包括FIFO、LRU (stack and matrix implementation)、Second chance，并设计输入用例验证结果。实验环境架构：Intel x86_64 (虚拟机)操作系统：Ubuntu 20.04汇编器：gas (GNU Assembler) in AT&T mode编译器：gcc技术日志实验内容原理页_页式存储管理及页面置换算法操作系统实验报告

SAP中AUTHORITY-CHECK 的使用-程序员宅基地

文章浏览阅读1.7w次，点赞2次，收藏13次。<v:shapetypeid="_x0000_t75" coordsize="21600,21600" o:spt="75" o:preferrelative="t"path="m@4@5l@4@11@9@11@9@5xe" filled="f" stroked="f"><v:shape id="_x0000_i102

python执行cmd命令并解析结果_基于Python执行dos命令并获取输出的结果-程序员宅基地

文章浏览阅读532次。{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台；社区覆盖了云计算、大数据、人工智能、IoT、云原生、数据库、微服务、安全、开发与运维9大技术领域。","link1":..._python 执行cmd命令的输出

rabbitmq-消息追踪rabbitmq_tracing_rabbitmq rabbitmq_tracing-程序员宅基地

文章浏览阅读456次。【README】消息中心的消息追踪需要使用 Trace 实现，Trace是 rabbitmq用于记录每一次发送的消息；方便开发者调试，排错。可通过插件形式提供可视化界面。【1】开启消息追踪1）消息追踪通过 rabbitmq的插件 trace 来实现，插件需要启用和打开；2）trace 启动后会自动创建系统 Exchange， amq. rabbitmq.trace, 每个队列会自动该绑定该exchange，绑定后发送到队列的消息都会发送到 trace 日志；3）插件命令序号 _rabbitmq rabbitmq_tracing

TensorFlow2利用Fashion_mnist数据集实现神经网络图像分类任务_difussion model mnist-程序员宅基地

文章浏览阅读2k次，点赞3次，收藏25次。1. 导入所需的库import tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltfor i in [tf, np]: print(i.__name__,": ",i.__version__,sep="")输出：tensorflow: 2.2.0numpy: 1.17.42. 导入Fashion_MNIST数据集fashion_mnist = tf.keras.datasets.fas_difussion model mnist

随便推点

TEKTRONIX泰克DPO2002B混合信号示波器-程序员宅基地

文章浏览阅读37次。4.强大的解码能力：DPO2002B示波器提供了多种解码选件，支持常见的串行协议和总线通信解码，如I2C、SPI、UART等，方便工程师对通信数据进行分析和验证。3.灵活的触发功能：示波器支持多种触发方式，如边沿触发、脉冲宽度触发和序列触发等，根据需要灵活设置触发条件，捕获感兴趣的波形。1.高性能参数：该示波器具备200 MHz的带宽和1 GS/s的实时采样率，可捕获和显示高频信号的细节，确保准确的测量结果。

java/php/node.js/python基于web的网上订餐系统【2024年毕设】-程序员宅基地

文章浏览阅读832次，点赞21次，收藏18次。本系统带文档lw万字以上文末可领取本课题的JAVA源码参考。

华为云AppCube：体验快速搭建微信问卷小程序-程序员宅基地

文章浏览阅读876次，点赞17次，收藏20次。华为云AppCube：体验快速搭建微信问卷小程序_微信问卷小程序

我对PowerBuilder的一小点感悟_powerbuilder支持多线程吗-程序员宅基地

文章浏览阅读2.2k次。　　我是2001年开始接触PowerBuilder的，一门辅修课上，任课老师向我推荐了它，从此，我对它可谓“一见钟情”。　　从刚开始接触PB，我就觉得它是数据库方面最优秀的开发工具之一。无论是它面向对象的特性，还是它特有的PowerScript语言和“数据窗口”，都让我感到无比心动。　　我的感受　　回想起最初学习PB的时候，给我留下印象最深的是，我发现自己常常会不由自_powerbuilder支持多线程吗

华硕win10+Ubuntu18.04双系统安装与卸载_华硕电脑安装ubuntu18.04-程序员宅基地

文章浏览阅读784次。Ubuntu第一次通过U盘安装时未出现是否连接网络的选项，安装完成后无线网络无法连接（找不到适配器，更新源后也不好用），蓝牙无法打卡，不知道是什么原因，于是再重装一遍。先关闭secure boot（在security选项中）和fast boot（boot选项）第一次安装时忘记关联，不知道是不是导致问题的原因卸载参照：在win10、Ubuntu双系统下，卸载Ubuntu提醒下自己：在Windows下删除之前分给Ubuntu中的分区（包括efi分区，但不要删Windows的efi，这里我删除了/，efi_华硕电脑安装ubuntu18.04

kaldi做语音识别_利用 kaldi 进行语音识别-程序员宅基地

文章浏览阅读1k次，点赞27次，收藏16次。kaldi是一个开源的语音识别工具箱，是基于c++、perl、shell编写的，可以在windows和unix 平台上编译。教程网页：http://www.kaldi-asr.org/doc/ 里面可以查阅语音/说话人识别实现过程、kaldi的数据结构、命令的使用说明等。还有网上的dan的ppt。kaldi下载：https://_利用 kaldi 进行语音识别

特征筛选_psi筛选特征-程序员宅基地

1. 单特征分析

1.1 简介

1.2 覆盖度

1. 应用场景

2. 分类

3. 计算

4. 衍生

1.3 区分度

1. 简介

2. 应用场金

3. 计算

4. 注意

1.4 相关性

1. 简介

2. 分类

3. 选择

4. 计算

1.5 稳定性

1. 简介

2. 分类

3. PSI和IV对比

2. 多特征筛选

1. 简介

2. 方法

2.1 星座特征

1. 简介

2. 步骤

2.2 Boruta

1. 简介

2. 原理

3. 应用

2.3 方差膨胀系数 （VIF）

1. 简介

2. 计算

5.3 应用

2.4 RFE 递归特征消除 (Recursive Feature Elimination)

1. 简介

6.2 api

6.3 应用

2.5 基于L1的特征选择 (L1-based feature selection)

1. 简介

7.3 应用

3. 内部特征的监控

3.1 前端监控（授信之前）

3.2 后端监控（放款之后）

4. 外部特征评估

4.1 数据评估标准

4.2 使用外部数据注意事项

1. 避免未来信息

2. 外部数据覆盖度计算

3. 避免内部数据泄露

4. 避免三方公司对结果美化

5. 评分型外部数据

6. 模型效果

7. 黑名单型外部数据

8. 回溯性

智能推荐

随便推点

推荐文章

热门文章

相关标签

2.3 方差膨胀系数（VIF）