机器学习的专业术语 和 各种技巧
- 开发
- 36
-
专业术语
- Churn = 客户流失,退订
- Accuracy = 模型预测的总体(阴性+阳性)的正确比率
- Precision = 模型预测中,阳性的预测正确比率
- ROC = 体现分类算法中不同阈值对分类效果的影响
- Softmax = 神经网络中将输出转换成概率分布
- Rectofoed linear units(ReLU) = 神经网络的激活函数
- Area under the curve= 曲线下面积,ROC曲线中体现模型分类能力
- Horovod = Distributed training framework for TensorFlow, Keras, PyTorch and Apache MXNet.
- Singular Matrix=奇异矩阵,影响回归算法的优化。
- Exhaustive Grid Search=穷举网格参数搜索,寻找模型的最佳超参数的一种方法。
- Naïve Bayesian model中navie表示特征独立。当特征有关联关系时,使用full Bayesian model。
- High granularity=高度细节,
- Shadow deployment = 部署模型预测,但预测结果只保存分析,而不实际应用。
常见问题和机器学习技巧
- Training accuracy oscillate = learning rate too high.
- 词嵌入三步:转小写,去停用词,分词。
- NLP feature engineering:
- TF-IDF
- Stemming
- 过拟合(Overfit)问题解决方案:
- L1/L2正则化惩罚机制(优先L1,L2太大会导致特征权重为0)
- Smooth L1 loss
- Increase dropout
- 扩大样本
- Early stopping
- Simplifying the model
- Decrease feature combination
- Decrease number of Layer in Neural Network
- Lower max_depth in Decision Tree
- 由于样本不平衡导致过拟合:Stratified sampling
- 模型训练和测试结果都很差,Poorfit:
- 减少正则
- 增加训练样本
- 增加特征
- 缺失值处理:
- K-means
- Multiple imputation
- 特征高度相关(correlation)or 降维:
- PCA
- Autoencoder
- KNN
- MDS(Multidimensional Scaling)
- t-SNE + scatter plot=大量特征快速查看是不是有内在联系和依赖关系。
- 寻找主要特征
- Correlation plot with heatmaps
- Univariate selection
- Feature importance with a tree-based classifier
- PCA
- 数据倾斜(Skewed Data,中位数,平均数有差距):
- 数字类特征分箱
- Logarithmic transformation对数变换
- 线性回归中处理非线性关系的特征:
- Quantile binning
- 预测目标类型太少(比如预测机械故障, 识别欺诈交易):
- Oversample
- Transfer Learning: pre-trained layers and replace last full connected layer.
- 特定领域的语言模型优化=使用领域的文献重新进行词嵌入(word2vec)
- 快速提升神经网络的Recall=将分类的权重加入损失函数
- Seq2seq 长句效果不佳 = attention mechanism
- 离散值做特征:
- One-hot
- Frequency as feature
- 识别停用词:
- the CountVectorizer function in the scikit-learn library
- TF-IDF
- Multi-class:分类算法。Multi-label:打标签,一个预测对象可能同时属于多个分类。
- IPInsight+RCF来判断异常交易。
- 提升模型预测速度:
- pruning low-ranking filters
- 预训练神经网络(如BERT)转成分类器:保留各层权重,将最后一个全连接层转成分类器再加以训练。
- K-means寻找种子数=遍历K值求SSE
- DeepAR算法加快训练速度:
- GPU
- 多机器。
- Xgboost中csv_weight and scale_pos_weight两个参数通过调整权重告知模型样本比例存在不均衡的现象。
- hyperparameter tuning job 节省时间:
- Use the Hyperband tuning strategy.
- Set a lower value for the MaxNumberOfTrainingJobs parameter.
原文地址:https://blog.csdn.net/rav009/article/details/136885839
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。
本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:https://www.suanlizi.com/kf/1770451733131169792.html
如若内容造成侵权/违法违规/事实不符,请联系《酸梨子》网邮箱:1419361763@qq.com进行投诉反馈,一经查实,立即删除!