机器学习的专业术语和各种技巧

2024-03-20 22:06:01
开发
36

专业术语

Churn = 客户流失，退订
Accuracy = 模型预测的总体（阴性+阳性）的正确比率
Precision = 模型预测中，阳性的预测正确比率
ROC = 体现分类算法中不同阈值对分类效果的影响
Softmax = 神经网络中将输出转换成概率分布
Rectofoed linear units(ReLU) = 神经网络的激活函数
Area under the curve= 曲线下面积，ROC曲线中体现模型分类能力
Horovod = Distributed training framework for TensorFlow, Keras, PyTorch and Apache MXNet.
Singular Matrix=奇异矩阵，影响回归算法的优化。
Exhaustive Grid Search=穷举网格参数搜索，寻找模型的最佳超参数的一种方法。
Naïve Bayesian model中navie表示特征独立。当特征有关联关系时，使用full Bayesian model。
High granularity=高度细节，
Shadow deployment = 部署模型预测，但预测结果只保存分析，而不实际应用。

常见问题和机器学习技巧

Training accuracy oscillate = learning rate too high.
词嵌入三步：转小写，去停用词，分词。
NLP feature engineering：
1. TF-IDF
2. Stemming
过拟合（Overfit）问题解决方案：
1. L1/L2正则化惩罚机制（优先L1，L2太大会导致特征权重为0）
2. Smooth L1 loss
3. Increase dropout
4. 扩大样本
5. Early stopping
6. Simplifying the model
7. Decrease feature combination
8. Decrease number of Layer in Neural Network
9. Lower max_depth in Decision Tree
10. 由于样本不平衡导致过拟合：Stratified sampling
模型训练和测试结果都很差，Poorfit：
1. 减少正则
2. 增加训练样本
3. 增加特征
缺失值处理：
1. K-means
2. Multiple imputation
特征高度相关（correlation）or 降维：
1. PCA
2. Autoencoder
3. KNN
4. MDS(Multidimensional Scaling)
5. t-SNE + scatter plot=大量特征快速查看是不是有内在联系和依赖关系。
寻找主要特征
1. Correlation plot with heatmaps
2. Univariate selection
3. Feature importance with a tree-based classifier
4. PCA
数据倾斜（Skewed Data，中位数，平均数有差距）：
1. 数字类特征分箱
2. Logarithmic transformation对数变换
线性回归中处理非线性关系的特征：
1. Quantile binning
预测目标类型太少（比如预测机械故障, 识别欺诈交易）：
1. Oversample
Transfer Learning: pre-trained layers and replace last full connected layer.
特定领域的语言模型优化=使用领域的文献重新进行词嵌入（word2vec）
快速提升神经网络的Recall=将分类的权重加入损失函数
Seq2seq 长句效果不佳 = attention mechanism
离散值做特征：
1. One-hot
2. Frequency as feature
识别停用词：
1. the CountVectorizer function in the scikit-learn library
2. TF-IDF
Multi-class：分类算法。Multi-label：打标签，一个预测对象可能同时属于多个分类。
IPInsight+RCF来判断异常交易。
提升模型预测速度：
1. pruning low-ranking filters
预训练神经网络（如BERT）转成分类器：保留各层权重，将最后一个全连接层转成分类器再加以训练。
K-means寻找种子数=遍历K值求SSE
DeepAR算法加快训练速度：
1. GPU
2. 多机器。
Xgboost中csv_weight and scale_pos_weight两个参数通过调整权重告知模型样本比例存在不均衡的现象。
hyperparameter tuning job 节省时间：
1. Use the Hyperband tuning strategy.
2. Set a lower value for the MaxNumberOfTrainingJobs parameter.

原文地址:https://blog.csdn.net/rav009/article/details/136885839 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1770451733131169792.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

机器学习的专业术语 和 各种技巧

专业术语

常见问题和机器学习技巧

相关推荐

最近更新

热门阅读

机器学习的专业术语和各种技巧