机器学习的专业术语 和 各种技巧

专业术语

  1. Churn = 客户流失,退订
  2. Accuracy = 模型预测的总体(阴性+阳性)的正确比率
  3. Precision = 模型预测中,阳性的预测正确比率
  4. ROC = 体现分类算法中不同阈值对分类效果的影响
  5. Softmax = 神经网络中将输出转换成概率分布
  6. Rectofoed linear units(ReLU) = 神经网络的激活函数
  7. Area under the curve= 曲线下面积,ROC曲线中体现模型分类能力
  8. Horovod = Distributed training framework for TensorFlow, Keras, PyTorch and Apache MXNet.
  9. Singular Matrix=奇异矩阵,影响回归算法的优化。
  10. Exhaustive Grid Search=穷举网格参数搜索,寻找模型的最佳超参数的一种方法。
  11. Naïve Bayesian model中navie表示特征独立。当特征有关联关系时,使用full Bayesian model。
  12. High granularity=高度细节,
  13. Shadow deployment = 部署模型预测,但预测结果只保存分析,而不实际应用。

常见问题和机器学习技巧

  1. Training accuracy oscillate = learning rate too high.
  2. 词嵌入三步:转小写,去停用词,分词。
  3. NLP feature engineering:
    1. TF-IDF
    2. Stemming
  4. 过拟合(Overfit)问题解决方案:
    1. L1/L2正则化惩罚机制(优先L1,L2太大会导致特征权重为0)
    2. Smooth L1 loss
    3. Increase dropout
    4. 扩大样本
    5. Early stopping
    6. Simplifying the model
    7. Decrease feature combination
    8. Decrease number of Layer in Neural Network
    9. Lower max_depth in Decision Tree
    10. 由于样本不平衡导致过拟合:Stratified sampling
  5. 模型训练和测试结果都很差,Poorfit:
    1. 减少正则
    2. 增加训练样本
    3. 增加特征
  6. 缺失值处理:
    1. K-means
    2. Multiple imputation
  7. 特征高度相关(correlation)or 降维:
    1. PCA
    2. Autoencoder
    3. KNN
    4. MDS(Multidimensional Scaling)
    5. t-SNE + scatter plot=大量特征快速查看是不是有内在联系和依赖关系。
  8. 寻找主要特征
    1. Correlation plot with heatmaps
    2. Univariate selection
    3. Feature importance with a tree-based classifier
    4. PCA
  9. 数据倾斜(Skewed Data,中位数,平均数有差距):
    1. 数字类特征分箱
    2. Logarithmic transformation对数变换
  10. 线性回归中处理非线性关系的特征:
    1. Quantile binning
  11. 预测目标类型太少(比如预测机械故障, 识别欺诈交易):
    1. Oversample
  12. Transfer Learning: pre-trained layers and replace last full connected layer.
  13. 特定领域的语言模型优化=使用领域的文献重新进行词嵌入(word2vec)
  14. 快速提升神经网络的Recall=将分类的权重加入损失函数
  15. Seq2seq 长句效果不佳 = attention mechanism
  16. 离散值做特征:
    1. One-hot
    2. Frequency as feature
  17. 识别停用词:
    1. the CountVectorizer function in the scikit-learn library
    2. TF-IDF
  18. Multi-class:分类算法。Multi-label:打标签,一个预测对象可能同时属于多个分类。
  19. IPInsight+RCF来判断异常交易。
  20. 提升模型预测速度:
    1. pruning low-ranking filters
  21. 预训练神经网络(如BERT)转成分类器:保留各层权重,将最后一个全连接层转成分类器再加以训练。
  22. K-means寻找种子数=遍历K值求SSE
  23. DeepAR算法加快训练速度:
    1. GPU
    2. 多机器。
  24. Xgboost中csv_weight and scale_pos_weight两个参数通过调整权重告知模型样本比例存在不均衡的现象。
  25. hyperparameter tuning job 节省时间:
    1. Use the Hyperband tuning strategy.
    2. Set a lower value for the MaxNumberOfTrainingJobs parameter.

相关推荐

  1. 机器学习专业术语 各种技巧

    2024-03-20 22:06:01       37 阅读
  2. 理解机器学习术语

    2024-03-20 22:06:01       59 阅读
  3. 机器学习常见术语

    2024-03-20 22:06:01       33 阅读
  4. PMP专业术语

    2024-03-20 22:06:01       54 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-20 22:06:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-20 22:06:01       101 阅读
  3. 在Django里面运行非项目文件

    2024-03-20 22:06:01       82 阅读
  4. Python语言-面向对象

    2024-03-20 22:06:01       91 阅读

热门阅读

  1. Python中的异常处理

    2024-03-20 22:06:01       47 阅读
  2. 前端-ES6箭头函数以及带来的好处

    2024-03-20 22:06:01       46 阅读
  3. Linux 学习笔记(18)完结

    2024-03-20 22:06:01       38 阅读
  4. cloudfoundry搭建jenkins

    2024-03-20 22:06:01       45 阅读
  5. python非常优秀的图结构处理框架

    2024-03-20 22:06:01       47 阅读
  6. 不规则数组

    2024-03-20 22:06:01       43 阅读
  7. C语言:htoi十六进制转十进制

    2024-03-20 22:06:01       43 阅读
  8. 100道面试必会算法-07-用 Rand7() 实现 Rand10()

    2024-03-20 22:06:01       49 阅读
  9. linux修改终端前缀名称

    2024-03-20 22:06:01       40 阅读
  10. 特殊类设计

    2024-03-20 22:06:01       42 阅读
  11. 【NC16783】拼数

    2024-03-20 22:06:01       45 阅读