Orange3数据预处理(清理特征组件)

清理特征
    移除未使用的属性值和无用的属性,并对剩余的值进行排序。

输入
    数据: 输入数据集 
输出
    数据: 过滤后的数据集 
    
命名属性定义有时包含在数据中不出现的值。即使原始数据中没有这种情况,数据过滤、选择示例子集等操作也可能移除所有属性具有特定值的实例。这些值会干扰数据展示,尤其是在各种可视化中,应该移除它们。

清除一个属性后,它可能变成单一值,在极端情况下,可能完全没有任何值(如果该属性的值对于所有实例都是未定义的)。在这种情况下,可以移除该属性。

属性值的顺序是另一个问题:如果数据从文件中读取,文件格式中的值事先没有声明,它们会按照出现顺序进行排序。有时,我们更希望它们按字母顺序排序。

1.清除属性。 
2.清除类别。 
3.清除元属性。 
4.过滤过程信息。 
5.生成报告。 
6.如果勾选了“自动应用”,当小部件设置发生变化时,小部件将输出数据。 

这样的净化是由小部件Purge Domain完成的。普通属性和类别属性是分别处理的。对于每个属性,我们可以决定是否要进行排序。然后,我们可以允许小部件移除值少于两个的属性,或如果类别属性类别少于两个,移除类别属性。最后,我们可以指示小部件检查哪些属性值实际上出现在数据中,并移除未使用的值。如果未允许移除属性,小部件不能移除值,因为没有任何意义的属性没有值。

新的、减少的属性有一个“R”前缀,这与原始属性区分开来。新属性的值可以从旧值计算得出,但不能反向进行。这意味着如果你用新属性构建一个分类器,你可以用它来分类由原始属性描述的实例。但反之则不行:用旧属性构建一个分类器,并将其用于由减少后的属性描述的实例,这是行不通的。幸运的是,后者很少是这种情况。在典型设置中,你会探索数据、可视化它、过滤它、净化它……然后用原始数据测试最终模型。

视频教程:关注我不迷路, 抖音:Orange3dev


https://www.douyin.com/user/MS4wLjABAAAAicBGZTE2kX2EVHJPe8Ugk3_nlJk9Nha8OZh4Bo_nTu8
1-Orange3安装
2-Orange3汉化DIY
3-Orange3创建快方式
4-数据导入(文件&数据表格组件)
5-数据导入(Python组件)
6-Python库安装(SQL表组件)
7-数据导入(Mysql)
8-数据导入(数据绘画和公式组件)
9-数据修改(域编辑和保存组件)
10-数据可视化(调色板&数据信息组件)
11-数据可视化(特征统计组件)
12-数据预处理(行选择组件)
13-特征选择(Rank组件)
14-数据转换(数据采样组件)
15-数据预处理(列选择组件)
16-数据预处理(转置组件)
17-数据预处理(合并数据组件)
18-数据预处理(连接组件)无主表且列数不同
19-数据预处理(连接组件)主附表
20-数据预处理(索引选择器组件)
21-数据预处理(唯一组件)
22-数据预处理(列聚合组件)
23-数据预处理(分组组件)
24-数据预处理(透视图表组件)
25-数据预处理(转换器组件)-表格互为模板
26-数据预处理(转换器组件)-转换示例
27-数据预处理(预处理器组件)-基本信息
28-数据预处理(预处理器组件)-特征选择
29-数据预处理(预处理器组件)-填充缺失值并标准化特征
30-数据预处理(预处理器组件)-离散化连续变量
31-数据预处理(预处理器组件)-连续化离散变量
32-数据预处理(预处理器组件)-主成分分析PCA与CUR分解
33-数据预处理(缺失值处理组件)
34-数据预处理(连续化组件)
35-数据预处理(离散化组件)
36-数据预处理(随机化组件)
37-数据预处理(清理特征组件)-清理未使用特征值及常量特征
38-数据预处理(宽转窄组件)
39-数据预处理(公式组件)
40-数据预处理(分类器组件)
41-数据预处理(创建实例)
42-数据预处理(Python代码组件)

相关推荐

  1. 掌握XGBoost:特征工程与数据预处理

    2024-03-15 23:22:06       22 阅读
  2. NLP数据清洗:文本预处理

    2024-03-15 23:22:06       13 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-03-15 23:22:06       19 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-15 23:22:06       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-15 23:22:06       20 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-15 23:22:06       20 阅读

热门阅读

  1. 简单实现接口自动化测试(基于python)

    2024-03-15 23:22:06       20 阅读
  2. 【leetcode】点名

    2024-03-15 23:22:06       20 阅读
  3. c++中的动态内存分配

    2024-03-15 23:22:06       20 阅读
  4. 【力扣】121. 买卖股票的最佳时机

    2024-03-15 23:22:06       21 阅读