学习笔记Day21:转录组差异分析

转录组差异分析

差异分析难点在于将数据处理成需要的格式

表达矩阵

数值型矩阵-count

行名是symbol

低表达量的基因需要过滤

分组信息

因子,对照组在level第一位

与表达矩阵的列一一对应

项目名称

字符串(不要有特殊字符)

TCGA-XXX

非TCGA数据特殊无要求

  • 拿不到count数据如何做差异分析?

    • 自行做上游分析得到count

    • tpm:取log,用limma做差异分析

    • fpkm、rpkm:转换为tpm,取log,用limma做差异分析

在这里插入图片描述

  • 不同类型转录组数据的应用

在这里插入图片描述

差异分析数据整理

差异分析的前提:count数据

项目取名字

TCGA的数据,统一叫TCGA-xxxx,非TCGA的数据随意起名,不要有特殊字符即可。

proj = "TCGA-CHOL"

表达矩阵

dat = read.table("TCGA-CHOL.htseq_counts.tsv.gz",check.names = F,row.names = 1,header = T)
range(dat)
#> [1]  0.0000 24.1811
#逆转log,发现需要逆转,才逆转
dat = as.matrix(2^dat - 1)
dat[1:4,1:4]
#>                    TCGA-ZD-A8I3-01A TCGA-W5-AA2U-11A TCGA-W5-AA30-01A
#> ENSG00000000003.13             5254             2476             5132
#> ENSG00000000005.5                 1                1                0
#> ENSG00000000419.11             1212              655             1644
#> ENSG00000000457.12              753              346             2652
#>                    TCGA-W5-AA38-01A
#> ENSG00000000003.13             8249
#> ENSG00000000005.5                 1
#> ENSG00000000419.11             1696
#> ENSG00000000457.12              519
# 深坑一个
dat[97,9]
#> [1] 876
as.character(dat[97,9]) #眼见不一定为实吧。
#> [1] "875.999999999999"

# 转换为整数矩阵
exp = round(dat)
# 检查
as.character(exp[97,9])
#> [1] "876"

临床信息

clinical = read.delim("TCGA-CHOL.GDC_phenotype.tsv.gz")
clinical[1:4,1:4]
#>   submitter_id.samples age_at_initial_pathologic_diagnosis
#> 1     TCGA-ZH-A8Y2-01A                                  59
#> 2     TCGA-ZH-A8Y7-01A                                  59
#> 3     TCGA-W7-A93O-01A                                  NA
#> 4     TCGA-W7-A93O-11A                                  NA
#>   albumin_result_lower_limit albumin_result_specified_value
#> 1                         NA                             NA
#> 2                        3.5                            2.4
#> 3                         NA                             NA
#> 4                         NA                             NA

表达矩阵行名ID转换

library(tinyarray)
exp = trans_exp_new(exp)
#> Warning in AnnoProbe::annoGene(rownames(exp), ID_type = "ENSEMBL", species =
#> species): 6.54% of input IDs are fail to annotate...
exp[1:4,1:4]
#>             TCGA-ZD-A8I3-01A TCGA-W5-AA2U-11A TCGA-W5-AA30-01A TCGA-W5-AA38-01A
#> DDX11L1                    0                0                0                1
#> WASH7P                    81               10              146               55
#> MIR6859-1                  1                0               11                1
#> MIR1302-2HG                0                0                0                0

基因过滤

需要过滤一下那些在很多样本里表达量都为0或者表达量很低的基因。过滤标准不唯一。

过滤之前基因数量:

nrow(exp)
#> [1] 56514
  • 常用过滤标准1

仅去除在所有样本里表达量都为零的基因

exp1 = exp[rowSums(exp)>0,]
nrow(exp1)
#> [1] 48057
  • 常用过滤标准2

仅保留在一半以上样本里表达的基因

exp = exp[apply(exp, 1, function(x) sum(x > 0) > 0.5*ncol(exp)), ]
nrow(exp)
#> [1] 28434

分组信息获取

TCGA的数据,直接用make_tcga_group给样本分组(tumor和normal),其他地方的数据分组方式参考芯片数据pipeline/02_group_ids.R

library(tinyarray)
Group = make_tcga_group(exp)
table(Group)
#> Group
#> normal  tumor 
#>      9     36

保存数据

save(exp,Group,proj,clinical,file = paste0(proj,".Rdata"))

玩转GEO的实用工具

library(tinyarray)
get_count_txt('GSE204753')
##获得超级标准的表达矩阵!!

引用自生信技能树课程,又是爱小洁老师的一天!!

相关推荐

  1. ⑤单细胞学习-cellchat间通讯差异分析

    2024-04-23 07:16:01       41 阅读
  2. 代谢数据分析三:差异分析

    2024-04-23 07:16:01       39 阅读
  3. 分类变量差异分析

    2024-04-23 07:16:01       52 阅读
  4. 【数据分析学习笔记day1

    2024-04-23 07:16:01       27 阅读
  5. 嵌入式学习笔记day28

    2024-04-23 07:16:01       33 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-23 07:16:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-23 07:16:01       101 阅读
  3. 在Django里面运行非项目文件

    2024-04-23 07:16:01       82 阅读
  4. Python语言-面向对象

    2024-04-23 07:16:01       91 阅读

热门阅读

  1. paddlepaddle/paddle 命令注入漏洞复现_$1500 CVE-2024-0934

    2024-04-23 07:16:01       40 阅读
  2. 新技术应用塑造未来景展望

    2024-04-23 07:16:01       31 阅读
  3. PaddleSeg数据集的准备

    2024-04-23 07:16:01       36 阅读
  4. python与PySpark

    2024-04-23 07:16:01       32 阅读
  5. C++笔记打卡第15天(函数模版)

    2024-04-23 07:16:01       39 阅读
  6. Python网络爬虫项目开发实战:怎么解决数据抓取

    2024-04-23 07:16:01       34 阅读
  7. 蓝桥杯 BASIC-22 基础练习 FJ的字符串

    2024-04-23 07:16:01       32 阅读
  8. go语言学习

    2024-04-23 07:16:01       31 阅读
  9. Golang net/http 标准库源码学习

    2024-04-23 07:16:01       30 阅读
  10. 【嵌入式学习】ARM day04.16

    2024-04-23 07:16:01       39 阅读
  11. c++计算DNA探针的熔解温度

    2024-04-23 07:16:01       36 阅读
  12. MapReduce——数据切片与MapTask并行度决定机制

    2024-04-23 07:16:01       36 阅读
  13. 代码随想录:链表

    2024-04-23 07:16:01       40 阅读
  14. 分发糖果——使用贪心算法

    2024-04-23 07:16:01       35 阅读