小伙伴们,大家好,欢迎来到小洋专栏!不知道上期的细胞毒IC50图大家学会了嘛?这一期,小洋将向大家介绍如何利用仙桃学术工具来绘制PCA和UMAP图。
基本概念
基本概念:PCA:即主成分分析,是数据降维的方法。从高纬数据中提取数据的特征向量(成分),转换为低维数据并且用二维或者三维的图来展示这些特征。从特征向量中提取最能体现数据特征(差异)的2个特征向量(成分)用于可视化,这就是PCA图。
UMAP:也是数据降维的一种方法和可视化。在高纬度构建一个图,然后经过优化(拓扑学和几何学)后,在低维度中寻找类似的图来尽可能表征高纬度的差异。
应用场景
应用场景:PCA:可以用于查看数据特征情况,比如可以用于高通量数据中样本之间聚类的分布情况。
UMAP:用于查看数据特征情况,例如可查看数据集表达谱中样本间差异。
主要结果
PCA
典型的PCA图为点图
x轴和y轴分别代表主成分1(PC1)和主成分2(PC2),其中图中(x轴标题)PC1能体现28.4%的数据的特征差异,其中图中(y轴标题)PC2能体现23,7%的数据的特征差异,故整个PCA图能体现数据接近一半的差异。(因为数据是高维数据,前两个主成分未必就能体现绝大部分的差异,具体数据具体分析)。
图中每个点代表每个样本在主成分1和主成分2中对应的映射位置信息,单个样本的数值大小不能体现单个样本说明特征情况,需要整体来看。点与点(样本与样本)间的距离情况能体现样本间的差异。
图中不同的颜色表征不同样本所属的组。
右图中给样本不同组增加了椭圆的圈(如果分组内样本差异差异过大,可能会没办法圈住样本的椭圆的圈)。
UMAP
典型的UMAP图为点图x轴和y轴分别代表UMAP降维后的两个方向的具体情况。
图中每个点代表每个样本在UMAP降维后在两个方向中对应的映射位置信息,单个样本的数值大小不能体现单个样本说明特征情况,需要整体来看。点与点(样本与样本)间的距离情况能体现样本间的差异。
图中不同的颜色表征不同样本所属的分组(group1是参考组和group2是实验组)。
从图上来看,两组的样本并不能很好分开,说明最终差异分析的结果可能不会太好。
数据要求
PCA
文件不能大于50M,列数最多为列,行数最多00。仅支持csv或者text格式文件。除了头部的注释行(#开头),下面的内容中不能含有非数值的内容。
头部注释行(#开头):用于表征每个样本所属的分组。敲黑板!!!小伙伴们注意啦!注释信息不是一定要提供三行,至少1行就可以!!!至少1行就可以!!!至少1行就可以!!!每行的分组最多是5个。注意,第一列的命名不能重复。只要满足在5个分类以及5个分类下,这部分数据会出现在右侧「点」中的“显示”的参数中,可以选择想要用颜色表征的分组。
主体部分(必须):
主体的第一行为样本编号(如图中的第4行),这一行不能含有重复命名。
主体的第一列为基因名(未必需要提供基因名,只要是能表征样本各个维度的情况即可,因为这里为表达谱数据,所以用的是基因名)。
主体的其他部分为样本在各个维度对应的数值。
UMAP
目前仙桃学术的UMAP图绘制采用的是云端数据。这里的云端数据与历史记录中的数据集分析后的数据记录是保持一致的,可以在历史记录中找到相应的数据记录。实战演练
下面让我们来看一篇年8月发表在“ComputationalandStructuralBiotechnologyJournal”(IF=7.)杂志上的一篇文章。题名为“Themolecularfeatureofmacrophagesintumorimmunemicroenvironmentofgliomapatients”。期刊简介
使用工具
仙桃学术(