先康康tassel啥样
tassel5是由康奈尔实验室开发的生物分析软件,在谷歌搜索tassel5进行下载就完事了。
安装完毕,打开tassel界面
先介绍目录框
【file】
主要进行数据的读取,存储
- open
- open as
- save as
等等【data】
主要进行表格数据的处理
- intersect join用的地方比较多
【impute】
以不同的方法进行填充数据
【filter】
进行质控
- traits:筛选表型列
- sites:对位点进行筛选
- taxas:对个体进行筛选
【analysis】
分析,gwas操作的主要部分
- diversity:在多自交系下较少用到,没什么意义
- relatedness:包括PCA、构建亲缘矩阵、聚类分析等
- association:gwas的主要部分,包括一般线性模型(GLM)和混合线性模型(MLM)等
导入数据
我们需要以下数据
-
- 表型数据:通过file-open打开
-
- 基因型数据
- 为plink数据格式,选取open as-plink,选择对应.ped与.map文件
- 其他数据格式:open as-选取相应格式,一般是用hapmap格式来着,要是软件上找不到对应格式,请反思自己想不开保存的是个啥格式(误)。
打开后 应该如上图,最上方显示snp位点名称or位置;左侧显示自交系名称,表格内标注snp位点,其中黄色为主要位点,蓝色为次等位点,空白为数据缺失。
注:tassel好像不怎么对数据进行缺失质控,若需要质控可以通过plink进行质控(见gwas学习笔记)后导入
数据质控
选取snp数据后,在filter-sites打开snp位点质控面板,如下图
其中最为重要的是minimum frequency ,即设置maf质控的阈值,即小于阈值的次等基因进行筛选,点击remove minor snp states会把小于设置阈值的次等基因位点移除。
在filter-filter genotype table taxa 打开个体质控面板
其中min/max heterzygous proportion 控制杂合率,自行设置。
最为重要的质控部分就差不多了,其他质控部分根据需要调整
观察表型数据
选取玉米育种中一个很重要的ss-nss指标作为协变量
表型数据
我们选择表型中的area,ss-nss数据中的ss与ns数据,这个选择通过filter-traits进行
计算协变量
一般可以通过亲缘关系矩阵或pca结果作为协变量加入gwas,这里我们采用亲缘关系矩阵,通过analysis-relatedness-kinship构建
进行gwas 的数据拼图我们拿齐了
整合数据
将两个表现数据表与过滤后的基因型数据合并,通过data-intersect join实现
结果如图
进行gwas分析
选择kinship矩阵和合并后的数据,通过analysis-association-mlm进行分析,因为加入亲缘矩阵,所以用mlm,不加亲缘矩阵就用glm
然后让他跑啊跑完
(跑跑太慢了,我拿其他跑好的数据意思意思一下)
在输出的三个文件中寻找到有p列存在的数据表,一般是第二个文件
结果可视化
在results下选择Manhattan plot 和qq图(最重要的部分),等跑完就可以了
实话实话这个图画的还挺不好看的,可以用r语言画画曼哈顿图,然后标注基因marker
写在最后
把科研学习变成一件快乐的事情,就会快乐许多呢。
祝各位科研快乐~