通过Tassel进行GWAS分析

先康康tassel啥样

tassel5是由康奈尔实验室开发的生物分析软件,在谷歌搜索tassel5进行下载就完事了。
安装完毕,打开tassel界面

先介绍目录框
【file】

主要进行数据的读取,存储

  • open
  • open as
  • save as
    等等

    【data】

    主要进行表格数据的处理

  • intersect join用的地方比较多
    【impute】

    以不同的方法进行填充数据

    【filter】

    进行质控

  • traits:筛选表型列
  • sites:对位点进行筛选
  • taxas:对个体进行筛选
    【analysis】

    分析,gwas操作的主要部分

  • diversity:在多自交系下较少用到,没什么意义
  • relatedness:包括PCA、构建亲缘矩阵、聚类分析等
  • association:gwas的主要部分,包括一般线性模型(GLM)和混合线性模型(MLM)等
导入数据

我们需要以下数据

    1. 表型数据:通过file-open打开
    1. 基因型数据
  • 为plink数据格式,选取open as-plink,选择对应.ped与.map文件
  • 其他数据格式:open as-选取相应格式,一般是用hapmap格式来着,要是软件上找不到对应格式,请反思自己想不开保存的是个啥格式(误)。

    打开后 应该如上图,最上方显示snp位点名称or位置;左侧显示自交系名称,表格内标注snp位点,其中黄色为主要位点,蓝色为次等位点,空白为数据缺失。
    注:tassel好像不怎么对数据进行缺失质控,若需要质控可以通过plink进行质控(见gwas学习笔记)后导入
数据质控

选取snp数据后,在filter-sites打开snp位点质控面板,如下图

其中最为重要的是minimum frequency ,即设置maf质控的阈值,即小于阈值的次等基因进行筛选,点击remove minor snp states会把小于设置阈值的次等基因位点移除。
在filter-filter genotype table taxa 打开个体质控面板

其中min/max heterzygous proportion 控制杂合率,自行设置。
最为重要的质控部分就差不多了,其他质控部分根据需要调整

观察表型数据

选取玉米育种中一个很重要的ss-nss指标作为协变量

表型数据

我们选择表型中的area,ss-nss数据中的ss与ns数据,这个选择通过filter-traits进行

计算协变量

一般可以通过亲缘关系矩阵或pca结果作为协变量加入gwas,这里我们采用亲缘关系矩阵,通过analysis-relatedness-kinship构建

进行gwas 的数据拼图我们拿齐了

整合数据

将两个表现数据表与过滤后的基因型数据合并,通过data-intersect join实现

结果如图

进行gwas分析

选择kinship矩阵和合并后的数据,通过analysis-association-mlm进行分析,因为加入亲缘矩阵,所以用mlm,不加亲缘矩阵就用glm
然后让他跑啊跑完
(跑跑太慢了,我拿其他跑好的数据意思意思一下)
在输出的三个文件中寻找到有p列存在的数据表,一般是第二个文件

结果可视化

在results下选择Manhattan plot 和qq图(最重要的部分),等跑完就可以了


实话实话这个图画的还挺不好看的,可以用r语言画画曼哈顿图,然后标注基因marker

写在最后

把科研学习变成一件快乐的事情,就会快乐许多呢。
祝各位科研快乐~