GWAS – Welcome to my Homepage

先康康tassel啥样

tassel5是由康奈尔实验室开发的生物分析软件，在谷歌搜索tassel5进行下载就完事了。
安装完毕，打开tassel界面

先介绍目录框

【file】

主要进行数据的读取，存储

open
open as
save as
等等

【data】

主要进行表格数据的处理
intersect join用的地方比较多

【impute】

以不同的方法进行填充数据

【filter】

进行质控
traits：筛选表型列
sites：对位点进行筛选
taxas：对个体进行筛选

【analysis】

分析，gwas操作的主要部分
diversity：在多自交系下较少用到，没什么意义
relatedness：包括PCA、构建亲缘矩阵、聚类分析等
association：gwas的主要部分，包括一般线性模型（GLM）和混合线性模型（MLM）等

导入数据

我们需要以下数据

1. 表型数据：通过file-open打开
1. 基因型数据
为plink数据格式，选取open as-plink，选择对应.ped与.map文件
其他数据格式：open as-选取相应格式，一般是用hapmap格式来着，要是软件上找不到对应格式，请反思自己想不开保存的是个啥格式（误）。

打开后应该如上图，最上方显示snp位点名称or位置；左侧显示自交系名称，表格内标注snp位点，其中黄色为主要位点，蓝色为次等位点，空白为数据缺失。
注：tassel好像不怎么对数据进行缺失质控，若需要质控可以通过plink进行质控（见gwas学习笔记）后导入

数据质控

选取snp数据后，在filter-sites打开snp位点质控面板，如下图

其中最为重要的是minimum frequency ，即设置maf质控的阈值，即小于阈值的次等基因进行筛选，点击remove minor snp states会把小于设置阈值的次等基因位点移除。
在filter-filter genotype table taxa 打开个体质控面板

其中min/max heterzygous proportion 控制杂合率，自行设置。
最为重要的质控部分就差不多了，其他质控部分根据需要调整