【毕业开题】开题研究进度信息详情

该页面作为开题答辩的补充页，对答辩研究进度部分信息进行补充，只展示部分关键数据和代码，更细节部分请问我

下划线文字附带超链接，请自行浏览。只展示关键分析内容和结果，最新进展请以本人的嘴为准。

1.表型数据分析

1.1统计性直方图

根系性状符合正态分布，说明其为受微效基因调控的数量性状。

1.2 统计性数据分析

AREA  AVG_DENSITY    WIDTH_MED    WIDTH_MAX      ANG_TOP      ANG_BTM    SKL_WIDTH    RTP_COUNT
nbr.val      4.210000e+02  421.0000000 4.210000e+02 4.210000e+02 4.210000e+02 4.210000e+02 4.210000e+02 4.210000e+02
nbr.null     0.000000e+00    0.0000000 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
nbr.na       0.000000e+00    0.0000000 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
min          4.828880e+03    1.4787060 6.819370e+01 7.925440e+01 4.910777e+01 2.978805e+01 8.961045e+01 1.266667e+02
max          2.213200e+04   29.2980000 1.905613e+02 2.427560e+02 7.172780e+01 5.941517e+01 2.529947e+02 1.044000e+03
range        1.730312e+04   27.8192940 1.223676e+02 1.635016e+02 2.262003e+01 2.962712e+01 1.633842e+02 9.173333e+02
sum          5.144396e+06 3121.2662722 4.849089e+04 6.266166e+04 2.625826e+04 1.891334e+04 6.532830e+04 1.864558e+05
median       1.196543e+04    6.3614200 1.132773e+02 1.456183e+02 6.265830e+01 4.482257e+01 1.534190e+02 4.296667e+02
mean         1.221947e+04    7.4139341 1.151802e+02 1.488400e+02 6.237116e+01 4.492481e+01 1.551741e+02 4.428878e+02
SE.mean      1.552185e+02    0.2023009 1.056573e+00 1.420116e+00 2.080944e-01 2.751109e-01 1.446403e+00 7.221837e+00
CI.mean.0.95 3.051018e+02    0.3976483 2.076830e+00 2.791419e+00 4.090363e-01 5.407658e-01 2.843091e+00 1.419545e+01
var          1.014306e+07   17.2296944 4.699821e+02 8.490426e+02 1.823069e+01 3.186381e+01 8.807668e+02 2.195722e+04
std.dev      3.184817e+03    4.1508667 2.167907e+01 2.913834e+01 4.269741e+00 5.644804e+00 2.967772e+01 1.481797e+02
coef.var     2.606346e-01    0.5598737 1.882186e-01 1.957695e-01 6.845697e-02 1.256500e-01 1.912543e-01 3.345761e-01

1.3相关性分析

两种呈现方式

2.基因型数据预处理

2.1基因型数据质控

数据质控是为了

增加计算结果的准群性
提高运行计算的速度和效率

2.1.1基因型数据缺失质控

在git环境下基于PLINK程序进行，共818169 个SNP位点 and 476 个个体 pass filters and QC.
```
plink
--bfile 2
--geno 0.1
--make-bed
--mind 0.15
--out 3_missing
```
通过R语言可视化SNP位点缺失率和个体缺失率

2.1.2maf质控

统计次等基因频率MAF，剔除次等基因频率过低snp位点以提高结果正确性和运算速度
在git环境下基于PLINK程序进行（如上）
通过R语言可视化SNP位点MAF分布

2.1.3杂合率质控

在git环境下基于PLINK程序进行,818169 variants and 476 people pass filters and QC.
```
plink
--bfile 3
--het
--out het_check
```
2.1.4 数据导出

剩余的质控对于我们所用的植物SNP数据并无太多影响，基因型数据质控到此为止，通过plink封装数据后导出

2.2 群体结构的验证

这一部分我们的计算与已有的研究虽有差距，但是大体上相同，是一次尝试。

2.2.1祖先成分的分析

我们的组先成分分析基于部署在腾讯云的云服务器进行，基于的经典的祖先成分分析程序Admixture进行
我们的分析过程如下

基于数据降维和admixture对于各亚群数量（K的值）计算得到的CV值，确定K=3-4，这与已有的研究相同
基于得到的K值进行祖先成分的计算
通过R语言可视化分析结果

我们的祖先成分图没经过精细排序，看起来有点乱，但是可以看出被划分为了3个主要祖先成分，与已有的研究相符。

2.2.2群体结构的解析

群体结构的解析我们基于tassel 5.0构建邻接树，导出数据后通过R语言绘制环形邻接树，通过FigTree.v1.4.4对不同分支进行上色和美化

主要的分支状况与该群体的研究类似，至此我们确定了已有研究的群体结构数据还是很可行的（hhh）

2.2.3 LD距离的计算

这也是一次尝试，与已有的研究差距不是很大，所以我们的研究选择50 kb寻找候选基因没什么问题。

ld <- read.delim(file.choose(),stringsAsFactors = FALSE,header=TRUE, sep = "\t") 
str(ld)

##remove sites that have NaN for distance or r2
ld_sub <- ld[ld$R.2 != "NaN",]
ld_sub$dist <- as.numeric(ld_sub$Dist_bp)
ld_sub2 <- ld_sub[ld_sub$dist != "NaN",]
ld_sub2$rsq <- ld_sub2$R.2

file <- ld_sub2[,c(1,2,7,8,15:19)]

# C values range from about 0.5 to 2, start with 0.1
Cstart <- c(C=0.1)

# fit a non linear model using the arbitrary C value, 
# N is the number of the genotypes that have the SNP site
modelC <- nls(rsq ~ ( (10+C*dist)/( (2+C*dist) * (11+C*dist) ) ) * 
                ( 1+( (3+C*dist) * (12+12*C*dist+(C*dist)^2) ) / ( 2*N*(2+C*dist) * (11+C*dist) ) ), 
              data=file, start=Cstart, control=nls.control(maxiter=100))

# extract rho, the recombination parameter in 4Nr
rho <- summary(modelC)$parameters[1]

# feed in the new value of rho to obtain LD values adjusted for their distances along the chromosome/genome
newrsq <- ( (10+rho*file$dist) / ( (2+rho*file$dist) * (11+rho*file$dist) ) ) *
  ( 1 + ( (3+rho * file$dist) * (12+12*rho*file$dist + (rho*file$dist)^2) ) / 
      (2*file$N*(2+rho*file$dist) * (11+rho*file$dist) ) )

newfile <- data.frame(file$dist, newrsq)

maxld <- max(newfile$newrsq,na.rm=TRUE) #using max LD value from adjusted data
halfdecay = maxld*0.5
halfdecaydist <- newfile$file.dist[which.min(abs(newfile$newrsq-halfdecay))]
newfile <- newfile[order(newfile$file.dist),]

# plotting the values
tiff("LD3.tif",width = 800,height = 800)
mar.default <- c(5,4,4,2) + 0.1
par(mar = mar.default + c(0, 4, 0, 0)) 
plot(file$dist, file$rsq, pch=".", cex=8, xlab="Distance (bp)", ylab=expression(LD ~ (r^2)), col="grey")
lines(newfile$file.dist, newfile$newrsq, col="red", lwd=2)
abline(h=0.2, col="blue") # if you need to add horizental line
abline(v=halfdecaydist, col="green")
mtext(round(halfdecaydist,2), side=1, line=0.05, at=halfdecaydist, cex=0.75, col="green")
dev.off()

一般我们是选取0.2为阈值，图上标注的是降到一半0.5的数值为5 kb，降低到0.2约为50kb。我们之后找候选基因就用50kb了。

3.1PCA分析

3.1.1基于样本的PCA

通过R语言进行分析

碎石图，表示各个PCA维度的解释率，两个维度已经不错了，我们就选择2维度PCA

PCA分析，两个性状从根系8个性状中分离出来

3.1.2 基于性状的PCA

AREA与RTP性状分离出来，AREA解释大部分的变异

4.1亚群数据分析

亚群数据基于我们所得到的群体结构数据，基于此对421个自交系进行亚群分类，亚群间的多重比较基于SPSS进行，结果通过R语言“boxplot”进行可视化

5.1GWAS分析

5.1.1GWAS分析过程

GWAS的分析基于tassel 5.0进行，通过结合群体结构数据、kinship数据和基因型数据计算。选定模型为混合线性模型MLM。

阈值的确定基于广泛接受的方法确定，即以1除以通过Genetic Type I error方法计算得到独立的有效SNP个数（490547）确定阈值p为2.039E-06，以此判定SNP标记与目标性状是否关。
为了数据的美观我们通过R语言绘制了环形曼哈顿图

5.1.2候选基因的选择

候选基因的选择我们基于NCBI与MaizeGDB进行，选择SNP位点前后50 kb范围筛选候选基因。同时基于TARI我们寻找了该基因的拟南芥同源基因并进行注释，以对无基因注释的基因功能进行一定地暗示。
为了进行大批量SNP数据的注释，我们通过R语言进行基因映射和注释,其原理为先下载基因轨道数据和注释数据后根据选取100kb区段的物理位置直接进行映射

library(readxl)
snp<-read_xlsx("地下部LOD大于5.xlsx",sheet = 1)
gene<-read.table("ZmB73_5b_FGS-v2_genepos.txt",header = F,sep = "\t")
#重组gene数据
names(gene)<-c("Marker","chr","start","end")
#重组SNP数据
snp<-data.frame(snp[,c(1:3,6,4)])
#确定50kb范围
snp$pos.l<-snp$Pos-50000
snp$pos.r<-snp$Pos+50000
#开始寻找基因，内外双循环结构
for (i in 1:nrow(snp)) {
  rowname<-c()  #存储基因行名的暂存向量
  for (f in 1:nrow(gene)) {
    if(snp[i,3]==gene[f,2]|gene[f,3]>=snp[i,6]|gene[f,4]<=snp[i,7]){
      rowname<-c(rowname,f)
    }
  }
  snp$allgene<-paste(gene[rowname,1],collapse = "、")
}

我们共寻找到好多（189）个候选基因。

6.后续分析

候选我们将通过共表达网络进一步筛选这189个候选基因，并对其中高可行度的基因进行连锁分析、单倍体分析、基因表达分析等。

2021年12月28日2022年8月20日

1.1试验材料

本实验所使用的基因型数据来自于MaizeGO，数据类型为SNP数据。GWAS所使用的群体结构来自于该自交群体已有的研究
（Yang, X., Gao, S., Xu, S. et al. Characterization of a global germplasm collection and its potential utilization for analysis of complex quantitative traits in maize. Mol Breeding 28, 511–526 (2011)).Spring。
群体结构文件请从http://www.maizego.org/download/M.pdf 下载，该群体共527个自交系，我们的实验基于其中的421个自交系进行。
基因型数据结构为SNP数据，群体结构数据（图1）基于对于玉米群体的SS、NSS、TST亚群划分进行

1.2根系表型的测定

该部分实验基于导师2015年海南已有的实验。具体方式为于成熟期选取田间长势均匀一致的3-5株进行玉米根系的挖掘，挖掘深度为30 cm。先用抖土法抖掉根系附着在根系上的大部分土壤，然后将根系浸泡在混有洗涤剂的水池中，最后再用压力可调的高压清洗机（亿力牌4630C-120C，中国）清洗掉附着在根系上的残留土壤。待根系清洗干净后，将根系转移至光源稳定的摄影棚（DEEP牌80 cm型，中国）中对根系的二维图像的进行采集。采集根系图像的数码相机为SONY-5100L型微单相机（日本）。利用软件DIRT对二维根系图像进行高通量定量化分析。
DIRT的详细使用方法，请点击本站点的另一篇文章——植物根系性状的测定。

1.3表型数据的分析

表型数据分析基于R 4.03进行。

（1）统计性分析

统计性分析基于R语言，对数据进行直方图绘制，并拟合正态曲线

a<-read.table("2015-phenotypic date.txt",sep = "\t",header = T)
#加载包
library(ggplot2)
library(patchwork)
#绘图
#area
a<-a[,c(1,6:8,5,4,2,3,9)]
par(mfrow = c(2, 4))
for (i in 2:9) {
  f<-a[,i]
  hist(f,prob=T,col="grey",xlab = "",main="")
  xfit<-seq(min(f),max(f),length=40)
  yfit<-dnorm(xfit,mean(f),sd(f))
  lines(xfit,yfit,col="red",lwd=3)
}

(2)统计性分析

统计性分析基于R语言进行，对于其常规统计性结果如均值、CV进行计算

a<-read.table("2015-phenotypic date.txt",sep = "\t",header = T)
library(pastecs)
stat.desc(a[,-1])
c<-stat.desc(a[,-1])

> c
                     AREA  AVG_DENSITY    WIDTH_MED    WIDTH_MAX      ANG_TOP      ANG_BTM    SKL_WIDTH    RTP_COUNT
nbr.val      4.210000e+02  421.0000000 4.210000e+02 4.210000e+02 4.210000e+02 4.210000e+02 4.210000e+02 4.210000e+02
nbr.null     0.000000e+00    0.0000000 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
nbr.na       0.000000e+00    0.0000000 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
min          4.828880e+03    1.4787060 6.819370e+01 7.925440e+01 4.910777e+01 2.978805e+01 8.961045e+01 1.266667e+02
max          2.213200e+04   29.2980000 1.905613e+02 2.427560e+02 7.172780e+01 5.941517e+01 2.529947e+02 1.044000e+03
range        1.730312e+04   27.8192940 1.223676e+02 1.635016e+02 2.262003e+01 2.962712e+01 1.633842e+02 9.173333e+02
sum          5.144396e+06 3121.2662722 4.849089e+04 6.266166e+04 2.625826e+04 1.891334e+04 6.532830e+04 1.864558e+05
median       1.196543e+04    6.3614200 1.132773e+02 1.456183e+02 6.265830e+01 4.482257e+01 1.534190e+02 4.296667e+02
mean         1.221947e+04    7.4139341 1.151802e+02 1.488400e+02 6.237116e+01 4.492481e+01 1.551741e+02 4.428878e+02
SE.mean      1.552185e+02    0.2023009 1.056573e+00 1.420116e+00 2.080944e-01 2.751109e-01 1.446403e+00 7.221837e+00
CI.mean.0.95 3.051018e+02    0.3976483 2.076830e+00 2.791419e+00 4.090363e-01 5.407658e-01 2.843091e+00 1.419545e+01
var          1.014306e+07   17.2296944 4.699821e+02 8.490426e+02 1.823069e+01 3.186381e+01 8.807668e+02 2.195722e+04
std.dev      3.184817e+03    4.1508667 2.167907e+01 2.913834e+01 4.269741e+00 5.644804e+00 2.967772e+01 1.481797e+02
coef.var     2.606346e-01    0.5598737 1.882186e-01 1.957695e-01 6.845697e-02 1.256500e-01 1.912543e-01 3.345761e-01

(3)相关性分析

相关性分析基于R语言，通过皮尔逊相关计算其相关性矩阵和P值矩阵，通过corrplot展示相关性矩阵。有下图两种展示方式。

library(Hmisc)
library(PerformanceAnalytics)
a<-read.table("2015-phenotypic date.txt",sep = "\t",header = T)

#相关性分析
d<-a[,-1]
d<-as.matrix(d)
res<-rcorr(d)
#绘制相关性分析图
png(filename = "ralation.png")
chart.Correlation(d,histogram = T,method = c("pearson"))
dev.off
#绘制相关性热图
library(corrplot)
data<-cor(d)
pdf("ralation cor.pdf")
corrplot(data,type = "upper",order="hclust",tl.col = "black",tl.srt = 45,tl.cex = .8)
dev.off

1.4 GWAS分析

基于Tassel 5.0软件进行。通过SNP数据和群体结构以及计算得到的kinship矩阵进行基于混合线性模型（MLM）的全基因组关联分析。关于Tassel 5的详细操作方法，请见本站点的另一篇文章——通过Tassel进行GWAS分析。
在此分析之前，我们尝试通过独立计算群体结构以验证群体结构数据的准确性。我们进行了如下尝试：

先进行数据降维和PCA分析得到该群体适宜的亚群数目，K=3-4，与已有研究相符合。基于云服务器，通过ADMIXTURE: fast ancestry estimation进行祖先成分的分析。这结果已有的研究大致相符合。
通过Tassel 5分析群体结构，分析结构绘制邻接树与已有的研究进行对比。与已有的研究大致相符合。
因此我们使用已有研究的群体结构数据进行GWAS分析。
```
library(stringr)
library(ggtree)
library(treeio)
pdf("tree222.pdf")
tree<-read.tree("tree.nwk")
ggtree(tree,branch.length = 'none',layout = 'circular')+
geom_tiplab(size=1)
dev.off
```

GWAS得到的结果我们通过R语言进行绘制曼哈顿图和qq图

#Manhattan plot 
setwd("H:/GWAS-MLM/GWAS data")
#
library(qqman)

#ANG_BTM
png("ANG_BTM.png",width = 1107,height = 556)
a<-read.table("ANG_BTM.txt",sep = '\t',header = T)
a<-a[-1,]
manhattan(a,chr="Chr",bp="Pos",p="p",snp = "Marker",
          main="ANG_BTM",
          suggestiveline = 5.691,
          genomewideline = FALSE
          )
dev.off
#剩余7个性状绘制类似

library(qqman)
lay1<-lay_new(mat = matrix(1:8, ncol = 4))
lay_set(lay1)

#ANG_BTM
a<-read.table("ANG_BTM.txt",sep = '\t',header = T)
a<-a[-1,]
qq(a$p,main="ANG_BTM")
#剩余7个性状绘制类似

为了美观，我们绘制了多组性状的环状曼哈顿图

data<-read.table("datanew.txt",sep = '\t',header = T)
library(CMplot)
a<-c(1:3,5,9,10,6,11,8,7,4)
datanew<-data[a]
CMplot(datanew,type="p",plot.type="c",r=0.4,col=c("grey30","grey60"),chr.labels=paste("Chr",c(1:10),sep=""),
       threshold=c(2.039e-6),cir.chr.h=1.5,amplify=TRUE,
       threshold.lty=c(1,2),threshold.col=c("blue"),
       signal.line=1,signal.col=c("red","green"),
       chr.den.col=NULL,
       ylim = c(0,8),
       signal.cex = 0.6,
       cir.legend = T,
       cir.band = 1.5,
       lwd.axis = 0,
       bin.size=1e4,outward=FALSE,file="jpg",
       memo="",dpi=300,file.output=TRUE,verbose=TRUE,width=10,height=10)

下图只展示部分图片

我们在显著SNP位点的前后50kb范围寻找候选基因，玉米基因组的轨道文件源于Maize GDB
我们通过R语言进行批量的候选基因寻找

library(readxl)
snp<-read_xlsx("地下部LOD大于5.xlsx",sheet = 1)
gene<-read.table("ZmB73_5b_FGS-v2_genepos.txt",header = F,sep = "\t")
#重组gene数据
names(gene)<-c("Marker","chr","start","end")
#重组SNP数据
snp<-data.frame(snp[,c(1:3,6,4)])
#确定50kb范围
snp$pos.l<-snp$Pos-50000
snp$pos.r<-snp$Pos+50000
#开始寻找基因，内外双循环结构
for (i in 1:nrow(snp)) {
  rowname<-c()  #存储基因行名的暂存向量
  for (f in 1:nrow(gene)) {
    if(snp[i,3]==gene[f,2]|gene[f,3]>=snp[i,6]|gene[f,4]<=snp[i,7]){
      rowname<-c(rowname,f)
    }
  }
  snp$allgene<-paste(gene[rowname,1],collapse = "、")
}

我们共找到显著SNP关联的189个候选基因

1.5共表达网络的构建和分析

我们通过GWAS得到的189个候选基因作为共表达网络的输入基因列表，充当差异表达基因的角色。我们计划基于Camoco对我们GWAS筛选的显著SNP与前后50kb范围内的基因进行映射。计算基因间的共表达，并标记其显著性。计算出的结果将通过Cytoscape软件展示结果。
我们进行共表达网络的构建有如下目的

剔除在大部分样品中不表达的候选基因，进一步筛选候选基因。
根据共表达网络的共表达状况，我们挑选优先度较高的基因进行进一步的分析。

1.6基因表达量的测定

这一部分实验基于导师2019年已有的实验，通过RNA-seq进行。具体步骤为通过Trizol试剂盒进行总RNA的提取后进行评估RNA完整性，并通过Illumina HiSeq进行测序。测序得到的数据通过HISAT2进行序列对比，最后通过StringTie将基于表达水平组装为FPKM值，即将测序仪得到的reads数据转化为每千个碱基的转录每百万映射读取。我认为这是一类标准化过程，以比对基因表达的差异。

2021年10月13日2022年4月28日

系统发生树的绘制

写在前面

今天写一写聚类图的绘制，因为作者这是个对生信感兴趣的非生物学本科生；再加上我一直认为像我这种靠兴趣学习的小白，从分析过程入手进行学习会有趣些，所以这次内容可能会偏向于操作，具体的原理可以看看其他大佬的。

系统发生数数据的获取

系统发生数的构建主要是基于SNP进行，其具有距离矩阵法、最大似然法、最大简约法和贝叶斯法，其中距离矩阵法中的邻接法为一种常见的方法（各方法具体的原理可见其他大佬的推文，或者等我学完来写写）。
为了省时又便于理解，我们通过tassel5进行获取数据

将SNP数据导入tassel5软件
analysis-relatedness-creat tree 进行构建系统发生树
在返回的文件上选择results-archaeopteryx tree可以康一康构建出来的树

但是，这图明显不好看啊，和我在文章里面看的完全不一样啊

系统发生树数据的导出

在analysis-relatedness-creat tree结果文件导出为newwick格式

系统发生树的美化

方式一：通过iTOL平台

网址如下：https://itol.embl.de/

自己玩泥巴去吧（自己摸索摸索，很简单来着）

方式二：通过R package-ggtree

ggtree 是Guangchuang Yu（人称Y叔）构建的系统发生树构建的R package，这是ggtree的主页https://bioconductor.org/packages/devel/bioc/vignettes/ggtree/inst/doc/ggtree.html

1、安装package-ggtree

#the first way
install.packages("ggtree")
#一般情况下rstudio默认的源里面是找不到ggtree
#因此可以通过BiocManager下载
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("ggtree")

下载完成后library()一下看一下安装完成否

2、读取.new数据

library(stringr)
library(ggtree)
library(treeio)
tree<-read.tree("tree.nwk")
ggtree(tree,branch.length = 'none',layout = 'circular')+
  geom_tiplab(size=1)

可以看到ggtree的绘制格式类似于ggplot2

3、具体参数介绍

#颜色大小类型等设置类似于ggplot2
ggtree(tree, color="firebrick", size=2, linetype="dotted")
#发生树默认以阶梯状排列，可以自行控制
ggtree(tree, ladderize=FALSE)

系统发生树的类型可以自定义

ggtree(tree, layout="roundrect")
ggtree(tree, layout="slanted")
ggtree(tree, layout="ellipse")
ggtree(tree, layout="circular")
ggtree(tree, layout="fan", open.angle=120)
ggtree(tree, layout="equal_angle")
ggtree(tree, layout="daylight")
ggtree(tree, branch.length='none')
ggtree(tree, layout="ellipse", branch.length="none")
ggtree(tree, branch.length='none', layout='circular')
ggtree(tree, layout="daylight", branch.length = 'none')
#具体效果见下图，更多的效果可以通过设置坐标等进行更改

进化树的组件

#通过geom_treescale()控制
ggtree(tree)+geom_treescale()
#其中参数为
ggtree(tree) + geom_treescale(x=0, y=45, width=1, color='red')
ggtree(tree) + geom_treescale(fontsize=6, linesize=2, offset=1)
#xy控制数的比例位置
#width控制树宽度
#fontsize控制文本大小
#linesize控制线大小
#offset控制文本偏移量
#color控制文本颜色

#通过theme_tree2()添加树的X轴
ggtree(tree) + theme_tree2()

#通过geom_nodepoint()显示内部节点
#通过geom_tippoint()显示外部节点
ggtree(tree) + geom_point(aes(shape=isTip, color=isTip), size=3)

#geom_text()控制显示节点和提示标签
#geom_label()控制显示节点和提示标签
#geom_tiplab()控制显示提示标签
ggtree(tree, layout="circular") + geom_tiplab(aes(angle=angle), color='blue')
#见下图B

#geom_rootedge()控制显示根边
ggtree(tree1) + geom_tiplab() + geom_rootedge()
#通过aes(color=)控制颜色

系统发育树注释

#具体参数如下
Layer   Description
geom_balance    highlights the two direct descendant clades of an internal node
geom_cladelabel annotate a clade with bar and text label
geom_facet  plot associated data in specific panel (facet) and align the plot with the tree
geom_hilight    highlight selected clade with rectanglar or round shape
geom_inset  add insets (subplots) to tree nodes
geom_label2 modified version of geom_label, with subsetting supported
geom_nodepoint  annotate internal nodes with symbolic points
geom_point2 modified version of geom_point, with subsetting supported
geom_range  bar layer to present uncertainty of evolutionary inference
geom_rootpoint  annotate root node with symbolic point
geom_rootedge   add root edge to a tree
geom_segment2   modified version of geom_segment, with subsetting supported
geom_strip  annotate associated taxa with bar and (optional) text label
geom_taxalink   Linking related taxa
geom_text2  modified version of geom_text, with subsetting supported
geom_tiplab layer of tip labels
geom_tippoint   annotate external nodes with symbolic points
geom_tree   tree structure layer, with multiple layout supported
geom_treescale  tree branch scale legend

因内容过多，具体内容可见 Data Integration, Manipulation and Visualization of Phylogenetic Trees，反正我直接偷跑先开始学了~

2021年10月13日2021年10月13日

PCR引物设计

喜闻乐见碎碎念

今天又帮对门兄弟提了一天RNA，我一不看着他就做错好几步，分明是来帮实验的倒是变成教实验的。不禁感慨，和你做实验像坐牢（笑死）
这个兄弟后续会测定RNA浓度、qPCR，趁着在实验室“坐牢”，就问了问怎么设计引物，抱着该死的好奇心，我花了一晚上整明白了（芜湖）

引物设计要求

搬运自其它博主

长度15-30bp
CG含量40-60%
引物模板序列Tm 72℃最佳，至少55-80℃
3'端引物一般不使用A
避免3'端出现3个碱基重复
等等

引物设计软件

Primer Premier 6
请自行下载（去微信搜搜或许是个好方法）

分析步骤

1.下载基因序列数据

通过NCBI下载基因数据：https://www.ncbi.nlm.nih.gov/

在搜索框输入对应基因名称检索基因序列数据，这里我们使用Arabidopsis thaliana NRT1.1 基因，其为拟南芥中硝酸盐转运蛋白基因，下载序列。

通过Primer Premier设计引物

打开Primer Premier 6 软件
在file-open-sequence打开下载的基因序列，打开效果如上图
选择 analyze-primer search
在弹出的设置页选择primer parameters对参数进行设置
1.其中Tm为熔融温度
2.Ta 为退火温度（应该）
3.amplicon lenght 为产物长度
4.alternate primer pairs为可替换碱基对
其中最重要的为熔融温度
点击serch返回检索得到的引物序列，默认显示best 的引物序列

其中会显示引物的rating和引物的具体信息，包括引物序列、位置、长度、Tm值等信息。在右上的序列图上会显示扩增序列序列位置
右击引物序列选择all primers返回可选择的引物序列列表及其信息，点击all structure可以显示其结构，根据需要选择合适的引物序列点击replace选择替换

引物序列验证

选择的引物序列需要进行验证

在NCBI主页上选择blast后选择primer-blast
在use my own foraward primer框后输入先引物序列，其序列可以右键引物后选择copy sense primer复制
use my own reverse primer框输入后引物序列，其可以右键copy anti-sense primer复制
在organism输入需要扩增的物种名称
点击get blast获取报告
-读取报告

primer-blast选择只有一个基因NRT1.1与引物序列匹配，特异性挺好，就他了。

完毕

接下来把序列交给公司就搞定了

芜湖，好奇心满足了

2021年10月13日2021年10月13日

提取培养细胞RNA

写在前面

作为一位热心市民，今天去帮对门好兄弟做了个提取培养细胞RNA的实验。虽然对于大部分同学来说，这个实验很简单来着，但是我得写一写以免一天摸鱼无所事事（狗头）。

实验设计

对门好兄弟的实验是观察到根系一类菌在某一节点具有两种代谢途径，便打算通过测定两种代谢途径下游的RNA的表达，来从经济角度考虑其生存策略。在处理后在不同时间段采样以分析RNA表达随处理时间的变化，其包含近30个测定指标（RNA），通过qPCR对表达量进行定量。

RNA提取试剂盒

使用的试剂盒为TIANGEN的RNA提取试剂盒，主要成分如下：

裂解液RL（Buffer RL）：主要功能为裂解细胞
去蛋白液RW1（Buffer RW1）：主要功能为洗去蛋白质
漂洗液RW（Buffer RW）：用于漂洗（这不是没说？）
无RNA酶双蒸水（RNase-Free ddH2O）
RNase-Free吸附柱CR3（RNase-Free Columns CRS set）
RNase-Free过滤柱（RNase-Free Columns Cs set）
RNase-Free DNase I：DNA 的消化液
RDD缓冲液：DNA消化缓冲液
RNase-Free离心管

所有试剂盒提取RNA 的原理大同小异，都是通过裂解液裂解细胞后通过过滤柱，在乙醇下DNA、RNA固定与吸附柱，再进行漂洗、去掉蛋白等过程；之后加入DNase去掉DNA得到RNA。

注意事项

最重要的就是预防RNase的感染，不然哦，白忙活哦！

建议带个口罩操作哈
多换手套
别省那点枪头哈
使用RNase-Free的水，别乱加就行

实验步骤

取出细菌样品，在室温下融化
在细菌中提前加入β-巯基乙醇；
轻弹离心管底部（经验步骤），加入350ul RL Buffer（一般细菌量不多就加这么多）
旋震荡10s，室温培养10min，其中每2min旋涡10s
所有溶液转运至过滤柱CS上，12000rpm下离心2min
向滤液加入350ul（经验数值） 70%乙醇，混匀后转移入吸附柱CR3，12000rpm下离心2min后倒掉滤液
向吸附柱加入350ul去蛋白液RW1,12000rpm下离心2min后倒掉滤液
配置DNase工作液，DNase I与RDD缓冲液体积比为1:7；根据要进行的个数配置工作液（一般可以配置所需溶液的1.2倍）
向吸附柱中央（尽量滴到中央哦）加入80ul DNase工作液，室温放置15min
向吸附柱中加入350ul去蛋白液RW1,12000rpm下离心2min，弃去滤液
向吸附柱加入500ul漂洗液RW（RW实现加入酒精）后室温静置2min，12000rpm下离心2min后弃去滤液。这个过程重复2次
12000rpm下再离心2min后弃去滤液，打开离心管盖室温放置数分钟以除去残余漂洗液以免对RT等测定产生影响
将吸附柱放入一个新的RNase-Free离心管，加入60ul（选择范围30-100ul，推荐分两次加入）RNase-Free ddH2O后室温放置2min，12000rpm下离心2min，滤液即为RNA
如果要对RNA保存，请于-70℃环境保存

哦，这该死的好奇心

2021年10月13日2022年4月28日

通过Tassel进行GWAS分析

先康康tassel啥样

tassel5是由康奈尔实验室开发的生物分析软件，在谷歌搜索tassel5进行下载就完事了。
安装完毕，打开tassel界面

先介绍目录框

【file】

主要进行数据的读取，存储

open
open as
save as
等等

【data】

主要进行表格数据的处理
intersect join用的地方比较多

【impute】

以不同的方法进行填充数据

【filter】

进行质控
traits：筛选表型列
sites：对位点进行筛选
taxas：对个体进行筛选

【analysis】

分析，gwas操作的主要部分
diversity：在多自交系下较少用到，没什么意义
relatedness：包括PCA、构建亲缘矩阵、聚类分析等
association：gwas的主要部分，包括一般线性模型（GLM）和混合线性模型（MLM）等

导入数据

我们需要以下数据

1. 表型数据：通过file-open打开
1. 基因型数据
为plink数据格式，选取open as-plink，选择对应.ped与.map文件
其他数据格式：open as-选取相应格式，一般是用hapmap格式来着，要是软件上找不到对应格式，请反思自己想不开保存的是个啥格式（误）。

打开后应该如上图，最上方显示snp位点名称or位置；左侧显示自交系名称，表格内标注snp位点，其中黄色为主要位点，蓝色为次等位点，空白为数据缺失。
注：tassel好像不怎么对数据进行缺失质控，若需要质控可以通过plink进行质控（见gwas学习笔记）后导入

数据质控

选取snp数据后，在filter-sites打开snp位点质控面板，如下图

其中最为重要的是minimum frequency ，即设置maf质控的阈值，即小于阈值的次等基因进行筛选，点击remove minor snp states会把小于设置阈值的次等基因位点移除。
在filter-filter genotype table taxa 打开个体质控面板

其中min/max heterzygous proportion 控制杂合率，自行设置。
最为重要的质控部分就差不多了，其他质控部分根据需要调整

观察表型数据

选取玉米育种中一个很重要的ss-nss指标作为协变量

表型数据

我们选择表型中的area，ss-nss数据中的ss与ns数据，这个选择通过filter-traits进行

计算协变量

一般可以通过亲缘关系矩阵或pca结果作为协变量加入gwas，这里我们采用亲缘关系矩阵，通过analysis-relatedness-kinship构建

进行gwas 的数据拼图我们拿齐了

整合数据

将两个表现数据表与过滤后的基因型数据合并，通过data-intersect join实现

结果如图

进行gwas分析

选择kinship矩阵和合并后的数据，通过analysis-association-mlm进行分析，因为加入亲缘矩阵，所以用mlm，不加亲缘矩阵就用glm
然后让他跑啊跑完
（跑跑太慢了，我拿其他跑好的数据意思意思一下）
在输出的三个文件中寻找到有p列存在的数据表，一般是第二个文件

结果可视化

在results下选择Manhattan plot 和qq图（最重要的部分），等跑完就可以了

实话实话这个图画的还挺不好看的，可以用r语言画画曼哈顿图，然后标注基因marker

写在最后

把科研学习变成一件快乐的事情，就会快乐许多呢。
祝各位科研快乐~

2021年10月13日

基于GUS报告NtNRT1.2启动子的活性鉴定

一、实验材料

NtNRT1.2 Promoter::GUS的转基因烟草（根系）。实验使用的预测性启动子为NtNRT1.2基因编码的起始密码子上游2000bpDNA片段。

二、原理

GUS染色常作为了解特定基因在植物中表达的器官、组织和细胞特异性，并进行化学定位的一种方法。GUS（β-glucuronidase）是一种报告基因，其来源于大肠杆菌，编码β-葡聚糖苷酶，这种酶可以催化底物5-溴-4-氯-3吲哚葡聚糖醛酸苷（X-Gluc）分解，产生肉眼可见的深兰色化合物，以观察特定基因的表达。
通过在我们所研究基因的启动子后接上GUS基因，当我们所研究的基因表达，GUS基因也会随着表达，将植株通过X-Gluc进行染色后可显现深兰色，以此来显示特定基因的表达位置（图1）

三、实验步骤

1．种子的消毒灭菌
1. 将种子置于1.5mL离心管，加入70%乙醇表面消毒1-2分钟
2. 移去酒精，加入Bleach溶液（2%次氯酸钠+0.1%SDS），吹打几下后，浸泡15-20分钟
3. 在超净台中移去Bleach，使用无菌水清洗5遍以上，清洗时移液枪头插至离心管底，缓慢吸取液体
4. 清洗后的种子放置于培养皿内灭菌的滤纸上，晾干备用

2. 幼苗的平板培养

将置于滤纸上的拟南芥种子经过表面喷洒酒精消毒置于超净台中
双手进入超净台进行操作前佩戴橡胶手套，同时对双手、手臂以及所以放入超净台的物品（培养基、移液枪等）进行酒精喷洒消毒
待双手及所有物品上酒精蒸发后，点燃酒精灯，打开培养基，将镊子置于酒精灯火焰上灼烧至略红
将镊子拿离火焰，稍稍冷却后夹取牙签，用手拿取镊子夹住的一头
用牙签先微微沾取少量培养基，将滤纸上种子沾至牙签，点至培养基
点约20-25个种子，每个种子距约1cm
点种完毕后上覆盖子，用封口膜密封
4℃冰箱进行处理1-2天后于拟南芥培养室培养培养（21-22℃、光照16h/黑暗8h、关照强度80-120 微mol/(m-2s-1)），竖直放置待种子生长8-10天

注意事项

1.种子消毒时候应当进行吹打，使得消毒充分
2.吸取与液体时应当移液管枪头插入离心管底部，再缓慢吸取液体
3.所有物品包括双手、手臂进入超净台之前务必使用酒精消毒，避免污染
4.在超净台内点燃酒精灯前要确认超净台所有物品及双手上无肉眼可见酒精
5.超净台内镊子竖直放置
6.牙签拿取部位应该是镊子的夹取部位以保证另一端的无菌

3．GUS组织化学染色及显微镜观察

配置GUS染色液（共1mL）
将待处理的幼苗从培养基上取下放入染色液
于37℃培养箱黑暗处理12h以上
将染色好的幼苗置于70%酒精中脱色后于显微镜下观察

结果

1.拟南芥平板观察

其实最开始进行染色的是拟南芥，后来拟南芥染不上色，就用了染好的烟草来观察。
经过平板培养的拟南芥已生长出叶和较长的根，由于培养时候整个培养基竖直摆放，拟南芥根在培养基表匍匐生长，便于取出

2．染色烟草显微镜下观察

在肉眼下观察染色烟草根系，发现染色区域多集中于整根，侧根区域染色较少，且成熟的上部根系染色较为明显，而较为幼嫩的下部根系染色程度较低，甚至不染色（图2a），因此我们猜测，NtNRT1.2多在根系成熟成熟区域表达，由于根系成熟区域主要执行养分吸收功能，因此我们猜测NtNRT1.2应该与植物根系成熟区的氮吸收有关。
接下来我们将烟草根系置于低倍显微镜下进行观察，我们发现根系的中柱部分显示出大范围的染色，表面NtNRT1.2在中柱区域大量表达，而侧根原基区域并为显示出明显染色（图2b）；进一步在高倍镜下观察侧根，发现侧根没有显示出明显染色。

在观察的同时，我们发现在侧根的根尖出现了略微染色（图3a），观察其他烟草根系，并未发现侧根根尖染色的情况，在此植株的其他侧根上也较少发现类似现象，这一小概率现象还待进一步考证。同时我们观察到一个有趣的现象，在侧根与主根中柱的汇集处，染色程度较深，这可能是由于中柱较为集中导致的（图3b），但是我们也大胆的猜测，中柱的汇集处可能存在分配养分运输的机制，因此需要更多转运蛋白协调物质的中柱养分分配，因此与氮素营养运输有关的NtNRT1.2表达量增加

综上所述，烟草根系染色在主根区域较为明显，且较为成熟的区域颜色程度较高，染色的具体区域为中柱，因此，我们猜测NtNRT1.2定位于植物根系成熟区域的中柱，参与植物根系的氮的长距离运输。

讨论

正经人谁猜啊，我直接打开UniProt直接搜索NtNRT1.2蛋白，还真搜到了。

提交名称NRT1.2，由烟草（Common tobacco）NtNRT1.2-s基因表达，定位于膜，参与硝酸盐的跨膜运输，铵态氮的系吸收。也有证据表明其可能参与磷酸根离子和寡肽的运输。
进一步，我们又发现一篇刊于《frontiers in Plant Science》2018; 9: 210的文献，看了看这篇文献的作者，我一瞬间明白了我们可爱的刘老师为啥让我们做NtNRT1.2的GUS染色(Liu et al., 2018)。
通过不同的氮处理下，间隔一段时间测定烟草根系和叶片中的NtNRT1.2的表达，可以发现NtNRT1.2对于氮具有一定的反应，特别是硝态氮，随着硝态氮的输入，NtNRT1.2在一段时间后显著表达，且这种表达会受到氮缺乏的抑制（图4），因此不难猜测NtNRT1.2应当参与了植物根系硝酸盐反应

对植物根系一天内不同时间段内的NtNRT1/2的基因表达的测定表明NtNTR1.2在6:00与8:00达到表达高峰（图5），考虑到植物在夜间需要进行活跃的碳水化合物同化，此过程需要大量的氮素提供，因此这暗示我们NtNRT1.2应当与氮的吸收和运输相关

更进一步，通过在拟南芥nrt1.1-1突变体内转入NtNRT1.1与NtNRT1.2 的基因来验证其基因功能。半定量RT-PCR证明了NtNRT1.1/1.2在拟南芥中的表达，通过拟南芥叶片和根系鲜重的测定（图6），证明了NtNRT1.1/1.2显著提高突变体生长状况，间接证明了NtNRT1.2参与植物根系硝酸盐的吸收。

参考文献

Liu, L. H., Fan, T. F., Shi, D. X., Li, C. J., He, M. J., Chen, Y. Y., . . . Sun, Y. C. (2018). Coding-Sequence Identification and Transcriptional Profiling of Nine AMTs and Four NRTs From Tobacco Revealed Their Differential Regulation by Developmental Stages, Nitrogen Nutrition, and Photoperiod. Front Plant Sci, 9, 210. doi:10.3389/fpls.2018.00210

2021年10月13日2022年4月28日

全球干旱加剧下的植物胁迫记忆作用

写在最前面

大三上的时候上了一门课《全球变化生物学》，老师讲的挺有趣，我也十分感兴趣，就在课外阅读写相关文献，邻近期末了发现这些看过的文献竟然可以按照自己的理解串成一个故事，就试着写一写。

摘要

为了大家省时间快速康康我葫芦里在卖什么药，我直接上一份摘要。
在全球气候变暖的背景下，全球干旱呈现出更频繁、更持久的特点。而植物对于干旱胁迫具有“记忆”行为，这种行为的机理可能与信号物质的积累以及表观遗传的变化有关。这种记忆行为从个体上提高个体存活，通过雄性不育控制后代性别从而促进群体的存活，而我们可以通过育种、沟灌等方式利用植物的胁迫记忆。

一、全球气候变化背景

在人类的整个历史进程中，地球的气候都在不断发生变化，而这种气候变化的原因大多归于地球轨道上的微小变化。但是目前全球气候变暖的趋势具有与众不同的意义，其原因在于大量的证据表明，现代全球气候变暖现象很大可能源于19世纪中期以来的人类活动。根据NASA以及IPCC的第五次气候评估报告，全球温度自1880年观测升高了2.0℉；二氧化碳比例于工业革命前提高了47%（自185ppm升高到280ppm）。其结果导致了北极冰川以每十年13.1%的速度下降；南极冰盖以每年1490亿吨的质量流失；海平面以每年3.3mm的速率上升(Lindgren, 2014)。
对于全球农业生产，全球气候变暖的同时导致了全球极端气候发生的频率和强度增加，植物将面对更为严重和频繁的包括高温、干旱在内的气候胁迫。在这些胁迫之中，对于农业生产最为重要的胁迫为干旱胁迫。随着全球气候的变化，干旱胁迫一方面逐渐频繁；另一方面由于全球气温的增加，干旱的恢复周期不断增长（图1）。也就是说，植物必须面对更加频繁和持久的干旱胁迫。

关于这个干旱缺水，NASA做过一个美国的动图和预测，因为这里放不了动图，有兴趣的读者可以去搜搜。

二、植物干旱胁迫记忆

在关注全球干旱胁迫的同时，我们观察到植物对于干旱胁迫具有的“记忆行为”。在干旱胁迫中，我们注意到一些受到过干旱胁迫的植株，与未受到过干旱胁迫的植株相比，在下一次干旱胁迫来临时呈现出截然不同的表现（为受过胁迫的植株易萎蔫，而受过胁迫的植株正常生长）(Kinoshita & Seki, 2014)。植物的这种行为与人类的记忆呈现出一定的相似性，为了进一步探究这种有趣的现象，有研究对植物进行的持续的、间或的干旱胁迫。通过对野生拟南芥进行干旱胁迫，再进行浇水恢复生长，其中拟南芥的分离出正常生长与“迟缓生长”两种状态，进一步的，对“迟缓生长”的拟南芥表型施加持续不断的干旱胁迫和恢复，发现其与正常生长的拟南芥即使在相同生长条件下也呈现出了截然不同的生长状态，经过不断胁迫的拟南芥植株表现为“迟缓生长”的状态(Peter A. Crisp，Diep Ganguly, 2016)（图2）。
科学奖们将植物的这种类似于人类的记忆的植物生长行为称为植物胁迫记忆（plant stress memory），而这种有趣的植物生长现象背后的机理是所有植物研究工作者所关注的。

三、干旱胁迫记忆机理

1.胁迫记忆信号的积累

植物现状与植物基因的相关性已被揭示，为了研究干旱胁迫背后的机理，研究将重点指向了植物干旱胁迫响应过程中的基因表达的变化。通过培养经过不同干旱胁迫周期的拟南芥植株，在表型上观察到植株的保水性状随着干旱胁迫“训练”周期数的增加而不断增强（图3a、b）。因此，研究选取了与植物保水性状有关的代表性基因（RD29A、RD29B、COR15A、COR18），通过分析其在不断胁迫过程中的基因表达变化，得到RD29A、COR15A在不断的胁迫与恢复过程中呈现为震荡的状态（图4a、b）；而RD29B、COR18在不断的胁迫和恢复过程中呈现为逐渐波动上升的状态（图4c、d）。研究证明在植物干旱胁迫记忆的建立过程中，植物的某些基因的表达也形成了记忆机制(Ding, Fromm, & Avramova, 2012)。

在植物免疫记忆的研究中，发现了一类“信号放大器”，在植物产生免疫防御响应后再植物体内合成积累，当下一次免疫防御发生时，植物的免疫信号通过“信号放大器”进行快速传递和放大，使得植物体快速建立免疫防御(Conrath, 2011)。类比于植物免疫记忆的机理，研究对植物干旱胁迫记忆建立过程中的各种代谢物与转录因子进行了测定，发现在植物干旱胁迫的过程中，各种转录因子和基因都表达上升，而随着水分条件的改善，进入恢复期，大部分转录因子的表达回归到胁迫前，而一类持久调节的关键信号代谢物和转录因子在植物胁迫记忆的过程中持续保持的较高水平(Peter A. Crisp，Diep Ganguly, 2016)（图5）。因此，我们猜测在植物通过相关基因中间信号物质（或类似于“信号放大器”）的积累，实现了植物对于频繁干旱胁迫的快速响应和记忆。

2．表观遗传的变化

在对拟南芥的干旱胁迫实验便已发现，这个胁迫记忆具有一定程度上的可遗传性，对于环境引起的可遗传的性状，一个常用的解释方向便是表观遗传。因此研究开始关注表观遗传与干旱胁迫记忆的关系。
基于这个前提和假设，在对拟南芥的保水性状基因的研究上更近一步，使用一类组蛋白H3K4me3的甲基转移酶atx1，抑制组蛋白上的甲基化过程。通过实验发现，两类基因的表达量都发生了显著降低(Ding et al., 2012)（图6），这可以说明表观遗传过程（或者说甲基化过程）参与到了与胁迫记忆有关的基因的调控中。

在这时，MSH基因的发现，为研究植物干旱胁迫记忆提供了全新的工具。在植物干旱胁迫的过程中发现了MSH1基因的表达显著变化，随着进一步的研究发现MSH1对控制叶绿体和线粒体的基因温度性具有重要作用，且这种作用是通过控制叶绿体和线粒体基因的表观遗传实现。通过使用Ti质粒插入msh1基因（msh1-TDNA）、对msh1基因进行基因沉默（msh1-RNAi）构建拟南芥，与野生型（WT）以及具有胁迫记忆的拟南芥（msh1-memory）进行比较，通过测定发现在具有胁迫记忆的拟南芥植株中，msh1的表达显著降低（图7a、b）；更近一步，通过5-氮杂胞苷（DNA甲基化的一种抑制剂）处理上述的四类拟南芥植株，发现由msh1表达差异导致的表型差异（叶面积）消失（图7c、d），至此确认MSH1记忆通过甲基化作用影响植物干旱胁迫记忆(Yang et al., 2020)。

经过一系列的研究，科学家给出了MSH1控制表观遗传的机理，即外界胁迫（如干旱）抑制MSH1基因表达，从而导致线粒体内基因的DNA重排，分泌PEP至叶绿体，叶绿体产生WHY1至细胞核，细胞核接受信号介导细胞核的DNA甲基化（图8），从而使得植物在表观遗传上做出响应。(Mackenzie & Kundariya, 2020)

3.其他机理

除去信号物质的积累和表观遗传变化，植物干旱胁迫记忆或者广义上的植物胁迫记忆涉及到如植物激素、FLC基因（图9），这里便不进行展开。(Peter A. Crisp，Diep Ganguly, 2016)

四、干旱胁迫记忆的意义

植物建立的干旱胁迫记忆，一方面，使得其叶面积减少、保水能力增强，提升其在多变气候条件下的生存能力；另一方面，有研究指出干旱胁迫记忆的产生可以会对植物的生殖产生影响，从而提高整个群落在不稳定环境的生存能力。
这一作用过程可能涉及到MSH1基因的表达，且最先在烟草中观察到。通过基因沉默技术构建MSH1基因沉默的烟草，通过电泳验证了两者在MSH1基因表达上的差异，实验得到MSH1基因沉默的烟草植株生长功能受到抑制而导致雄性不育（图10）(Ajay Pal S. Sandhu, 2007)。在拟南芥的研究中也发现MSH1基因抑制而导致的雄性不育(Mackenzie & Kundariya, 2020)，这种对于胁迫的响应，我们将其理解为群体为了适应不稳定且恶劣的自然环境，而减少后代中的雄性个体，增加雌性个体，以增强后代群体的生殖能力，以便于整个群体的存活。

五、胁迫记忆的应用

1.利用MSH1基因选育雄性不育材料

随着现代生物技术的快速发展，利用基因工程选育雄性不育材料已经成为了植物雄性不育研究的热点之一。目前已知的雄性不育都是由于线粒体基因组的基因异常所致，而MSH1就是维持线粒体基因组稳定性的重要基因之一，因此通过控制MSH1基因的表达，理论能够实现对后代雄性不育的控制，加之这种技术可以得到稳定遗传的后代，在杂交种制种上具有可观的应用价值。

2.增强植物适应能力

有研究已经指出，通过将野生植株与MSH1表达抑制的植株体作为砧木（即具有胁迫记忆的植株）进行嫁接，得到的植株具有更高的活力（图11），且这种活力可遗传而可以扩大到田生产(Kundariya et al., 2020)。

3.指导农业生产

在农业生产中，沟灌是常常使用的一项沟灌技术，而干湿交替沟灌（SWDFI）、固定干湿沟灌（FWDFI）与传统沟灌法（TFI）相比（图12）具有更好的效果而被广泛采用，而其原理都为人为的制造局部干旱胁迫。有研究指出，干湿交替沟灌与传统沟灌相比在相同的灌溉水平下具有更高的产量和品质，且植物的水利用效率更高(Sarker et al., 2016)。

参考文献

Ajay Pal S. Sandhu, R. V. A., and Sally A. Mackenzie. (2007). Transgenic induction of mitochondrial rearrangements for cytoplasmic male sterility in crop plants. PNAS, February 6, 2007 104 (6) 1766-1770.

Conrath, U. (2011). Molecular aspects of defence priming. Trends Plant Sci, 16(10), 524-531. Retrieved from https://www.ncbi.nlm.nih.gov/pubmed/21782492. doi:10.1016/j.tplants.2011.06.004

Ding, Y., Fromm, M., & Avramova, Z. (2012). Multiple exposures to drought 'train' transcriptional responses in Arabidopsis. Nat Commun, 3, 740. Retrieved from https://www.ncbi.nlm.nih.gov/pubmed/22415831. doi:10.1038/ncomms1732

Kinoshita, T., & Seki, M. (2014). Epigenetic memory for stress response and adaptation in plants. Plant Cell Physiol, 55(11), 1859-1863. Retrieved from https://www.ncbi.nlm.nih.gov/pubmed/25298421. doi:10.1093/pcp/pcu125

Kundariya, H., Yang, X., Morton, K., Sanchez, R., Axtell, M. J., Hutton, S. F., . . . Mackenzie, S. A. (2020). MSH1-induced heritable enhanced growth vigor through grafting is associated with the RdDM pathway in plants. Nat Commun, 11(1), 5343. Retrieved from https://www.ncbi.nlm.nih.gov/pubmed/33093443. doi:10.1038/s41467-020-19140-x

Lindgren, M. (2014). Climate Change 2014 Synthesis Report Summary for PolicymakersChapter. IPCC, AR5.

Mackenzie, S. A., & Kundariya, H. (2020). Organellar protein multi-functionality and phenotypic plasticity in plants. Philos Trans R Soc Lond B Biol Sci, 375(1790), 20190182. Retrieved from https://www.ncbi.nlm.nih.gov/pubmed/31787051. doi:10.1098/rstb.2019.0182

Peter A. Crisp，Diep Ganguly, S. R. E., Justin O. Borevitz and Barry J. Pogson. (2016). Reconsidering plant memory: Intersections between stress recovery, RNA turnover, and epigenetics. Science Advances, Vol. 2, no. 2, e1501340.

Sarker, K. K., Akanda, M. A. R., Biswas, S. K., Roy, D. K., Khatun, A., & Goffar, M. A. (2016). Field performance of alternate wetting and drying furrow irrigation on tomato crop growth, yield, water use efficiency, quality and profitability. Journal of Integrative Agriculture, 15(10), 2380-2392. doi:10.1016/s2095-3119(16)61370-9

Yang, X., Sanchez, R., Kundariya, H., Maher, T., Dopp, I., Schwegel, R., . . . Mackenzie, S. A. (2020). Segregation of an MSH1 RNAi transgene produces heritable non-genetic memory in association with methylome reprogramming. Nat Commun, 11(1), 2214. Retrieved from https://www.ncbi.nlm.nih.gov/pubmed/32371941. doi:10.1038/s41467-020-16036-8

2021年10月13日2022年4月28日

植物ICP数据的综合分析

引言

我们要对植物内元素含量进行测定，因此就直接上了ICP。实验中植物使用了微波消解法与干灰化法两种方法（具体试验步骤见同一文集的推文）。得到的机读数据如下。

library(xlsx)
library(readxl)
setwd("C:/Users/Administrator/Desktop/已办/土壤植物环境下/土壤植物环境分析实验-ICP/微波消解法")
shuju_ICP<-read_xls("20210512-微波消解.xls")
names(shuju_ICP)[1:2]<-c("处理","样品号")
shuju_ICP

处理    样品号  B 249.677 Ca 317.933 Cu 327.393 Fe 238.204  K 766.490 Mg 285.213 Mn 257.610 Na 589.592   P 213.617 Zn 206.200
1   ck1 Sample011 0.005 mg/L 8.215 mg/L 0.064 mg/L 0.182 mg/L 0.714 mg/L 0.996 mg/L 0.005 mg/L 1.025 mg/L -0.145 mg/L 0.139 mg/L
2   ck2 Sample012 0.009 mg/L 5.202 mg/L 0.061 mg/L 0.168 mg/L 0.442 mg/L 0.479 mg/L 0.004 mg/L 1.050 mg/L -0.158 mg/L 0.040 mg/L
3     1 Sample013 0.072 mg/L 64.31 mg/L 0.151 mg/L 13.05 mg/L 156.4 mg/L 23.16 mg/L 0.620 mg/L 4.375 mg/L  32.23 mg/L 0.507 mg/L
4     2 Sample014 0.085 mg/L 70.85 mg/L 0.151 mg/L 5.475 mg/L 117.9 mg/L 18.36 mg/L 0.422 mg/L 2.577 mg/L  28.99 mg/L 0.538 mg/L
5     3 Sample015 0.072 mg/L 66.55 mg/L 0.054 mg/L 4.136 mg/L 119.3 mg/L 18.37 mg/L 0.419 mg/L 2.319 mg/L  31.56 mg/L 0.390 mg/L
6     4 Sample016 0.070 mg/L 61.66 mg/L 0.123 mg/L 13.34 mg/L 153.8 mg/L 23.78 mg/L 0.692 mg/L 3.008 mg/L  33.31 mg/L 0.479 mg/L
7     5 Sample017 0.073 mg/L 63.93 mg/L 0.126 mg/L 13.77 mg/L 156.5 mg/L 24.11 mg/L 0.634 mg/L 2.993 mg/L  32.91 mg/L 0.477 mg/L
8     6 Sample018 0.085 mg/L 72.04 mg/L 0.148 mg/L 5.476 mg/L 121.8 mg/L 18.36 mg/L 0.419 mg/L 4.261 mg/L  28.50 mg/L 0.621 mg/L
9     7 Sample019 0.072 mg/L 61.74 mg/L 0.140 mg/L 13.67 mg/L 156.7 mg/L 24.06 mg/L 0.591 mg/L 3.870 mg/L  31.92 mg/L 0.448 mg/L
10    8 Sample020 0.073 mg/L 61.38 mg/L 0.144 mg/L 12.64 mg/L 146.8 mg/L 22.76 mg/L 0.666 mg/L 3.046 mg/L  33.00 mg/L 0.537 mg/L
11    9 Sample021 0.090 mg/L 69.35 mg/L 0.101 mg/L 5.636 mg/L 124.6 mg/L 19.29 mg/L 0.433 mg/L 2.150 mg/L  29.62 mg/L 0.398 mg/L
12   10 Sample022 0.067 mg/L 69.30 mg/L 0.176 mg/L 13.61 mg/L 153.6 mg/L 24.18 mg/L 0.608 mg/L 3.862 mg/L  32.34 mg/L 0.503 mg/L
13   11 Sample023 0.068 mg/L 59.15 mg/L 0.110 mg/L 12.85 mg/L 152.8 mg/L 23.42 mg/L 0.604 mg/L 3.103 mg/L  32.49 mg/L 0.429 mg/L
14   12 Sample024 0.067 mg/L 61.64 mg/L 0.137 mg/L 13.21 mg/L 155.4 mg/L 23.95 mg/L 0.595 mg/L 3.238 mg/L  31.65 mg/L 0.462 mg/L
15   17 Sample025 0.086 mg/L 66.45 mg/L 0.112 mg/L 5.685 mg/L 122.8 mg/L 18.11 mg/L 0.429 mg/L 2.005 mg/L  28.42 mg/L 0.406 mg/L
16   18 Sample026 0.071 mg/L 75.88 mg/L 0.215 mg/L 13.46 mg/L 156.8 mg/L 24.84 mg/L 0.611 mg/L 6.337 mg/L  31.99 mg/L 0.513 mg/L
17   19 Sample027 0.069 mg/L 61.68 mg/L 0.123 mg/L 13.14 mg/L 158.0 mg/L 23.98 mg/L 0.629 mg/L 3.025 mg/L  33.54 mg/L 0.462 mg/L
18   20 Sample028 0.089 mg/L 78.73 mg/L 0.164 mg/L 5.250 mg/L 122.7 mg/L 18.97 mg/L 0.424 mg/L 3.248 mg/L  28.65 mg/L 0.511 mg/L
19   21 Sample029 0.071 mg/L 59.89 mg/L 0.117 mg/L 13.22 mg/L 151.1 mg/L 23.20 mg/L 0.635 mg/L 2.743 mg/L  32.82 mg/L 0.449 mg/L
20   22 Sample030 0.070 mg/L 66.57 mg/L 0.164 mg/L 12.67 mg/L 158.5 mg/L 24.35 mg/L 0.605 mg/L 3.423 mg/L  33.06 mg/L 0.455 mg/L
21   23 Sample031 0.075 mg/L 70.88 mg/L 0.195 mg/L 4.250 mg/L 134.5 mg/L 21.61 mg/L 0.432 mg/L 4.883 mg/L  34.66 mg/L 0.447 mg/L
22   24 Sample032 0.071 mg/L 70.40 mg/L 0.209 mg/L 13.25 mg/L 161.7 mg/L 25.22 mg/L 0.599 mg/L 7.407 mg/L  32.50 mg/L 0.470 mg/L
23   25 Sample033 0.074 mg/L 63.17 mg/L 0.121 mg/L 13.32 mg/L 161.8 mg/L 24.87 mg/L 0.590 mg/L 3.567 mg/L  32.09 mg/L 0.452 mg/L
24   26 Sample034 0.101 mg/L 69.16 mg/L 0.112 mg/L 5.264 mg/L 126.7 mg/L 20.21 mg/L 0.417 mg/L 2.975 mg/L  29.20 mg/L 0.411 mg/L

数据提取

观察干灰化法与微波分解法的ICP原始数据，发现数据采用类似的格式，即为“数值+空格+ mL/L”的数据格式。根据此项数据格式，以空格划分数据，提取数值部分。

shuju2_ICP<-data.frame(shuju_ICP[1])

for(a in c(3:12)){
  c<-c()
  for(i in shuju_ICP[[a]]){
    string<-strsplit(i,split = " ")
    string<-unlist(string)[1]
    string<-as.numeric(string)
    c<-c(c,string)
  }
  shuju2_ICP<-data.frame(shuju2_ICP,c)
}
names(shuju2_ICP)[-1]<-names(shuju_ICP)[3:12]
print(shuju2_ICP)

数据输出如下

> head(shuju2_ICP)
  处理 B 249.677 Ca 317.933 Cu 327.393 Fe 238.204 K 766.490 Mg 285.213 Mn 257.610 Na 589.592 P 213.617 Zn 206.200
1  ck1     0.005      8.215      0.064      0.182     0.714      0.996      0.005      1.025      0.00      0.139
2  ck2     0.009      5.202      0.061      0.168     0.442      0.479      0.004      1.050      0.00      0.040
3    1     0.072     64.310      0.151     13.050   156.400     23.160      0.620      4.375     32.23      0.507
4    2     0.085     70.850      0.151      5.475   117.900     18.360      0.422      2.577     28.99      0.538
5    3     0.072     66.550      0.054      4.136   119.300     18.370      0.419      2.319     31.56      0.390
6    4     0.070     61.660      0.123     13.340   153.800     23.780      0.692      3.008     33.31      0.479

观察数据的两个CK部分，发现存在负值的数据值，将负值的数据值人为调整为0。

for(a in c(1:2)){
  for(b in c(2:11)){
    if(shuju2_ICP[a,b]<0){
      shuju2_ICP[a,b]<-0
    }}}
shuju_CK<-shuju2_ICP[1:2,]
print(shuju_CK)

输出CK组数据

> shuju_CK
  处理 B 249.677 Ca 317.933 Cu 327.393 Fe 238.204 K 766.490 Mg 285.213 Mn 257.610 Na 589.592 P 213.617 Zn 206.200
1  ck1     0.005      8.215      0.064      0.182     0.714      0.996      0.005      1.025         0      0.139
2  ck2     0.009      5.202      0.061      0.168     0.442      0.479      0.004      1.050         0      0.040

依照土植环实验的经验，将所有数据按如下方式进行分组：1组（1、4、7、10、19、22、25号）、2组（2、5、8、11、20、23、26号）、3组（3、6、9、12、21、24号）。其中以下的数据分析只使用微波消解法数据，原因在于缺少各组样品质量的数据，而干灰化法的称量处于0.3000-0.3500g的范围；微波消解的称量范围为0.2990-0.3010g，相比而言用微波消解法的溶液浓度数据当做植物元素浓度数据具有更小的误差并具有分析意义，因此，我们假设微波消解法各组样品的称样量为0.3000g，同一组内具有多个重复。

group_1<-seq(from=1,to=26,by=3)
group_2<-seq(from=2,to=26,by=3)
group_3<-seq(from=3,to=26,by=3)
shuju2_ICP<-within(shuju2_ICP[-1:-2,],{
                   组别<-NA
                   组别[处理%in% group_1] <- 1
                   组别[处理%in% group_2] <- 2
                   组别[处理%in% group_3 ]<- 3
                     })
shuju2_ICP<-data.frame(shuju2_ICP[12],shuju2_ICP[1],shuju2_ICP[2:11])
print(shuju2_ICP)

提取的样品数据根据1-12号样品扣除CK1,17-26号样品扣除CK2得到扣除空白的数据列表

shuju2_ICP$处理<-as.numeric(shuju2_ICP$处理)
for(b in c(3:12)){
  for(a in c(1:22)){
    if(shuju2_ICP[a,2]<=14){
      shuju2_ICP[a,b]<-shuju2_ICP[a,b]-shuju_CK[1,b-1]
    }else{
      shuju2_ICP[a,b]<-shuju2_ICP[a,b]-shuju_CK[2,b-1]
    }}}
print(shuju2_ICP)

进行到这里，数据提取与整理完毕，如下显示最后提取的数据

> shuju2_ICP
   组别 处理 B.249.677 Ca.317.933 Cu.327.393 Fe.238.204 K.766.490 Mg.285.213 Mn.257.610 Na.589.592 P.213.617 Zn.206.200
3     1    1     0.067     56.095      0.087     12.868   155.686     22.164      0.615      3.350     32.23      0.368
4     2    2     0.080     62.635      0.087      5.293   117.186     17.364      0.417      1.552     28.99      0.399
5     3    3     0.067     58.335     -0.010      3.954   118.586     17.374      0.414      1.294     31.56      0.251
6     1    4     0.065     53.445      0.059     13.158   153.086     22.784      0.687      1.983     33.31      0.340
7     2    5     0.068     55.715      0.062     13.588   155.786     23.114      0.629      1.968     32.91      0.338
8     3    6     0.080     63.825      0.084      5.294   121.086     17.364      0.414      3.236     28.50      0.482
9     1    7     0.067     53.525      0.076     13.488   155.986     23.064      0.586      2.845     31.92      0.309
10    2    8     0.068     53.165      0.080     12.458   146.086     21.764      0.661      2.021     33.00      0.398
11    3    9     0.085     61.135      0.037      5.454   123.886     18.294      0.428      1.125     29.62      0.259
12    1   10     0.062     61.085      0.112     13.428   152.886     23.184      0.603      2.837     32.34      0.364
13    2   11     0.063     50.935      0.046     12.668   152.086     22.424      0.599      2.078     32.49      0.290
14    3   12     0.062     53.425      0.073     13.028   154.686     22.954      0.590      2.213     31.65      0.323
15    2   17     0.077     61.248      0.051      5.517   122.358     17.631      0.425      0.955     28.42      0.366
16    3   18     0.062     70.678      0.154     13.292   156.358     24.361      0.607      5.287     31.99      0.473
17    1   19     0.060     56.478      0.062     12.972   157.558     23.501      0.625      1.975     33.54      0.422
18    2   20     0.080     73.528      0.103      5.082   122.258     18.491      0.420      2.198     28.65      0.471
19    3   21     0.062     54.688      0.056     13.052   150.658     22.721      0.631      1.693     32.82      0.409
20    1   22     0.061     61.368      0.103     12.502   158.058     23.871      0.601      2.373     33.06      0.415
21    2   23     0.066     65.678      0.134      4.082   134.058     21.131      0.428      3.833     34.66      0.407
22    3   24     0.062     65.198      0.148     13.082   161.258     24.741      0.595      6.357     32.50      0.430
23    1   25     0.065     57.968      0.060     13.152   161.358     24.391      0.586      2.517     32.09      0.412
24    2   26     0.092     63.958      0.051      5.096   126.258     19.731      0.413      1.925     29.20      0.371

异常值的剔除与各组数据集中程度的衡量

数据异常值的剔除

这里我们使用箱型图来检测异常值，通过对微波消解法各组数据进行箱型图的绘制，以小于Q1-1.5IQR或大于Q3+1.5IQR作为异常值的划定标准，检测到四个异常值并在箱型图上进行标注。对于检测出的异常值，我们较为保守的进行了保留。

par(mfrow=c(2,5))
for(i in c(3:12)){
  box<-boxplot(shuju2_ICP[[i]]~shuju2_ICP[[1]],data = shuju2_ICP,
          main=names(shuju2_ICP)[i],
          xlab = "组别",
          ylab = "溶液浓度")
  out.vals=box$out
  for (a in out.vals) {
    text(a,adj = -0.2,labels = a)
  }
}

在Mn和Na组分别检测到了1个和2个异常值。我们发现报告异常值大多来自于Na的测定，我们猜测是由于Na的污染（如汗液）导致Na组异常值偏多。
通过箱型图可以得到在大部分的元素测定数据中，1组数据具有较其他两组数据更好的集中程度

正态性检验

library(car)
par(mfrow=c(2,2))
shuju2_ICP$组别<-as.character(shuju2_ICP$组别)
qqPlot(lm(shuju2_ICP$B.249.677~shuju2_ICP$组别),
      simulate = T,main=names(shuju2_ICP)[3],labels=F)
qqPlot(lm(shuju2_ICP$Ca.317.933~shuju2_ICP$组别),
      simulate = T,main=names(shuju2_ICP)[4],labels=F)
qqPlot(lm(shuju2_ICP$Cu.327.393~shuju2_ICP$组别),
      simulate = T,main=names(shuju2_ICP)[5],labels=F)
qqPlot(lm(shuju2_ICP$Fe.238.204~shuju2_ICP$组别),
      simulate = T,main=names(shuju2_ICP)[6],labels=F)
qqPlot(lm(shuju2_ICP$K.766.490~shuju2_ICP$组别),
      simulate = T,main=names(shuju2_ICP)[7],labels=F)
qqPlot(lm(shuju2_ICP$Mg.285.213~shuju2_ICP$组别),
      simulate = T,main=names(shuju2_ICP)[8],labels=F)
qqPlot(lm(shuju2_ICP$Mn.257.610~shuju2_ICP$组别),
      simulate = T,main=names(shuju2_ICP)[9],labels=F)
qqPlot(lm(shuju2_ICP$Na.589.592~shuju2_ICP$组别),
      simulate = T,main=names(shuju2_ICP)[10],labels=F)
qqPlot(lm(shuju2_ICP$P.213.617~shuju2_ICP$组别),
      simulate = T,main=names(shuju2_ICP)[11],labels=F)
qqPlot(lm(shuju2_ICP$Zn.206.200~shuju2_ICP$组别),
      simulate = T,main=names(shuju2_ICP)[12],labels=F

方差齐次分析我们这里进行了偷懒，因为单因素方差分析对于方差是否齐次并不敏感，即使不通过方差齐次性检验，还是建议通过aov方法进行单因素方差分析

单因素方差分析

attach(shuju2_ICP)
data_result1<-aov(B.249.677~组别)
summary(data_result1)
data_result2<-aov(Ca.317.933~组别)
summary(data_result2)
data_result3<-aov(Cu.327.393~组别)
summary(data_result3)
data_result4<-aov(Fe.238.204~组别)
summary(data_result4)
data_result5<-aov(K.766.490~组别)
summary(data_result5)
data_result6<-aov(Mg.285.213~组别)
summary(data_result6)
data_result7<-aov(Mn.257.610~组别)
summary(data_result7)
data_result8<-aov(Na.589.592~组别)
summary(data_result8)
data_result9<-aov(P.213.617~组别)
summary(data_result9)
data_result10<-aov(Zn.206.200~组别)
summary(data_result10)

各元素数据方差分析结果（只显示最终结果）		B	Ca	Cu	Fe	K	Mg	Mn	Na	P	Zn
Pf(>F)	0.0736	0.391	0.988	0.0348	0.0217	0.0562	0.0572	0.37	0.202	0.986
*	*

备注：标注*为差异显著（95%）；标注**为差异极显著（99%）

多重比较

使用TukeyHSD方法

par(mfrow=c(1,2))
tuk_Fe<-aov(shuju2_ICP$Fe.238.204~shuju2_ICP$组别)
tuk_Fe<-TukeyHSD(tuk_Fe)
plot(tuk_Fe)
tuk_k<-aov(shuju2_ICP$K.766.490~shuju2_ICP$组别)
tuk_k<-TukeyHSD(tuk_k)
plot(tuk_k)

2021年10月13日2021年10月13日

土壤肥力的测定和评价

一、土壤肥力测定的意义及其作用

土壤是化学、生物和物理过程相互作用的复杂系统，为了获得高产的栽培作物，必须很好的平衡这些相互作用。农业的生产力和作物的产量在很大程度上取决于土壤的营养成分和营养状况。因此，通过合适方法了解土壤营养状况是确保作物高产的基础。
通过土壤肥力的测定，一方面，可以了解土壤矿质营养的丰缺程度，以指导农业生产中肥料种类和施用量的确定；另一方面，可以根据测定的土壤物理、化学和生物参数评价土壤状况，选择适宜的种植作物并指导其进行土壤改良。
随着社会的发展进步，土壤测试已经逐渐成为确保作物产量的重要实践。一方面，逐渐发展的机械化导致农业种植的规模逐渐增加，对肥料科学施用的要求愈发强烈；另一方面，合成氨技术的发展，使得作物具有了更高的产量，这导致了大量的作物养分，特别是土壤磷和钾资源的枯竭。因此，土壤肥力的测定对作物生产起到了愈发重要的作用。

二、土壤养分测试的原理和流程

土壤养分的目标是测定土壤中与植物生长息息相关的土壤矿质营养成分或者其他物理化学指标，因此其要求测定指标与作物的生长需求具有一定的相关性。土壤测试的流程包括了：1）确定分析项目 2）田间采样 3）样品处理 4）选择分析方法 5）室内分析。为了确保测定参数的准确性、以及和作物生长的相关性，一方面要求田间采样具有代表性（本文不进行深入讨论）；另一方面要求选定的样品处理方法和测定方法所测定参数能很好反映了作物的生长需求，其中最为重要的则是土壤样品的浸提步骤。
在土壤养分分析的发展历史中，诞生了许许多多测定方法，这些方法大多是采用了不同的浸提剂进行浸提。而在这些方法中，一些与作物生长状况具有良好相关性的方法被广为流传成为了经典方法。下文将从各个项目的测定方法开始，到一些经典方法的介绍，最后对现代的一些土壤分析仪器进行扩展。

三、土壤基本肥力测定

1．有机质的测定

土壤有机质是土壤中各种形态有机化合物的总称，是植物营养元素的重要来源，对土壤的物理化学性质都具有巨大影响。土壤有机质的测定有干烧法、湿烧法、铬酸氧还滴定法和比色法。其中较为广泛使用的为铬酸氧还滴定法，其原理在于通过重铬酸钾氧化有机质,通过亚铁离子在指示剂（邻菲罗啉）下滴定确定重铬酸钾使用量，间接确定有机质含量，根据加热方法不同，又分为外热源法和稀释热法。

2．全氮含量的测定

土壤氮素是植物需要的大量营养元素之一，而植物50%以上的氮来自于土壤。土壤全氮包括了土壤中的无机和有机氮成分。全氮的测定采用干烧法和湿烧法，其中广泛使用的为湿烧法（开式法）。其原理为在催化剂作用下，浓硫酸氧化氮素为铵根离子，通过碱转化为氨被H3BO3吸收后在溴甲酚绿-甲基红指示剂下通过标准酸滴定间接得到全氮含量。

3．全磷含量的测定

土壤全磷测定包含了土壤的有机磷及占大多数的无机磷（磷酸盐为主）。全磷的测定包括样品分解和磷的定量。常用的样品分解方法有碱熔法和酸熔法，一般采取H2SO4-HClO4酸熔法进行样品分解。而磷的定量可采用重量法、滴定法以及比色法，综合各种方法的优缺点，一般采用钼锑抗比色法作为磷定量方法。其原理为通过钼酸与磷产生杂多环，这个杂多环会在还原剂的作用下还原形成兰色-钼兰，在分光光度计下测定。

4．全钾含量测定

土壤全钾的测定包括了土壤矿物结构钾、非交换态钾、交换性态钾和水溶性钾。全钾的测定也包括样品的分解和钾的定量，其中样品的分解多采用HF-HClO4酸溶法进行；而钾的定量普遍采用火焰光度法，在灼烧的状态下通过原子发出的波长光来测量钾的含量。

四、指导施肥的土壤养分测定

1．土壤有效氮的测定

土壤有效氮的测定可以分为可矿化氮的测定、易水解氮的测定和无机氮（硝态氮、亚硝态氮、铵态氮）的测定

（1）土壤可矿化氮测定

可矿化氮的测定采用为微生物对土壤氮进行充分分解矿化，使得易水解有机氮转化为无机氮，通过测定其无机氮含量来计算可矿化氮含量。根据微生物分解矿化的条件，可分为好气培养法和嫌气培养法。

可矿化氮的测定方法	测定条件	优缺点
好气培养法	1）温度：25-35°C 2）水分：50-60%最大持水量 3）时间：2-4周	与N吸收相关性高；条件严格；可靠性较差
嫌气培养法	1）嫌气态 2）温度：30-40°C 3）时间：1-2周	条件易控；快速准确；有反硝化干扰

（2）易水解氮的测定

（3）无机N的测定

硝态氮的测定

硝态氮的定量可采用酚二磺酸与紫外分光光度计的方法，前者通过酚二磺酸在无水条件下与下三反应生成碱性条件下的稳定黄色产物而测定；后者是通过在紫红外波段硝酸根离子的不同吸收特性进行测定。

硝态氮定量方法	条件	干扰	适用范围	优缺点
酚二磺酸法	无水条件；微碱性或保持中性	Cl-、NO2-、重金属、有机质	0.1-2 mg L-1	准确性高；操作繁琐
紫外分光光度法	OH-、CO32-、HCO3-、NO2-、及Fe3+、Cu2+、有机质	快速便捷；准确性较高

亚硝态氮测定

亚硝态氮的测定最常用的为Griess比色法（重氮-偶联法），其原理为亚硝酸根与重氮试剂发生重氮化反应，然后与偶合试剂发生偶合形成红色偶氮化产物而测定

铵态氮测定

铵态氮的测定普遍采用靛酚蓝比色法进行，其通过铵态氮与次磷酸盐和苯酚的作用生成靛酚蓝得以显色，通过测定兰色测定铵态氮量。

2．土壤有效磷测定

3．有效钾的测定

4．Cu、Mn、Zn、Fe的测定

Cu、Mn、Zn、Fe为属于土壤微量元素，其测定与土壤大量元素存在一定差异。由于其在土壤中含量较低且组成复杂，因此往往要求测定过程中不得引入外界离子干扰，且对定量方法的灵敏度具有较高的要求

5．土壤S的测定

6．土壤B的测定

土壤有效B常常使用沸水浸提（水土比2:1，沸腾5min），定量方法常常通过甲亚胺分光光度计进行测定，其原理为甲亚胺与H3BO3形成黄色络合物，在分光光度计下进行测量。

7．土壤Mo的测定

土壤Mo的浸提可以使用沸水直接浸提，但其与植物的相关性较差，一般使用草酸-草酸铵（pH3.3）进行浸提。而其定量可以采用极谱法或者硫氰酸盐分光光度法进行定量。后者是在酸性介质中，硫氰酸盐与Mo6+络合，经过还原得到橙黄色络合物，可以进行比色定量。

8．土壤Cl的测定

土壤Cl测定方法	测定条件	评价
莫尔法	滴定溶液的pH6.5-10.5
Hg(NO3)2滴定法	pH 3.0-3.5	终点明显；试剂有毒
氯电极法	-	终点不明显；简便快速
硫氰酸汞比色法	-	-

9．土壤Ca、Mg测定

土壤Ca、Mg的测定一般采用EDTA配合滴定法，在pH12下以钙红作为指示剂EDTA滴定测定Ca含量，再在pH10条件下以铬黑T作为指示剂测定Ca、Mg合量，通过差值计算得到Mg含量。

10．土壤其他重金属的测定

对于重金属离子的浸提，一条思路是使用螯合剂或者酸对土壤的重金属离子进行螯合和浸提；另一条思路则是通过吸附金属吸附重金属离子后进行测定。对于重金属元素的测定，往往是使用联合浸提剂浸提多种重金属元素后通过AAS或者ICP等仪器手段进行测定。

五、土壤物理参数的测定

1．土壤pH的测定

土壤pH表征了土壤酸度大小，是衡量土壤质量的一个重要指标。常用的pH测定方法有比色法与电位法，其中比色法由于精度较低，常常用于野外的土壤速测，而电位法则是根据指示电极和参比电极之间的电池反应产生的电位差计算pH值的大小，具有准确快速的特点。在测定pH时需遵守以下标准：（1）水土比2.5:1或5:1 （2）浸提剂1mol/L KCl（酸性土）或0.01mol/L CaCl2溶液（中性碱性土）（3）浸提用水为去离子水（4）浸提时间30min （5）粒径1-2mm

2．阳离子交换量的测定

阳离子交换量的测定的基本原理是通过浸提剂交换胶体上的可交换离子，再将游离离子洗去后交换下胶体上的离子进行测定，这便对浸提剂的选择提出了较高的要求。一方面要求浸提剂能够完全交换胶体上的阳离子；另一方面浸提剂的交换离子需要便于测定。而根据测定土壤的酸碱性不同，浸提剂的选择往往也有所不同

（1）酸性中性土壤

往往选择pH 1mol/L的NH4OAc作为浸提剂，由于其具有干扰少，NH4+定量方法多等优点，使得其被广泛使用

（2）石灰性土壤

石灰性土壤含有较多的碳酸钙、碳酸镁，在浸提过程中会参与阳离子交换，因此一般选择pH8.2的缓冲体系以减少其溶解。

浸提剂选择	适用条件
1 mol/L NaOAc（pH 8.2）	含MgCO3多的土壤
BaCl2-三乙醇胺（TEA）（pH 8.2）	含CaCO3多的土壤
NaOAc-NaCl法	含石膏多的土壤
(NH4)2C2O4-NH4Cl快速法	-

六、现代土壤测定仪器

七、土壤测定项目的选择——以顺义农田为例

1．顺义土壤背景状况

根据中国土壤数据库数据可知，顺义土壤为灰黄土，质地多为砂质粘壤土，干旱缺水，pH8.0-8.5，微碱性反应。耕层有机质0.95-1.3%；全氮0.065-0.088%；全磷0.1-0.22%，速效磷7-16ppm；全钾2.0%，速效钾120ppm；Zn 0.95ppm；Cu 2.58ppm；B 0.125ppm；Fe 19ppm ；Mn 13ppm。且顺义区为北京的工业强区，可能存在重金属超标的问题。

2．测定指标与方法

八、土壤养分评价指标体系

土壤测试由于其自身的特点，不同方法对土壤养分的测定不同，且不同作物对土壤养分的需求不同，这就导致了土壤测试很难形成（或者说不可能）一个普适的评价标准。最为精确的评价标准一定是对应于特定的测量方法（下表以俄勒冈州立大学的土壤测试标准为例）；在综合考虑多种测量标准的前提下，可以给出较为粗略的评价标准（下表以第二次土壤普查的土壤分级为例）。

因为土壤标准的难以统一，科学家们便转而开始寻找衡量土壤养分状况的综合指标。根据土壤各项养分的含量我们已经可以给出该项指标的评价，而却无法综合多项指标给出足够信服的综合指标。在这里给出作者猜想的土壤综合评价的思路：首先，通过选定的各项指标标准，为各项指标进行评价打分，在对各项指标进行归一化处理后，先待定土壤各项指标间的权重，计算拟合综合指标与作物产量等性状的相关度，求得相关度最高情况下各指标的相对权重，以此作为土壤综合评价指标的标准。
而在一般情况选，往往采取土壤养分的几个重要值指标（如有机质、全氮、有效氮、有效磷、钾）等作为综合指标的参考。一个例子便是北京市对于土壤养分的等级划分规则，其中选取了有机质、全氮、碱解氮、有效磷和速效钾作为综合指标的衡量参数（这里不做介绍）。基于这种思路，有研究也提出了综合多项养分指标评价土壤养分情况的综合指标QUEFTS。

参考文献

1、Janssen B.H., Guiking F.C.T., van der Eijk D., et al. A system for quantitative evaluation of the fertility of tropical soils (QUEFTS). 1990, 46(4):299-318.

2、D.A. Horneck, D.M. Sullivan, J.S. Owen, and J.M. Hart.Soil Test Interpretation Guide.2011，Affiliation: Oregon Cooperative Extension，EC1478.

3、E.S. Marx, J. Hart, and R.G. Stevens.Soil TestInterpretation Guide.1999，Affiliation: Oregon Cooperative Extension，EC1478.

4、R.L. Westerman.Soil Testing and Plant Analysis, Volume 3, Third Edition.1990，the Soil Science Society of America.

5、Dhotare, V. A., Guldekar, V. D., Bhoyar, S. M., & Ingle, S. N. (2019). Evaluation of Soil Nutrient Index and their Relation with Soil Chemical Properties of Washim Road Farm of Dr.PDKV Akola, Maharashtra, India. International Journal of Current Microbiology and Applied Sciences, 8(09), 1773-1779. doi:10.20546/ijcmas.2019.809.205

6、中国土壤数据库-顺义：http://vdb3.soil.csdb.cn/front/detail-%E6%95%B4%E5%90%88%E6%95%B0%E6%8D%AE%E5%BA%93$integ_cou_soiltype?id=40175

7、R. A. Viscarra Rossel and A. B. McBratney.Soil chemical analytical accuracy and costs: implications from precision agriculture.1998，Australian Journal of Experimental Agriculture 38(7) 765 - 775

写在最后

写完了，呼~可喜可贺。
我写完了，假期也过完了呢（黑化）。
你说学习它还爱我吗？

该页面作为开题答辩的补充页，对答辩研究进度部分信息进行补充，只展示部分关键数据和代码，更细节部分请问我

1.表型数据分析

1.1统计性直方图

1.2 统计性数据分析

1.3相关性分析

2.基因型数据预处理

2.1基因型数据质控

2.1.1基因型数据缺失质控

2.1.2maf质控

2.1.3杂合率质控

2.1.4 数据导出

2.2 群体结构的验证

2.2.1祖先成分的分析

2.2.2群体结构的解析

2.2.3 LD距离的计算

3.1PCA分析

3.1.1基于样本的PCA

3.1.2 基于性状的PCA

4.1亚群数据分析

5.1GWAS分析

5.1.1GWAS分析过程

5.1.2候选基因的选择

6.后续分析

该页面作为开题答辩的补充页，对答辩部分信息进行补充，只展示部分关键数据和代码，更细节部分请问我（手下留情啊~）

1.1试验材料

1.2根系表型的测定

1.3表型数据的分析

（1）统计性分析

(2)统计性分析

(3)相关性分析

1.4 GWAS分析

1.5共表达网络的构建和分析

1.6基因表达量的测定

写在前面

系统发生数数据的获取

系统发生树数据的导出

系统发生树的美化

方式一：通过iTOL平台

方式二：通过R package-ggtree

1、安装package-ggtree

2、读取.new数据

3、具体参数介绍

系统发生树的类型可以自定义

进化树的组件

系统发育树注释

喜闻乐见碎碎念

引物设计要求

引物设计软件

分析步骤

1.下载基因序列数据

通过Primer Premier设计引物

引物序列验证

完毕

写在前面

实验设计

RNA提取试剂盒

注意事项

实验步骤

先康康tassel啥样

先介绍目录框

【file】

【data】

【impute】

【filter】

【analysis】

导入数据

数据质控

观察表型数据

计算协变量

整合数据

进行gwas分析

结果可视化

写在最后

一、实验材料

二、原理

三、实验步骤

1．种子的消毒灭菌

2. 幼苗的平板培养

3．GUS组织化学染色及显微镜观察

结果