自闭症的早期诊断标志物 这篇推文简单介绍了这类研究的基本思路。
原文 An Exploratory Examination of Neonatal Cytokines and Chemokines as Predictors of Autism Risk: The Early Markers for Autism Study 中的统计方法如下
偏最小二乘判别分析(PLS-DA) 是一种用于判别分析的多变量统计分析方法。判别分析是一种根据观察或测量到的若干变量值,来判断研究对象如何分类的常用统计分析方法。其原理是对不同处理样本(如观测样本、对照样本)的特性分别进行训练,产生训练集,并检验训练集的可信度。
偏最小二乘回归(Partial least squares regression) 与 主成分回归 相关,但不是寻找响应变量和自变量之间最大方差 超平面 ,而是通过投影分别将预测变量和观测变量投影到一个新空间,来寻找一个 线性回归 模型。因为数据 X 和 Y 都会投影到新空间,PLS系列的方法都被称为双线性因子模型(bilinear fator models)。当Y是分类数据时称为偏最小二乘判别分析(Partial least squares Discriminant Analysis, PLS-DA)。
我的理解:建立一个线性回归模型来预测分类。
ropls: PCA, PLS(-DA) and OPLS(-DA) for multivariate analysis and feature selection of omics data
使用R包ropls进行PLS-DA