|
當前位置
TCGA生存數據包
做腫瘤研究的過程中,生存分析是一個很常見的研究分析,研究者可以根據生存分析的結果判斷某個因素,比如基因表達,對患者預后生存的影響。 TCGA這個腫瘤研究的寶庫包含了多個腫瘤?Cancer Types Index的生存數據,一直以來都是數據挖掘的寶庫。 我們本次收集了大家廣泛研究的基因集(GeneSet),分析這些基因在TCGA的不同腫瘤類型中與病人生存期的關系。每個基因集分別進行基因表達與生存數據的Cox回歸分析、KM生存分析、風險指數建模以及與病人多個臨床因素的關聯等分析。 本分析花費6天6夜給大家帶來豐富內容: 結果按照基因集和腫瘤類型組合分別存儲為獨立數據包,可供選擇。另外也接受基因集私人定制。 兩百多個與腫瘤相關的GeneSet分別在TCGA的33種腫瘤中進行分析,GeneSet使用的為GSEA的。
參考文獻: 1?. A Multivariable Prediction Model for Pneumocystis jirovecii Pneumonia in Hematology Patients with Acute Respiratory Failure?Am J Respir Crit Care Med. 2018 Dec 15;198(12):1519-1526. doi: 10.1164/rccm.201712-2452OC. 2?. Plasma biomarkers of risk for death in a multicenter phase 3 trial with uniform transplant characteristics post–allogeneic HCT?Blood. 2017 Jan 12;129(2):162-170. doi: 10.1182/blood-2016-08-735324. Epub 2016 Nov 8. 3?. Deep learning for lung cancer prognostication: A retrospective multi-cohort radiomics study? PLoS Med. 2018 Nov 30;15(11):e1002711. doi: 10.1371/journal.pmed.1002711. eCollection 2018 Nov. Lancet. 2019 Dec 7;394(10214):2084-2095. doi: 10.1016/S0140-6736(19)32259-7. Epub 2019 Nov 29. Lancet. 2017 Mar 4;389(10072):917-929. doi: 10.1016/S0140-6736(17)30123-X. Epub 2017 Jan 24. If you have questions or problems using the data please send them to yunbios . Also lets us know if you find it's useful in your work. 以ACC(腎上腺皮質癌)為例,展示本次分析結果: 基因表達與生存期的Cox回歸
Cox 比例風險回歸模型。生存分析模型,即Kaplan-Meiersurvival estimate,是單變量分析(univariable analysis),在做單變量分析時,模型只描述了該單變量和生存之間的關系而忽略其他變量的影響。(為什么要考慮multi-variables?比如在比較兩組病人擁有和不擁有某種基因型對生存率的影響,但是其中一組的患者年齡較大,所以生存率可能受到基因型或/和年齡的共同影響) 同時,Kaplan-Meier方法只能針對分類變量(治療A vs 治療B,男 vs 女),不能分析連續變量對生存造成的影響。 為了解決上述兩種問題,Cox比例風險回歸模型(Cox proportional hazards regression model)就被提了出來。 本分析首先進行單元的和多元的cox回歸分析,找到與生存顯著的基因,再拿顯著的基因進行下游研究。 單元cox回歸:
多元cox回歸:
多元和單元cox回歸表格:
生存概率
2.1 Kaplan-Meier survival estimate
2.2Log-Rank test 比較不同的生存曲線 在利用KM方法得到多條生存曲線后,只通過直接的觀察來確定多條曲線之間是否具有顯著性差異是不充分的。因此,log-rank test被廣泛的用來比較兩條或多條生存曲線。 1)log-rank test是一種非參數檢驗,因此對于生存概率的分布沒有任何假設; 2)同時,log-rank test 的nullhypothesis(原假設)為兩個曲線代表的兩個組之間,在生存率上沒有顯著性差異。 3)log-rank test比較的是每個組中觀察到的事件數,與在原假設為真的情況下,每個組期望的事件數。 4)log-rank test統計量類似于卡方檢驗(Chi-squaretest)的統計量 **部分的顯著基因,分別畫出km圖(兩種類型的km圖,可根據喜好挑選):
臨床信息的統計
該部分可得到感興趣基因與病人臨床信息(如轉移、淋巴結等)的關系,為課題設計和后續實驗的方向提供思路。 有兩個主要的結果,一個是按照基因表達高低分組,比較兩組病人的臨床信息的差異(存放在ClinicCompare目錄中),另一個是用熱圖的形式展示出基因表達與病人臨床信息的關系(存放在ClinicHeatmap目錄下)。 3.1 臨床信息的差異檢驗: 顯著的特征用黃色標出。
3.2 臨床統計的熱圖: 上半部分為基因表達的分布,下半部分熱圖為病人的臨床信息的分類。
風險指數模型建立
對于每個GeneSet,我們使用里面的基因建立生存期的預測模型,包含以下分析內容: 1)訓練集與測試集 TCGA數據病人按照7:3隨機分成訓練集(training data)和測試集(testing data)。訓練集用于預測模型的參數訓練和相關基因集的選擇,測試集用于檢驗訓練集給出的參數和基因集的預測能力。整個建模分為以下幾步: 1.只用訓練集的數據,每個基因進行單元cox回歸,初步篩選相關基因; 2.所有單元cox顯著的基因,進行1000次LASSO運算,得到每個基因的出現頻率,并排序; 3.按照以上排序,遞增構建基因集,每個基因集進行多元cox回歸,求得每個基因的貢獻度; 4.獲得**基因集合,再計算一次多元cox回歸,確定每個基因的回歸系數; 5.以上回歸系數計算每個病人的死亡風險指數; 6.該死亡風險指數模型在訓練集中測試(預測情況與實際情況比較); 7.同一模型在起初獨立出的測試集里面進行測試(預測情況與實際情況比較)。 2)、機器學習(Lasso)構建**多元COX模型 在統計學和機器學習中,Lasso算法(英語:least absoluteshrinkage and selection operator,又譯最小絕對值收斂和選擇算子、套索算法)是一種同時進行特征選擇和正則化(數學)的回歸分析方法,旨在增強統計模型的預測準確性和可解釋性。Lasso是一種采用了L1正則化(L1-regularization)的線性回歸方法,采用了L1正則會使得部分學習到的特征權值為0,從而達到稀疏化和選擇變量、構建**模型的目的。 LASSO 回歸的特點是在擬合廣義線性模型的同時進行變量篩選(variable selection)和復雜度調整(regularization)。因此,不論目標因變量(dependent/responsevaraible)是連續的(continuous),還是二元或者多元離散的(discrete),都可以用 LASSO 回歸建模然后預測。這里的變量篩選是指不把所有的變量都放入模型中進行擬合,而是有選擇的把變量放入模型從而得到更好的性能參數。 3)、基因panel的風險指數分析 對上述得到的基因Panel,我們根據表達情況和多元回歸系數,對每一個樣本計算了風險指數(Risk Score)。公式如下:
xi代表各個基因Panel中基因的表達量,βi為每個基因對應的多元COX回歸beta值(multi_beta)。 樣本依據風險指數以中位數為界分為高指數組與低指數組,進行Kaplan-Meier生存分析,繪制生存曲線。 同時基于風險指數,繪制了一年、三年、五年生存期的ROC曲線。 結果: 風險模型的系數:
訓練集和測試集的ROC曲線評估模型準確性:
高低風險組的生存曲線比較:
病人的風險指數打分表:
以及高低風險組的臨床信息統計,同上,存放在ClinicHeatmap\RiskModel和ClinicCompare\RiskModel中:
|