測試調用測試設計Survival生存曲線繪制軟件環境微生物多樣性軟件轉錄組分析軟件轉錄組軟件購買重測序軟件環境微生物多樣性軟件(1)桌面軟件中藥空間代謝組學檢測中藥非靶代謝組檢測中藥活性成分鑒定中藥入血/入靶成分分析中藥組學ATAC-seqCHIP-seqHi-C測序基因調控OmicsBeanMicrobe Trakr(微生物基因組鑒定分析工具)網頁分析系統WEB分析系統澳洲血清 BovineBD科研管KAPAQIAGENThermoFisherMVE液氮罐4titude? 樣品管標記系統Hi-C建庫試劑盒及基因組組裝軟件無血清細胞凍存液Cell Freezing Medium納米流式檢測儀lexogen支原體檢測試劑盒儀器試劑耗材數據庫開發數據中心TCGA生存數據包功能醫學報告系統開發PlantArray植物生理組平臺特色服務單細胞測序空間轉錄組測序空間代謝組DSP空間蛋白質組FFPE石蠟包埋組織單細胞轉錄組解決方案:10×Flex空間多組學類器官葉綠體、線粒體基因組測序染色體級別基因組組裝Hi-C建庫基因芯片一代測序動植物基因組de novo測序細菌基因組測序真菌基因組測序病毒基因組測序簡化基因組遺傳圖譜測序簡化基因組GWAS測序基因組重測序表觀組基因分型外顯子捕獲目標區域捕獲簡化基因組遺傳圖譜性狀定位掃描圖DNA中5-hmC圖譜測定全基因組甲基化測序真菌基因組掃描圖測序epiGBS-簡化甲基化BSA混池測序基因組SSR開發基因組(DNA)UMI-RNAseq轉錄組測序真核有參轉錄組測序真核無參轉錄組測序原核鏈特異性轉錄組測序全轉錄組測序circRNA測序Lnc RNA測序Small RNA測序circRNA芯片表達譜芯片m6A甲基化測序互作轉錄組測序降解組測序UMI-RNAseqSLAM-seq測序(RNA代謝測序)轉錄組(RNA)三代全長擴增子Meta-Barcoding(eDNA)技術研究微生物多樣性二代測序宏基因組測序宏基因組Binning分析宏基因組抗性基因測序HiC-Meta宏基因組宏轉錄組差異表達測序宏病毒組測序環境DNAHiFi-Meta宏基因組腸道菌群臨床檢測基于腸道菌群檢測和移植的腸道微生態學科建設宏基因組元素循環測序三代宏基因組宏基因組免疫球蛋白測序(Mig-seq)腸道宏基因組絕對定量醫學宏病毒組測序微生物組蛋白組代謝組抗體芯片Raybiotech芯片蛋白芯片蛋白芯片中藥代謝組ENGINE-生物標志物檢測服務ENGINE-抗體特異性服務4D蛋白質組Raybiotech芯片OLINK精準蛋白質組學解決方案常規定量蛋白質組蛋白質組定性分析靶向蛋白質組學修飾蛋白質組學非靶向代謝組學靶向代謝組學脂質組學新一代代謝組學 NGM ProLenioBio無細胞蛋白表達系統ALAMAR超靈敏蛋白組學及蛋白標志物轉化平臺超高深度血液蛋白質組蛋白和代謝組GC-MS全代謝組LC-MS全代謝組靶向代謝組脂質組學代謝組學反向色譜柱原理的DNA/RNA提取技術分子生物學CRISPR基因編輯細胞定制細胞株構建iPS構建CRISPR/Cas9DNA甲基化修飾細胞FAQ基因編輯切片圖像掃描組織芯片免疫組化微量基因組建庫專家病理切片數字存檔多色免疫熒光組織透明化技術服務病理形態學數據陪護擴增子時序分析基因突變體克隆動物中心小動物疾病模型構建和檢測服務基因編輯小鼠動物實驗支原體污染檢測服務細胞系遺傳背景鑒定細胞系鑒定外泌體全轉錄組測序外泌體分離與鑒定PBA單外泌體鄰近編碼技術PBA單外泌體蛋白質組學分析服務PBA單外泌體蛋白組樣本指南PBA外泌體免疫相關文獻外泌體專題甲基化APOBEC偶聯甲基化測序ACE-seq焦磷酸測序cfDNA甲基化測序DNA甲基化測序850K甲基化芯片935K甲基化芯片全基因組甲基化測序(WGBS)簡化基因組甲基化測序 (RRBS)目標區域甲基化測序 (Targeted Bisulfite Sequencing)甲基化DNA免疫沉淀測序 (MeDIP-seq)氧化-重亞硫酸鹽測序 (oxBS-seq)TET-重亞硫酸鹽測序(TAB-seq)5hmC-Seal,超高靈敏度的羥甲基化檢測羥甲基化免疫共沉淀測序 (hMeDIP-seq)DNA 6mA免疫沉淀測序 (6mA-IP Seq)甲基化專題RNA修飾研究專題免疫印跡(Western-blot)技術服務定量Western檢測Simoa單分子免疫分析qPCRCNVSNPPGM測序PCR array數字PCR精準檢測ATAC-SeqChIP-SeqRIP-Seq基因調控Ribo-seq核糖體印跡測序技術Active Ribo-seq活躍翻譯組測序技術翻譯組數據分析數據庫構建數據價值提升10x官方發布樣本準備樣本要求樣本取材以及樣本編號技巧精簡版細胞庫組織庫動物模型轉錄組樣本準備蛋白組樣本準備代謝組樣本準備Hi-C單細胞與空間轉錄組單細胞懸液外泌體Raybiotech蛋白芯片Simoa樣本準備PBA單外泌體樣本準備ASA基因分型芯片樣本準備NULISA超靈敏蛋白組樣本準備Olink 精準蛋白組樣品準備CyTOF質譜流式樣本準備樣本準備要求表單留言板SaaS 幫助搜索Mac谷歌瀏覽器2019國自然基金查詢生信相關工具集合數據分析項目信息單提交資料分享核酸抽提產品資料轉錄組軟件教學視頻微生物多樣性軟件教學視頻Lexogen產品培訓視頻Olink精準蛋白組學專題在線學習空間轉錄組文獻PBA單外泌體蛋白組文獻NULISA微量蛋白檢測文獻OLINK精準蛋白組文獻項目進度個人中心會員登錄會員注冊購物車聯系我們公眾號手機商城公司愿景知識分享文獻展示
當前位置
TCGA生存數據包

做腫瘤研究的過程中,生存分是一個很常見的研究分析,研究者可以根據生存分析的結果判斷某個因素,比如基因表達,對患者預后生存的影響。

TCGA這個腫瘤研究的寶庫包含了多個腫瘤?Cancer Types Index的生存數據,一直以來都是數據挖掘的寶庫。

我們本次收集了大家廣泛研究的基因集(GeneSet,分析這些基因在TCGA不同腫瘤類型中與病人生存期的關系。每個基因集分別進行基因表達與生存數據的Cox回歸分析、KM生存分析、風險指數建模以及與病人多個臨床因素的關等分析。

本分析花費6天6夜給大家帶來豐富內容:

結果按照基因集和腫瘤類型組合分別存儲為獨立數據包,可供選擇。另外也接受基因集私人定制。

兩百多個與腫瘤相關的GeneSet分別在TCGA的33種腫瘤中進行分析,GeneSet使用的為GSEA的。


H: hallmark gene sets
(browse 50 gene sets)
We envision this collection as the starting point for your exploration of the MSigDB resource and GSEA. Hallmark gene sets summarize and represent specific well-defined biological states or processes and display coherent expression. These gene sets were generated by a computational methodology based on identifying gene set overlaps and retaining genes that display coordinate expression. The hallmarks reduce noise and redundancy and provide a better delineated biological space for GSEA. We refer to the original overlapping gene sets, from which a hallmark is derived, as its 'founder' sets. Hallmark gene set pages provide links to the corresponding founder sets for deeper follow up.

This collection is an initial release of 50 hallmarks which condense information from over 4,000 original overlapping gene sets from v4.0 MSigDB collections C1 through C6. We refer to the original gene sets as "founder" sets.

Hallmark gene set pages provide links to the corresponding founder sets for more in-depth exploration. In addition, hallmark gene set pages include links to microarray data that served for refining and validation of the hallmark signatures.

To cite your use of the collection, and for further information, please refer to Liberzon A, Birger C, Thorvaldsdóttir H, Ghandi M, Mesirov JP, Tamayo P. The Molecular Signatures Database (MSigDB) hallmark gene set collection. Cell Syst. 2015 Dec 23;1(6):417-425.


C6: oncogenic signatures
(browse 189 gene sets)

Gene sets represent signatures of cellular pathways which are often dis-regulated in cancer. The majority of signatures were generated directly from microarray data from NCBI GEO or from internal unpublished profiling experiments which involved perturbation of known cancer genes. In addition, a small number of oncogenic signatures were curated from scientific publications.

To cite your use of the collection, and for further information, please refer toEmerging landscape of oncogenic signatures across human cancers.Ciriello G et al. Nat Genet. (2013)Oncogenic pathway signatures in human cancers as a guide to targeted therapies.Bild AH et al. Nature. (2006)




3.png


?ACC腎上腺皮質癌)為例,展示本次分析結果?


參考文獻:


1?. A Multivariable Prediction Model for Pneumocystis jirovecii Pneumonia in Hematology Patients with Acute Respiratory Failure?

2018 Dec 15;198(12):1519-1526. doi: 10.1164/rccm.201712-2452OC.

2?. Plasma biomarkers of risk for death in a multicenter phase 3 trial with uniform transplant characteristics post–allogeneic HCT?

2017 Jan 12;129(2):162-170. doi: 10.1182/blood-2016-08-735324. Epub 2016 Nov 8.

3?. Deep learning for lung cancer prognostication: A retrospective multi-cohort radiomics study?


2018 Nov 30;15(11):e1002711. doi: 10.1371/journal.pmed.1002711. eCollection 2018 Nov.

4?. Weekly dose-dense chemotherapy in first-line epithelial ovarian, fallopian tube, or primary peritoneal carcinoma treatment (ICON8): primary progression free survival analysis results from a GCIG phase 3 randomised controlled trial?


2019 Dec 7;394(10214):2084-2095. doi: 10.1016/S0140-6736(19)32259-7. Epub 2019 Nov 29.

5?. First-line ceritinib versus platinum-based chemotherapy in advanced ALK-rearranged non-small-cell lung cancer (ASCEND-4): a randomised, open-label, phase 3 study?


2017 Mar 4;389(10072):917-929. doi: 10.1016/S0140-6736(17)30123-X. Epub 2017 Jan 24.


   If you have questions or problems using the data   please   send them to yunbios . Also lets us know if you find   it's   useful   in your work.



ACC腎上腺皮質癌)為例,展示本次分析結果:

基因表達與生存期的Cox回歸

Cox 比例風險回歸模型。生存分析模型,即Kaplan-Meiersurvival estimate,是單變量分析(univariable analysis),在做單變量分析時,模型只描述了該單變量和生存之間的關系而忽略其他變量的影響。(為什么要考慮multi-variables?比如在比較兩組病人擁有和不擁有某種基因型對生存率的影響,但是其中一組的患者年齡較大,所以生存率可能受到基因型/年齡的共同影響)

同時,Kaplan-Meier方法只能針對分類變量(治療A vs 治療B,男 vs 女),不能分析連續變量對生存造成的影響。

為了解決上述兩種問題,Cox比例風險回歸模型(Cox proportional hazards regression model)就被提了出來。


本分析首先進行單元的和多元的cox回歸分析,找到與生存顯著的基因,再拿顯著的基因進行下游研究。

單元cox回歸:

4.png

多元cox回歸:

5.png

多元和單元cox回歸表格:

6.png

生存概率

2.1 Kaplan-Meier survival estimate

7.png

2.2Log-Rank test 比較不同的生存曲線


在利用KM方法得到多條生存曲線后,只通過直接的觀察來確定多條曲線之間是否具有顯著性差異是不充分的。因此,log-rank test被廣泛的用來比較兩條或多條生存曲線。


1)log-rank test是一種非參數檢驗,因此對于生存概率的分布沒有任何假設;

2)同時,log-rank test 的nullhypothesis(原假設)為兩個曲線代表的兩個組之間,在生存率上沒有顯著性差異。

3)log-rank test比較的是每個組中觀察到的事件數,與在原假設為真的情況下,每個組期望的事件數。

4)log-rank test統計量類似于卡方檢驗(Chi-squaretest)的統計量


**部分的顯著基因,分別畫出km圖(兩種類型的km圖,可根據喜好挑選):

8.png

9.png


臨床信息的統計

該部分可得到感興趣基因與病人臨床信息(如轉移、淋巴結等)的關系,為課題設計和后續實驗的方向提供思路。


有兩個主要的結果,一個是按照基因表達高低分組,比較兩組病人的臨床信息的差異(存放在ClinicCompare目錄中),另一個是用熱圖的形式展示出基因表達與病人臨床信息的關系(存放在ClinicHeatmap目錄下)。

3.1 臨床信息的差異檢驗:

顯著的特征用黃色標出。

10.png

3.2 臨床統計的熱圖:

上半部分為基因表達的分布,下半部分熱圖為病人的臨床信息的分類。

11.png


風險指數模型建立

對于每個GeneSet,我們使用里面的基因建立生存期的預測模型,包含以下分析內容:

1)訓練集與測試集

TCGA數據病人按照7:3隨機分成訓練集(training data)和測試集(testing data)。訓練集用于預測模型的參數訓練和相關基因集的選擇,測試集用于檢驗訓練集給出的參數和基因集的預測能力。整個建模分為以下幾步:

1.只用訓練集的數據,每個基因進行單元cox回歸,初步篩選相關基因;       

2.所有單元cox顯著的基因,進行1000LASSO運算,得到每個基因的出現頻率,并排序;       

3.按照以上排序,遞增構建基因集,每個基因集進行多元cox回歸,求得每個基因的貢獻度;       

4.獲得**基因集合,再計算一次多元cox回歸,確定每個基因的回歸系數;       

5.以上回歸系數計算每個病人的死亡風險指數;       

6.該死亡風險指數模型在訓練集中測試(預測情況與實際情況比較);     

7.同一模型在起初獨立出的測試集里面進行測試(預測情況與實際情況比較)。

2)、機器學習(Lasso)構建**多元COX模型

       在統計學和機器學習中,Lasso算法(英語:least absoluteshrinkage and selection operator,又譯最小絕對值收斂和選擇算子、套索算法)是一種同時進行特征選擇和正則化(數學)的回歸分析方法,旨在增強統計模型的預測準確性和可解釋性。Lasso是一種采用了L1正則化(L1-regularization)的線性回歸方法,采用了L1正則會使得部分學習到的特征權值為0,從而達到稀疏化和選擇變量、構建**模型的目的。        LASSO 回歸的特點是在擬合廣義線性模型的同時進行變量篩選(variable selection)和復雜度調整(regularization)。因此,不論目標因變量(dependent/responsevaraible)是連續的(continuous),還是二元或者多元離散的(discrete),都可以用 LASSO 回歸建模然后預測。這里的變量篩選是指不把所有的變量都放入模型中進行擬合,而是有選擇的把變量放入模型從而得到更好的性能參數。

3)、基因panel的風險指數分析

       對上述得到的基因Panel,我們根據表達情況和多元回歸系數,對每一個樣本計算了風險指數(Risk Score)。公式如下:

a.gif

xi代表各個基因Panel中基因的表達量,βi為每個基因對應的多元COX回歸beta值(multi_beta)。       

樣本依據風險指數以中位數為界分為高指數組與低指數組,進行Kaplan-Meier生存分析,繪制生存曲線。       

同時基于風險指數,繪制了一年、三年、五年生存期的ROC曲線。

結果:

風險模型的系數:

b.png

訓練集和測試集的ROC曲線評估模型準確性:

c.png

高低風險組的生存曲線比較:

d.png

病人的風險指數打分表:

e.png

以及高低風險組的臨床信息統計,同上,存放在ClinicHeatmap\RiskModelClinicCompare\RiskModel中:

f.png