MethylGPT mengungkap rahasia DNA untuk prediksi usia dan penyakit

MethylGPT

Dalam studi terkini yang diunggah di server pracetak bioRxiv , para peneliti mengembangkan model pondasi berbasis transformator, MethylGPT, untuk metiloma DNA.

Metilasi DNA merupakan jenis modifikasi epigenetik yang mengatur ekspresi gen melalui protein pengikat metil dan perubahan aksesibilitas kromatin. Metilasi DNA juga membantu menjaga stabilitas genom melalui represi elemen transposabel. Metilasi DNA memiliki ciri-ciri biomarker ideal , dan penelitian telah mengungkap tanda-tanda metilasi yang berbeda di seluruh kondisi patologis, yang memungkinkan diagnostik molekuler.

Meskipun demikian, beberapa tantangan analitik menghambat penerapan diagnostik berdasarkan metilasi DNA. Pendekatan saat ini bergantung pada model statistik dan linier sederhana, yang terbatas dalam menangkap data non-linier yang kompleks. Pendekatan tersebut juga gagal memperhitungkan efek khusus konteks seperti interaksi tingkat tinggi dan jaringan regulasi. Oleh karena itu, kerangka kerja analitis terpadu yang dapat memodelkan pola non-linier yang kompleks dalam berbagai jenis jaringan dan sel sangat dibutuhkan.

Kemajuan terkini dalam model dasar dan arsitektur transformator telah merevolusi analisis sekuens biologis yang kompleks. Model dasar juga telah diperkenalkan untuk berbagai lapisan omik, seperti AlphaFold3 dan ESM-3 untuk proteomik dan Evo dan Enformer untuk genomik. Pencapaian model dasar menunjukkan bahwa analisis metilasi DNA dapat ditransformasikan dengan pendekatan yang serupa.

Studi dan temuan

Dalam studi ini, para peneliti mengembangkan MethylGPT, model dasar berbasis transformator untuk metiloma DNA. Pertama, mereka memperoleh data pada 226.555 profil metilasi DNA manusia yang mencakup berbagai jenis jaringan dari EWAS Data Hub dan Clockbase. Setelah deduplikasi dan kontrol kualitas, 154.063 sampel disimpan untuk prapelatihan. Model tersebut difokuskan pada 49.156 situs CpG, yang dipilih berdasarkan asosiasi yang diketahui dengan berbagai sifat, karena hal ini akan memaksimalkan relevansi biologisnya.

Model ini telah dilatih sebelumnya menggunakan dua fungsi kerugian yang saling melengkapi: kerugian pemodelan bahasa tertopeng (MLM) dan kerugian rekonstruksi profil, yang memungkinkannya untuk secara akurat memprediksi metilasi pada situs CpG yang tertopeng. Model ini mencapai kesalahan kuadrat rata-rata (MSE) sebesar 0,014 dan korelasi Pearson sebesar 0,929 antara tingkat metilasi yang diprediksi dan aktual, yang menunjukkan akurasi prediktif yang tinggi. Para peneliti juga mengevaluasi apakah model tersebut dapat menangkap fitur metilasi DNA yang relevan secara biologis. Dengan demikian, mereka menganalisis representasi yang dipelajari dari situs CpG di ruang penyisipan.

Mereka menemukan bahwa situs CpG dikelompokkan berdasarkan konteks genomiknya, yang menunjukkan bahwa model tersebut mempelajari fitur regulasi metiloma. Selain itu, terdapat pemisahan yang jelas antara autosom dan kromosom seks, yang menunjukkan bahwa MethylGPT juga menangkap fitur kromosom tingkat tinggi. Selanjutnya, tim menganalisis ruang penyisipan zero-shot. Hal ini menunjukkan organisasi biologis yang jelas, yang dikelompokkan berdasarkan jenis kelamin, jenis jaringan, dan konteks genomik.

Jenis jaringan utama membentuk kelompok yang terdefinisi dengan baik, yang menunjukkan bahwa model mempelajari pola metilasi yang khusus untuk jaringan tanpa pengawasan yang jelas. Khususnya, MethylGPT juga menghindari efek batch, yang sering kali membingungkan hasil dalam kumpulan data yang kompleks. Selain itu, sampel wanita dan pria menunjukkan pemisahan yang konsisten, yang mencerminkan perbedaan khusus jenis kelamin. Selanjutnya, para peneliti menilai kemampuan MethylGPT untuk memprediksi usia kronologis dari pola metilasi. Untuk tujuan ini, mereka menggunakan kumpulan data lebih dari 11.400 sampel dari berbagai jenis jaringan.

Penyetelan halus untuk prediksi usia menghasilkan pengelompokan yang bergantung pada usia yang kuat. Khususnya, organisasi terkait usia intrinsik terlihat jelas bahkan sebelum penyetelan halus. Selain itu, MethylGPT mengungguli metode prediksi usia yang ada (misalnya, jam Horvath dan ElasticNet), mencapai akurasi yang unggul. Kesalahan absolut mediannya untuk prediksi usia adalah 4,45 tahun, yang selanjutnya menunjukkan kekokohannya. MethylGPT juga sangat tangguh terhadap data yang hilang. Ia menunjukkan kinerja yang stabil dengan hingga 70% data yang hilang, mengungguli pendekatan multi-layer perceptron dan ElasticNet.

Analisis profil metilasi selama pemrograman ulang sel induk pluripoten terinduksi (iPSC) menunjukkan lintasan peremajaan yang jelas; sampel secara progresif bertransisi ke keadaan metilasi yang lebih muda selama pemrograman ulang. Model tersebut juga mampu mengidentifikasi titik selama pemrograman ulang (hari ke-20) saat sel mulai menunjukkan tanda-tanda pembalikan usia epigenetik yang jelas. Akhirnya, kemampuan model untuk memprediksi risiko penyakit dinilai. Model yang telah dilatih sebelumnya disempurnakan untuk memprediksi risiko 60 penyakit dan kematian. Model tersebut mencapai area di bawah kurva sebesar 0,74 dan 0,72 pada set validasi dan pengujian, masing-masing.

Selain itu, mereka menggunakan kerangka prediksi risiko penyakit ini untuk mengevaluasi dampak delapan intervensi terhadap insiden penyakit yang diprediksi. Intervensi tersebut meliputi penghentian merokok, latihan intensitas tinggi, dan diet Mediterania, di antaranya, yang masing-masing menunjukkan tingkat efektivitas yang berbeda-beda di seluruh kategori penyakit. Hal ini menunjukkan efek spesifik intervensi yang berbeda di seluruh kategori penyakit, yang menyoroti potensi MethylGPT dalam memprediksi hasil spesifik intervensi dan mengoptimalkan strategi intervensi yang disesuaikan.

Leave a Reply

Your email address will not be published. Required fields are marked *