DeepMind açık kaynak AlphaFold, protein tahmin modeli "Nature" üzerinde

Yazar | on yıl Editör | Camel

AlphaFold'un ün kazandığı savaşı hatırlıyor musunuz?

2 Kasım 2018'de 13. Küresel Protein Yapısı Tahmin Yarışması'nda (CASP), AlphaFold, 98 katılımcı arasında birinci sırada 43 proteinden 25'inin yapısını tahmin ederek en yüksek puanı kazandı.

DeepMind'in tahmin yöntemiyle ilgili olarak, o sırada yayınlanan belirli bir makale olmadığından, birçok bilim insanı olağanüstü hesaplama gücünün AlphaFold'u şampiyon yaptığına inanıyordu.

15 Ocak'ta, DeepMind'in AlphaFold modeli ve kodu meslektaş incelemesinden geçti ve "nature" dergisinde yayınlandı. Model ve kod açık kaynaklıdır.

Kod: https: // github .com / deepmind / deepmind-araştırma / ağaç / ana / alphafold_casp13

Model: https: // www. biorxiv.org/content/10.1101/846279v1.full.pdf

DeepMind'in girişine göre, protein yapılarının fiziksel özelliklerini tahmin etmede tahmin modelleri oluşturmak için iki farklı yöntem kullanılmaktadır. Ve her iki yöntem de derin sinir ağlarına göre tasarlanmıştır.Ayrıca, tahmin modeli esas olarak gen dizisindeki proteinin özelliklerinin tahminini tamamlar.Bu özellikler şunları içerir: a: eşleştirilmiş amino asitler arasındaki mesafe; b: bu amino asitleri birbirine bağlamak Kimyasal bağlar arasındaki açı.

Her iki görüntü görüntüleme yöntemi de AlphaFold'un tahmininin doğruluğunu ifade eder Piksel parlaklığı amino asitler arasındaki mesafeyi temsil eder.Piksel rengi ne kadar parlaksa, kalıntı çifti o kadar yakın olur. İlk resim satırı gerçek mesafedir ve resimlerin orta satırı ortalama mesafeyi gösterir.

Spesifik işlem adımı, proteindeki her bir kalıntı çiftinin olasılık dağılımını tahmin etmek için sinir ağını kullanmak ve ardından bu olasılıkları bir skorda birleştirmek, böylece protein yapısını tahmin etmenin doğruluğu tahmin edilebilir. Ek olarak, tüm mesafelerin toplamına dayalı olarak tahmin edilen protein yapısının gerçek yapıya ne kadar yakın olduğunu değerlendirmek için ayrı bir sinir ağı eğitildi. Ardından, en iyi tahmini bulmak için bir puanlama sistemi (ayrıca bir sinir ağıyla oluşturulmuş) kullanın.

Protein yapısı tahmininin tüm süreci

İkinci yöntem, daha doğru doğruluk elde etmek için puanı optimize etmek için gradyan inişini kullanmaktır. Daha spesifik olarak, sadece protein açılmasının "fragmanlarına" değil, tüm protein yapı zincirinin tahmin sürecine gradyan inişinin uygulanması.

Model tanıtımı

https: // www. biorxiv.org/content/10.1101/846279v1.full.pdf

DeepMindın yayınlanan makalesine göre "Tahmin edilen kalıntılar arası yönelimleri kullanarak gelişmiş protein yapısı tahmini". AlphaFold, derin öğrenme ve geleneksel algoritmaların bir karışımıdır: CNN + Rosetta.

Spesifik olarak, kalıntılar arasındaki yönü ve mesafeyi tahmin etmek için bir sinir ağı oluşturulur ve daha sonra, protein yapısı homolojisini modellemek ve onarmak için Rosetta kullanılır. Aynı zamanda, Rosetta enerji fonksiyonunun tahmin kısıtlamalarını desteklemek ve ardından daha doğru bir model oluşturmak için bir Rosetta optimizasyon yöntemi tasarlanmıştır. Eğitim veri setinin tamamı doğal proteinler olmasına rağmen, model her zaman yeni tasarlanmış proteinlere daha yüksek olasılık atar ve kalıntıları belirleyen anahtar kıvrımları bulur ve protein yapısı "idealliğinin" bağımsız bir kantitatif ölçümünü oluşturur. .

Daha spesifik olarak, model iki anahtar kısımdan oluşur: biri derin bir rezidüel evrişimli sinir ağıdır, yani girdi olarak çoklu sekans hizalamaları (çoklu sekans hizalamaları) kullanılır; çıktı bilgisi, proteindeki kalıntı çiftlerinin göreceli bilgisidir. Mesafe ve yön. Diğeri ise, kalıntı çiftlerinin mesafesini ve yönünü en aza indirmek için ağ çıkışına dayalı hızlı bir Rosetta modeli (hızlı Rosetta modeli) oluşturmaktır.

Eğitim veri setleri açısından, DeepMind tarafından kullanılan protein veritabanı (PDB), aşağıdakiler de dahil olmak üzere 15051 protein zinciri bilgisi içerir. 30 % İşaretli veridir.

Modelin testiyle ilgili olarak, DeepMind iki bağımsız test seti kullanır: Birincisi CASP13'ten ve ikincisi CAMEO deneyinden. Ek olarak, CASP13 veri setinde DeepMind, simüle etmek için alan dizisi yerine tam protein dizisini kullanır.

Açıklama: A: Bir kalıntıdan diğerine geçişi belirtmek için açı ve mesafeyi kullanın. B: Sinir ağı yapısı MSA'ya dayalı olarak kalıntılar arasındaki geometriyi tahmin eder; C: Tahmin sürecine genel bakış

Kalıntılar arasındaki geometrik tahmin açısından, DeepMind derin artık sinir ağlarını kullanır. Çoğu tahmin yönteminin aksine, ~ arasındaki mesafeyi tahmin etmenin yanı sıra, DeepMind ayrıca kalıntı çiftleri arasındaki konumu da tahmin eder. Yukarıdaki şekilde gösterildiği gibi, kalıntı 1 ve kalıntı 2 arasındaki yönelim 3 dihedral açı ve 2 düzlem açısı ile temsil edilir. Burada imag, hayali eksen (iki tortuyu birleştiren atom) boyunca dönme açısını temsil eder. Açı, kalıntı 1'den kalıntı 2'nin C atomuna olan yönü tanımlar ve aynısı doğrudur. Ek olarak, d ve 'den farklı olarak, ve koordinatları, kalıntıların sırasına bağlı olarak asimetriktir. Özet olarak, 6 parametre d ve, iki kalıntının omurga atomlarının göreceli pozisyonlarını tanımlar Bu 6 parametre ayrıca sinir ağı tarafından da tahmin edilir.

Sinir ağının girdisi, MSA'dan çıkarılan özelliklerdir ve dinamik işlemler gerçekleştirilir. Tek boyutlu girdi özellikleri şunları içerir: protein amino asit dizisinin bir sıcak kodlaması, konuma özgü frekans matrisi ve konumsal entropi. Daha sonra bu tek boyutlu özellikler yatay ve dikey olarak döşenir ve ardından 2 × 42 = 84 iki boyutlu özellik haritası oluşturmak için bir araya getirilir.

Ek olarak, DeepMind, MSA'dan girdi MSA tarafından oluşturulan indirgenmiş kovaryans matrisinin tersinden türetilen eşleştirme ile temsil edilen eşleştirme istatistik bilgilerini çıkarır. İlk önce bir sitenin (tek site) ve iki sitenin (iki site) sıklık sayısını hesaplayın, hesaplama formülü aşağıdaki gibidir:

Bunlar arasında, A ve B sırasıyla amino asitlerin özelliklerini temsil eder ve , MSA'daki dizi sayısının tersi olan ve m dizisi ile en az% 80 dizi homolojisine sahip olan Kronecker fonksiyonudur. onların arasında

Daha sonra örnek kovaryans matrisini hesaplayın, formül aşağıdaki gibidir:

Sonra, küçüldükten sonra (yani köşegene sabit bir ağırlık ekleyerek düzenleyerek), tersini bulun (doğruluk matrisi olarak da bilinir):

Norm dönüşümü:

Son değişiklik:

Yukarıdaki formüller sırasıyla şunlardır: matrisin satırları ve sütunları ve ortalama değer.

Spesifik eğitim sürecinde, DeepMind değerlendirme için çapraz entropi kullanır ve değerlendirme sonucu, toplam kayıp, aynı ağırlığa sahip 4 şube ağının kayıplarının toplamına eşittir. Ek olarak, 1e-4 öğrenme oranına sahip Adam optimize ediciyi kullanarak, Bırakma% 85'lik bir olasılık sağlar. Ve giriş MSA'larını logaritmik bir ölçekte rasgele örnekleyin ve uzunluk, 30 0 amino asitli büyük proteinler rastgele dilimlenir.

Daha sonra mesafe dağılımı için, olasılık değeri aşağıdaki denklemle bir puana dönüştürülür:

Yukarıdaki formülde, a bir sabittir (= 1.57), bu i-inci bölmenin mesafesi, i-inci bölmenin mesafesinin olasılığı ve N toplam bölme sayısıdır.

Yönlerin dağılımı için, normalizasyonu dikkate almadan, olasılığı puana dönüştürme formülü şöyledir:

Son olarak, tüm puanlar Rosetta aracılığıyla pürüzsüz potansiyel enerjiye dönüştürülür ve potansiyel enerji kısıtlamalarla en aza indirilir.

Tüm modeli özetlemek gerekirse, onu şu şekilde özetleyebiliriz: bir protein dizisi oluşturmak, bir yapı ve bir puan oluşturmak, puandan memnun olup olmadığınıza karar vermek ve memnun değilseniz başka bir tane oluşturmak.

Kod tanıtımı

AI Technology Review, github adresini aşağıda tekrar veriyor ve ilgilenen okuyucular acele edip deneyin!

https: // github .com / deepmind / deepmind-araştırma / ağaç / ana / alphafold_casp13

Temsili öğrenmenin yedi araştırma ilerlemesine genel bakış, grafik sinir ağları, yorumlanabilir yapay zeka, makine öğrenimi ve robotik
önceki
AAAI 2020 | Bilgisayar Teknolojisi Enstitüsü'nden WeChat AI: Eğitim hedeflerini iyileştirin ve otoregresif olmayan modellerin (açık kaynaklı) çeviri kalitesini iyileştirin
Sonraki
Bayesci sinir ağları anlamsız mı? Barut dolu Twitter ve Reddit ikili savaş alanı tartışması
ICLR 2020 | 15.000 sinir ağını eğitin, NAS'ı hızlandırın ve aramayı yalnızca 0,1 saniyede tamamlayın
AAAI 2021 konferansının yeni başkanı olarak, Profesör Yang Qiang'ın düşündüğü "makine öğreniminin sınır sorunları" nelerdir?
AAAI 2020 | Kuaishou: Görüntü estetiğinin değerlendirmesini yeniden inceleyin ve vurguların odağını bulun
Yapay sinir ağı çok ilkel. "Bilim" in yeni çalışması, nöronların dendritlerinin aynı zamanda hesaplama gücü anlamına geldiğini ortaya koyuyor.
Deep Transformer, NLP'de nasıl etkin bir şekilde kullanılır?
Paper Today | Küçük örnek öğrenme; görsel duyarlılık sınıflandırması; sinir mimarisi araması; doğal görüntü anahtarlama vb.
2020'de AI akademik topluluğunda ani bir tartışma: Derin öğrenme nedir?
AAAI 2020 | Pekin Üniversitesi ve Şanghay Jiaotong Üniversitesi: Aktif hedef takibi elde etmek için tutum destekli çoklu kamera işbirliği
Kalp Atışı Anormalliği Tespit Yarışması: 2020'de sağlığa bir adım daha atın
Today Paper | Sivrisinek çağrısı veri seti; konuşma tanımanın doğruluğunu artırın; ikili dikkat öneri sistemi vb.
AAAI 2020 | Bilgisayar Teknolojisi Enstitüsü'nden Feng Yang Grubu: Makine çevirisinin akıcılığını ve doğruluğunu iyileştirmek için değerlendirme modüllerini tanıtın (açık kaynaklı)
To Top