Genom sekans analizi için K-Ortalamalarını ve PCA'yı kullanma COVID-19 bundan sonra nasıl mutasyona uğrayacak?

Kaynak: DeepHub IMBA

Yazar: Andre Ye

Bu makale hakkında 2420 kelime , Okumanız tavsiye edilir 5 dakika

Bu makale, COVID-19'un genom dizisini analiz etmek için K-Ortalamalarının ve PCA'nın nasıl kullanılacağını açıklamaktadır.

Pek çok insan, tıpkı dünyadaki diğer canlılar gibi hayatta kalmak için mücadele eden virüslerin gelişmesini veya mutasyona uğramasını beklemiyordu.

Yarasalar tarafından insan virüslerinden taşınan viral RNA dizisi parçalarına bakın.

AAAATCAAAGCTTGTGTTGAAGAAGTTACAACAACTCTGGAAGAAACTAAGTT

Ve insan COVID-19 virüsünün RNA dizisinden bir alıntı

AAAATTAAGGCTTGCATTGATGAGGTTACCACAACACTGGAAGAAACTAAGTT

... Açıktır ki, koronavirüs yeni konağına uyum sağlamak için iç yapısını değiştirmiştir (daha doğrusu koronavirüsün iç yapısının yaklaşık% 20'si mutasyona uğramıştır), ancak yine de orijinal türde olabileceği kadar canlılığını sürdürmektedir. Vücutta hayatta kalma.

Aslında araştırmalar, COVID-19'un tekrarlanan mutasyonlar yoluyla hayatta kalma oranlarını artırabildiğini göstermiştir. Koronavirüs ile mücadelede sadece virüsü ortadan kaldırmanın bir yolunu bulmamız değil, aynı zamanda virüsü nasıl mutasyona uğratacağımızı ve bu mutasyonları nasıl kontrol altına alacağımızı da bulmamız gerekiyor.

Bu yazıda ben ...

  • RNA dizisinin basit bir açıklamasını sağlayın
  • Genomik bilgi kümesi oluşturmak için K-Means'i kullanın
  • Kümeyi görselleştirmek için PCA kullanın ... ve deneyim kazanmak için gerçekleştirdiğimiz her programı analiz edin.

Genom dizisi nedir?

RNA dizileri hakkında temel bir anlayışınız varsa, lütfen bu bölümü atlayın.

"Kod çözme" ile karşılaştırıldığında, genom dizileme genellikle bir numuneden ekstrakte edilen deoksiribonükleik asidin (DNA) analiz edilmesi sürecidir. Her normal hücrede 23 çift kromozom vardır ve bu kromozomlar DNA'yı tutar.

DNA'nın sarmal çift sarmal yapısı, bir yamuğa genişlemesine izin verir. Merdiven, kimyasal harf çiftlerinden (baz olarak adlandırılır) oluşur. Sadece dört tür DNA vardır: adenin, timin, guanin ve sitozin. Adenin yalnızca timine bağlanırken guanin yalnızca sitozine bağlanır. Bu bazlar sırasıyla A, T, G ve C ile temsil edilir.

Bu bazlar, organizmalara proteinleri nasıl inşa edeceklerini öğreten çeşitli kodlar oluşturur - aslında virüslerin davranışını kontrol eden DNA.

DNA'yı RNA'ya ve ardından proteine dönüştürme süreci

Sekanslama aletleri ve özel etiketler dahil olmak üzere özel ekipmanın kullanılması, belirli bir parçanın DNA sekansını ortaya çıkarabilir. Bundan elde edilen bilgiler, araştırmacıların gen değişiklik sürecini tanımlayabilmesi ve genleri hastalıklar ve fenotiplerin yanı sıra potansiyel ilaç hedef hücreleriyle ilişkilendirebilmesi için daha fazla analiz ve karşılaştırma için kullanılacaktır.

Genom dizisi, organizmaların çevreye nasıl tepki verdiklerini temsil eden uzun bir "A", "T", "G" ve "C" dizisidir. Biyolojik mutasyonlar, DNA'nın değişmesinden kaynaklanabilir. Genom dizisini görüntülemek, koronavirüs mutasyonlarını analiz etmenin güçlü bir yoludur.

Verileri anlayın

Kaggle'da bulunan veriler aşağıdaki gibidir:

Her sıra yarasa virüsünün bir mutasyonunu temsil eder. Birincisi, doğanın inanılmaz doğasını takdir etmek sadece bir dakika sürüyor - birkaç hafta içinde koronavirüs hayatta kalma oranını artırmak için kendi başına 262 mutasyon üretti.

Bazı önemli sütunlar:

  • acc.ver sorgusu, orijinal virüs tanımlayıcısını temsil eder.
  • konu acc.ver, virüs mutasyonunun tanımlayıcısıdır.
  • % özdeşlik, orijinal virüse özdeş mevcut dizinin yüzdesini temsil eder.
  • Hizalama uzunluğu, dizide kaç tane özdeş tanımlayıcının olduğunu gösterir.
  • Uyumsuzluklar, mutasyonların ve orijinal mutasyonların sayısını temsil eder.
  • Bit puanı, hizalama derecesinin bir ölçüsünü temsil eder; puan ne kadar yüksekse, hizalama o kadar iyi olur. Her sütun için bazı istatistiksel ölçümler (Python'da uygun şekilde çağırmak için data.describe () kullanabilirsiniz):

% Özdeşlik sütununa bakıldığında, minimum değerin yaklaşık% 77.6 olması ilginçtir. % Özdeşliğin standart sapması% 7'dir. Bu değer oldukça büyüktür, bu da geniş bir olası mutasyon yelpazesi olduğu anlamına gelir. Bit puanının nispeten büyük standart sapması bu görüşü destekler - standart sapma ortalamadan daha büyüktür!

Verileri görselleştirmenin iyi bir yolu korelasyon ısı haritalarıdır. Her birim, bir özellik ile diğeri arasındaki ilişki derecesini temsil eder.

Pek çok verinin birbiriyle yüksek oranda ilişkili olduğunu görebilirsiniz. Bu mantıklıdır çünkü çoğu mutasyon birbirinden farklıdır. Dikkat edilmesi gereken bir nokta, hizalama uzunluğunun bit skoru ile yüksek oranda ilişkili olmasıdır.

Mutasyon kümeleri oluşturmak için K-Means'i kullanın

K-Means, kümeleme için bir algoritmadır.Bir özellik uzayında veri noktaları bulma ve bunları makine öğreniminde gruplar halinde birleştirme yöntemidir. K-Means'ımızın amacı, mutasyonların doğası ve bunların nasıl çözüleceği hakkında içgörüler çıkarabileceğimiz mutasyon kümelerini bulmaktır.

Ancak, yine de küme sayısını seçmemiz gerekiyor. Bu, iki boyutlu çizim noktaları kadar basit olsa da, daha yüksek boyutlarda elde edilemez (en fazla bilgiyi saklamak istiyorsak). Dirsek yöntemi gibi k seçme yöntemi öznel ve yanlıştır, bu nedenle siluet yöntemini kullanacağız.

Kontur yöntemi, k kümeleme merkezlerinin kümeleme sonuçlarının verdiği verilere uyum derecesini puanlamaktır. Python'daki sklearn kitaplığı, K-Means ve kontur yöntemlerini uygulamayı çok kolaylaştırır.

Görünüşe göre 5 kümelenme merkezi en uygun olanıdır. Şimdi küme merkezlerini belirleyebiliriz. Bu küme merkezleri, her kategoriyi çevreleyen noktalardır ve (bu durumda) 5 ana mutasyon türünün sayısal bir değerlendirmesini temsil eder.

Not: Veriler, hepsi aynı ölçekte ölçeklenecek şekilde standartlaştırılmıştır. Aksi takdirde, her bir sütun karşılaştırılabilir olmayacaktır.

Bu ısı haritası, her bir kümenin özelliklerini sütunlarda gösterir. Bu noktalar orantılı olarak ölçeklendiği için şekilde işaretlenen değerlerin nicelik açısından bir anlamı yoktur. Bununla birlikte, her bir sütundaki etiket değerlerini karşılaştırabilirsiniz. Her bir mutasyon kümesinin göreceli özelliklerini görsel olarak anlayabilirsiniz. Bilim adamları bir aşı geliştireceklerse, bu büyük virüs mutasyonları kümelerini hedef almalıdır.

Bir sonraki bölümde, verileri görselleştirmek için PCA kullanacağız.

PCA veri görselleştirme

PCA (Ana Bileşen Analizi) bir boyut azaltma yöntemidir. Ekseni temsil etmek için çok boyutlu bir uzayda ortogonal vektörleri seçer, böylece en fazla bilgiyi (varyans) korur.

Popüler Python kütüphanesi sklearn, PCA'yı iki satır kodla uygulayabilir. İlk önce verilerin varyans oranını kontrol edebiliriz. Bu, orijinal veri setinden tutulan istatistiksel bilgilerin yüzdesidir. Bu durumda, verilerin varyans oranı 0.9838548580740327'dir ve bu zaten çok yüksektir! PCA'dan hangi analizi yaparsak yapalım verileri bozmayacağından emin olabiliriz.

Her yeni işlev (ana bileşen), birkaç diğer sütunun doğrusal bir kombinasyonudur. Isı haritası aracılığıyla bir sütunun diğer iki bileşenden biri için önemini görselleştirebiliriz.

Daha yüksek puana sahip birinci bileşenin anlamını anlamak gerekir - bu durumda, özelliği daha uzun bir karşılaştırma uzunluğuna (orijinal virüse daha yakın) sahipken, bileşen 2'nin ana özelliği daha kısa bir karşılaştırma uzunluğuna sahiptir (orijinalden uzaklık Daha uzak değer). Bu aynı zamanda bit skorundaki büyük farka da yansır.

Açıkçası, virüs mutasyonunun 5 ana yolu vardır. Ondan pek çok bilgi alabiliriz.

Mutasyonların dördü birinci bileşenin solunda ve bir mutasyon sağdadır. Birinci bileşenin özelliği yüksek hizalama uzunluğudur. Bu, birinci bileşenin değeri ne kadar yüksekse, hizalama uzunluğunun o kadar uzun olduğu (orijinal virüse daha yakın) anlamına gelir. Bu nedenle, birinci bileşenin değeri daha düşük olduğunda, genetik olarak orijinal virüsten daha uzaktır. Bu nedenle, çoğu virüs mutasyonu orijinal virüsten çok farklıdır. Bu nedenle aşı yapmaya çalışan bilim adamları, virüsün orijinal virüsten çok farklı çok sayıda mutasyon ürettiğinin farkında olmalıdır.

sonuç olarak

K-Ortalamaları ve PCA kullanılarak, koronavirüsteki beş ana mutasyon kümesi tanımlanabilir. Koronavirüs aşıları geliştiren bilim adamları, her bir kümenin özellikleri hakkında bilgi edinmek için küme merkezlerinin bilgilerini kullanabilir. Kümeleri iki boyutlu bir uzayda görselleştirmek için temel bileşen analizini kullanabildik ve koronavirüsün yüksek bir mutasyon oranına sahip olduğunu bulduk. Bu kadar ölümcül olmasının nedeni bu olabilir.

-Bitiş-

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " AI Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

Bilimsel olarak iyi bir futbol oyunu nasıl oynanır!
önceki
46 sayfalık ppt size kural motoru ve makine öğrenimini nasıl entegre edeceğinizi öğretir!
Sonraki
İtalyan kardeş hayatını 3D baskı ile kurtarıyor! Yargılama riski ile karşı karşıya olan netizenler: "Yao Shen" in İtalyanca versiyonu mu?
Yeni altyapı dalgası altında, teknoloji devlerinin bu fırsatı nasıl değerlendirdiğini görün!
Arkadaşlar yakında geri geliyor! Klasik konu: Aman Tanrım Arkadaşlar'da kaç kez bahsediliyor?
İş göstergelerinin çevrimdışı tahmini için bir test seti nasıl oluşturulur? (Kod bağlantısı ile)
Bairong Yunchuang ve Tsinghua Üniversitesi "Salgın Altındaki Çin Ekonomisi" araştırma raporunu yayınladı
Marbury, kendi kendini izole etme fotoğraflarını paylaştı ve beğendi
CBA İngiliz ev sahibi izolasyonu "hapishane" ile karşılaştırıyor Şangay Erkek Basketbol Takımı: İşbirliğini sonlandırın!
Bir şey söyler ve başka bir şey yaparlar! İngiliz ve Amerikalı politikacıların bu çirkin tavırları Almanya ve İtalya'ya bile dayanamıyor.
Pek çok yerin sekreterleri ve belediye başkanları maskeleri çıkarmada başı çekerek güçlü bir sinyal gönderdiler!
Pekin'deki mezar temizleyicilerin trafiği önümüzdeki hafta kademeli olarak artacak ve bu yerlerdeki trafik baskısı sabah trafiği yoğun olacak.
Tiantangzhai Manzara Bölgesi Düzenli Açılış, Doğal Oksijen Bar "Akciğer Yıkamanızı" Bekliyor
Günde 15.000 şiş satan Jinan barbekü merkezi geri geliyor ve genç grup tabanlı yemek servisi hızla iyileşiyor
To Top