Kaynak: DeepHub IMBA
Yazar: Andre Ye
Bu makale hakkında 2420 kelime , Okumanız tavsiye edilir 5 dakika
Bu makale, COVID-19'un genom dizisini analiz etmek için K-Ortalamalarının ve PCA'nın nasıl kullanılacağını açıklamaktadır.
Pek çok insan, tıpkı dünyadaki diğer canlılar gibi hayatta kalmak için mücadele eden virüslerin gelişmesini veya mutasyona uğramasını beklemiyordu.
Yarasalar tarafından insan virüslerinden taşınan viral RNA dizisi parçalarına bakın.
AAAATCAAAGCTTGTGTTGAAGAAGTTACAACAACTCTGGAAGAAACTAAGTT
Ve insan COVID-19 virüsünün RNA dizisinden bir alıntı
AAAATTAAGGCTTGCATTGATGAGGTTACCACAACACTGGAAGAAACTAAGTT
... Açıktır ki, koronavirüs yeni konağına uyum sağlamak için iç yapısını değiştirmiştir (daha doğrusu koronavirüsün iç yapısının yaklaşık% 20'si mutasyona uğramıştır), ancak yine de orijinal türde olabileceği kadar canlılığını sürdürmektedir. Vücutta hayatta kalma.
Aslında araştırmalar, COVID-19'un tekrarlanan mutasyonlar yoluyla hayatta kalma oranlarını artırabildiğini göstermiştir. Koronavirüs ile mücadelede sadece virüsü ortadan kaldırmanın bir yolunu bulmamız değil, aynı zamanda virüsü nasıl mutasyona uğratacağımızı ve bu mutasyonları nasıl kontrol altına alacağımızı da bulmamız gerekiyor.
Bu yazıda ben ...
RNA dizileri hakkında temel bir anlayışınız varsa, lütfen bu bölümü atlayın.
"Kod çözme" ile karşılaştırıldığında, genom dizileme genellikle bir numuneden ekstrakte edilen deoksiribonükleik asidin (DNA) analiz edilmesi sürecidir. Her normal hücrede 23 çift kromozom vardır ve bu kromozomlar DNA'yı tutar.
DNA'nın sarmal çift sarmal yapısı, bir yamuğa genişlemesine izin verir. Merdiven, kimyasal harf çiftlerinden (baz olarak adlandırılır) oluşur. Sadece dört tür DNA vardır: adenin, timin, guanin ve sitozin. Adenin yalnızca timine bağlanırken guanin yalnızca sitozine bağlanır. Bu bazlar sırasıyla A, T, G ve C ile temsil edilir.
Bu bazlar, organizmalara proteinleri nasıl inşa edeceklerini öğreten çeşitli kodlar oluşturur - aslında virüslerin davranışını kontrol eden DNA.
DNA'yı RNA'ya ve ardından proteine dönüştürme süreci
Sekanslama aletleri ve özel etiketler dahil olmak üzere özel ekipmanın kullanılması, belirli bir parçanın DNA sekansını ortaya çıkarabilir. Bundan elde edilen bilgiler, araştırmacıların gen değişiklik sürecini tanımlayabilmesi ve genleri hastalıklar ve fenotiplerin yanı sıra potansiyel ilaç hedef hücreleriyle ilişkilendirebilmesi için daha fazla analiz ve karşılaştırma için kullanılacaktır.
Genom dizisi, organizmaların çevreye nasıl tepki verdiklerini temsil eden uzun bir "A", "T", "G" ve "C" dizisidir. Biyolojik mutasyonlar, DNA'nın değişmesinden kaynaklanabilir. Genom dizisini görüntülemek, koronavirüs mutasyonlarını analiz etmenin güçlü bir yoludur.
Kaggle'da bulunan veriler aşağıdaki gibidir:
Her sıra yarasa virüsünün bir mutasyonunu temsil eder. Birincisi, doğanın inanılmaz doğasını takdir etmek sadece bir dakika sürüyor - birkaç hafta içinde koronavirüs hayatta kalma oranını artırmak için kendi başına 262 mutasyon üretti.
Bazı önemli sütunlar:
% Özdeşlik sütununa bakıldığında, minimum değerin yaklaşık% 77.6 olması ilginçtir. % Özdeşliğin standart sapması% 7'dir. Bu değer oldukça büyüktür, bu da geniş bir olası mutasyon yelpazesi olduğu anlamına gelir. Bit puanının nispeten büyük standart sapması bu görüşü destekler - standart sapma ortalamadan daha büyüktür!
Verileri görselleştirmenin iyi bir yolu korelasyon ısı haritalarıdır. Her birim, bir özellik ile diğeri arasındaki ilişki derecesini temsil eder.
Pek çok verinin birbiriyle yüksek oranda ilişkili olduğunu görebilirsiniz. Bu mantıklıdır çünkü çoğu mutasyon birbirinden farklıdır. Dikkat edilmesi gereken bir nokta, hizalama uzunluğunun bit skoru ile yüksek oranda ilişkili olmasıdır.
K-Means, kümeleme için bir algoritmadır.Bir özellik uzayında veri noktaları bulma ve bunları makine öğreniminde gruplar halinde birleştirme yöntemidir. K-Means'ımızın amacı, mutasyonların doğası ve bunların nasıl çözüleceği hakkında içgörüler çıkarabileceğimiz mutasyon kümelerini bulmaktır.
Ancak, yine de küme sayısını seçmemiz gerekiyor. Bu, iki boyutlu çizim noktaları kadar basit olsa da, daha yüksek boyutlarda elde edilemez (en fazla bilgiyi saklamak istiyorsak). Dirsek yöntemi gibi k seçme yöntemi öznel ve yanlıştır, bu nedenle siluet yöntemini kullanacağız.
Kontur yöntemi, k kümeleme merkezlerinin kümeleme sonuçlarının verdiği verilere uyum derecesini puanlamaktır. Python'daki sklearn kitaplığı, K-Means ve kontur yöntemlerini uygulamayı çok kolaylaştırır.
Görünüşe göre 5 kümelenme merkezi en uygun olanıdır. Şimdi küme merkezlerini belirleyebiliriz. Bu küme merkezleri, her kategoriyi çevreleyen noktalardır ve (bu durumda) 5 ana mutasyon türünün sayısal bir değerlendirmesini temsil eder.
Not: Veriler, hepsi aynı ölçekte ölçeklenecek şekilde standartlaştırılmıştır. Aksi takdirde, her bir sütun karşılaştırılabilir olmayacaktır.
Bu ısı haritası, her bir kümenin özelliklerini sütunlarda gösterir. Bu noktalar orantılı olarak ölçeklendiği için şekilde işaretlenen değerlerin nicelik açısından bir anlamı yoktur. Bununla birlikte, her bir sütundaki etiket değerlerini karşılaştırabilirsiniz. Her bir mutasyon kümesinin göreceli özelliklerini görsel olarak anlayabilirsiniz. Bilim adamları bir aşı geliştireceklerse, bu büyük virüs mutasyonları kümelerini hedef almalıdır.
Bir sonraki bölümde, verileri görselleştirmek için PCA kullanacağız.
PCA (Ana Bileşen Analizi) bir boyut azaltma yöntemidir. Ekseni temsil etmek için çok boyutlu bir uzayda ortogonal vektörleri seçer, böylece en fazla bilgiyi (varyans) korur.
Popüler Python kütüphanesi sklearn, PCA'yı iki satır kodla uygulayabilir. İlk önce verilerin varyans oranını kontrol edebiliriz. Bu, orijinal veri setinden tutulan istatistiksel bilgilerin yüzdesidir. Bu durumda, verilerin varyans oranı 0.9838548580740327'dir ve bu zaten çok yüksektir! PCA'dan hangi analizi yaparsak yapalım verileri bozmayacağından emin olabiliriz.
Her yeni işlev (ana bileşen), birkaç diğer sütunun doğrusal bir kombinasyonudur. Isı haritası aracılığıyla bir sütunun diğer iki bileşenden biri için önemini görselleştirebiliriz.
Daha yüksek puana sahip birinci bileşenin anlamını anlamak gerekir - bu durumda, özelliği daha uzun bir karşılaştırma uzunluğuna (orijinal virüse daha yakın) sahipken, bileşen 2'nin ana özelliği daha kısa bir karşılaştırma uzunluğuna sahiptir (orijinalden uzaklık Daha uzak değer). Bu aynı zamanda bit skorundaki büyük farka da yansır.
Açıkçası, virüs mutasyonunun 5 ana yolu vardır. Ondan pek çok bilgi alabiliriz.
Mutasyonların dördü birinci bileşenin solunda ve bir mutasyon sağdadır. Birinci bileşenin özelliği yüksek hizalama uzunluğudur. Bu, birinci bileşenin değeri ne kadar yüksekse, hizalama uzunluğunun o kadar uzun olduğu (orijinal virüse daha yakın) anlamına gelir. Bu nedenle, birinci bileşenin değeri daha düşük olduğunda, genetik olarak orijinal virüsten daha uzaktır. Bu nedenle, çoğu virüs mutasyonu orijinal virüsten çok farklıdır. Bu nedenle aşı yapmaya çalışan bilim adamları, virüsün orijinal virüsten çok farklı çok sayıda mutasyon ürettiğinin farkında olmalıdır.
K-Ortalamaları ve PCA kullanılarak, koronavirüsteki beş ana mutasyon kümesi tanımlanabilir. Koronavirüs aşıları geliştiren bilim adamları, her bir kümenin özellikleri hakkında bilgi edinmek için küme merkezlerinin bilgilerini kullanabilir. Kümeleri iki boyutlu bir uzayda görselleştirmek için temel bileşen analizini kullanabildik ve koronavirüsün yüksek bir mutasyon oranına sahip olduğunu bulduk. Bu kadar ölümcül olmasının nedeni bu olabilir.
-Bitiş-
Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " AI Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.