Kaggle kazananlarının ayrıntılı açıklaması: uydu görüntüsü segmentasyonu ve tanınması için derin öğrenmenin nasıl kullanılacağı

Wang Xinmin derledi

Qubit Üretildi | Genel Hesap QbitAI

Yakın zamanda, Kaggle web sitesi, uydu görüntülerinde sahne özelliği tespiti için bir yarışma düzenledi. Veri seti, İngiliz Savunma Bilim ve Teknoloji Laboratuvarı (DSTL) tarafından sağlandı.

İsrail ekibi deepsense.io, katılan 419 takım arasında dördüncü oldu. Deepsense.io modeli, görüntü bölümleme problemleri için yaygın olarak kullanılan yapay bir sinir ağı olan U-Net'in geliştirilmiş bir sürümünü kullanır. Daha sonra resmi web sitesinde bir makale yayınladılar, modelin kullandığı derin öğrenme yöntemini tanıttılar ve projenin tamamlanması sırasında öğrendikleri dersleri paylaştılar.

Qubit makalelerini herkesin öğrenmesi için derledi.

Rekabet tanıtımı

Savunma Bilim ve Teknoloji Laboratuvarı (DSTL), İngiltere Savunma Bakanlığı'nın yürütme ajansı ve bu yarışmanın organizatörüdür. Sağladıkları eğitim seti, 1 kilometrekarelik bir alanın 25 yüksek çözünürlüklü uydu görüntüsünü içerir. Özel görev, algoritmalar aracılığıyla 10 farklı nesne türünü belirlemektir, yani:

  • Evler ve binalar;

  • Karışık yapay binalar;

  • yol;

  • demiryolu;

  • Ağaçlar

  • mahsul;

  • nehir;

  • Durgun alan

  • Büyük araç

  • Araba.

  • Eğitim setinin örnek görüntüleri ve ilgili etiketleri

    Şekilden de görebileceğiniz gibi bu nesneler tamamen birbirinden ayrılmamış, yol üzerinde araçlar ve mahsullerin içinde yer alan ağaçları bulabilirsiniz. İstatistiklere göre, mahsuller en büyük alanı kaplar, toplam alanın% 28'ine ulaşır ve ağaçlar% 10'unu oluşturur, ancak yolların kapladığı alan çok daha küçüktür, toplam alanın sadece% 0,8'i. İşgal edilen alan sadece% 0,02'dir. Ek olarak, çoğu görüntü alanının yalnızca bir karşılık gelen sınıf etiketi vardır.

    Model tahmin sonuçları ile zemindeki fiili durum arasındaki uyuşma derecesini değerlendirmek için, model tespitinin doğruluğunu göstermek için bir algılama değerlendirme fonksiyonu Intersection over Union (IOU, Jaccard indeksi olarak da bilinir) tanıtıldı. Örneğin, puan 0 olduğunda hiç eşleşme olmadığı, puan 1 olduğunda ise tespit sonucunun gerçek durumla tamamen tutarlı olduğu anlamına gelir. Nihai puanlama sonucu, her bir kategorinin bireysel puanlarının ortalaması alınarak elde edilir. İlk takımın model puanı 0,49 idi ve modelimizin puanı da 0,46'ya ulaştı.

    Veri ön işleme

    Eğitim seti görüntülerinin seçim yapabileceğiniz üç versiyonu vardır: gri tonlamalı görüntü, 3 kanallı RGB renkli görüntü ve 16 kanallı görüntü. Ayrıntılar için aşağıdaki tabloya bakın:

    Tip Bant Bant Piksel Çözünürlük Kanal Ölçeği Gri Tonlamalı Görüntü Pankromatik Bant 0.31 m13348x33923 Kanal RGB 0.31 m33348x339216 Kanal Multispektral 1.24 m8837x84816 Kanal Yakın Kızılötesi Bant 7.5 m8134x136

    16 kanallı görüntüyü 3 kanallı RGB görüntüsüne uyacak şekilde ayarlıyor ve hizalıyoruz. Kanallar arasındaki farkı ortadan kaldırmak için kalibrasyon işlemi çok gereklidir. Son olarak, eğitim setindeki görüntülerin üç versiyonunu 20 kanallı bir giriş görüntüsüne entegre ediyoruz.

    Eğitim modeli

    U-Net ağının, hassas konumlandırma elde etmek için düşük seviyeli özellik haritalarının kombinasyonu yoluyla yüksek seviyeli karmaşık özellikler oluşturabildiği evrişimli bir ağ modeli oluşturmak için referans olarak U-Net ağ yapısını kullanıyoruz.

    Bu ağ yapısı, görüntü bölütleme problemini etkin bir şekilde çözmek için yapılabilir. Biz ve diğer takımlar bu sorunu çözerken buna ilk seçenek diyoruz. Nihai ağ yapımız aşağıdaki gibidir:

    Görüntü bölütleme için evrişim modeli yapı diyagramı

    Tipik bir evrişimli sinir ağı (CNN) yapısında, özellik haritalarının (evrişimli kanallar) sayısı genellikle her maksimum havuzlama işleminden sonra artar. Modelimizde, tüm ağda 64 özellik haritası tutmaya karar verdik. Bu, aşağıdaki iki faktör için yapılır: Birincisi, aşağı örnekleme işlemi sırasında ağın bazı bilgileri kaybetmesine izin verebiliriz, çünkü model, yukarı örnekleme işlemi sırasında zaten ilgili düşük seviyeli özellikleri elde edebilir. İkinci olarak, uydu görüntülerinde, yüksek seviyeli 3B nesneler kavramını anlamaya ve tanımaya gerek yoktur, bu nedenle, daha yüksek ağ katmanlarında özellik haritalarının sayısının arttırılması, modelin gerçek tahmin performansını etkilemeyebilir.

    Her nesne türü için belirli bir model eğittik çünkü bu, daha iyi tahmin performansı elde etmek ve veri dengesizliği sorununun üstesinden gelmek için her ağ türünde ince ayar yapmayı kolaylaştırır.

    Eğitim adımları

    Model, giriş görüntüsünün her pikseli için noktanın hedef sınıfa ait olma olasılığını oluşturabilir. Modelin değerlendirme indeksi olarak Jaccard indeksi kullanılmasına rağmen, eğitimin amacı eğitim sürecinde tüm piksellerin ikili çapraz entropisinin toplamını en aza indirmektir.

    Verilerin istatistiksel değerini elde etmek için veri setini önceden hesaplıyoruz ve görüntü setini sıfır ortalama ve birim varyanslı bir veri setine normalleştiriyoruz.

    Görüntünün gerçek kategorisine göre, önceden işlenmiş görüntüyü değiştirmeden tutarız veya görüntüyü ve ilgili etiketi 1024x1024 ve 2048x2048 çözünürlükte kare bir görüntüye ayarlarız. Eğitim sırasında farklı görüntülerden rastgele 256x256 görüntü blokları topluyoruz Görüntü bloklarının yarısı her zaman sınıflandırma için hedef nesneler olan bazı pozitif pikseller içerir. Görüntü bloğuna rastgele yatay çevirme, dikey çevirme, rastgele döndürme ve renk titremesi uygulayarak toplu işteki görüntü sayısını artırıyoruz. Dengesiz veri kümeleri sorunuyla uğraşırken, yetersiz örnekleme ve veri kümesinin ağırlığını ayarlama gibi birçok yöntem olsa da, yukarıdaki aşırı örnekleme yöntemi en iyi ve en basit yöntemdir.

    Her ağ modelinin yaklaşık 1,7 milyon parametresi vardır ve parti boyutu 4 olarak ayarlanmıştır. Ağ eğitimi ince ayar için mevcut modeli kullanmadı.Tek bir GTX 1070 üzerinde ağırlıkların başlatılmasından itibaren ağ eğitim sürecini tamamlamak yaklaşık iki gün sürdü.

    tahmin

    Test sırasında sürgülü pencere yöntemini kullanıyoruz, pencere boyutu 256x256'da sabitlenmiş ve kayan adım 64'tür. Görüntü bloğunun sınırındaki nesne, yalnızca, çevreleyen ortam olmadığında kısmen görüntülenebilir.Yukarıdaki işlem sayesinde, görüntü bloğunun sınırının zayıf tahminini ortadan kaldırabiliriz. Tahmin kalitesini daha da iyileştirmek için, giriş görüntüsünün ters çevrilmiş ve döndürülmüş versiyonunun ve farklı ölçeklerde eğitilmiş ağ modelinin ortalamasını aldık. Genel olarak, iyi bir düzgün çıktı efekti elde ettik.

    Rötuş

    Gerçek zemin koşullarının etiketleri, WKT formatlı dosyalar aracılığıyla yüklenir ve nesneler, köşelerle tanımlanan çokgenlerle temsil edilir. Gönderim işlemi sırasında, oluşturulan çokgenleri basitleştirmemiz ve gereksiz gürültüyü kaldırmamız gerekiyor. Bu şekilde, değerlendirme sistemi sunulan sonuçları hızlı bir şekilde işleyebilir, fazla mesaiyi önleyebilir ve gerçek etkiyi sınırlayabilir. İkili çıktı üzerinde parametrelendirme işlemlerini kullanarak, minimum değerlendirme göstergesi kaybıyla poligon sadeleştirmesi gerçekleştirebiliriz. İşlem sonrası aşamada, belirli bir eşikten daha küçük nesneleri ve küçük delikleri basit ve etkili bir şekilde kaldırmak için morfolojik görüntü genişletme ve erozyon işlemlerini kullandık.

    Bizim çözümümüz

    Evler, çeşitli binalar, yollar, demiryolları, ağaçlar, mahsuller, göletler

    Bu yedi kategori için, girdi eğitim seti, iki farklı giriş boyutu 1024 ve 2048 olan 20 kanallı bir görüntü setidir. İkili çapraz entropi kayıplarının toplamını en aza indirmeyi ve her kategori için karşılık gelen evrişimli sinir ağını eğitmeyi ve tatmin edici sonuçlar elde etmeyi amaçlıyoruz. Tüm modellerin çıktısının basitçe ortalaması alınır ve ardından hiperparametreler belirli sınıfa göre sonradan işlenir.

    nehir

    Nehir nesnelerini tanımlamak için doğrusal regresyon ve rastgele ormanın bir kombinasyonunu kullandık ve 20 kanallı giriş verileri üzerinde eğitim aldık. Su yüzeyinin benzersiz spektral tepkisi nedeniyle, bu basit yöntem işe yarar.

    Büyük ve küçük araçlar

    Eğitim setindeki az sayıda araç nedeniyle, yerel doğrulama ile elde edilen sonuçların genel liderlik tablosundaki sonuçlardan oldukça farklı olduğunu gördük. Bu sorunu çözmek için büyük araçlar ve küçük arabalar için ilgili modelleri eğittik ve iki farklı giriş boyutunun model etiketlerini ekledik. Ayrıca, RGB + gri 4 kanallı giriş verilerini kullanarak giriş verilerini değiştirdik ve ağ entegrasyonundaki modelimizin çeşitliliğini artırmak için tüm deneyleri tekrarladık. Son olarak, araç tipini tahmin etmek için kullanılan en üst düzey çıktıyı elde etmek için iki tür eğitim modelinin ve tek bir özel model türünün ortalamasını aldık.

    teknoloji

    Ekip üyelerinin tercihlerine göre PyTorch, Keras ve TensorFlow'un üç çerçevesine dayanan tahmin modelini uyguladık. Stratejimiz her kategori için ayrı bir model oluşturmaktır ve herhangi bir hata olmadığından emin olmak için kodumuzu dikkatlice kontrol etmemiz gerekir. Modeli çalıştırmak ve deneyin ilerlemesini takip etmek için Neptune masaüstü uygulamasını kullandık.

    Nihai sonuçlar

    Son modelin algılama etkisini gösterelim.

    Evler ve binalar:

    yol:

    demiryolu:

    kırpma:

    nehir:

    Araba:

    sonuç olarak

    Uydu alanı, araştırma için derin öğrenme yöntemlerinin uygulanması için çok uygun olan büyük miktarda görüntü verisi üretebilir. Pratik problemleri çözmek için en son araştırma yöntemlerinin uygulanabileceğini kanıtladık. Mevcut model iyi çalışıyor ve gelecekte daha fazla zorluğu dört gözle bekliyoruz.

    Kaggle yarışmasını ve makalede bahsedilen kağıt bağlantısını belirledik ve QbitAI diyalog arayüzünden yanıt verebilirsiniz " Uydu görüntüsü tanıma "Görünüm.

    ========================

    Açık sınıf kaydı

    18 Nisan (Salı), Qubit, AI Akademisinin ilk halka açık sınıfını oluşturmak için İnovasyon Çalıştayı ile el ele verdi ve AI Mühendislik İnovasyon Akademisi Çalıştayı Dekan Yardımcısı Wang Yonggang ile Teknik Başkan Yardımcısı Li Tianfang'ı sizin için 0'dan 1'e kadar temel bir yapay zeka giriş dersi oluşturmaları için davet etti.

    Yapay zeka sektörünün tarihini ve gelişimini anlamak istiyorsanız, yapay zeka öğrenmek istiyorsanız kayıt adresi burada:

    İşe Alım

    Editörleri, muhabirleri, operasyonları ve diğer pozisyonları işe alıyoruz. Çalışma yeri Pekin, Zhongguancun'da. Ziyaretinizi dört gözle bekliyoruz ve yükselen yapay zeka dalgasını yaşıyoruz.

    İlgili ayrıntılar için lütfen şu yanıtı verin: resmi hesabın diyalog arayüzünde "İşe Alım".

    Bir şey daha...

    Bugün AI dünyasında dikkat etmeye değer başka ne var? Yanıtla " Şu günlerde "Tüm ağdan topladığımız AI endüstrisine ve araştırma trendlerine bakın. Yeniden doldurun ~

    Ek olarak, makine öğrenimi modellerini fırlatıyorsanız, qubit asistanının WeChat'ini eklemeye hoş geldiniz: qbitbot , "Kapı grubuna katılın" ı belirtin ve kendinizi tanıtın, size yolu gösterecektir.

    Chongqing SW'nin intikamı mı var? Büyük ve küçük motosikletler, kalıntı Huaxia ile savaşır! Dağ şehri yükselebilir mi?
    önceki
    Tarihteki en acımasız tavuk yeme oyunu. Oyunu kaybettikten sonra, karakterler bile tekrar para harcamak zorunda!
    Sonraki
    En güvenli SUV'yi yapmak için Haval başka bir büyük adım atıyor
    Rockets, Bushi'nin nedenini bulmak için dönüşünden döndü, D'Antoni 4 büyük değişiklik yaptı, bu da tam olarak Alman koçunun gücü!
    Sıkıştırılabilecek çok az yumuşak hurma? Milli Futbol Takımı'nın Kasım ayındaki ısınma rakipleri doğruladı Taraftarlar: Vatikan memnuniyetsizliğini dile getirdi
    Apple'ın sürücüsüz arabası nihayet burada, California'da yolda test edilmek üzere
    World of Warcraft nostaljik kıyafetleri ne kadar karaciğere sahip? Dünya Çağı'nın tüm zindanları tek bir nefeste burada ve oyuncular yorgun
    Etrafa bakınca, roketin çok ihtiyaç duyulan mini "Tucker" ı zaten takımdaydı, ama Morey onu ele verdi!
    Otomatik daire akıllı SUV Three Kingdoms öldür, kimin kazandığını gör daha güzel
    Şampiyonlar Ligi'nin ilk golü şanslı mı? Wang Shuang, Xinhua Haber Ajansı ile yüzleşiyor: Çoğu zaman topun dışındayım
    PlayerUnknown's Battlegrounds için en güçlü araçtır! İyi koruma, hızlı hız, müdahale etmesi zor!
    İmparator Zhan uzuvlar ve basit bir zihin geliştirdi mi? Bu 5 şeyi okuduktan sonra, en güçlü beyin gerçekten bir darbe değil!
    Şimdiden güzel ve değerinin yükseltilmesi gerekiyor. 2018'in en güzel arabası olan yeni Roewe 360 piyasaya sürülecek
    Gaitan, akşamları gün batımını izleyerek tutuklandı, Carla'nın karısı, Avrupa, köpek maması yaydı, hayranlar: en iyi arkadaşı
    To Top