IQiyi Masked AI: Baraj insanların içinden geçer, idoller kalplerinde oturur

Kaynak: Heart of the Machine

Bu makale hakkında 3200 kelime , 9 dakika okumanız tavsiye edilir.

Görünüşte etkileyici "yüz ve arka plan segmentasyonu" yapay zekaya mı yoksa yapay zekaya mı dayalı?

(Sözde) AI endüstrisindeki bir uygulayıcı olarak, editör bölümündeki arkadaşlar bunu manuel olarak büyük bir güvenle tanıyabileceklerine inanıyorlar. "Yapay Zeka ve Yapay Zeka" . Ancak, iQiyi uygulamasının aşağıdaki ekran görüntüsünü herkesin önüne koyduğumda, editör bölümünün "tanıyanları" bu sefer kendilerinden emin olmadıklarını söylediler.

Portre alanında baraj korumalı "Çin'in Sesi"

Popüler videolarda "Baraj Yüzü Örtüyor" Bu neredeyse kaçınılmaz bir olay, ancak bu videoda yoğun nüfuslu baraj, Öğretmen Li Jian'ın yakışıklı yüzünün "etrafındaki" aurasından etkilenmiş gibi görünüyor. Nadiren bazı küçük hatalar olabilir, ancak bu tür hatalar yapay olanlardan çok algoritmalara benziyor gibi görünüyor.

Biraz gözden kaçan bir portre kalkanı

Akademik dünyada iyi bilinen bir gerçek, birkaç dev araştırma ekibinin hedef tespit görevinde makalelerinde "insani aşma" sonuçlarını bildirmesine rağmen, görüntü bölümleme görevinin hala araştırmacılara çok para bıraktığı görülüyor. İyileştirme alanı. Bu yılın Şubat ayında Google tarafından 300 milyon dahili veriyle ön eğitimin öncülüğünde piyasaya sürülen DeepLabv3 +, PASCAL VOC 2012 veri segmentasyonu veri kümesi, IOU 89 üzerinde mevcut en iyi etkiyi (son teknoloji ürünü) elde etti. %. Cityscapes veri setinde bu rakam yalnızca% 82,1'dir.

Bu araştırma düzeyi göz önüne alındığında, sektörde görüntü bölümleme teknolojisi kullanılabilir mi? İQiyi uygulamasında çok etkileyici görünen "yüz ve arka plan segmentasyonu", Yapay zeka mı yoksa yapay mı? Tüm editörlük departmanından bir sepet soru ile, sonuna kadar gidip iQiyi Teknoloji Ürün Merkezi ile iletişime geçtik ve iQiyi Teknoloji Ürün Merkezi araştırmacısı "AI Barrage Mask" adlı bu projenin algoritma liderini yakaladık. Feng Wei. Bize çok detaylı cevaplar verdi.

Soru 1: Bölünmüş mü? Bölüm nedir?

Öncelikle en çok ilgilendiğimiz soru şu: Bu "baraj maskesi" yapay zeka mı yoksa yapay mı?

Görüntü bölümleme mi? Evet! Bu ne tür bir görüntü segmentasyonu? Anlamsal bölümleme!

Daha kesin olarak, iki kategoriye sahip anlamsal bir bölümlemedir: görüntüdeki her piksel "ön plan" kategorisine veya "arka plan" kategorisine atanacaktır ve daha sonra sistem, bölümleme sonucuna göre karşılık gelen bir maske dosyası oluşturacaktır.

Orijinal görüntü, segmentasyon sonucu (maske dosyasının görselleştirilmesi) ve maske efekti

Algoritma, Google DeepLabv3 modeline dayanıyor ve teknik ekip, FCN gibi diğer segmentasyon modellerini de denedi, ancak DeepLab'ın model etkisi bir dönüm noktasına sahip.

Neden görüntü segmentasyonunu bir "baraj maskesi" olarak kullanmak istiyorsunuz?

İQiyi ekibinin görüntü segmentasyon teknolojisi uzun bir süredir teknik bir rezerv olarak saklandı ve asıl amaç kısa videoların arka planda değiştirilmesi için kullanmaktı.

Sözde arka plan değiştirme, kullanıcı tarafından kaydedilen kısa videodaki portreyi kesip farklı bir arka planla değiştirmektir. Bununla birlikte, teknik bir bakış açısından, nitelikli tek bir görüntü bölümleme etkisi, nitelikli bir video bölümleme etkisine eşit değildir: bölümleme sonucu, videonun önceki ve sonraki karelerinde biraz süreksizdir ve bu, kareler arasındaki bölümlemenin kenarının sürekli olarak titremesine neden olur ve bu tür bölümleme Tutarsızlık, kullanıcı deneyimini çok etkiliyor.

Peki, arka plan değişiminden biraz daha düşük gerektiren bir sahne var mı? Evet, örneğin, orijinal arka planı korumak için, orijinal arka plan ile bölümlü dikey katman arasına dinamik bir arka plan ekleyin. Bu şekilde, parçalı kenar ve orijinal arka plan hala bir arada ve hata o kadar açık değil. Bu aynı zamanda baraj maskesinin kaynağıdır.

"Teknoloji hazır olduktan sonra, farklı iş departmanlarında çeşitli yeteneklerimizi sergiliyoruz, böylece ürün öğrencileri birçok iyi fikir ortaya atabilir." Feng Wei dedi.

Aslında baraj maskesinde kullanılan derin öğrenme modeli sadece segmentasyon değil aynı zamanda tanımadır. Videoyu bölmeden önce "Sahne Tanıma Modeli" Önce her bir görüntü karesini tanımlayacak ve geçerli karenin yakın mı yoksa uzak mı olduğunu belirleyecektir.

Bu sahne tanıma görevinin amacı, görüntünün yakın plan mı yoksa yakın çekim mi olduğunu belirlemektir, böylece görüntü bir maske oluşturmak için segmentasyon modeline girecek, uzak görünüm ise bir maske oluşturmayacak ve baraj daha önce olduğu gibi bütünü kapsayacaktır. Resim. Bu şekilde, çerçeveler arası maske seğirmesi sorunu çözülür.

Maskelenmesi gerekmeyen uzak görünüm ve maskelenmesi gereken yakın plan görünüm

Bu sahne tanıma sınıflandırıcısının aynı zamanda, bir sahne tarafından toplanan ve değiştirilen ve yeniden kullanılan mevcut teknolojinin bir örneği olduğunu belirtmekte fayda var: bu sınıflandırıcı esas olarak iQiyi'nin akıllı yardımcı post prodüksiyon işlevleri için kullanılmadan önce.

Bölünmeden sonra, sistem daha fazla kullanacak "aşınma" ile "Kabartmak" Görüntü morfolojisi işleme algoritması, segmentasyon modülü tarafından ön plan alan çıktısında ince kırpma işlemi gerçekleştirir ve uygulama sahnesinin ihtiyaçlarına göre resmin küçük bir kısmı ile ön plan alanını siler.

Bu işlem serisinden sonra, maske dosyası oluşturma ve sıkıştırma üretim sürecine girer.

Iqiyi Baraj Maskesi Sistemi Akış Şeması Soru 2: Verileri kendim işaretlemem gerekiyor mu? Ne kadar veri işaretlenir?

Cevap ihtiyaç! On binlerce kişi işaretlendi.

Genel segmentasyon modellerinin tümü, MS COCO gibi genel veri setleriyle eğitilmiştir ve doğrudan çeşitli sahnelerde kullanıldığında etki çok geneldir.

"Sahne değiştirme ve sahne ışıkları, kullanımı zor olan iki yaygın bölümleme modelidir. Bu nedenle, tipik sahnelerin on binlerce görüntüsünü seçtik ve etiketleme ekibinden önce ve sonra üç hafta sürdü." Dedi Feng Wei.

Eğitim seti ve test setinin dağıtımının tutarlılığı da çok iyi garanti edilmektedir: "Baraj maskesi işlevini başlatmak için ilk programımız" China New Rap Season 2 ", bu yüzden" China New Rap No. 1 "kullandık Aynı film ekibi tarafından oluşturulan Sezon "ve" Sıcak Kanlı Sokak Dansı Topluluğu "bir eğitim seti yaptı."

Söylemeye değer, sistem sonunda maskelenmiş bölümlemeye ihtiyaç duymadığından, açıklama çalışması genel anlamsal bölümleme ve açıklamaya göre daha kolaydır Feng Wei bazı ek eğitim setleri gösterdi. Örneğin, "Pikselleştirilmesi gerekmez, karakterleri çerçevelemek için düz çizgiler kullanın."

Sokak görünümü segmentasyonu ile karşılaştırıldığında, incelik, karakter segmentasyonunu çok fazla düşürmeyi gerektirir

Genel anlamsal segmentasyon modeli, özel bir veri seti kullanılarak tamamen ince ayarlandıktan sonra, IOU% 87.6'dan% 93.6'ya yükseldi.

Soru 3: Verimlilik nasıl? Hızlı? Pahalı mı?

Çıkarım aşamasında, 1 dakikalık bir videoyu GPU'da bölmek birkaç dakika sürer. O (1) Zaman içinde.

Gerçek üretimde, sistem genellikle daha katı zaman gereksinimleri ile karşılaşır. "" China New Rap "in prodüksiyon ekibinin belirli gizlilik gereksinimleri var. Örneğin, program Cumartesi günü saat 8'de yayınlanacak ve filmi saat 4'te alamayabiliriz. Bu nedenle, prodüksiyon hizmetlerinin eşzamanlılığını video fragmanlarının sayısıyla kontrol ediyoruz. Tüm parçalar tamamlandıktan sonra, iş katmanı ileti kuyruğu aracılığıyla bilgilendirilir. Her parçanın üretimi ayrı bir durum izleme ve yeniden deneme mekanizmasına sahiptir. Sonunda, sistem aynı anda birden fazla GPU kullanır ve 90 dakikalık bir videoyu işlemek yaklaşık 40 dakika sürer. "

Ekip ayrıca partinin canlı yayını gibi gerçek zamanlı sahnelerde baraj maskesinin kullanımını test ediyor.

Soru 4: "Yükseltme" planı nedir? "Yüzünüzü örtecek barajı" önlemekten başka ne yapabilirsiniz?

Her şeyden önce, semantik bölümlemeden örnek bölümlemeye yükseltme ve "herkes için bir anti-engelleme barajını" "idolünüz için özel bir anti-engelleme halesine" dönüştürmek gibi "barikat yüzü" nü önlemek için yükseltilmiş sürümler de vardır.

Görüntü bölümleme görevleri de birkaç türe ayrılmıştır: Anlamsal bölümleme yalnızca sistemin görüntülerdeki tüm "insanları" "kategorideki insanlar" olarak sınıflandırmasını gerektirir. Ek olarak, farklı karakterleri farklı kategorilere ayırma ihtiyacı vardır. "Örnek segmentasyonu" (örnek segmentasyonu) Ve hatta arka plan "Panoptik segmentasyon" (panoptik segmentasyon) .

Orijinal görüntü, anlamsal bölümleme, örnek bölümleme ve panoramik bölümleme

IQiyi'nin teknik ekibi de çalışıyor MaskeRCNN İQiyi'nin örnek segmentasyonu, iQiyinin güçlü yönleriyle destekleniyor: ünlülerin yüz tanıma, "hayranlara özel baraj maskesi" yapmaya çalışın.

"Örneğin Wu Yifan'ı seviyorsanız, diğer yıldızlar çıktığında, baraj onları yine de engelleyecektir. Ancak Wu Yifan dışarı çıktığında, baraj onu atlayacaktır." Kulağa hayranların psikolojisine çok uyan bir tasarım gibi geliyor. .

Bir diğeri, anlamsal bölümlemede kategori sınırlarını genişletmektir. Örneğin, lensin odak uzaklığı içindeki pikselleri ve odak uzaklığı dışındaki pikselleri ayırabilir misiniz?

Bu fikir aynı zamanda gerçek ihtiyaçlardan da kaynaklanıyor: "" Yanxi Sarayı Hikayesi "nde, segmentasyon modeli yalnızca lensin ana konumunu işgal eden ana karakteri değil, aynı zamanda ana karakterle birlikte görünen küçük odak dışı ve tamamen bulanık bir köşeyi de tanımlayacak. Hadımın arkası da bölümlere ayrılacak. Aslında, ikinci bölüme gerek yok ve ayırma kullanıcı deneyimini etkileyecek. "

Başka bir deyişle, sistemin gerçekten bölmek istediği şey lens "Odaklanmış" ve "Odak dışı" , Ancak bu tür özel bölümleme görevi için bir model olmadığından, "karakterli parça", "odakta" için bir referans olarak kullanılır. Çok iyi atıfta bulunulmayan bu durumlar hala çözülmesi gereken bir problemdir.Bazı yeni segmentasyon kategorilerinin geliştirilmesi bir çözüm olabilir, ancak bu on binlerce ince ayarlı veri ile çözülebilecek bir problem değildir.

Ve hatta anlamsal bölümlemenin kendisi, aynı zamanda çok yararlı olan, malların tanınması gibi birçok farklı uygulama senaryosunu genişletebilir.

"Örneğin, bir cep telefonu üreticisi belirli bir programa sponsorluk yapıyor, ancak bu, platformumuzun sponsoru değil. Ticari markayı kodlamamız veya değiştirmek için ürünü çıkarmamız gerekiyor. Bu çalışma yine de editör tarafından manuel olarak yapılıyor."

Ek olarak, izleme algoritması ve segmentasyon algoritması, model hızlandırma ve mobil terminaller için model sıkıştırma vb. Kombinasyonu vardır. Teknik Ürün Merkezi'ndeki araştırmacıların çalışma programı 8102 olarak planlanmış gibi görünüyor!

Yazı işleri bölümüne dönüp arkadaşlarımla iQiyi uygulamasını tartıştıktan sonra ortak noktam olan baraj maskesinin son ürün etkisinin çok iyi olması, kısaca model etkisinin beklentilerini belirlediği söylenebilir. "Elinizden geleni yapın."

Segmentasyon modeli sadece yaklaşık% 80'lik doğru bir orana sahip bir "bebek" olsa da, kasıtlı olarak bunun için "işleri zorlaştırmazsanız", saça ince bir şekilde bölünmemiş ve kullanımı etkilemeyecek, bir dizi mühendislik ile desteklenen bazı basit sahneler seçebilirsiniz. Yöntem (sahnedeki zor durumları ortadan kaldırmak için tanıma modelini kullanmak ve grafik yöntemleriyle segmentasyon etkisini daha da optimize etmek gibi), son sistem yine de iyi bir bitmiş ürün etkisine sahip olabilir.

Derin öğrenme fikri uçtan uca olsa da, yüzleşilmesi gereken sorun, gerçekliğin her zaman eğitim setinden daha karmaşık olmasıdır. "Gökyüzüne tek adımda tırmanma" modeli ortaya çıkmadan önce, "gökyüzüne tırmanma" süreci, "buzdolabına bir fil koymak" gibi üç aşamaya ayrılmıştı. Kullanılabilir bir sürüm edindikten sonra yeni sorunları çözmek için yinelemeli yöntemler kullanmak iyi bir seçim mi?

- Bitiş -

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

AI hype aşırı ısındı, ürünler nerede? Dünyanın en iyi mikro görüntüleme teknolojisi sağlayıcısı ile röportaj
önceki
Hollanda futbolu çatışması! Hakem kalecinin başının arkasına ağır bir yumruk attı ve ambulans tedavi için olay yerine geldi.
Sonraki
Arsa yeniden yükseltildi! Havlu kardeşim gözyaşlarına boğuldu Netease Yanxuan: Bana "yalancı" diyorsun, ben sadece bazı gerçekleri söylüyorum
Yine seksi fotoğraflar! Luneng Fengbanın yeni sezondaki olağanüstü performansı, arkasındaki kadından ayrılamaz.
Röportaj | Kai-Fu Lee: İnsanoğlu, Pandora'nın kutusunu açtı ve AI değişikliklerini engellemek sadece boşuna olacak
Oyundaki en düşük puan! Barselona'nın en zayıf halkası havaya uçtu ve seyircinin uyurgezerliği bir felaketti!
Sözlü Tarih · Sichuan Zhuqin Xie Huiren Kesinlikle Bambu Piyano Şarkı Şarkı Söylemek için Gitar Eşliğinde Bale Dansı
"Çinliler boktan" İtalyan markası DG Çin'i küçük düşürdü ve ulusal boykotu tetikledi!
DJI, tarihin en küçük drone'u olan Spark'ı piyasaya sürdü, selfielerin kalkış ve inişi, jest tanımaya dayanıyor
Grand Slam! Tsinghua öğrenci süper bilgisayar takımı, uluslararası üniversite öğrencisi süper bilgisayar yarışmasının şampiyonluğunu kazandı
Süper Lig'de 536 günlük bir yokluğun ardından, Barcelona'yı Şampiyonlar Ligi'nde eleyen oyuncu geri dönüyor!
Google "gizli" bir doğrulama sistemi oluşturur, kötü doğrulama koduna veda edin
31 Ekim itibarıyla Chengdu 27.000 çevre koruma etiketi yayınladı
Topun kralı! Serbest vuruş bir penaltı vuruşudur ve Messi bu başarıyı art arda iki sezon boyunca başardı!
To Top