Sektör "İlginç" anları otomatik olarak yakalama konusunda daha iyi olun: Google Clips AI yeni kamera teknolojisi

AI Technology Review Press: Benim için fotoğraf anlık bir tanıma, bir zaman parçası, bir olayın anlamı ve fotoğraf, olaya uygun bir ifade veren kesin bir organizasyon biçimidir. Ünlü Fransız fotoğrafçı Henri Cartier-Bresson

Geçtiğimiz birkaç yılda, AI alanındaki Kambriyen patlamasına herkes şahit oldu.Derin öğrenme yöntemleri, bilgisayar görme algoritmalarının iyi bir fotoğraftaki birçok öğeyi tanımasını sağladı: insanlar, gülümseyen yüzler, evcil hayvanlar, ünlü yerler ve daha fazlası Elementler. Bununla birlikte, derin öğrenme yakın gelecekte bir miktar ilerleme kaydetmiş olsa da, otomatik fotoğrafçılıkta hala çok zorlu bir problemle karşı karşıyadır: Kamera harika anları otomatik olarak yakalayabilir mi?

Google, geçen yıl hayattaki ilginç anları otomatik olarak yakalayan yeni bir kamera ürünü çıkardı: Google Clips kamera. Google Clips'in tasarımı aşağıdaki üç önemli ilkeyi izliyor:

1. Google tüm hesaplamaların kamera tarafında yapılmasını istiyor. Kamera tarafında bilgi işlemin avantajları, kamera pil ömrünü uzatmanın ve hesaplama gecikmesini azaltmanın yanı sıra, kullanıcı kamera çekim verilerini saklamaya veya paylaşmaya karar vermedikçe tüm verilerin kamera tarafında kalacağı ve bu da kullanıcının gizlilik kontrolünün anahtarı olduğu anlamına gelir. Nerede.

2. Google, Clipsin tek fotoğraflar değil kısa videolar çekmesini istiyor. Dinamik anlar çekmek, kullanıcıların ihtiyaçlarını daha iyi karşılayabilir ve anılara sadık kalabilir ve ilgi çekici anlar içeren bir video çekmek, zamanda tek bir mükemmel anı yakalamaktan daha kolaydır.

3. Google, daha soyut ve öznel olarak zor sanatsal fotoğraflara odaklanmak yerine, kameranın insanların ve evcil hayvanların "samimi fotoğraflarına" odaklanmasını istiyor. Yani Google, Clips'e kompozisyon, renk dengesi, ışıklandırma ve diğer çekim teknikleri hakkında düşünmeyi öğretmeye çalışmadı; bunun yerine, Clips, ilginç aktiviteler yapan insanların ve hayvanların anlarını "samimi" seçmeye odaklandı.

Harika anları tanımayı ve kaydetmeyi öğrenin

Harika anları tanımak için bir algoritma nasıl eğitilir? Çoğu makine öğrenimi sorununu çözmek gibi, Google da bir veri kümesiyle başladı. Öncelikle Google, binlerce farklı sahne içeren bir video veri seti oluşturdu ve Clips'in bu sahnelerde kullanışlı olabileceğine inanıyor. Google ayrıca veri kümesinin ırk, cinsiyet ve yaş gibi çok çeşitli kategorileri kapsamasını sağlar. Ayrıca Google, Clips tarafından çekilen film materyalinden en iyi bölümü dikkatlice seçmeleri için profesyonel fotoğrafçılar ve video editörleri işe almıştır. Videonun erken kapsamlı işlenmesi, Google'a simülasyon için algoritma tarafından kullanılabilecek örnekler sağladı. Ancak, insanın öznel seçimlerini bağımsız olarak öğrenmek için bir algoritma eğitmek zordur. Bu, algoritmaya video içeriğinin kalitesini ("mükemmelden" kötüye ") tanımasını öğretmek için yumuşak bir gradyan etiketi gerektirir.

Bu sorunu çözmek için Google, videonun uzunluğu boyunca sürekli bir kalite puanı oluşturmayı amaçlayan ikinci bir veri toplama yöntemini benimsedi. Google, her videoyu kısa kliplere böler (Clips tarafından çekilen içerik kliplerine benzer) ve insan değerlendiricilerin en çok sevdiklerini seçmelerine izin vermek için rastgele bir çift klip seçer.

"Kuzenin uzun bir video yaptı. Kaydetmek için küçük bir klip seçkisi seçmene yardım etmeni istiyor. Size birkaç klip gösteriyor ve her çiftten beğendiğinizi seçmenize izin veriyor."

Bir çift klipten daha iyi olanı seçmek bir grup video klipten çok daha kolay olduğundan, Google, insan değerlendiricilerin videonun tamamını doğrudan derecelendirmesine izin vermek yerine ikili bir karşılaştırma yöntemi kullanır. Google, ikili karşılaştırma yöntemini kullanırken, insan değerlendiricinin performansının tutarlı olduğunu, ancak doğrudan puanın daha az istikrarlı olduğunu buldu. Herhangi bir video için, yeterli sayıda eşleştirilmiş karşılaştırma segmenti verildiği sürece, Google tüm video uzunluğu boyunca sürekli bir segment kalite puanı hesaplayabilir. Bu süreçte Google, Clips'teki 1.000'den fazla videodan ikili karşılaştırma için 50 milyondan fazla video klibi örnekledi. Bu süreç çok fazla insan gücü tüketiyor!

Segment kalite modeli eğitin

Eğitim verilerinin kalite puanı göz önüne alındığında, Google'ın bir sonraki adımı bir sinir ağı modeli eğitmek ve Clips tarafından çekilen fotoğrafların kalitesini değerlendirmek için bu modeli kullanmaktır. Google, temel olarak modelin fotoğrafta ne olduğunu bildiğini varsayar (insanlar, köpekler, ağaçlar vb. Gibi), bu da modelin "ilginç" olanı tanımlamasına yardımcı olur. Bu varsayım doğruysa, Google, fotoğrafları karşılaştıran insanların davranışlarından türetilen yeni bir özellik edinebilir: belirlenen fotoğrafın içeriği aracılığıyla fotoğrafın kalite puanını tahmin edin.

Google, eğitim verilerindeki şeyleri, kavramları ve eylemleri tanımlayan içerik etiketlerini tanımlamak için Google Görsel Arama ve Google Fotoğraflar'ı destekleyen aynı makine öğrenimi teknolojisini kullanır. 27.000'den fazla farklı etiket tanınabilir. Google'ın tüm bu etiketlere ihtiyacı olmadığı açıktır ve hepsini cihazda saymak imkansızdır. Bu nedenle, Google'ın fotoğrafçılık uzmanları yalnızca birkaç yüz etiket seçtiler. Bu etiketlerin bir fotoğrafı tahmin etmede "ilginç" olduğunu düşünüyorlar. En yakın. Google ayrıca, insan değerlendiriciler tarafından üretilen kliplerin kalite puanlarıyla en iyi eşleşen etiketleri ekledi.

Bu etiketlerin bir alt kümesini elde ettikten sonra, Google'ın sıkı enerji ve ısı kısıtlamaları altında cihaz tarafındaki herhangi bir görüntüyü tahmin edebilen sıkıştırılmış ve verimli bir model tasarlaması gerekir. Bu bir zorluk teşkil ediyor çünkü bilgisayar görüşünü destekleyen derin öğrenme teknolojileri genellikle güçlü masaüstü GPU'ları gerektiriyor ve şu anda mobil cihazlarda çalışmak için uygun olan algoritmalar masaüstü ve buluttaki en gelişmiş teknolojilerin çok gerisinde. Bu cihaz tarafı modeli eğitmek için önce Google çok sayıda fotoğraf koleksiyonu kullandı ve yine yukarıda açıklanan her "ilginç" etiketin gerçekliğini tahmin etmek için Google'ın güçlü sunucu tabanlı tanıma modelini kullandı. derece. Ardından Google, sunucu tabanlı bir modelin tahminini simüle etmek için bir MobileNet Görüntü İçeriği Modeli'ni (ICM) eğitti. Bu sıkıştırma modeli, "ilginç" ile hiçbir ilgisi olmayan içeriği görmezden gelirken fotoğraftaki en ilginç öğeleri belirleyebilir.

Son adım, bir girdi fotoğrafı için tek bir kalite puanı tahmin etmek (fotoğrafın içeriği ICM tarafından tahmin edilmektedir) ve eğitim verisi olarak 50 milyon eşleştirilmiş karşılaştırma örneği kullanmaktır. Bu puan, ICM'nin çıktısını belirli bir çerçeve segmentinin kalite puanıyla birleştiren parçalı bir doğrusal regresyon modeli kullanılarak hesaplanır. Bu çerçevenin kalite puanı, anlık bir puan oluşturmak için entegre video bölümlemedir. Eşleştirilmiş bir karşılaştırma örneği verildiğinde, model, insanların tercih ettiği segmente daha yüksek bir puan verecek olan anlık bir puan hesaplayabilmelidir. İkili segment karşılaştırmalarında tahminlerini insan tercihlerine mümkün olduğunca yakın eşleştirmek için modeli bu şekilde eğitin.

Şekil: Çerçeve kalitesi puanları oluşturmak için model eğitim süreci. Parçalı doğrusal regresyon, bir video kapsamlı bir şekilde değerlendirilirken elde edilen anlık bir puan olan ICM'den bir puana iç içe geçmiş bir eşlemedir. İnsanların tercih ettiği segmentin anlık puanı daha yüksek olmalıdır.

Bu süreç, Google'ın, Google'ın görüntü tanıma teknolojisi ile insan değerlendiricilerin bilgeliğini birleştiren ve insan değerlendiricilerin bilgeliğinin "ilginç içeriğin ne olduğu" konusunda 50 milyon görünümle temsil edildiği bir model eğitmesine olanak tanır!

Veriye dayalı puanlama modeli videonun ilginç ve ilgi çekici olmayan anlarını belirlemede oldukça iyi performans göstermiş olsa da, Google modeli Google'ın çekmesini istediği fotoğrafları çekmeye motive etmek için yine de genel puana bazı ödüller ekliyor. İnsan yüzleri (özellikle genellikle kamera önünde görünen tanıdık yüzler), gülümsemeler ve evcil hayvanlar dahil. Google kısa süre önce "Zıpla: Google Clips hayatın küçük anlarını yakalar" adlı bir makale yayınladı. Gazetede, Google, kullanıcıların açıkça kaydetmek istedikleri belirli davranışlara (sarılma, öpüşme, zıplama ve dans gibi) bazı modeller ekledi. Ödül ve teşvik modelleri bu kullanıcı davranışlarını kaydeder. Bu davranışları tanımlamak için ICM modelinin genişletilmesi gerekir.

Anlık görüntü kontrolü

"İlginç" bir sahneyi tahmin edebilen güçlü bir modelle, Clips kamera hangi sahnenin gerçek zamanlı olarak çekilmesi gerektiğini belirleyebilir. Clips kameranın çekim kontrol algoritması aşağıdaki üç ana prensibi izler:

  • Pilin verimli kullanımı ve cihazın aşırı ısınmasını önleme: Google, Clips pilinin yaklaşık 3 saatlik pil ömrünü koruyabileceğini umuyor ve cihazın aşırı ısınmasını istemiyor (cihazın tüm süreç boyunca yüksek performanslı bir durumda çalıştırılması yasaktır). Klipler çoğu zaman düşük güç tüketimiyle çalışır ve bu sırada Clips saniyede bir kare çeker. Belirli bir karenin resim kalitesi Clips'in kritik değerine ulaşırsa (Clips tarafından yakın zamanda çekilen en iyi fotoğraf kalitesine göre ayarlanır), Clips saniyede 15 kare yakalayan yüksek performanslı bir moda girecektir. Daha sonra Clips, ilk fotoğrafı içeren video klibi en iyi kalitede kaydedecektir.

  • Gereksiz çekimden kaçının: Google, Clips'in tüm anları aynı anda kaydetmesini ve geri kalanını görmezden gelmesini istemez. Bu nedenle, Google'ın kamera kontrol algoritması, Clips tarafından alınan anları görsel olarak benzer gruplar halinde gruplandırır ve her gruptaki klip sayısını sınırlar.

  • Ne çektiğinize dair ikinci bir değerlendirme yapın: Çekimler bir bütün olarak önünüze yerleştirildiğinde, hangi çekimin en iyi olduğunu kolayca belirleyebilirsiniz. Bu nedenle, Clips, çekim sonuçlarını doğrudan kullanıcıya göstermek yerine, kullanıcının seçmesi için daha fazla an kaydetme eğilimindedir. Yakalanan görüntüleri cep telefonuna iletmeden önce, Clips kamerası yakalanan içeriği tekrar değerlendirecek ve ardından kullanıcıya yalnızca en iyi kaliteyi ve en az gereksiz içeriği sunacaktır.

  • Makine öğreniminin adaleti

    Google, video veri setinin kapsadığı etnik kategorilerin çeşitliliğini sağlamaya ek olarak, algoritmanın adilliğini değerlendirmek için birkaç başka test de kurdu. Google, dengeyi sağlama öncülüğünde, içerik türü, süre ve çevresel koşullar gibi sabit çeşitliliği korurken kontrol edilebilir bir veri kümesi oluşturmak için farklı cinsiyetlerden ve cilt renklerinden konuları örnekledi. Daha sonra Google, algoritmanın farklı gruplara uygulandığında hala aynı performansı koruyup korumadığını test etmek için bu veri setini kullandı. Algoritmada adalet açısından herhangi bir bozulma olup olmadığını tespit etmeye yardımcı olmak için, bir bozulma bulunduğunda, Google an kalitesi modellerini derhal iyileştirecek ve Google da bu adalet testini kendi otomatik sistemine ekleyecektir. Tüm yazılım değişiklikleri pil ömrü için test edilmeli ve geçilmelidir. Google'ın olası her senaryoyu ve sonucu test edememesi gibi, bu yöntemin algoritmanın adilliğini tamamen garanti etmediği unutulmamalıdır. Ancak Google, yukarıdaki adımların makine öğrenimi algoritmalarında adaleti sağlamaya yönelik uzun vadeli araştırmanın önemli bir parçası olduğuna inanıyor.

    sonuç olarak

    Çoğu makine öğrenimi algoritması, hedefin kalitesini değerlendirmek için tasarlanmıştır: bir fotoğrafta kedi olup olmadığına karar vermek gibi. Bu durumda Google, algoritmayı daha zor ve öznel bir kaliteye sahip olacak şekilde tasarlamayı, yani kişisel bir fotoğrafın ilginç olup olmadığına karar vermeyi amaçlamaktadır. Bu nedenle Google, Google Clips kameralarını destekleyen yapay zeka teknolojisi oluşturmak için fotoğrafların nesnel ve anlamsal içeriğini insan öznel tercihleriyle birleştirir. Ek olarak, Clips, tek başına çalışmak yerine kullanıcının katılımıyla çalışmak üzere tasarlanmıştır; daha iyi çekim sonuçları elde etmek için kullanıcıların kadrajı dikkate alması ve Clips'in ilginç içeriği hedeflediğinden emin olması gerekir. Google, Google Clips'in iyi performans gösterdiğini görmekten çok mutlu ve Clips'in o "mükemmel" anı yakalamasına yardımcı olmak için algoritmayı geliştirmeye devam edecek!

    Google AI Blogu, AI teknolojisi inceleme derlemesi aracılığıyla.

    CCF-GAIR 2018 olacak

    29 Haziran - 1 Temmuz

    Shenzhen'de düzenlendi.

    Üç günlük gündem ve güçlü kadro birbiri ardına yayınlandı.

    21 Haziran saat 24:00 itibariyle

    Birçok uygulamadan AI teknolojisi incelemeleri

    20 öğrenci seçildi

    3999 yuan değerinde CCF-GAIR 2018 bileti

    ve

    "İç hat gidiş-dönüş uçak bileti + dört gece konaklama" avantajları

    aynı zamanda,

    Kiralık şarap listesinde olmayan öğrencilerin cesaretinin kırılmasına gerek yoktur.

    Başvuran tüm öğrenciler arasında da olacağız,

    Öğrencilere göz atın

    Birbiri ardına bire bir temas,

    3999 yuan değerinde CCF-GAIR konferans bileti verin.

    (Bu bilete üç günlük öğle yemeği dahildir!)

    Ücretsiz bilet başvuru kanalı için son tarih:

    26 Haziran 24:00

    Öğrencileri "Orijinali oku" bağlantısını tıklamaya davet edin

    Kişisel bilgi başvurusunu doldurun!

    (Not: Lütfen formdaki doğru WeChat Kimliği ve e-posta adresini girin,

    İnceleme geçildikten sonra personel, bilet düzenlemek için WeChat veya e-posta yoluyla sizinle iletişime geçecektir)

    29 Haziran'dan 1 Temmuz'a kadar Shenzhen'de görüşmek üzere!

    Ücretsiz Bilet Başvurusu için Rehber Notlar

    Son Başvuru Tarihi: 26 Haziran 24:00

    Etkinliği açıklama hakkı Leifeng.com AI Technology Review'e aittir

    Bu baharda kiraz çiçekleri süt çayı ile buluştuğunda bahar da romantik oluyor
    önceki
    BAIC Weiwang M60 resmi olarak piyasaya sürüldü, 66.800 RMB'den 98.800 RMB'ye satıldı
    Sonraki
    90'lardan sonra en güçlü gişe çekiciliğine sahip küçük taze et Wu Yifan Luhan'ı alt ediyor ve birinciliği hak ediyor
    Tekrar işlemeye başlamadan önce bir fobi mi seçiyorsunuz? Seçmenize yardımcı olacak VANS x FoG ve VANS x F.O.G katalogları!
    Mini Program-Tencent'in dünyayı yönetme komplosu
    Konferans Xiaomi'nin yapay zeka hakkında konuşmasını dinleyin, "Xiaomi Gecesi" geliyor!
    Küresel "Güzellik Ekonomisi" Raporu: Her 2 saniyede bir peruk satın Peruğunuz boş mu?
    2018 Skoda Superpack pazarda 169.800'den 249.800'e satıldı
    "You from the Star" ın Çince versiyonu olan Zheng Shuang, Zheng Shuang ile birlikte CP'yi görmek isteyen bir numaralı kadın filminde rol aldı.
    Kapsamlı performans yükseltmesi! Vivo, 17 Ekim'de gizemli yeni ürünleri piyasaya sürecek
    Data Box Edge dahil beş yeni ürün burada ve Microsoft Azure'un uç bilgi işlem devrimi daha da yakın
    Dinamikler Yapay zeka alanında gerçekten utanç verici olan şey ...
    F.C.R.B. Yeni 2017AW serisinin bir sürprizi daha var! O kadar çok yönlüdür ki, onu mükemmel şekilde kontrol edebilirsiniz!
    Angkewei neden "kutsal araba sonlandırıcısı" olabilir? Bu sisteme güvenin
    To Top