Kuaishou'da yapay zeka teknolojisi başkan yardımcısı Zheng Wen: Kuaishou'nun içerik üretimini anlamada kullandığı yapay zeka teknolojisi

Yapay zeka teknolojisi inceleme haberleri, Çin Multimedya Konferansı birkaç gün önce Xi'an'da gerçekleştirildi Toplantıda, Kuaishou Teknolojisinin yapay zeka teknolojisi başkan yardımcısı Zheng Wen, multimedya teknolojisini, özellikle de Kuaishou'da yapay zeka teknolojisinin uygulamasını paylaştı. Kuaishou'nun misyonunun, video ve kullanıcıların iki yönlü algılanmasını içeren ve birden çok AI teknolojisini kullanan "herkesin benzersiz mutluluk duygusunu geliştirmek için teknolojiyi kullanmak" olduğunu söyledi. İçerik üretimi ve içerik anlayışının iki modülünde yer alan ilgili teknolojilere odaklandı.Aşağıda, silinmiş konuşmasının içeriği.

Stanford Üniversitesi, Bilgisayar Bilimleri Bölümü, Tsinghua Üniversitesi Yazılım Okulu'nun 2001 mezunu olan Zheng Wen, Silikon Vadisi'ndeki pek çok tanınmış büyük şirket ve girişimde bilgisayar grafikleri, bilgisayarla görme ve derin öğrenmeyle uğraşmıştır. Şu anda Kuaishou'da AI teknolojisinin başkan yardımcısıdır. Yapay zeka, AR, CV, CG ve diğer yönlerdeki en son araştırmalarda Kuaishou'ya liderlik edin.

Kuaishou'nun misyonu, "herkesin eşsiz mutluluk duygusunu geliştirmek için teknolojiyi kullanmaktır." Burada iki anahtar kelime var: Biri "herkes" Bu, Kuaishou'nun değerlerinin çok evrensel olduğunu gösteriyor, ancak aynı zamanda herkesin mutluluğunun "eşsiz" olduğunu da vurguluyoruz. Bu iki anahtar sözcük birlikte çalışmamız için çok büyük bir zorluk teşkil ediyor Kuaishou bu hedefe teknolojik yollarla ulaşmayı umuyor.

Şu anda, Kuaishou iki yönden yansıtılabilen kayıtlar aracılığıyla mutluluğu teşvik ediyor. İlk olarak, kullanıcılar daha geniş bir dünya görmek ister. İkincisi, kullanıcıların kendilerini paylaşmaları ve daha geniş dünya tarafından görülmeleri gerekir.

Ama burada bir zorluk var. Şimdi Kuaishou 5 milyardan fazla video biriktirdi ve yüz milyonlarca kullanıcısı var. Bu iki büyük sayı karşısında dikkatleri etkili bir şekilde nasıl dağıtabiliriz? Geçmişte, dikkatler genellikle "sıcak videolar" üzerinde yoğunlaşıyordu, ancak sıcak videoların altında, çok zengin bilgiler ve çeşitli kategoriler içerebilecek birçok içerik hâlâ var. Bu tür "uzun kuyruklu videolar" genellikle Başkaları tarafından fark edilmek zordur. Bu şekilde, küçük ihtiyaçları veya ilgileri olan bazı grupların istediklerini bulmaları genellikle zordur.

Bu sorunu sadece yapay yollara güvenerek çözmek zordur, çünkü hassas eşleştirme için video ile kullanıcı arasında iki yönlü bir algı elde etmemiz gerekiyor, bunun arkasında trilyonlarca büyük veri var. Kuaishou, bu sorunu çok erken bir zamandan beri çözmek için AI teknolojisini kullanıyor. Bugün, video prodüksiyonundan video dağıtımına kadar, Kuaishou'nun tüm sürecinde çok sayıda AI teknolojisi kullanılıyor.

İçerik üretimi

Kuaishou bu yıl bazı popüler özel efektleri tanıttı. Örneğin, "zaman makinesi" sihirli ifadesi, bir kişinin yüzünün gençten yaşlıya olan sürecini gösterebilir ve kullanıcının kalbinde derin bir duygu uyandırabilir. "Garip Dans Makinesi" nin sihirli ifadesi, kaydı daha ilginç hale getirmek için çekim ve oyunları birleştirir.

Ayrıca içerik kalitesini yükseltmeyi umuyoruz ve birçok görüntü geliştirme teknolojisi geliştirdik ve uyguladık. Örneğin, kullanıcı çok karanlık bir ortamda çekim yaparsa, çıktı videosu genellikle bilgi ve ayrıntıları kaybedecek ve bu ayrıntılar, koyu ışık geliştirme teknolojisi ile geri yüklenebilir.

Ayrıca kayıtları daha zengin ve daha ilginç hale getirmek ve aynı zamanda daha yüksek kaliteye sahip olmak için AI teknolojisini kullanmayı umuyoruz. Bu hedefe dayanarak, arka plan bölümleme, gökyüzü bölümleme, saç bölümleme, insan vücudu kilit noktaları, yüz kilit noktaları, hareket anahtar noktası algılama vb. Gibi çok sayıda multimedya ve AI teknolojisi geliştirdik.

Bununla birlikte, Kuaishou kullanıcılarının büyük bir kısmı orta ila alt uç modeller kullanıyor ve mevcut gelişmiş AI teknolojisi, cihazın bilgi işlem kapasitesi konusunda son derece yüksek gereksinimlere sahip. Gelişmiş teknolojinin çoğu kullanıcı tarafından nasıl deneyimlenmesini sağlayabilirsiniz, temel platformu uygulamayı umuyoruz Kuaishou tarafından geliştirilen YCNN derin öğrenme çıkarım motoruna dayanan özelleştirilmiş geliştirme, yukarıdaki teknoloji çoğu modelde verimli bir şekilde çalışabilir ve farklı modeller ve farklı donanımlar için uyarlanmış ve optimize edilmiştir.

Sırada, içerik üretiminde son zamanlarda geliştirdiğimiz teknolojilerden bazıları var: yüzün üç boyutlu bilgisini tek bir yüz görüntüsünden kurtaran üç boyutlu yüz.Bir yandan, ışıklandırma ve biraz yapma gibi yüz üzerinde bazı değişiklikler gerçekleştirilebilir. İfadeler, üç boyutlu yüzü değiştiren özel efektler gerçekleştirir; Öte yandan, üç boyutlu yüz bilgisi aracılığıyla insan ifadelerindeki değişiklikleri çıkarabilir ve ardından ifadeleri iPhoneX tarafından başlatılan Animoji işlevine benzer şekilde sanal bebeklere aktarabiliriz, ancak iPhoneX yapılandırılmış ışığa sahiptir. , Ve Animoji çalıştırmak çok güçlü bir bilgi işlem gücü gerektirir.Teknik araştırma ve geliştirme sayesinde, daha düşük yapılandırmalara sahip telefonlarda benzer işlevler elde edebiliriz.

Ayrıca, portre ile arka planı ayırmak, sırasıyla portre ve arka plana özel efektler uygulamak veya arka planı değiştirmek gibi anlamsal bölümlemeden bahsetmiştim, portreyi bulanıklaştırmanın yanı sıra; saç bölümleme için saç boyama için saç alanını bölümlere ayırabilirsiniz. Gökyüzü bölütleme gibi başka bölümleme teknikleri de vardır.

İnsan vücudu duruş tahmini, bir kişinin eklem noktalarının konumunu tahmin etmektir.Bu teknolojiyi kullanarak, uzuvlara özel efektler ekleyebilir veya bir kişinin vücut şeklini değiştirebilir ve vücut zayıflama işlevlerini gerçekleştirebiliriz. Ek olarak, dans hareketlerini puanlamak için insan duruşunu da kullanıyoruz.

Hareket algılama, "yağmur kontrolü" ve diğer oynanışa ulaşmak için çeşitli özel ve farklı el şekillerini algılamaktır. AR kamera poz tahmini de vardır, arkasında Kuaishou tarafından geliştirilen 3B motor bulunur ve modelin mükemmel ve doğal ışık algısını ve malzemesini elde etmek için hangi editör modülü, işleme modülü, gövde modülü, ses modülü vb.

Ses ve video açısından, çok sayıda akıllı algoritma kullanıyoruz.Örneğin, videonun olabildiğince net olmasına ihtiyacımız var, ancak aynı zamanda video karmaşıklığı için bazı uyarlamalı optimizasyon gerektiren sorunsuz aktarım da gerektiriyor. Ek olarak, görüntünün yatırım getirisini de analiz edeceğiz. Örneğin, videodaki yüzün alanı genellikle herkesin algısı üzerinde en büyük etkiye sahiptir. Yüz alanını tespit edeceğiz ve ardından genel görünümü ve hissi sağlamak için bit hızını artıracağız. Harika gelişme.

Görüntü kalitesini de kontrol ediyoruz.Örneğin, çekimin iyi odakta olmaması, lensin uzun süre silinmemiş olması veya videonun bloklu kusurlar üretmek için birden çok kez yüklenip sıkıştırılması gibi video üretim sürecinde görüntü kalitesinin düşmesine neden olan bazı faktörler var. Bu sorunları yapay zeka algoritmaları ile tespit edeceğiz.Bir yandan kullanıcılara çekim yaparken bu sorunlara dikkat etmelerini hatırlatırken diğer yandan video tavsiyeleri verirken yüksek kaliteli videoları da eğeceğiz.

İçerik anlayışı

İçerik üretim bağlantısı tamamlandıktan sonra video, video içeriğini daha derinlemesine anlamamız gereken arka uç sunucusuna yüklenecektir. Videonun içerik anlayışı, içerik güvenliği, orijinal koruma, öneri, arama, reklam vb. Pek çok açıdan kullanılacaktır. Burada kabaca iki aşama var.

Birincisi, video bilgisinin yüz, görüntü, müzik ve ses olmak üzere dört boyuttan anlaşıldığı algılama aşamasıdır.

Yüz çok önemli bir boyut çünkü yüz çoğu zaman insanların önemsediği en önemli kısmı içeriyor.Yüz bölgesini tespit edeceğiz, kimliği belirleyeceğiz, konumu izleyeceğiz, kilit noktaları çıkaracağız ve yaşı, cinsiyeti, ifadeyi vb. Alacağız. bilgi.

Diğer bir boyut ise görüntü seviyesidir.Görüntünün içinde bulunduğu görüntüyü sınıflandırıyoruz ve görüntüde hangi nesnelerin olduğunu tespit ediyor, görüntü kalitesini değerlendiriyor ve görüntüden metin çıkarmak için OCR teknolojisini kullanıyoruz.

Müzik de çok önemli bir faktördür.Videonun çekiciliğini etkilemenin çok önemli bir parçasıdır.Müziğin türünü videodan belirleyebilir ve hatta müziği eşlik ve şarkıyı ayıracak şekilde yapılandırabiliriz. Son zamanlarda, K şarkı işlevini de ekledik ve şimdi şarkı sesini nasıl güzelleştireceğimizi, şarkı sesine notalar vereceğimizi vb.

Ses, videonun da çok önemli bir boyutudur.Genellikle videonun ilettiği bilgiler görüntüden iyi elde edilemeyebilir. Şu anda ses çok önemlidir.Sesi tanıyıp metne çevireceğiz ve kişiyi sesle tanıyacağız. Kimlik, yaş, cinsiyet vb.

İkinci aşama, muhakeme aşamasıdır.Bu farklı bilgi boyutlarının çok modlu birleşmesi yoluyla, daha yüksek seviyeli konuşma bilgileri çıkarılabilir veya videoda duygu tanıma yapılabilir. Bilgiyi videoda saklamak ve bilgi grafiğinde ifade etmek için bilgi grafiği teknolojisini de kullanıyoruz. Bilgi grafiğinin muhakemesi yoluyla, daha üst düzey ve daha derin bilgiler elde edebiliriz.

Aşağıdakiler, içerik anlamada daha spesifik teknolojilerimizden bazılarıdır: Örneğin, Kuaishou, videoda görünen içerik ve sahnelerin çoğunu sınıflandırabilen bir video etiketleme sistemi geliştirmiştir. Hızlı el konuşma tanıma işlev modülünde, tanıma doğruluğunu büyük ölçüde artıran bağlamsal bağlam modülü ile birleştirilmiş derin öğrenme algoritmaları kullanıyoruz.

Bir yandan video içeriğini anlamalıyız, öte yandan kullanıcıyı da anlamalıyız. Bu, yaş, cinsiyet, IP adresi, konum, telefon modeli gibi temel kullanıcı bilgilerini içerir. Kullanıcılar Kuaishou'yu gerçek zamanlı olarak kullandıklarında, bazı davranışsal veriler de üretilecektir.Bu veriler, kullanıcının anlayacağı bir vektörü eğitmek için arka uç derin öğrenme modeline iletilecektir. Bu vektörler aracılığıyla kullanıcının ilgisini ve diğer kullanıcılarla ilişkisini tahmin edebiliriz.

Son olarak, kullanıcının açıklamasını ve videoyu anlıyoruz Kullanıcı ile video arasındaki eşleştirme, gerçek zamanlı çevrimiçi öneri sisteminde kullanılacak trilyon düzeyinde özellik büyük verileri üretecektir.

Ek olarak, daha önce bahsedilen dikkatin nasıl dağıtılacağı gibi topluluktaki içeriği de sıralayacağız, dikkat dağıtımındaki boşluğun çok büyük olmayacağını umuyoruz, bu nedenle video içeriğinin dağılımını Gini katsayısına göre ayarlayacağız. Ayrıca içerik güvenliği, çeşitlilik ve orijinal koruma gibi faktörler de dikkate alınır.

Zotye Cloud 100plus, sübvansiyonlardan önce 108.800 yuan'dan başlayarak halka açıldı
önceki
Las Vegas kumarhanesinin kökeni bu süper projeyle yakından ilgilidir
Sonraki
Huang Zihua'nın çırağı için ne kadar iyi olduğunu biliyor musunuz? Huang Zihua Dong Duxiao için bir bilet daha!
Sonbahar ve kış birlikteliğinin büyülü aracı budur! Levi's x SOL-SOL ortak adı "öldürmek" kim olacak?
CP hayranları yine burada! "In the Name of the People" da bozuldu.Dramayı izlediğiniz için bu duruşu kabul edebilir misiniz?
Kantonca, futbol yakışıklılığı hakkında her konuştuğunuzda sadece Beckham'ı tanımayın!
Büyük beyaz ayakkabıları bir lüks haline getirin! Just Don x NIKE Air Force 1 Hi nasıl boğucu bir dokunuş yapıyor? !
Hangzhou Güvenlik Teknolojisi Koruma Endüstrisi Derneği'nin sekizinci (yeniden dönem) üye toplantısı ve sekizinci yöneticiler ve denetçilerin ilk toplantısı başarıyla gerçekleştirildi
Başkalarını kıskanmayın, Mi MIX 3'ün elde taşınan süper gece görünümü de burada
Matris LED farlar / çift dokunmatik ekranlı yeni Land Rover Range Rover
Bu TVB'nin yeni dramını "Golden Branch Desire" ın gölgesini izler gibi izliyor
Haberler Shangtang, beşinci en büyük ulusal yapay zeka açık inovasyon platformu oldu
PSNY x AJ12 Michigan sınırlı serisi çıktı! Başlamak istiyorsanız, biraz düşünmeniz gerekecek!
Aston Martin, Ferrari takımı için bir köşe kazıyor
To Top