Yeni nesil arama teknolojisi üstünlüğü için savaş! Baidu Lens görsel arama teknolojisinin derinlemesine analizi

AI Ön Cephe Kılavuzu : 2009'da Google "Goggles" piyasaya sürüldü. Dokuz yıl sonra, görsel arama alanında nihayet gişe rekorları kıran bir haber var. Baidu kısa süre önce "Lens teknolojisi" ile çok yönlü ve pürüzsüz bir Baidu görüntü tanıma olan yeni ürününü duyurdu. Geçen yıl, büyük arama motorları görsel arama ürünlerini güçlü bir şekilde kullanmaya başladı ve bu da insanlara bunun trafik girişi ile arama teknolojisi arasında başka bir savaş olacağını hissettiriyor. Mart 2018'de, Baidu Görüntü tanıma yükseltmesi oluşturmak için Lens teknolojisini kullanma planı resmi olarak başlatıldı. Aynı ay, Google Google Lens, iOS platformuna çıktı ve bu yılki Google I / O konferansında yeni görsel arama işlevini duyurdu. Haziran, Microsoft Google Lens'e benzer bir AI görsel arama işlevi, kendi Bing APP'sinde başlatıldı ... Görsel arama teknolojisi olgun bir şekilde uygulandığında, bu AI teknolojisinde bir kilometre taşı olacak. Peki şimdi görsel arama nasıl bir uygulama durumu? Ne tür bir işlevi var? Hangi ileri teknoloji kullanılıyor? AI cephesi Senin için tercüme edecek.

Metin

Görsel Arama söz konusu olduğunda, onu görsel arama ile ilişkilendirebilirsiniz, ancak aslında görsel aramanın arama sınırı görsel aramadan daha geniştir. Hareketsiz resimler, geniş açı sınırlamalarından, lens konu seçimindeki sınırlamalardan ve bulanık çekimden etkilenir.Videolarla karşılaştırıldığında, birçok değerli bilgiyi filtreleyecektir.

Bu nedenle görsel arama, görsel aramada bitmez, mobil video sahnelerinin dinamik aranmasını ve kullanıcı kimliğiyle ilgili bilgilerin aktif geri bildirimini içermesi gerekir.

Görsel arama uygulamaları da insanların ihtiyaçları nedeniyle patladı:

(Alıntı: "Yurtiçi Yaygın Mobil Görsel Arama Araçlarının Karşılaştırmalı Çalışması")

Mobil görsel arama: Baidu rekabet etmeli

Baidu, 2017'nin ikinci yarısında Lens teknolojisi araştırma ve geliştirmesinin yönünü ve fikirlerini belirledi ve yarım yılını çekirdek modellerin ve algoritmaların doğrulanması için harcadı.

Mart 2018'de, Baidu Lens teknolojisini basit arama APP ve Baidu'nun görüntü tanıma (kamera) portalında uygulama planı başlatıldı. Sürekli teknik optimizasyonun ardından mevcut yeni sürüm, temel gerçek zamanlı etkileşim teknolojisi ve genel bilişsel formun iki boyutunda istikrarlı bir aşamaya ulaştı.

AI'nın geliştirilmesiyle, görsel arama çeşitli senaryolara uygulanabilir: çocukların bilişi, hayvanları ve bitkileri tanımlama; model fiyatını anlamak için arabaları tarama; yemek yerken yemeklerin kalorilerine bakma, vb. Baidu Zhitu, birçok işlevi bir arada barındıran 300'den fazla sınıflandırılmış öğenin tanınmasını gerçekleştirmiştir.

AR gerçek zamanlı çeviri gibi birçok uygulamanın sevdiği birçok sıcak sahne olduğunu da belirtmekte fayda var:

K12 eğitim parkurunun yıldız ürün işlevi olarak: soru aramak için fotoğraf çekmek. [Baidu uygulamasında çok konulu tanıma şu anda küçük ölçekte tanıtılmaktadır ve tüm kullanıcıları kapsamamaktadır. Bunu arama tarayıcısının Baidu Tanıma Portalı'nda deneyimleyebilirsiniz]

Tüketicilerin ürünleri ve bilgileri keşfetme şeklini değiştiren ürün araması da vardır. Çin'de, Ali ve Jingdong'un aynı parayı bulmak için arama resimleri var. Bu yılın Mayıs ayında Google Lens, giyim stilleri için görsel bir arama sistemi olan Style Match'in lansmanını duyurdu. Temmuz ayında Snapchat ve Amazon, Amazon'da ilgili ürünleri taramanıza ve satın almanıza olanak tanıyan görsel bir arama işlevi başlatmak için güçlerini birleştirdi. Raporlara göre Pinterest'in görsel araması 2018'de% 140 arttı.

Lens teknolojisini entegre eden Baidu Haritasının son sürümünde çok az manuel müdahale var, kamera düğmesine manuel olarak basmaya gerek yok ve nesneler milisaniyeler içinde aktif olarak tespit edilebiliyor. Aynı zamanda, Lens teknolojisi, nesnenin ilgili bilgilerini ekrana geri besleyerek, gezinirken geri bildirim ile gerçek zamanlı bir video arama deneyimi gerçekleştirir.

Lens teknolojisi ile, mobil sahnelerin göz atma tanıma deneyimi şu şekilde görünecektir:

https://v.qq.com/x/page/b08185vqkdj.html

Buluş nerede?

Görsel aramayı bize yaklaştıran önemli bir faktör interaktif deneyimdir.

Cep telefonunun ilk etkileşimi, klavyeye basarak ekrandaki metin bilgisini dolaylı olarak değiştirmektir. İPhone'un gelişinden sonra, ekrandaki çoklu dokunma teknolojisinin atılımı, insan-bilgisayar etkileşimini doğrudan ekran bilgisini ve daha da önemlisi resimleri manipüle etme yeteneğini yükseltti.Bilgi taşıyıcılarının metinden resimlere yükseltilmesi, insan-bilgisayar etkileşiminin birçok yeni yönünü oluşturdu. Mümkün. Çoklu dokunma aşaması insan-bilgisayar etkileşiminin boyutlarını genişletse de, yine de web sayfalarındaki uygulamalara veya sanal içeriğe aşırı derecede odaklanır ve insanların önünde gerçek dünyaya dokunamaz. Bir adım daha ileri gitmeyi ve insanların gözlerinin ve parmaklarının 5 inçlik ekran aracılığıyla önündeki dünyaya uzanmasını, insanlar ve telefon ekranındaki sanal resimler arasındaki etkileşimi, insanlar ve çevrelerindeki dünya arasındaki etkileşime yükseltmeyi umuyoruz.

Cep telefonu kamerasının donanım yükseltmesine, cep telefonu tarafında yerel bilgi işlem gücünün geliştirilmesine ve AI modellerinin ve algoritmalarının etkisine dayanan Baidu Lens teknolojisi, dünyadaki insanlar ve nesneler arasındaki bilgi alışverişinde ilk adımı gerçekleştirdi ve daha fazla manipülasyon buna dayanabilir. Sürekli keşfedilmek bir gerçeklik haline gelir ve insanların yaşam tarzını yeni bir çağa taşır.

Yeni yayınlanan Baidu Görüntü Tanıma, kullanıcıya% 90'ın üzerinde bir doğruluk oranıyla 100 milisaniye içinde ekranda algılanan nesnelerin konumu ve sınıflandırılması hakkında görsel geri bildirim sağlar. Baidu Lens teknolojisi, saf C ++ tarafından uygulanan bir çapraz platform çalışma zamanı kitaplığıdır. Çekirdek kitaplık yalnızca birkaç yüz KB boyutundadır. Akıllı donanım, bazı akıllı kameralar, sürücüsüz arabalar vb. Gibi derin öğrenme modellerinin çalışmasını destekleyen hemen hemen her terminal platformuna yerleştirilebilir. Gelecek için, görme uzmanları akıllı cihazların sadece ceplerimizde olmayacağını, aynı zamanda giderek daha fazla taşınabilir terminal cihazlarında görüneceğini öngörüyorlar.

Lens teknolojisi ile entegre bir görsel arama aracı - Baidu'nun görsel yapay zeka alanındaki kilometre taşları şunlardır:

1. Davranışsal düzeyde, insan gözünün görsel anlayış yeteneğini derinlemesine güçlendirecek, insan biliş alışkanlığını değiştirecek ve gelecekteki akıllı gözlükler için sağlam bir temel oluşturacaktır. . Lens teknolojisinin yardımıyla, yürürken izlemek ve kesintisiz olarak gezinmek gerçekten mümkündür.Aynı zamanda Lens, her nesne için doğru ve derinlemesine bilgi girişi sağlamak için Baidu'nun beynine güvenir.

2. Teknik açıdan bakıldığında, gerçek zamanlı video akışı verilerinin insan benzeri algısını ve bilişini ilk kez gerçekleştirir. . Baidu Lens teknolojisi, Android / IOS sistem dağıtımına yerleştirilebilir ve mobil ve akıllı donanım üzerinde çalıştırılabilir. Buna dayanarak, gerçek zamanlı ve çevrimdışı, evrensel ve özelleştirilmiş video akışı sinyal işlemenin verimliliği artmaya devam edecek ve "okunduğunda" işleme tamamlanacaktır.

Nihai hedef, insan vizyonunun sınırlarını aşmaktır.

Teknik zorluklar

İnsan görüşünün sınırlarını aşmak için hangi temel teknik sorunların çözülmesi gerekiyor?

Soru 1: Derin öğrenmeye dayalı algılama modeli hızlı çalışmalı ve iyi performans göstermeli, aynı zamanda güçlü bir bulut sunucusundan küçük terminalli bir cep telefonuna geçmesi gerekiyor. Daha iyi algılama sonuçları sağlamak için geleneksel algılama modelleri, genellikle nispeten yavaş olan ve ağ hızından kolayca etkilenen karmaşık modeller kullanılarak bulut bilişimde kullanılır. Daha yüksek ses şiddeti hızı için, ancak cep telefonunun bilgi işlem performansı bulut sunucusundan 10 kat daha farklıdır, mobil terminalde yalnızca nispeten basit modeller kullanılabilir (örneğin, yüz algılama MTCNN modelinde aşama başına yalnızca 3 ila 4 evrişim katmanı bulunur). Yalnızca insan yüzlerini algılama gibi belirli nesne türlerinin algılanmasını tamamlamak için. Ek olarak, araştırmamızda, algılama modelinin sınıflandırma dalının, algılama çerçevesinin hesaplanmasına yardımcı olmada daha yararlı olduğunu, ancak çıktı doğruluğu ve güvenilirliğinin genellikle düşük olduğunu veya hatta bulunmadığını gözlemledik, bu da nesnelerin sınıflandırılamamasıyla sonuçlanacaktır. .

Teknolojik atılım: Hafif bir mobil terminal algılama modeli oluşturmak için özelleştirilmiş ve optimize edilmiş YoLo algılama ağı yapısı ile birleştirilen kompakt bir evrişimli omurga ağı oluşturun. Aynı zamanda model, Baidu tarafından kendi geliştirdiği mobil derin öğrenme tahmin çerçevesi Paddle-mobile üzerinde çalışıyor.Baidu derin öğrenme platformu PaddlePaddle tarafından düzenlenen bir proje olarak, gömülü platformların derin öğrenme tahminine bağlı ve gömülü cep telefonları ve diğer platformlarda hesaplama çipleri için tasarlandı. Pek çok optimizasyon, şu anda ios, android, linux-arm, fpga gibi platformların derlenmesini ve konuşlandırılmasını destekliyor ve Baidu içinde ve dışında birçok APP ürününe hizmet ediyor. Algılama etkisini sağlamak için ImageNet, CoCo, VOC gibi 8 çeşit açık kaynak veri seti ve kendi kendine oluşturulmuş veriler entegre edilerek, on milyonlarca etiket çerçevesinin eğitim verileri üzerinde farklı etiket kalitesine göre ince ayar modeli birden çok aşamada yinelenir. Aynı zamanda, Teklif sınıflandırma dalının zayıf etkisi sorunu nedeniyle, Teklif sınıflandırmasına bağımsız bir sınıflandırma ağı sonucu eklenmiştir.

Şekil 1: Bağımsız bir sınıflandırma ağı kullanan mobil terminalde tek çerçeveli genel nesne algılama modeli

Sonunda 100'den fazla kategoriyi kapsayan genel nesnelerin tespiti gerçekleştirildi, hız sektördeki benzer teknolojilere göre yaklaşık 20 kat daha hızlıydı ve algılama hatırlama oranı% 30'u aştı.

Soru 2: Derin öğrenmeye dayalı nesne algılama modeli, görüntü ekranındaki küçük değişikliklere karşı çok hassastır ve nesnenin durumundaki değişiklikler (bazen hayır), nesne ölçeğindeki değişiklikler (büyük ve bazen küçük) dahil olmak üzere sürekli görüntülerin algılama sonuçları son derece kararlıdır, Nesnenin konumu değişir (sol ve sağ). Akademik alanda bu sorunla ilgili çok az araştırma var. 2016 yılında video algılamanın kararlılık indeksini tanımlayan ilk makale ortaya çıktı ancak bu sorunu etkin bir şekilde çözen ve mobil terminal üzerinde verimli çalışabilen yöntem araştırmamız kapsamında bulunamadı. Bu sorunun temel nedeni, Evrişimli Sinir Ağlarına (CNN) dayalı AI yöntemlerinin doğal olarak var olmasıdır.Yeni öğrenme yöntemleri ortaya çıkmazsa, bunları yalnızca mevcut CNN ağına güvenerek temelde çözmek neredeyse imkansızdır.

Şekil 2: Görüntü üzerindeki nesnelerin hafif çevirisi, ölçeği ve duruş değişikliklerinin tümü CNN çıktısında büyük değişikliklere neden olur

Aynı zamanda bu sorunun neden olduğu takip sorunları çok ciddidir.Sıradan kullanıcı ürünlerinde, ekrandaki nesneler üzerinde zaman zaman animasyon izlerinin belirip kaybolmasına, ekranın dağınık hale gelmesine ve kullanıcıların sürekli ve istikrarlı bir deneyim elde edip ürünü terk edememesine neden olacaktır. İnsansız araçlar gibi özel sahnelerde, aracın önündeki yayaların algılama durumundaki değişiklikler, muhtemelen aracın önünde kimsenin bulunmadığına ve sürüşü hızlandırdığına dair yanlış bir yargıya yol açacak ve sonunda bir araba kazasına neden olacaktır.

Teknik ilerleme: Mobil terminalde görsel izlemeye dayalı sürekli çerçeve çok hedefli algılama yöntemi için bir patent önerdik ve bu sorunu etkili bir şekilde çözdü. Sürekli çerçeve verilerinde, nesne algılama kararlılık indeksini temsil eden kare hata oranı,% 16,7'den% 2'ye düşürülür ve bu, algılama sonuçlarının kararlılığını büyük ölçüde artırır.

Şekil 3: Görsel izlemeye dayalı sürekli çerçeve çoklu hedef algılama yöntemi

Video 1: Optimizasyondan önce ve sonra sürekli kare algılama kararlılığı optimizasyonu (optimizasyondan önce sol, optimizasyondan sonra sağ)

Soru 3: Cep telefonu sabit veya hareket halindeyken, geri bildirim bilgisinin "doğru" olduğunu ve karşılık gelen nesneye yerleştirildiğini insan gözüne hissettirmek için, geri bildirim bilgilerinin ve nesnenin göreceli konumunun değiştiğinden ve her zaman çıplak gözle görülebilen mesafe içinde kaldığından emin olmak gerekir. , Genel sapma 3 ~ 5 piksel arasındadır Bu değer aşıldığında, insan gözü geri bildirim bilgisinin nesneye yerleştirilmek yerine cep telefonu ekranında gösterildiğini açıkça hissedecektir. Geleneksel görsel hedef izleme algoritmaları genellikle başarı oranını izleme temel problemine, yani hareketli izleme algoritması ile elde edilen çerçeve konumu ile gerçek nesne konumunun örtüşen alanı belirtilen eşiğin üzerinde olup olmadığına, izleme başarısızlığından daha az ise nesne konumunu kaybetmiş olarak kabul edilir. . İlgili araştırma, hedefin tıkandığı karmaşık sahnelerde yüksek bir takip başarısı oranının nasıl sağlanacağına da odaklanmıştır. Başarılı bir izleme durumunda, izleme ofsetine dikkat edilecektir, ancak bu kesin olarak çözülmesi gereken bir problemden ziyade yalnızca izleme algoritmasının performansının bir ölçüsü olarak kullanılır. Bu nedenle, CF serisi algoritmalar gibi geleneksel klasik izleme algoritmaları senaryo gereksinimlerimizi karşılayamaz.

Teknik atılım: Konum ofsetini izleme sorununu çözmek için SLAM (Eşzamanlı Yerelleştirme ve Haritalama) teknolojisini kullanın. SLAM teknolojisi temel olarak bir robotun bilinmeyen bir ortamda nasıl hareket ettiğini, çevreyi gözlemleyerek kendi yörüngesini nasıl belirleyeceğini ve aynı zamanda çevrenin üç boyutlu bir haritasını oluşturmayı çözmek için kullanılır. Cep telefonu kamera sahnesine geçiş, sınırlı cep telefonu hareketinden sonra ortamdaki cep telefonunun pozunu bulmayı umarak.Aynı zamanda, oluşturulan üç boyutlu ortam haritasına göre, nesneyi nihayet gerçekleştirmek için sanal bilgiler belirlenen 3 boyutlu koordinatlara yerleştirilir. Minimum sapma hatası ile izleme. SLAM'ın özel uygulamasında, VIO (Görsel Eylemsizlik odometrisi) çözümünü benimsiyor ve nesne algılama BoundingBox ile birlikte VIO'nun ortam yapısındaki özellik noktalarının taranmasını optimize ediyor, arka uç optimizasyon sürecini kolaylaştırıyor ve hesaplama miktarını azaltıyoruz. Ayrıca, VIO'nun optimizasyon sürecindeki özellik noktalarının filtrelenmesinden kaynaklanan özellik noktalarının kararsızlığı sorununu da çözer. Aynı zamanda cep telefonu kamerasının sahnesinin daha açık bir alan olduğu ve robot hareketinden farklı olan kapalı sahnenin döngüleri olduğu düşünülürse, Döngü Algılama ve Global Optimizasyon bölümleri de akıcı hale getirilmiştir. Son olarak, izleme performansı, minimum izleme konumu ofseti koşulu altında 100FPS'ye ulaşabilir.

Soru 4: İnsan gözü önce sol öndeki bir araba gibi görüş alanındaki nesneler hakkında genel bir anlayışa sahip olacaktır. Dikkat belirli bir otomobile odaklandığında, belirli bir kavrayışla BMW 320 veya Mercedes-Benz C200 olarak tanımlanır. Hayattaki çoğu nesne, ön genel bilişsel aşamada kalır ve belirli bilişsel aşamaya girmez. Bu nedenle, teknik gerçekleştirme açısından, ön genel biliş aşamasını, yani genel nesnelerin belirli bir bilişten önce kabaca sınıflandırılmasını gerçekleştirmek gerekir. Bu işlemin, ortak nesneleri yüksek doğrulukla etkili bir şekilde kaplarken, düşük gecikmeli yanıt sağlamak için mobil terminalde çalıştırılması gerekir. Bununla birlikte, genel nesne sınıflandırmasında iki temel sorun vardır: Birincisi, dünyada birçok türden şey vardır ve sürekli yeni şeyler ortaya çıkmaktadır.Sınırlı bir kategori kümesini tamamen kaplamak ve temsil etmek neredeyse imkansızdır; ikincisi, tek bir kategoride bile, örneğin Peluş oyuncaklar, avuç içi büyüklüğünden kişinin boyuna, ahtapottan ayıya kadar morfolojisi çok farklıdır ve derin öğrenme modelinin öğrenmede yüksek bir sınıflandırma doğruluğu elde etmesi zordur. Aynı zamanda, nesnelerin kaba sınıflandırılması da tespit modelinin kararlılık problemiyle karşı karşıyadır, yani çıplak gözle çok az değişiklikle iki görüntüdeki nesnelerin kaba sınıflandırılmasının sonuçları çok farklıdır.

Teknolojik ilerleme: Kategori kapsamı sorunlarına yanıt olarak, ImageNet, Open Image vb. Dahil olmak üzere yaygın açık kaynak veri setlerini neredeyse ele aldık ve ofis, aile hayatı, alışveriş merkezleri, süpermarketler, açık hava parkları ve sokaklar gibi önemli yaşam senaryolarını kapsayan 300'den fazla kategoriyi sıraladık. On milyonlarca nesnenin yerel harita verilerini içerir. Tanıma kararlılığı sorununu hafifletmek için manuel çekimle binlerce cep telefonu çekim videosu toplandı ve videolardaki sürekli görüntüler manuel olarak etiketlendi. Sınıf içi büyük morfolojik farklılık problemini çözmek için, modelin sınıf içi tahmin üzerindeki etkisini mümkün olduğunca iyileştirmek için çok katmanlı Kayıp + Merkez Kaybı kullanılır. Sonunda, sınıflandırma doğruluk oranı% 90'ın üzerindedir ve bu, endüstrideki benzer teknolojilerin etkisini çok aşar.Aynı zamanda, performansta mobil terminal hesaplaması yalnızca onlarca ms alır.

Soru 5: İnsan gözü görsel sinyali aldıktan sonra, beyin kusursuz bir bağlantı elde etmek için keşif, izleme ve biliş bağlantılarını mükemmel bir şekilde gönderir ve kontrol eder. Lens teknolojisinin uygulanmasında, beynin doğal zamanlama mekanizmasının nasıl simüle edileceği, genel etkinin yeterince doğal ve verimli olup olmadığını belirlemek için önemli bir konudur.

Teknik atılım: Teknik uygulama açısından, Lens teknolojisi, kullanıcı dikkat kararı, dikkat odaklandığında çerçeve seçim algoritması ve izleme ve algılama algoritmalarının zamanlama ve anahtarlama stratejileri gibi birçok faktörü dikkate alır.

Dikkat Kararı IMU ve görsel özelliklere dayanan bir çözüm öneriyoruz. Cep telefonundaki IMU sensörünün ölçüm biriminde büyük bir hata var ve yalnızca şiddetli hızlanmayı değerlendirmek için kullanılıyor. Hassas dikkat yargısı, sürekli görsel görüntülerin yer değiştirme ve ölçek değişikliği özelliklerine dayanır.

Algılama tetiklendiğinde ilk karenin görüntü kalitesi doğrudan, aydınlatma, keskinlik ve nesne konumu gibi gürültüden genellikle etkilenen nesne keşfinin etkisini belirler. Kullanıcının dikkatini değişmeden sabit sahnelere doğru toplayıp simüle ederek ve en iyi çerçeve eğitim veri setini oluşturmak için manuel açıklamaya güvenerek, CNN modeli manuel açıklama sürecine uyacak şekilde kullanılır ve en iyi çerçeve seçilir ve sonraki hesaplama sürecine girilir.

Hesaplama miktarından tasarruf etmek için programlama algoritması, izleme algoritmasının durumuna ve dikkat değerlendirme stratejisinin çıktısına göre gerçek zamanlı olarak sürekli çerçeve algılama modelinin hesaplamasını ayarlayacaktır.

Bu sofistike birleşik programlama algoritmaları sayesinde, Baidu Lens'in güç tüketimi% 2/10 dakika içinde kontrol edilir ve bu, mobil terminal dağıtımının enerji tüketimi gereksinimlerini karşılar.

Son olarak, nesne keşfi algısı, sürekli izleme, kaba anlamsal anlama ve yukarıdaki modellerin kullanıcı davranışına ve görsel sahne dinamik kombinasyonuna ve zamanlamasına dayalı çoklu görev planlama algoritması, IOS, Android ve sunucularda desteklenebilen bir bütün olarak algısal bir hesaplama modülü oluşturur. Çoklu platform dağıtımları.

Baidu Zhitu'nun geleceği

Gelecekte, Baidu Zitu, çok modlu insan-bilgisayar etkileşimini gerçekten gerçekleştirmek ve etkileşim verimliliğini daha doğal ve insan alışkanlıklarına daha uygun bir şekilde iyileştirmek için mevcut görsel sinyaller temelinde ses ve metin sinyallerini entegre edecek.

Dağıtım taşıyıcıları açısından, cep telefonlarına ek olarak, IOT sistemindeki kameralarda ve giyilebilir cihazlarda derin öğrenme tahmin çerçevesi, hesaplama hızı ve bilgi işlem gücü tüketimi gibi sorunların üstesinden gelmeye devam edeceğiz; hız deneyimini daha da iyileştirmek ve genişletmek için 5G ve uç hesaplamaya güvenmeye devam edeceğiz. Model tanıma yeteneği, insan benzeri göz yeteneğini yaşamda her yerde bulunur hale getirir.

Uygulama senaryolarında, yeni dikey senaryolarda memnuniyet derinliğini keşfetmeye devam edeceğiz ve gerçek dünya metin tanımaya dayalı ofis ve yaşam görsel asistanları gibi dünyanın en iyi görsel asistanlarını oluşturmak için bellek yeteneklerini birleştireceğiz. Aynı zamanda, görsel eğlencenin yeni sınırlarını da keşfedecek ve hatta gerçek dünya vizyonuna dayalı oyunlar birlikte mümkün.

Ayrıca Baidu, olgun yapay zeka yetenekleriyle dahili ve harici ürünleri güçlendirmeye devam edeceğini, aynı zamanda geliştiricilere açık bir teknoloji ve ürün ekosistemi oluşturmaları için açık temelli Baidu Lens teknolojisi ile yetki vereceğini belirtti.

Wang Zixuan iyi bir bacak, kısa bir etek giyiyor ve 15 cm'lik "yıldırım ayakkabılarına" basıyor, grup fotoğrafı saniyeler içinde odak noktası haline geldi
önceki
Dünyadaki ilk 3? Real Madrid'in Bay 100 milyonu yine yüzüne tokat attı, Zidane onu acımasızca uzaklaştırdı
Sonraki
geliyor! Sosyal güvenlik ödemesi düştü! Daha az emekli maaşı alacak mıyız?
Wang Ziwen yürüyen bir rehberdir, ancak boyu 162'dir ancak 180 aurası vardır, bacakları çok dikkat çekicidir
Bayern büyük bir hesap hatası yaptı! Dünya dalgasında voleybol oynayan titanlar iptal edildi, şampiyonayı programın 1 raunt önünde kazandı
Bu prenses ona 7 yıl sarıldı!
Yao Chen çok mu şişman? Rüzgar kırıcının kemeri göğsün altına bağlanmıştır ve aşağı ve yukarı aynı genişliktedir ve ağırlığı 120 pound mu?
Bir zamanlar harabelerin üzerinde durup annemi bekliyordum, şimdi demiryolu aşkını geçmek istiyorum
Premier Lig'de bir başka klasik! Antrenör ve takım arkadaşları onun pas vermesini istedi ve 50.000 kişi 4 saniye sonra ona taptı.
Manchester United yine kaybetti: 29 yaşındaki general Paris'e bedavaya gidiyor ve sözleşmesi sona eriyor
Apple cep telefonu mikro filmi ile tanınan, bugün baskılı pasta elbisesi giyen, göz alıcı "bambu bacaklar" gösterisi
Güçlü! Tottenham generali ayrıldıktan kısa bir süre sonra, iki reality TV aktrisini de aldı.
Süper Lig'de büyülü bir sahne: Yeni terfi eden yabancı yardım 87 dakikada öldürüyor, ancak gol atıldıktan 1 dakika sonra değiştirildi
Çift, yangın karşısında ilk kez komşularını kurtarmayı seçti, ancak aileleri 100.000 yuan'den fazla kaybetti.
To Top