Li Feifei: Bugün yapay zekanın geliştirme aşamasına "Yapay zeka in vivo" diyorum | Google I / O 2017

Lei Feng'e göre: Google I / O 2017'nin son gününde, ana mekan olan kıyı şeridi amfitiyatrosu, bu yıl I / O için en ağır makine öğrenimi dersini başlattı: farklı alanlarda dört yapay zeka kadın lideri Yapay zekanın geçmişi, bugünü ve geleceği hakkında konuşarak yoğun bir konuşma açın. Dört misafir Konuşma tanıma, bilgisayarla görme, veri görselleştirme ve biyolojik hesaplama Bu alandaki en iyi AI akademisyenleri ve mühendisleri. Bu konuşmanın teknoloji ile hiçbir ilgisi yoktur, tamamen kendi alanlarında derin öğrenmenin gelişimi ve gelecekteki eğilimler hakkındaki düşünceleriyle ilgili birkaç seçkin bilim insanının bir yansımasıdır.

Dört konuk:

  • Google'ın konuşma tanıma teknolojisi araştırma ve geliştirme lideri Francoise Beaufays

  • Li Feifei, Google Cloud Baş Bilimcisi, Stanford AI Lab Başkanı

  • Google'ın Büyük Resim veri görselleştirme departmanının başkanlarından biri olan hesaplamalı tasarım uzmanı Fernanda Viegas

  • Daphne Kolller, Calico Labs Baş Hesaplama Sorumlusu, Coursera'nın kurucu ortağı

Bu ders, Google Cloud Başkan Yardımcısı (bundan böyle "ev sahibi" olarak anılacaktır) Diane Greene tarafından düzenlenmektedir ve üç oturuma bölünmüştür. Her bir oturumun konusu, yapay zekanın geçmişi, bugünü ve geleceği ile ilgilidir.

Konu 1: Yapay zeka teknolojisi, bugün bulunduğu derin öğrenme çağına nasıl dönüştü?

Daphne Kolller: Derin öğrenme devriminin bugün çeşitli alanlardaki birçok gerçek sorunu çözmemizi sağladığını ve bunu mümkün kıldığını düşünüyorum.

Bu devrim, bir dizi makine öğrenimi araştırma ilerlemesinin sonucudur - derin öğrenmenin ortaya çıkmasından önce, yapay olarak tasarlanmış modellerin geliştirilmesi için yaklaşık 10 ila 15 yıl boyunca oldukça çetin bir araştırma vardı. Bu modelleri oluşturmak, diğer alanlarda çok fazla uzmanlık ve derinlemesine değerlendirme gerektirir. Araştırmacılar, modelin çok sayıda detayını manuel olarak şekillendirmeye ihtiyaç duyarlar.Veri eksikliğinden dolayı, modeli oluştururken genellikle sezgisel muhakememizi kullanırlar.

Özellikle metin, resim ve konuşma alanlarında daha fazla veri elde ettiğimizde, bu öznel içgörülerin yerini almak için verileri yavaş yavaş kullanmaya başlarız. Ancak son 10-15 yılın teknolojik araştırma sonuçları bugün hala çok değerlidir. Burada iki yön var:

  • Araştırma yöntemleri açısından, optimizasyon algoritmaları o dönemde icat edildi ve derin öğrenmenin başarısı için anahtar teknolojilerden biridir.

  • Öte yandan, şimdi büyük verinin her şeyin çözümü olduğuna inanmak istiyoruz. Ancak bu yalnızca bazı alanlara karşılık gelir. Diğer alanlar için, sahip olduğumuz veri miktarı en iyi ihtimalle orta düzeydedir ve bazılarının küçük olduğu bile söylenebilir. Böylece, Hala insan sezgisini ve verilerini dengelemeye ve her ikisinin güçlü yönlerinden tam olarak yararlanmaya ihtiyaç var.

Li Feifei: Biraz tarihsel arka plan hakkında konuşmama izin verin. Tüm insan bilimlerinde AI, yaklaşık 60 yaşında oldukça genç bir konudur. Ama bana göre, YZ'nin aydınlanma düşüncesinin kökeni olan zeka arayışı, insan uygarlığının şafağına kadar uzanabilir.

Yaklaşık 60 yıl önce, makineler basit aritmetiği idare edebiliyordu. Ancak bilgisayar biliminin babası Alan Turing'in temsil ettiği düşünürler, insan toplumuna meydan okuyan sorular sormaya başladılar: "Makineler düşünebilir mi? Makineler zekaya sahip olabilir mi? O sırada Marvin Minsky ve John McCarthy gibi bilgisayarlar Öncüler bugünün yapay zeka disiplinini oluşturmak için bir araya geldi. Yapay zeka babalarının gözündeki yapay zeka teknik olarak bugünden çok farklı. Ancak temel arzu aynı: makinelerin öğrenmesine, düşünmesine, algılamasına ve mantıklı olmasına izin ver , Bizimle konuşabilir ve iletişim kurabilir.

Yapay zeka, birinci dereceden mantıktan uzman sistemlere, ardından erken makine öğrenimine ve ardından bugünün derin öğrenme devrimine kadar çeşitli teknolojik gelişme dalgalarından geçti.

Son 60 yıldır buna "in-vitro AI" veya "in vitro AI" adını verdim (Lei Feng Net Notu: "Test tüpü aşamasında AI" olarak anlaşılabilir). Bu aşama, AI araştırmasının ve birçok alt disiplinin temel konularının temelini atmıştır. İkincisi robotik, bilgisayarla görme, doğal dil işleme, konuşma işleme, biyolojik koruma (conbio) ve benzerlerini içerir. Bu aynı zamanda araştırmacıların verileri anlamaya ve araç setlerini bulmaya devam ettiği bir süreçtir.

Ve 2010 yılı bir dönüm noktasıdır. Şu anda, üç farklı alandaki ilerleme nihayet eşi görülmemiş bir dönüm noktasına ulaştı: istatistiksel makine öğrenimi araçlarının olgunluğu, İnternet ve sensörler tarafından getirilen büyük veriler ve Moore Yasası tarafından öngörülen donanım hesaplama performansının iyileştirilmesi. Bu üçünün birleşik güçleri, yapay zekayı "in vitro" aşamadan "in vivo" dediğim aşamaya itmiştir. (Lei Feng Net Notu: "Embriyonik aşamadaki AI" olarak anlaşılabilir) Yeni etap .

"Yapay zeka in vivo", yapay zeka teknolojisinin dünyaya pratik katkılar sağladığı bir aşamadır. Zamanın bu noktasında, bu sadece başlangıç- "Bu sadece başlangıç". Google Cloud'da gözlemlediğimiz her sektör, veriler, yapay zeka ve makine öğrenimi tarafından yönlendirilen devrim niteliğinde değişikliklere uğradı. Benim gözümde bu tarihi bir an: Yapay zeka sonunda gerçek etkisini uygulamaya ve sayısız sektörü dönüştürmeye başlıyor.

Tekrar vurgulamak istiyorum: her şey yeni başladı. AI alanındaki araçlar ve devrim niteliğindeki teknolojiler, uçsuz bucaksız okyanusta sadece birkaç damla sudur. Kalan keşfedilebilir alan, yani AI ile elde edebileceğimiz şeyler neredeyse sınırsızdır ve abartılamaz. Bu bağlamda, heyecanlıysanız, belki de olmalı - "Yapay zeka in vivo" gerçekleştirmemiz için bizi bekleyen birçok görev var.

Moderatör: Francoise, konuşma tanıma araştırmasında ön saftasınız. Artık konuşma tanıma teknolojisi popüler hale geldiğine göre, bize bu gelişim sürecinden bahseder misiniz?

Francoise Beaufays: Elbette. Google'a 12 yıl önce katıldım. O zamanlar, hepimiz yararlı ve eğlenceli bir şey yapmak için konuşma tanıma teknolojisini kullanmak istiyorduk. Ama oldukça zordu - o sırada sesin kalitesi şimdiki zamanla tamamen kıyaslanamazdı. Bu nedenle, son derece sınırlı ürünlerle başlıyoruz, böylece bir kişinin ne söylediğini anlamak çok karmaşık değil ve sonra sınırı yavaş yavaş zorluyoruz. Yapmamız gereken, kullanıcıların kullanmak isteyeceği başarılı bir ürün oluşturmak; ardından buna dayanarak yeni veriler toplamaya ve modele aktarmaya, sürekli yinelemeye ve her seferinde biraz iyileştirmeye devam ediyoruz.

Bu fikre göre GOOG-411'i geliştirdik, kaç kişinin hala hatırladığını bilmiyorum. Bu bir cep telefonu uygulamasıdır: bir numara çevirirsiniz, size sorar: hangi şehre veya eyalete bakmalı? Cevap verdikten sonra "Hangi firma kontrol edilecek?" Diye sordu. İsmi söyledikten sonra firma numarasını çevirecek. Lütfen 12 yıl önce iPhone veya Android'in olmadığını ve herkesin özellikli telefon kullandığını unutmayın. Dolayısıyla GOOG-411'in işlevi de çok basittir. Neyse ki, Google yöneticilerinin teknolojinin geleceği için bir vizyonu var ve teknolojinin sınırlarını olabildiğince zorlamamız için bize destek oluyorlar.

O zamanlar çok başarılıydık. Sonra iOS ve Android doğdu ve her şey değişti - kullanıcıların görsel geri bildirimleri oldu. Böylece diğer APP ürünlerini, yani Sesli Arama ve Google sesli aramayı düşünmeye başladık. Kullanıcıların sesle her şeyi yapabilmesi için ses kaydı yapmaya ve mikrofonu cep telefonu işlevinin çeşitli girişlerine entegre etmeye başladık.

Daha sonra, konuşma tanıma teknolojisini Google Home gibi cihazlar gibi ev ortamına getirmeye çalıştık. Günlük işlerin üstesinden gelmek için sesin kullanılması çok zorlu bir çekicidir. Akıllı asistanların iyi bir giriş olduğunu düşünüyoruz. Sözlü komutlar içeren basit görevlerle karşılaştırıldığında, akıllı asistanlar kullanıcılarla soruları yanıtlamak için kullanışsız klavye yazmak yerine günlük doğal dili kullanabilir ve bu da Google'ı kullanıcılar için gerçekten kişisel bir asistan haline getirir.

Moderatör: Fernanda, bir keresinde veri görselleştirmeyi demokratikleştirmek istediğinizi söylemiştiniz. Nasıl başarılabilir? Gereklilik nerede? Veri görselleştirme analizi nasıl gelişir?

Fernanda Viegas: On yıldan daha uzun bir süre önce, zaten veri görselleştirme işindeydim. O zamanlar durum çok farklıydı: araştırma çok zordu, ekipman bugün ile kıyaslanamazdı ve mevcut veriler çok küçüktü, çoğu kamuya açık değildi.

Bu durum giderek gelişiyor ve artık veri görselleştirmenin her yerde olduğu söylenebilir. Örneğin, medya ayrıca karmaşık haber olaylarını veri görselleştirme yardımıyla ifade etmek için istatistikleri kullanmayı sever. Sevdiğimiz bir şaka: "İstatistikler için, veri görselleştirme bir ilaçtır" İstatistik yaptığınızın farkında bile olmayabilirsiniz, çünkü veri görselleştirme, kalıpları ve anormallikleri görsel olarak bulmada çok iyidir.

Veri görselleştirme daha demokratik bir yolda ilerledi. Uzun süredir, yapay zeka ve makine öğreniminin büyük bir zorluğu vardı: Biz insanların ultra yüksek boyutlu verileri anlamasını sağlamak. Bu bağlamda, Geoffrey Hinton ve meslektaşları tarafından geliştirilen t-SNE, AI alanında devrim niteliğinde bir veri görselleştirme aracıdır. Veri görselleştirme tarihinde önemli bir kilometre taşıdır. Feifei ve ben benzer bir hisse sahibiz: AI ilerlemesini desteklemek için veri görselleştirme teknolojisini nasıl kullanacağımızın başlangıcındayız.

Konu 2: Yapay zekanın mevcut teknik zorlukları

Francoise Beaufays: Konuşma tanıma her zaman makine öğrenimine dayalıdır ve makine öğrenimiyle hiçbir ilgisi olmayan önceki teknolojilerle hiçbir ilgisi yoktur. Son otuz yılda, makine öğrenimi teknolojisi gelişiyor ve konuşma tanıma da gelişiyor.Büyük dönüm noktalarından biri sinir ağlarının benimsenmesidir. Bu sekiz yıldan daha kısa bir süre önce, ancak sinir ağına dayalı konuşma tanıma araştırması uzun zaman önce başladı. Sadece hesaplama gücünün sınırlandırılması nedeniyle, bu yol, birkaç yıl önce yeniden kabul edilene kadar birçok sonuç ürettikten sonra akademik çevre tarafından terk edildi. Bu dönemde, konuşma tanıma, Gauss karışım modeli gibi daha temel teknolojilere dayalı olarak hala gelişmekte ve iyileştirilmektedir.

Teknik olarak, derin öğrenmenin kullanımı, gecikme, ölçeklendirme ve eğitim yetenekleri gibi konuları içeren gerçekten zor bir görevdir. Derin öğrenmeye dayalı konuşma tanıma teknolojisi bir üretim ortamında devreye alındığında, bu, arkasında bir dizi iyileştirmenin olduğu yepyeni bir kapı açar. Ek olarak, güçlü bilgi işlem donanımı desteği sayesinde, bir sinir ağı mimarisinden diğerine hızla geçiş yapabiliyoruz. Bu nedenle, RNN (LSTM gibi), CNN ve CTC tabanlı dizi modelleme gibi diğer modelleri keşfetmeye başladık. Kısacası, sinir ağlarının kullanımı, Google ürünlerini destekleyen temel teknolojide sürekli yenilik yapmamız için bize yeni bir alan açtı.

Moderatör: Bu, konuşma tanıma için bir sinir ağıdır. Hayatımızı uzatabilecek ve bizi daha sağlıklı hale getirebilecek sinir ağını dinleyelim. Daphne, dünyanın en iyi moleküler biyoloji ve makine öğrenimi uzmanlarından biri olan Calico Labs'ın size neden ihtiyaç duyduğunu anlatın Orada ne yapıyorsunuz?

Daphne Kolller: Birçok kişi Calico'yu duymamış olabilir ve çok az maruz kaldık. Kısa bir giriş yapmak gerekirse, Calico Google'ı ilk kuran şirket oldu ve doğrudan Alphabet'in yan kuruluşuna ait. Calico'nun amacı yaşlanmayı anlamak ve insanların daha uzun ve sağlıklı yaşamlar yaşamasına yardımcı olmaktır.

Yaşlanma aslında karşılaştığımız en büyük ölüm riski, kimse yok. Bu, 40 yaşından önce ortaya çıkan neredeyse tüm hastalıklar için geçerlidir: Bir hasta her yıl büyüdüğünde, diyabet, kardiyovasküler ve serebrovasküler hastalıklar ve kanser dahil olmak üzere hastalıktan ölme riski katlanarak artar.

İronik olarak, kimse nedenini gerçekten bilmiyor.

Kimse 40 yaşından sonra her yıl neden bu hastalıklardan ölme riskimizi artıracağını bilmiyor. Bunu anlamak için moleküler seviyeden sistem seviyesine kadar yaşlanmaya yol açan biyolojik sistem mekanizmalarını incelememiz gerekiyor. Sonsuza kadar yaşayabileceğimizi düşünmeme rağmen, belki teknik müdahale yoluyla daha uzun ve daha sağlıklı yaşayabiliriz.

Calico'nun ilk günlerinde, araştırması şunu gösteren bir araştırmacı vardı: Tek bir genin mutasyonu, vücudun ömrünü% 30-% 50 oranında uzatabilir. Üstelik sadece daha uzun değil, daha genç bir görünüm ve daha dolgun bir sağlıkla yaşayacağız.

Ancak bu ihtiyaçları elde etmek için henüz net olmayan birçok şeyi anlamak ve ayrıca maya, böcekler, sinekler, fareler ve insanlar da dahil olmak üzere her yaşta tüm biyolojik sistemlerin büyük verilerini toplamak gerekir - bu farklı türler moleküler düzeyde neden aynıdır? Şey?

Neyse ki, geçtiğimiz yirmi yılda, bilim adamları bir dizi ölçüm mekanizmaları ve yöntemleri icat ettiler, veri topladılar ve yaşlanmakta olan bedeni anlamamıza yardımcı olmaya çalıştılar. Bu, vücudun yaşlanmayla nasıl değiştiğini kaydetmek için gen sıralama teknolojisi, mikroakışkanlar ve izleme ekipmanını içerir. Ancak mikromoleküler seviyeden demografik seviyeye kadar bu farklı ölçüm mekanizmalarının ürettiği verileri kimse entegre edemez.

İnsan vücudunun nasıl yaşlandığını doğru bir şekilde tanımlamak için tüm bilgiler nasıl entegre edilir?

Bu, biyologlar ve modeller oluşturabilen ve tüm bilgileri entegre edebilen makine öğrenimi uzmanları arasında işbirliği gerektirir.

Bu alana emekleme döneminde katılabilecek çok şanslı birkaç kişiden biriyim: Hesaplamalı biyoloji alanında çalışmaya 2000'lerin başında başladım. Makine öğrenimimin ana dil olduğunu söylersem, biyolojim "akıcı" seviyededir. Bu, Calico'daki bilim adamlarıyla çalışmamı sağlıyor. İki disiplin arasında gerçek bir işbirliği bağı kurun ve iki dünya büyük veri ve insan sezgisinin avantajlarını birleştiren bir model geliştirin.

Biyolojik organizmaların karmaşıklığı bugünün verileriyle bile çok yüksek olduğundan, tek başına verilerin baştan sona tam bir organizma modelini yeniden oluşturabileceğini düşünmüyorum. Dersin başında da söylediğim gibi: veriler ve en iyi bilim adamlarının sezgileri, hepimizin nihayet yaşlanmayı derinlemesine anlamamız ve etkili müdahale yöntemlerini tahmin etmemiz gerekiyor.

Moderatör: Bilgisayar görüşü (CV) hakkında konuşalım. Feifei, TechCrunch'ta bir kez CV'nin yapay zekanın katil uygulaması olduğunu söylemiştin. Neyi ifade etmek istiyorsun? Her zaman savunduğunuz yapay zekanın demokratikleştirilmesiyle neyi kastediyorsunuz? Bunun bulut bilişimle ne ilgisi var?

Li Feifei: Daha fazla insanı bunu fark etmeye zorlamak istedim. Buna kesinlikle inanıyorum. O zamanki orijinal kelimeler şunlardı: "Birçok insan CV'nin katil uygulamasının ne olduğunu soruyor? Ben şunu söyleyebilirim: CV'nin kendisi katil uygulama, AI'nın katil uygulamasıdır."

Bunu iki nedenden dolayı söyleyebilirim:

  • Beş yüz kırk milyon yıl önce, biyolojik evrim tarihinde silinmez bir felç yaşandı: Dünya üzerindeki türler, bilinmeyen bazı nedenlerden ötürü, çok azdan çok büyük bir sayıya indi. Bu, evrim tarihinde Kambriyen patlaması olarak bilinen Büyük Patlama olarak kabul edilir. Biyologlar, uzun yıllardır bunun arkasındaki sebepler karşısında şaşkınlık içindeler. Yakın zamana kadar çok ikna edici bir teori ortaya çıktı. Varsayım şudur: O zamanlar, yaratıklar gözlerini geliştirdi. Birdenbire, hayvanların hayatta kalması aktif hale geldi: avcılar ve avlarla birlikte, tüm türün evrimsel yörüngesi o zamandan beri altüst oldu.

    Günümüzde insanlar en zeki görsel hayvanlardır. Doğa, tam da önemi nedeniyle beyin kapasitemizin yarısını görsel görüntü işlemeye ayırır.

  • İkinci nedene gelince, internetteki içeriğin% 80'den fazlasının görsel içerik olduğu tahmin edilmektedir. Ek olarak, sensörler tarafından toplanan ilk veri biçimi, görünür veya görünmez ışıktan oluşan görüntü verileridir. Nerede olursa olsun, şirketler ve tüketiciler için piksel şeklindeki veriler en değerlisidir.

  • Konuşma tanımaya benzer şekilde, derin sinir ağıyla CV birçok atılım ve büyük ilerleme kaydetmiştir. Bence, 2010'dan 2017'ye kadar yedi yıl boyunca, CV'nin ana ilerlemesi temel algılama görevlerinde gerçekleşti: nesne tanıma, görüntü açıklama, nesne algılama vb. Ayrıca uygulama ürünlerimiz de var - Google Fotoğraflar, sürücüsüz arabalar için yaya algılama sistemleri, vb.

    CV'ye yapılacak bir sonraki yatırım dalgasının, CV ve diğer alanların birleşik uygulaması olan "Vision + X" üzerine odaklanacağını düşünüyorum. Örneğin iletişimde ve dilde vizyon çok önemlidir, CV ve dil kombinasyonu çok ilginç olacaktır. Tıbbi ve biyolojik alanlardaki görme uygulamalarından bahsetmiyorum bile. Robotlar, sınırsız potansiyele sahip başka bir CV uygulama alanıdır. Robotlarla ilgili insan araştırmalarının tarihi neredeyse AI kadar uzundur, ancak şimdi robotlar hala çok ilkel bir aşamadalar. Nedeni büyük ölçüde ilkel algılama sisteminden kaynaklanmaktadır (Kambriyen Büyük Patlamasını düşünün).

    Kısacası görüşüm, makine zekasının en önemli bileşenlerinden birinin vizyon olduğudur.

    Konu 3: Gelecekte yapay zekanın eğilimi nedir? Dört gözle beklemek için hangi vizyonlar var?

    Moderatör: Zamanımız azalıyor Fernanda, gözlerinde veri görselleştirmenin geleceği nerede bana söyleyebilir misin?

    Fernanda Viegas: Elbette. Feifeinin düşüncesine göre, insanlar böylesine karmaşık bir görsel sisteme sahip olduklarından, makinelerin ne yaptığını anlamak için de kullanabiliriz. Makine öğrenimi muazzam miktarda veri, istatistik ve olasılık üzerinde çalışır. Bir anlamda görselleştirme, bunları anlamamıza yardımcı olacak gizli bir silahtır.

    Veri görselleştirmeye neden değer vermeliyiz? Üç nokta var:

    • Yorumlanabilirlik. Modelin ne çıkardığını açıklayabilir misiniz?

    • Güvenlik açığı yamalanabilirliği. Modelin daha iyi anlaşılması, güvenlik açıklarını gidermenize yardımcı olabilir.

    • Eğitim. Görselleştirme, makine öğrenimi öğretiminde önemli bir rol oynar. Ek olarak, makine öğrenimi sistemlerini daha iyi anlamak için görselleştirmeyi kullanırsak, bu sistemlerden öğrenebilir ve profesyonel seviyemizi geliştirebilir miyiz?

    Son olarak, ilginç bir örnek hakkında konuşmak istiyorum: Makine öğrenimi sisteminde başlangıçta bilinmeyen şeyleri keşfetmek için veri görselleştirmeyi kullandık. Bir süre önce, Google sıfır vuruşlu çeviri uyguladı, yani Google Çeviri, karşılaşılmayan dil gruplarını idare edebiliyordu. Araştırmacıların bununla ilgili bir sorusu var: Sistemin çok dilli veri alanı hangi yasaya göre dağıtılıyor? Örneğin, veriler dile göre mi bölünmüş? Veya sistem farklı dilleri bir araya getirip bazı gramer ve anlamsal kuralları "öğrendi" mi?

    Bu nedenle, görüntüleme için bir veri görselleştirme aracı geliştirdik. Farklı dillerdeki, ancak aynı anlambilimdeki cümlelerin aynı kümeyi oluşturduğu ortaya çıktı. Farklı cümleler, dilden bağımsız olarak farklı kümeler oluşturur. Bunun bir dereceye kadar dünyanın evrensel dilinin embriyonik formu olduğu söylenebilir, biz buna "diller arası", yani "diller arası" diyoruz. Ek olarak, nispeten daha izole kümelerin düşük çeviri kalitesine sahip cümleler olduğunu bulduk. Bu bize veri uzayının geometrik dağılımının çıkarımları olduğunu söyler.

    Yapay zeka, şimdiye kadar insanların kendilerini mühendislik odaklı hissetmelerini sağlıyor. Gelecekte sanatçıların, UI tasarımcılarının ve bilim adamlarının yapay zekaya ne getireceğini ve hiç düşünmediğimiz olasılıklar neler? Bunlar keşfetmeye değer olacak.

    Moderatör: Francoise, size veri görselleştirmenin konuşma tanımaya nasıl yardımcı olabileceğini sormak istiyorum (gülüyor). Ama size şunu da sormak istiyorum: Günümüzde, eğitim modelleri için etiketli veriler gibi veriler gittikçe daha karmaşık hale geliyor ve giderek daha fazla kişiselleştirme var Konuşma tanıma teknolojisi nereye gidiyor? Heyecan verici zorluklar nelerdir?

    Francoise Beaufays: Konuşma tanıma alanında, ne zaman yeni bir sorunla karşılaşsak, ona odaklanmalıyız. Youtube çocuk kanalını geliştirirken, çocuğun sesine odaklanmalıyız - konuşma tarzı, aralığı ve cümle kalıpları yetişkinlerden farklıdır. Sonunda, ortak bir modele öğrenme sonuçları eklemenin bir yolunu bulduk. Böylece Google Home artık çocuklarla normal şekilde etkileşim kurabilir.

    Bizim için Google Home yeni bir ortam ve yeni veriler toplamamız gerekiyor. Yeni verilerle, bunları eğitim için modele aktarmak basit ve anlaşılır hale geliyor. Ancak, Google Home ilk çıktığında kullanıcı verisi yoktu. Bu nedenle, birçok simülasyon yaptık: veri toplamak, farklı gürültü türleri eklemek ve veriler üzerinde farklı yankılama türleri yapmak. Aslında, kullandığımız veriler büyük olarak adlandırılmak için yeterli. On binlerce saatlik konuşmayı yazıya döktük ve ardından üst üste bindirip simülasyonla çoğalttık ve nihayet modelin birkaç yüzyıllık konuşmaya eşdeğer olan verilerini içe aktardık.

    Dünyada çok fazla dil var ve dilbilimciler 100.000'den fazla konuşmacı ile tek başına 1.342 dil türü olduğunu söylüyor. Nasıl bu kadar çok dile hizmet ediyoruz? Bu, makine öğrenimi alanında çok fazla yaratıcılık gerektiren zor bir sorundur.

    Li Feifei: Yapay zekanın dördüncü sanayi devriminin itici güçlerinden biri olduğuna inanıyorum. Bir filozoftan duyduğum en sevdiğim sözlerden biri şudur: "Bağımsız makine değerleri yoktur ve insan değerleri makine değerleridir." Gelecekte dört gözle bekliyorum, çeşitli disiplinlerden teknik uzmanlar güçlü yönlerini AI alanında oynayacaklar.Ancak bu şekilde tüm insanlık için AI geliştirebiliriz, bazı insanlar için değil.

    Daphne: Üst düzey bir makine öğrenimi uzmanı olarak, biri bana beş yıl önce, bir makinenin görüntüleri beş yıl içinde insanlar kadar doğru kelimelerle not alıp alamayacağını sorsaydı, bunun imkansız olduğunu ve yirmi yıl içinde neredeyse aynı olacağını söyleyebilirim. Ancak Feifei gibi bilim adamlarının çabaları nedeniyle bu gün beklediğimden çok daha erken geldi.

    Coursera'dan ayrılmamın ve biyolojik alana dönmemin nedeni, biyoteknolojinin artık üstel büyüme eğrisinin dönüm noktasına ulaştığına inanıyorum. İnsan gen dizilemesinin tarihsel eğilimine bakarsak, indeksi her yedi ayda iki katına çıkar ve büyüme oranı Moore Yasasının iki katıdır. Bu eğilime göre 2025 yılında genetik dizileme yaptıranların sayısının konservatif olarak 100 milyon, normal olarak 2 milyar olacağı tahmin ediliyor. Ve bu sadece sıralama, RNA, proteomik, insan görüntüleme, hücre görüntüleme vb. Dahil değil.

    İnsan vücudu, insanların karşılaştığı en karmaşık sistemdir. Sanırım bu sistemi anlamanın başlangıcındayız - bizi hayatta tutan şey nedir? Bizi ölüme ne getirdi? Bence bugünün bu büyüklükteki verileri ve makine öğrenimi teknolojisinin sürekli gelişimi ile, bilimi yenilemek için yapay zekayı kullanmak için her fırsata sahibiz.

    Yalama Ekran Süresi | Zhou Dongyu: İyi görünmüyorum, sıradan olan çok yönlü
    önceki
    Uyarlanabilir diferansiyel evrim aşırı öğrenme makinesine dayalı plaka tanıma algoritması
    Sonraki
    "Kan Dünyası Klasik Koleksiyonu" bu neslin dört ana platformunda yer alacak
    Uzun seyir menzili kaygınızı gerçekten iyileştirecek mi?
    16 yıl sonra "Shushan Efsanesi" ni izlediğinizde kötü bir film mi yoksa başyapıt mı?
    Bölümlere ayrılmış pilot iletim ve yapay gürültüye dayalı fiziksel katman güvenli iletim şeması
    "Muhteşem Doğu Eğilimi, Yeni Bir Çağda Gayret" 40 Yıllık Reform ve Açılışını Kutlayan Seçilmiş Fotoğraf Yarışması Peng Yingzhong
    "Detroit: Become Human" 24 Nisan'da bir deneme sürümü yayınlayacak
    Yalama Ekran Süresi "İnsansı Hormon" Zhang Xiaoquan
    Bileklikli Kablosuz Kalp Hızı Dedektörü Tasarımı
    "Muhteşem Doğu Eğilimi, Yeni Bir Döneme Girme Çabası" Reform ve Açılışın 40. Yılını Kutlamak için Seçilmiş Fotoğraf Eserleri Yarışması Zhang Mingsheng'den "Toprağa Geri Dön"
    "Blade Runner" kelebek efektiyle karşılaştığında- "Detroit: Become Human" demo raporu
    Bin fincan sınıf arkadaşının sarhoş kalması, karaciğerinizi uyandırması, alkolü ayıklaması ve akşamdan kalmayı önleme ve 20 dakika içinde vücudunuzdaki alkolün% 50'sini anında rahatlatmasının sırrı
    "Muhteşem Doğu Eğilimi, Yeni Bir Çağda Gayret" 40 Yıllık Reformu Kutlayan ve Açılan Fotoğraf Yarışmasının Seçilmiş Eserleri Wang Weiguo'nun "Kaot Kapısına Bakışı"
    To Top