g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

EmTech sitesi Doğal dil tanrısı Dan Roth: Yapay zekanın yükselişi, yapılandırılmamış verilerin kullanımında yatıyor

Bugünkü "MIT Technology Review" Yükselen Teknoloji Zirvesi EmTech China, doğal dil işlemede en iyi uzman ve Pennsylvania Üniversitesi'nde profesör olan Dan Roth, doğal dil işlemenin gelecekteki eğilimi hakkında harika bir konuşma yaptı. Konuşmanın tam metni aşağıdadır:

Resim | Emtech Çin Zirvesi Sitesi

Kablosuz ağa bağlandığımızda veya indirirken, kullanıcı sözleşmesini kabul edip etmeyeceğinizi soran bir istem kutusu görünecektir. Bu çok uzun bir metin, bu yüzden onu kabul etmek ister misin? Katılıyorum Belki cevaplayacaksınız, evet, şu anda bile kabul etmek istiyorum, belki bu uzun metni okumayı bitirmediniz. Ancak bu metin birçok konuyu içerecek, örneğin kişisel bilgilerimi nasıl kullanacak? Mahremiyetimi ihlal etmeyecek mi? Bu bilgiyi anlamamız gerekiyor. Bu metin, kullanıcıların bu ilgili gizli içeriği açıkça anlamasına izin verebilir mi? Metnin tamamının içeriğini anlamak için hala istikrarlı bir yolumuz yok, şu anda karşılaştığımız sorun bu.

Bu soru sadece bilimsel bir soru değil. Bu metinler, herkesin karşılaşması gereken bir sorun olan kişisel bilgilerimizin güvenliği ile ilgilidir.

Temas ettiğimiz verilerin çoğu yapılandırılmamış. Bilimsel alandan tıbba, öğretime, iş dünyasına, internete vb. E-postalarımız da dahil olmak üzere tümü yapılandırılmamış verilerdir. Bunun arkasındaki zorluk, bu verilerin yapısını nasıl anlayacağımız, bunları analiz edip kullanabilecek bir sistemi nasıl oluşturacağımız ve arkasındaki anlamı nasıl anlayacağımızdır. Bu, özellikle son yıllarda, yakın gelecekte doğal dil işleme alanında önemli bir görevdir.

Bugün aileme açıklamama izin verin, yapılandırılmamış veri işleme neden bu kadar zor? Ne tür önlemler alıyoruz?

Basit bir hikaye ile başlıyoruz. Bu, Amerika Birleşik Devletleri'ndeki ikinci sınıf öğrencileri için bir okuma testidir.Üç adı vardır: Kris Robin, Kiriş ve Bayan Robin. Onların aynı kişinin adı olduğunu düşünüyor musunuz? Bence çoğu insan öyle düşünmüyor. Neden olmasın? Çünkü okuyup kavrayarak herkes onlardan birinin baba olabileceğini düşünecek. Bu makalede bu nokta açıkça belirtilmese de, bundan çıkarım yapabilirsiniz. Böyle bir soru için bazı insanlar doğru, bazıları yanlış, bazıları hızlı, bazıları ise yavaş yapabiliyor. Öyleyse bilgisayarların hızlı bir şekilde seçim yapmasına nasıl yardımcı olabiliriz?

Aslında bu hikayede pek çok tuzak var ve bazı insanlar yanıltılacak. Makaleler genellikle çok sayıda mantıksal kelime ve zaman düğümleri içerir.Örneğin, üç yıl önce ve beş yıl önce, karakterler arasındaki ilişkiyi analiz edebilmemiz ve sıralayabilmemiz için bazı nitel ve nicel kelimeler de vardır. Çok basit bir soru olsa bile, bunu mantık yoluyla çözmemiz gerekiyor. Basit bir makaleyi okuduktan sonra bir karar verebiliriz.

Resim | Dan Roth konuşuyor

Bilgisayarlar için bu daha karmaşık bir sorundur. neden? Çünkü bunun arkasında iki mantık katmanı var. Yüzey dili katmanı ve temeldeki anlam katmanı. Dil katmanı belirsizdir, bu nedenle belirsizlik yaratabilir, bu nedenle arka planını anlamamız ve bu tür belirsizliği ortadan kaldırmak için anlamını tahmin etmemiz gerekir. Ek olarak, dil katmanında da çeşitlilik vardır. İfade etmek istediğimiz her nokta farklı şekillerde ifade edilebilir. Bu iki özellik anlamsal anlamayı çok zorlaştırır.

Size başka bir örnek vereyim Burada üç tane metin var, hepsi Chicago'dan bahsediyor. Ben Chicago'danım. Bunu söylüyorum, başka bir anlamı olmayabilir. Ama Chicago gruplarından veya Chicago futbol takımından bahsedersem veya bununla ilgili albümlerden bahsedersem. Bazı metinler doğrudan Chicago'da görünmüyor bile, ancak bu farklı anlamlar Chicago'yu ifade etmemize yardımcı olabilir.

Geleneksel programlama becerileri, dil belirsizliği sorununu çözmemize geçici olarak yardımcı olamaz. Bu nedenle, metindeki belirsizliği azaltmak, dildeki mantığı birleştirmek, arka plan bilgisini yorumlamak, farklı kelimeleri tanımlamak ve nihayet bu belirsizliği çözmek için en son makine öğrenimini kullanmalıyız.

Resim | Dan Roth konuşuyor

Makine öğrenimi, dilin belirsizliğini ve çeşitliliğini çözmek için gerekli bir araçtır.Geçtiğimiz birkaç yılda, bu alanın da gelişimini gördük. Metin sınıflandırma problemini çözmek için farklı sınıflandırma yöntemlerimiz var.Farklı kurallara göre farklı yöntemler kullanıyorlar. Örneğin, bir etiket koyarak metni işaretleyeceğiz ve markalama işlemi sırasında dosyayı sınıflandıracağız. Örneğin, bir makro sınıflandırma yöntemi olan bir hastanın vaka tarafından tekrar ziyaret edilip edilemeyeceğine karar vermek mümkündür.

Yapay zeka, sınıflandırmamıza yardımcı olabilir ve ayrıca son birkaç yılda büyük ilerleme kaydetmiştir. Bu sadece makine öğreniminin gelişmesinden değil, aynı zamanda makine öğrenimi alanının gelişimini ve yeni sınıflandırma yöntemlerinin doğuşunu teşvik eden hesaplama gücünün geliştirilmesi ve depolama maliyetlerinin azaltılması gibi diğer teknolojilerden de kaynaklanıyor.

Bu alana dikkat ederseniz, makine öğrenimi sınıflandırmasının çok etkili olmadığını göreceksiniz. Bu yöntemler sihirli bir kutu ile karşılaştırılırsa, bu sihirli kutuda hangi araçların ve içeriğin gerekli olduğunu anlamalıyız. Vurgulamak istediğim şey, sadece bir yöntem bulmamız değil, aynı zamanda nedenleri, hipotezleri, sonuçları ve test yöntemlerini anlamak dahil olmak üzere muhakeme yöntemini de anlamamız gerektiğidir. Muhakeme, sınıflandırmanın üzerinde bir mantık olması gerektiğinden, aynı kategoriler birbirine entegre olsun. Sorunları daha iyi çözebilmemiz, soruları yanıtlayabilmemiz ve optimize edebilmemiz için bir noktanın bir sonraki noktaya itilip geçirilemeyeceğini netleştirmemiz gerekir.

Resim | Dan Roth konuşuyor

Doğal dil işleme artık birçok uygulamaya sahiptir. Örneğin, bir hukuk firmasının tüm insanların isimlerini alması gerekiyor.Bu isimler e-postalarda yer alıyor.E-postaları analiz etmenin farklı yolları var.Bu kişilerin listesini nasıl belirliyoruz? Başka bir örnek olarak, bir politikacı iklim değişikliği konusunu incelemek istiyorsa, ilgili birçok metin de bulmuştur, ancak bunları kapsamlı bir şekilde nasıl ayırabilir ve büyük olayların zaman çizelgesini nasıl alabilirim? Öğretim sistemi dahil, ortaokul öğrencilerimizin geometrik ve matematiksel problemleri daha iyi çözmelerine yardımcı olabilir mi? Örneğin, geleneksel tıbbi kayıtlardan daha fazla bilgi içeren elektronik tıbbi kayıtları nasıl kullanmalıyız?

Bu sorunları gerçekten tam olarak çözmedik ve muhakeme ve uyarlanabilir eğitim dahil başka birçok zorluk da var çünkü mevcut modellerin çoğu evrensel değil. Ve en büyük zorluk denetimdir.

Öyleyse denetim nedir? Sinir ağının denetimidir. Sinir ağına simüle etmesi için bir görev veriyoruz, ardından veri topluyor ve bir model oluşturuyoruz. Ancak şimdi verilerimizin yeterli olmadığını, tüm modelleri eğitmenin bir yolu olmadığını ve toplam görev denen şeyin ne olduğu konusunda çok net değiliz. O zaman bu yöntem evrensel olarak yükseltilip uygulanamaz, daha çok tesadüfi bir eğitimdir.

Ayrıca çok sayıda dağınık sinyal bulduk .. Bu dağınık sinyalleri nasıl toplayıp modeli eğiteceğiz? Geleneksel metin sınıflandırması, klasik bir modeli eğitmek için çok sayıda ikonik dosya gerektirir. Bu nedenle, genellikle etiketleme ve sınıflandırma için bazı önemli verileri toplamamız gerekir. Şimdi, etiketli verileri kullanmadan nasıl hızlı bir şekilde sınıflandıracağımızı düşünüyoruz. Ancak artık verileri etiketlememize gerek yok, çünkü etiketi en doğrudan anladık. Konuların anlaşılmasını sağlamak için doğrudan konuları ve metinleri belirgin bir şekilde çoğaltmak için kullanabiliriz.

Başka bir örneğim var, kahveyi çok seviyorum.Bir robota bu bilgiyi anlatmak istiyorum, onunla iletişim kurmalı ve ona bilgi vermeliyim, ona ne tür bir kahveye ihtiyacım olduğunu anlatmak ve beni anlamasına izin vermek istiyorum. Tercihler. Standart makine öğrenimi yöntemi, metaforik bir metin ve birçok anlam işareti sağlamaktır, bunu yapmanın maliyeti çok yüksektir. Başka bir deyişle, robotlara bir öğretmen gibi derinlemesine iletişim yoluyla bilgi sağlamamız gerekiyor. Bu yöntem kopyalanamaz.

Şimdi, bu robotu eğitmesi için ona bazı dolaylı sinyaller vermeyi düşünüyoruz. Bu bilgileri dışarıya gönderin ve ardından robotun neler yapabileceğine bakın. Bu kahveyi benim yöntem ve talimatıma göre yapıyorsa mesaj aktarımımızın çok net olduğu anlamına geliyor, tam tersine kötü bir örnek veriyoruz demektir.

Bu nedenle, şimdi sorunumuz, bilgiyi iletmek için bu açıklama diline güvenip güvenemeyeceğimizdir. Size bunu nasıl yapacağınızı söylemeyeceğim, ancak böyle bir yöntemin bir sonraki teknolojik devrim düzeyini gerçekleştirmemize ve bazı karmaşık görevleri gerçekleştirmemize yardımcı olabileceğini düşünüyorum.

Özetle, günümüzün doğal dil işleme alanı hala zorlu bir alandır. Makine öğrenimi ve muhakeme, bilimsel mühendislik ve iş ilerlemesinin temelini oluşturur. Hala çözülmesi gereken birçok sorun olmasına rağmen, bu alandaki statüko belirli ticari başarılar sağlamamıza yardımcı olabilir.

Teşekkür ederim!

Resim | Emtech Çin konferans sitesi

"Fantastik Canavarlar 2" yurtiçi gişede 380 milyonu aştı, ününün ve performansının önüne geçmek zor mu?

699 yuan beklentileri aştı! Redmi 7 neden "yaşlı adamın sihirli makinesi"? Hepsi bu özelliğe göre

: Şaka da komik, para gerçekten bir şey değil

: 6G bellek önyükleme sırasında neden yalnızca 3G kalıyor? Aslında, kendisi tarafından "çalındı"

: İtalya'da bir aile anlaşmazlığında tespit edilen büyük hırsızlık ve uyuşturucu kaçakçılığı vakası

: IQOO 15 gün boyunca çalışmaya başladıktan sonra hissettim: Bu küçük eksiklik dışında, geri kalanı tam puan aldı!

: Leshan Dev Buddha, turistlerin "nedeni" belirledi Dev Buda'nın korumasına tanık oldu

: Liaocheng Belediye Parti Komitesi Daimi Komitesi üyesi ve Propaganda Departmanı Bakanı Liu Shengqin, kamu güvenliği mali medyasının inşasını araştırıyor

: Çöp sınıflandırması Wuhan vatandaşlarının hayatında yeni bir moda haline geldi

: Büyük kapasiteli U disk lahana fiyatını değiştirecek, üreticiler rahatlamış, kullanıcılar en mutlu

: Hepsi 2019'da ve bu Snapdragon 660 telefonu 40.000'den fazla satmaya cesaret etti. Önemli olan stokta olmaması!

: Venture Capital Weekly Cilt 3 İlaç sektöründe kış yok; ekonomik gerileme, eğlence artıyor; K12 çevrimiçi eğitim pazarı en iyi oyuncular için bir savaş başlatacak

: MIUI 11 hazır, 5 yeni özellik yakında eklenecek, 30'dan fazla telefon zorlanacak

: Leshan trafik polisi eğlenceli ve öğreniyor Trafik güvenliğini teşvik edin

g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

EmTech sitesi Doğal dil tanrısı Dan Roth: Yapay zekanın yükselişi, yapılandırılmamış verilerin kullanımında yatıyor

İlgili bilgi

Hubeinin En Büyük "Likör Güveni" Telekom Ağı Dolandırıcılık Davasında Mahkum Edildi, 71 Sanık Mahkum Edildi

Mi 9'un üç versiyonundan hangisi en uygun maliyetli? İlk önce dilenci versiyonu çıktı!

Amazon AWS Baş Bilimcisi: AWS, büyük ölçekli makine öğrenimini nasıl kolaylaştırır?

2017 Kuzey Amerika İkinci Çeyrek Teknoloji Girişimlerinden Çıkış Raporu: Halka arzlarda artış ve daha yavaş M&A

Huawei P30 rezervasyonları 100.000'e yaklaşıyor ve 12.000 kişi depozito ödedi! İstikrarlı satışlar

Sahneye çıkmadan önce gözden geçirin ve yükseltin Sichuan Operası "Dikişsiz Giysiler" hala çok popüler!

MIUI 11 yolda, dahili beta sürümü yayınlandı ve pil ömrü% 20 arttı

Nokia tarihinin en çok satan Android telefonu olan Snapdragon 636 + 6G + 64G sadece bin yuan!

Tomaso Poggio bir sonraki "AlphaGo" ipucunu analiz ediyor ve "derin öğrenme simyası" ndan bahsediyor

Beklenmedik bir şekilde Lu Weibing de Redmi7'yi kendisi satın alacaktı Netizen: Hala satın almanız gerekiyor mu?