Harbin Teknoloji Enstitüsü'nden Profesör Liu Ting: 50 yıl sonra, insan-makine diyalog teknolojisindeki atılımı ve gelişimi adım adım görün! | CCF-GAIR

Leifeng.com'un notu: 8 Temmuz 2017'de, Çin Bilgisayar Federasyonu (CCF) ev sahipliğinde Leifeng.com ve Hong Kong Çin Üniversitesi (Shenzhen) ev sahipliğinde Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR) ikinci gününe girdi. Akıllı asistan oturumunda, Harbin Teknoloji Enstitüsü'nden Profesör Liu Ting bize "İnsan-Makine Diyaloğu Teknolojisinde İlerleme" başlıklı bir açılış konuşması yaptı.

Liu Ting, Harbin Teknoloji Enstitüsü Profesörü, Sosyal Hesaplama ve Bilgi Edinme Araştırma Merkezi Direktörü. Ulusal 863 ana proje grubunun bir uzmanı, 973 proje uzman grubunun bir üyesi ve birçok kez Fon Komitesi'nin bir değerlendirme uzmanı olarak görev yaptı ve Bilim ve Teknoloji Bakanlığı tarafından genç ve orta yaşlı bir bilim ve teknoloji yenilik lideri olarak seçildi. Ana araştırma yönü doğal dil işleme ve sosyal hesaplamadır. Ulusal 973 projesinden sorumlu kişi ve Ulusal Doğa Bilimleri Vakfı'nın kilit projesidir. Ulusal Bilim ve Teknoloji İlerleme Ödülü ikincilik ödülünü, İl Bilim ve Teknoloji İlerleme Ödülü'nün birincilik ödülünü, Qian Weichang Çin Bilgi İşleme Bilimi ve Teknolojisini kazandı. Büyük ikramiye.

Aşağıdaki içerik, Leifeng.com tarafından Profesör Liu Ting'in raporundan silinerek derlenmiştir:

Organizatöre davet için teşekkür ederim. Ben Harbin Teknoloji Enstitüsü'nden Liu Ting. Konum "İnsan-Makine Diyaloğu Teknolojisinin Gelişimi".

İnsan-makine diyaloğuna genel bakış

Aşağıda, ses yoluyla giriş ve çıkış yapılabilen veya metin yoluyla doğrudan etkileşime girebilen insan-makine diyalogunun temel çerçevesi yer almaktadır. Üç önemli modül içerir: dil anlama, diyalog yönetimi ve dil oluşturma. Sonraki konuşmamda bu teknolojilere değineceğim.

Bir bilim adamı olarak, sektörü herkes kadar derinden anlamayabilirim. Benim bakış açıma göre, insan-makine diyaloğu üç aşamadan geçti: birincisi, sesli asistanlar dönemi; ikincisi, 2014'te sohbet robotları çağına girme; ve üçüncüsü, 2016'da sahne tabanlı görev yürütmeye girme.

Sesli asistan dönemi

Jobs, 2011'de ölümünden önce iPhone 4S'de Siri'yi piyasaya sürdü. O zamanlar teknoloji henüz olgunlaşmamıştı. 2012 yılında, çeşitli Çinli üreticiler ses asistanı olarak davayı takip etti. 2014 yılında bireysel şirketler sesli asistan ekiplerini dağıttı. Ana nedenler: Birincisi, teknoloji duymak için yeterince olgun değil ama anlamıyor. Sonuç olarak, başlangıçta ciddi olan birçok hizmet, ses asistanlarının alay konusu haline geldi; ikinci olarak, ses her zaman en doğal iletişim yolu değildir.İşbirliği için özel bir ortam ve bazen bir görüntü etkileşimli arayüz gerektirir.

Sohbet robotları çağı

2014 yılında Microsoft, sadece sohbet etmek ve eğlenmek, ses kullanımından vazgeçmek, doğrudan metinle iletişim kurmak için XiaoIce'i piyasaya sürdü. Şu anda, derin öğrenme tamamen kullanılıyor ve teknik seviye geliştiriliyor Zorluk, bağlamın modellenmesinde ve robotun kendisinin modellenmesinde yatıyor. Örneğin robota "Bu yıl kaç yaşındasın?", "5 yaşındayım" diye soruyorsun. Ama "evli misiniz?", "10 yıldır evliyim" diyerek çatışmalar yaşayacak. Uygulama açısından kullanıcı tutma oranı çok yüksek değil.Kullanıcı sayısı fazla olmasına rağmen robotlarla sohbet etmeye pek fazla kişi devam etmiyor.

Şimdi bazı insanlar sohbet etmenin anlamsızlığı üzerine düşünüyor, bence hala faydalı. Üç ana işlevi vardır. İlk olarak, insanlar ve makineler arasında güven inşa edin. İkincisi, sohbet sürecinde sohbet robotlarının arama motorlarına göre büyük bir avantajı vardır.Arama motorları kullanıcı girişini yalnızca pasif olarak gözlemleyebilir, ancak makineler aktif olarak insanlara sorabilir. Örneğin robot insanlara film izlemeyi sevip sevmediklerini sorar ve buna benzer yanıtlar verir. Robot hangi kategoriyi beğendiğini sordu ve aksiyon filmleri izlemeyi sevdiğini söyledi ve robot hemen bir Jackie Chan aksiyon filmi tavsiye etti. Üçüncüsü, duygusal yatıştırıcı işlevi: Robotun avantajı, çağrı üzerine, sıkı ve özelleştirilebilir olmasıdır.

Senaryo tabanlı görev yürütme dönemi

Şu anda pratik çabalar aşamasındadır ve evrensel olan bunu yapamaz, eğlenceye döndürülebilir veya belirli senaryolarda kullanılabilir. Bu aşamanın özellikleri şunlardır: kullanıcı beklentilerini daha da azaltmak için insan-makine diyaloğunu belirli senaryolarla sınırlandırmak; anlamsal belirsizliği giderme yeteneklerini geliştirmek için senaryo kısıtlamalarını kullanmak. Televizyonun karşısına geçip bir televizyon programına tıklamak istediğinizde talimatlar verebilirsiniz ve talimat verme yolları sınırlıdır. İki sorun var: Birincisi, yeniden konuşlandırmayı gerektiren sahne değiştirmedir. İkincisi, mühendislik renginin ciddi olması ve sorunun bir pakette çözülememesi, bu da araştırma ve geliştirme maliyetlerini artırıyor.

Günümüz insan-makine diyalog sistemi fonksiyonları:

Günümüz insan-makine diyalog sisteminin dört ana işlevi vardır. Biri sohbet. Sohbetin amacı, insanların mümkün olduğu kadar makine ile konuşarak zamanı tüketmesine izin vermektir. Ek olarak, bilgi yarışması, görev yürütme ve tavsiye, hepsi sohbeti hızlı bir şekilde sonlandırmayı amaçlayan daha ciddi işlevlerdir.

İnsan-makine diyalog sistemi şu üç kısma ayrılmıştır: doğal dil anlayışı, diyalog yönetimi ve doğal dil üretimi. Sohbet, bilgi, görevler ve öneriler için ilgili araştırma noktaları vardır. Ayrıntılar için lütfen PPT'ye bakın.

İnsan-makine diyaloğu teknoloji ilerlemesi

İnsan-makine diyalog teknolojisi ne ölçüde ulaştı? En önemlileri yukarıda belirtilen dört yönden seçiliyor: sohbet ve görev yürütme. Farklı şirketler görev yürütmeyi farklı olarak adlandırır, biz buna görev diyoruz. Sohbet etmenin net bir amacı yoktur, görev uçak bileti ve restoran rezervasyonu yapmaktır. Sohbet arama alanı nispeten geniştir.

Sohbet botları ilk olarak 1960'larda ortaya çıktı. Birisi akıl hastaları ile sohbet edebilen bir robot geliştirdi. Etkisi şaşırtıcıydı. O zamandan beri gelişmeye devam etti. Tencentin XiaoQ robotu, Microsoft XiaoIce ve Tayın tümü sohbet robotları serisidir. Sohbet söz konusu olduğunda, aklınıza gelen ilk şey, önceki sohbet kayıtlarına ve aramaya dayalı olarak bazı soruları cevaplayabilmenizdir.

Tek turlu diyalog oluşturmanın ilerlemesi daha tekniktir. Geliştirme trendi, problemleri sadece algoritmalar yoluyla çözmek değil, aynı zamanda bir tema belirlemek, dış kaynakları ödünç almak ve daha bol konuşmaktır.

Birden fazla görüşme turunda, sohbet ve arama arasında büyük bir fark vardır. Arama aynı zamanda birden fazla arama turu başlattı, ancak gerçek çoklu turlar sohbete yansıtılır.Referanslar, ihmaller vb. Üretecek birden fazla tur olması gerekir. İnsanlara bunun birden fazla diyalog turunda eksiksiz bir diyalog olduğunu hissettirmek, incelemeye değer. Derin öğrenme ve pekiştirmeli öğrenmenin entegrasyonu dahil olmak üzere birçok teknoloji vardır.

Akıllı asistanların Apple ve Microsoft'tan Facebook ve Amazon'a kadar bir dizi ürünü var. Artık birçok büyük şirket yalnızca kendi akıllı asistanlarını yapmakla kalmıyor, aynı zamanda diyalog platformları da sağlıyor. Diyalog, diyalog işletim sistemi veya diyalog yapay zeka olarak adlandırılabilir. Microsoft gelişiyor, birçok şirket satın alıyor ve Baidu hem geliştiriyor hem de satın alıyor, KOBİ'ler için bir platform başlatıyor.

Göreve dayalı diyalog sisteminin dili anlama kısmı, genellikle kalkış yeri, varış yeri, hareket saati ve diğer bilgiler gibi kullanıcıların ihtiyaçlarını ifade etmek için anlamsal boşluklar kullanır. Bu nedenle, sıra açıklama modeli anlamsal aralıkları çıkarmak için kullanılabilir. CRF (Koşullu Rastgele Alan), geçmişte sıklıkla kullanılan, ancak Markov varsayımıyla sınırlı olan bir dizi etiketleme modelidir, uzun mesafeli bağımlılık problemini iyi bir şekilde idare edemez. Derin öğrenme yöntemlerinin popülaritesi ile insanlar, sıkıcı özellik mühendisliği işlerinden kaçınırken uzun mesafe bağımlılık sorunlarını çözmek için çift yönlü LSTM gibi tekrarlayan sinir ağlarını kullanırlar. Son zamanlarda insanlar, slot doldurmanın doğruluğunu daha da iyileştirmek için bu iki yöntemi, yani iki yönlü LSTM-CRF modelini birleştirdiler.

Diyalog yönetimi, önceki dil anlama adımında tanımlanan anlamsal bilgileri ve karar alma sisteminin bir sonraki adımda benimsemesi gereken, soru sorma, açıklama veya sonuç verme gibi stratejiyi ifade eder. En basit ve en yaygın olarak kullanılan yöntem, kurala dayalı bir yöntemi benimsemek, yani farklı durumlara göre bir diyalog ağacını manuel olarak formüle etmektir.Bu yöntem çok fazla insan gücü gerektirir ve taşınabilirlik açısından zayıftır. Kılavuzlu öğrenme yönteminin yalnızca bazı belirli örnekleri manuel olarak işaretlemesi ve karşılık gelen yanıt stratejisi verilerini etiketlemesi gerekir ve ardından makine öğrenimine aktarılabilir. Ancak, bu yöntemin her diyaloğu etiketlemesi gerekiyor ki bu çok zor. Son yıllarda, pekiştirmeli öğrenme yöntemlerinin kullanımı araştırmanın ana akımı haline geldi.Bu yöntemin tek tek etiketlenmesi gerekmiyor ve sadece tüm diyaloğun bir ödül olarak nihai sonucuna ihtiyaç duyuyor ve sistem optimal strateji sırasını öğrenebilir.

Son olarak, diyalog oluşturma modülü, benimsenen farklı diyalog stratejilerine göre farklı sistem yanıtları verir. En kolayı şablon tabanlı bir yöntem kullanmaktır, ancak bu yöntemin farklı alanlar arasında geçişi zordur. Daha sonra, insanlar derlemeden yanıtların dilini doğrudan öğrenmek için dil modeline dayalı yöntemler kullandılar. Son yıllarda, derin öğrenmedeki sıralı dizilim yöntemi, makine çevirisi gibi görevlerde kullanılan sıralı dizilim modelinden farklı olarak diyalog üretimi için yeni bir fikir sağlamıştır.Burada, orijinal sıra, bir önceki adımdaki diyalog stratejisi çıktısıdır ve hedef sıra, Sistematik bir doğal dil tepkisidir. Bu yöntem, basit öğrenmenin ve doğal ve çeşitli dilin avantajlarına sahiptir.

"Bunben" robotuna giriş

Laboratuvarımızda geliştirilen "Bunben" adlı bir sistemi tanıtalım. "Ling, Bailing" demeye cesaret edemeyiz, sadece aptal olduğumuzu kabul edebilir ve kullanıcıların beklentilerini daha da azaltabiliriz. Kullanıcı bir cep telefonu tuttuğunda ve neden diye sorabildiğinde hayal kırıklığına uğrayacaktır. Araştırma merkezimiz, Harbin Teknoloji Enstitüsü'nün Sosyal Hesaplama ve Bilgi Edinme Araştırma Merkezidir Bu, on binlerce insanı çeken kamuya açık hesabımızdır. İşlevler arasında sohbet, bilgi testi, görev yürütme ve öneri bulunur.

Üretken diyalog modelinin çoğu zaman problemli bir anlamsal ilgisi vardır. Örneğin, makineye bu yıl kaç yaşında olduğunuzu sorun ve bilmediğiniz bir yanıt verin. Sorunun nedeni, teknik açıdan bakıldığında, üretilen konuşmanın ilk kelimesinin yüksek olasılıkla ortak bir kelime üretmesidir. Örneğin, "Ben", "Sen".

Karşılaştırabilmeniz için onu oluşturmak için özel bir Başlamak için Öğrenme modeli kullandık.

Tek aşamalı diyalog ayrıca iki aşama oluşturmak için tema planlama yöntemini benimser. Önce planlayın, ardından içeriğe yanıt verin.

Çoklu diyalog turları DQN'ye dayanmaktadır. Bu optimizasyon ve görev yürütmenin optimizasyonu tam tersidir. Sohbetin optimizasyonu, sohbetin olabildiğince devam etmesini sağlamak ve konu turlarının sayısını artırmaktır.

Aşağıdakiler daha eğlenceli olan "Bunben" sohbetinin (PPT'ye bakın) bazı konuşmalarıdır, gidip kendi başınıza oynayabilirsiniz.

Aşağıdaki bir bilgi yarışmasıdır. Her bir özel konuda, derin öğrenme teknolojisi kullanılır ve bilgi sorusu ve cevabı bir istisna değildir.

Bu, görev yürütme için sistem çerçevesidir (bkz. PPT). Harbin Teknoloji Enstitüsü, görev yürütme açısından yakın zamanda bir sistem geliştirmiştir.Bu sistem bir platformdur.Özel alanınızda çözülmesi gereken bazı problem örnekleri ekleyebilirsiniz.Sistem, bazı örnekler ekledikten sonra özellikle pratik bir eğitim almanıza yardımcı olacaktır. Senaryo görev yürütme sistemi. Bu öneri aynı zamanda insan-makine diyaloğuna da yerleştirilmiştir.Bazı girişimler insan-makine diyalogu alanında uzmanlaşmıştır.

Sizlerle "Bunben" sohbet sürecinde size ürün önerebilir, bu bir pazarlama robotudur. Pazarlama botları önce sizinle sohbet edecek ve güven oluşturduktan sonra ürünler önerecektir. Satış sonrası hizmet veren müşteri hizmetleri robotları da bulunmaktadır.

İnsan-Makine Diyaloğu Değerlendirmesine Giriş

Son olarak, insan-makine diyalog değerlendirmesinden bahsedeyim: Herhangi bir teknoloji geliştirmek isterse, amacına, yani bu teknolojinin nasıl değerlendirileceğine, bu teknolojinin ileriye mi yoksa geriye mi gittiğine bağlıdır. İnsan-makine diyaloğunun değerlendirilmesi, soru-cevap sisteminden daha zordur. Soru cevap sistemi tek turdur, Mao Zedong'a ne zaman doğduğunu sordum. Doğru bir cevap verdiyseniz, bu bir başarı olarak kabul edilir. Bununla birlikte, insan-makine diyalogunda, bir turdan sonra çatallanma olacaktır ve çatallanma tamamlandığında, değerlendirme için standart bir yanıt vermenin bir yolu yoktur. Artık bu alandaki yerel işleme de değerlendirme tarafından yönlendirilmektedir. Harbin Teknoloji Enstitüsü de çeşitli değerlendirmelere ev sahipliği yapıyor. Amerika Birleşik Devletleri'nde daha önce bazı değerlendirmelere katıldık ve şimdi bazıları Japonya'da NTCIR'in değerlendirmesine katılıyor. Felsefemiz, Çinlilerin değerlendirilmesinin Çinliler tarafından yönlendirilmesidir.

Başkan olarak Zhang Weinan ile ilk Çin insan-makine diyalog değerlendirmesine ev sahipliği yaptık. İki göreve ayrıldık: Birincisi, kullanıcı niyetlerinin sınıflandırılması, bunun bir sohbet mi yoksa bir görev mi olduğunu ve bir görevse, ne tür bir görevi tamamlamak istiyorsunuz? İkincisi, belirli alanların göreve dayalı insan-makine diyaloğu değerlendirmesidir. Örneğin, bir uçak bileti ayırdığınızda ve iki cümle sorduğunuzda, bir çatallanma olacaktır ve değerlendirmeye başlamak zordur. Çözüm, manuel olarak değerlendirmek, önce problemin bir tanımını vermek, insanların bu tanıma göre farklı robotlarla konuşmasına izin vermek ve hangi robotun problemi en kısa sayıda turda çözebileceğini görmektir.

Uluslararası alanda da değerlendirmeler 2017 yılında düzenlenmiştir. Doğal dil işlemenin ön saflarında yer alan yerli ve yabancı akademisyenler yan yana ilerliyor. Stanford'un ev sahipliği yaptığı İngilizce okuduğunu anlama testine birçok dev katıldı. Birincisi Microsoft Research Asia ve ikincisi Harvard Üniversitesi'nde bir araştırma laboratuvarı. İngilizce bile Çin çok geride değil.

Gelecek için zorluklar

Sonuç olarak, ana teknik zorluklar iki yöndedir.

Birincisi, chatbot'ların gelecekte çözülmesi gereken sorundur. Sanırım buradaki hiçbiriniz bir haftadan fazla bir robotla konuşmak istemiyor. Robotlara sınavda başarısız olduklarını, üzgün olup olmadıklarını nasıl analiz edeceklerini, kullanıcı portreleri, tepki kalitesi, çeşitlilik ve kişiselleştirmeyi anlatan duygular da var. Robotlar konuya nasıl öncülük eder, robotların nasıl çeşitli kişiliklere sahip olmasını sağlar ve oyun dünyası da dahil olmak üzere her kullanıcı için farklı kişiliklere sahip birden çok robotu özelleştirir, robotun bazı roller oynamasına ve insanlarla konuşmasına izin verin. Ayrıca konuya dayalı bağlam oluşturma ve kullanıcı tabanlı duygusal geri bildirim de vardır. Kullanıcı sizi azarladığında veya sizinle sohbet etmeyi bıraktığında, bu, soruyu iyi yanıtlamadığınız anlamına gelir.

İkincisi, görevin yürütülmesinde incelenecek konulardır. Örneğin, görevler arasında geçiş yapmak, bir veya iki sahne doğrudan mühendislik yoluyla yapılsa bile, başka yerlere genişletmek yine de zordur.

İnsan-makine diyalogu gerçek bir ilerleme sağlayabildiğinde, esas olarak şu noktalara bağlıdır: doğal konuşma işleme teknolojisindeki ilerlemeler, makinenin bağlam anlayışındaki ilerleme, makine muhakeme yeteneklerinde gelişme ve metin oluşturma teknolojisindeki ilerleme.

İnsan-makine diyalogu, doğal dil işlemenin gelişiminde bir zirvedir ve gelişimi, doğal dil işlemenin gelişiminden ayrılamaz. Doğal dil işlemenin dört aşaması olduğunu düşünüyorum. Biçimsel eşleştirmeden anlamsal eşleştirmeye, şimdi metinsel muhakemeye ve sonraki adım anlamsız olacaktır. Küçük bir kız erkek arkadaşına "nefret" dedi, bu cümleyi nasıl anlamak için biraz kültürel altyapı gerekiyor. Metaforun bu yönü üzerinde çalışan insanlar zaten var.

Son olarak, laboratuvarımızın düzenini tanıtacağım.Araştırma yönü PPT'de gösterilmiştir.

Laboratuvarımızın 70 kişiden fazla bilimsel araştırma ekibi var. LTP ve sözdizimsel analizde her zaman yerel ve hatta uluslararası lider konumumuzu sürdürdük. Önceki dönemde, Google genel sözdizimsel analiz değerlendirmesinde 45 dili destekledi ve Harbin Teknoloji Enstitüsü dördüncü oldu. Birçok şirket Harbin Teknoloji Enstitüsü ile işbirliği yapıyor ve ayrıca burada bulunan diğer şirketlerle daha fazla işbirliğine dayalı ilişkiler kurma fırsatına sahip olmayı umuyoruz.

Hepsi bugün konuşmam için, teşekkür ederim!

Leifeng.com tarafından düzenlenmiştir.

"Sıcak Aktiviteler" 2018 NI Havacılık ve Savunma Akıllı Test Sistemi Turne Semineri
önceki
TDOA teknolojisine dayalı fabrika personeli güvenlik konumlandırma sisteminin tasarımı
Sonraki
Lenovo, MR gözlükleri daystAR Morningstar'ı piyasaya sürdü, Microsoft HoloLens'e benziyor
Yeşil Akciğerin Üstü | Shimao · Bright Sky City, parkta ideal bir konut
Cilt Rengi ve Yüz Hareketinin Kombinasyonuna Dayalı Otomatik İfade Tanıma Algoritması Araştırması
"Destiny 2" Kore Özel Sürümü duyuruldu: Kore tarzı güzel kız çevrimiçi
Yeni Yaşam Tarzı Kardeş PT-P710BT Deneme Deneyimi
Üfleme, "Aquaman" nitelikli değil
Li Ronghao Infernal Affairs'i restore ediyor, "Undercover Superstar" Shenzhen Roadshow'da hala bu tür bir operasyon var mı?
Adidas neden Asya-Pasifik merkezini Şangay'a taşıdı?
Samsung Xuanlong MR + kulaklık deneyimi: daha heyecan verici görüş ve daha rahat kullanım
Strasbourg'daki "Beyaz Albüm 2" formasının arkasındaki hikaye nedir?
Ev hanımı = para kazanmıyor mu? Filmi izlemeyi öner
Liu Haoran Afrika'da hayır işleri yapıyor ve fillerle yakın teması var, kaplan dişlerini gösteren tatlı bir gülümseme, yakışıklı ve canlandırıcı.
To Top