Akıllı şeyler (genel hesap: zhidxcom) Metin | Lina
21 Kasım'da bilge şeyler haberleri bugün, Microsoft XiaoIce baş bilim insanı Song Ruihua, baş NLP bilim adamı Wu Wei ve baş ses bilimcisi Luan Jian, bu yıl Microsoft genel merkezinde bir küçük medya değişim toplantısında Microsoft XiaoIcein doğal dil işleme ve fonetik olduğunu tanıttı Araştırma ve multimodal nesil gibi alanlarda araştırma ilerlemesi.
Soldan sağa: Microsoft Xiaoice Baş NLP Bilimcisi Wu Wei, Baş Ses Bilimcisi Luan Jian, Baş Bilim Adamı Song Ruihua
Toplantıdan sonra bir röportajda Luan Jian, Zhizhi'ye Xiaobing'in daha fazla veri arayacağını ve AI düzenlemesi açısından daha fazla desen ve stil üreteceğini söyledi. Örneğin Xiaobing, daha iyi müzik üretmek için "Tik Ton Divine Comedy" deki mevcut popüler müzik tarzlarını araştırabilir.
Microsoft XiaoIce'ın baş bilim adamı Song Ruihua'ya göre, son yıllarda Microsoft XiaoIce ekibi, büyük uluslararası konferanslarda 48 makale / makale yayınladı ve tam çift yönlü AI teknolojisi dahil olmak üzere 72 patent aldı.
XiaoIce şu anda 450 milyon üçüncü taraf akıllı cihazla donatılmıştır ve ortalama konuşma turu sayısı (CPS) 23'e ulaştı.
Song Ruihua, Xiaobing'in metafor ve çağrışımlardaki ilerlemesini ve Xiaobing'in hikayeleri insanlar gibi resimlere dönüştürmesini nasıl sağlayacağını paylaştı.
Xiaobing tarafından ilişkisel bağlantılar ve diğer yöntemlerle üretilen mecazi cümle
Ek olarak, XiaoIce'in hikayeleri bir kişi gibi resimlere dönüştürme yeteneği, mevcut popüler "modlar arası anlayış" teknolojisini içerir.
Örneğin, dil açısından, insanlar bir kutup ayısının foklarını avlayan bir paragrafını okuduğunda, ilgili sahne otomatik olarak zihinlerinde belirecektir.
Dahası, metin paragrafında kutup ayısının beyaz ve çevredeki buz ve karlı dünyanın beyaz olduğu belirtilmese de, insanlar bu eksik bilgiyi sağduyu yoluyla tamamlayabilir.
Song Ruihua, Zhishi'ye şu anda yapay zekanın hâlâ sağduyu alanında eksik olduğunu, çünkü insanların kendilerine alışık oldukları şeyleri kelimelerle yazmayacağını söyledi. Örneğin, insanlar özellikle "Bugün iki ayak üzerinde yürüyorum" demeyecek. AI sağduyusunu desteklemek için pek çok şey keşfedilebilir.
Aynı zamanda, insanlar bir kutup ayısının "uçtan uca" görünümünü görmemiş olabilirler, ancak kendi evlerinde kedi görünümünün yerini alabilirler. Xiaoice, insanlardan öğrenerek önceki deneyimi harekete geçirebilir, mevcut sahneyi simüle edebilir ve hikayeyi bir insan gibi bir resim olarak anlayabilir.
Xiaobing'in "Açlığını Doldurmak için Turta Boyama" hikayesine ilişkin imaj anlayışı
Song Ruihua, Zhishi'ye, önümüzdeki bir veya iki yıl içinde Microsoft Xiaoice'un çok modlu bir yönde gelişmeye devam edeceğini söyledi.Eğer Xiaoice'un gelecekte belirli bir görüntüsü varsa, bir kamera (gözlerle) ve bir mikrofon (kulaklı) olacak. Bu çok modlu AI teknolojisi, gelecekteki gelişimin odak noktası olacaktır.
Microsoft Xiaoice Şefi NLP Bilimcisi Wu Wei tarafından bugün paylaşılan konu "Kendi Kendini Tamamlayan Bir Sohbet Robotuna Doğru".
Wu Wei, "Kendi Kendini Tamamlama" nın takım içinde "yapılmış" bir kelime olduğunu söyledi, ancak Xiaoice'un son birkaç yıldaki başarılarını en iyi şekilde özetleyebilir.
Diyalog robotları için, "kendi kendini tamamlama" temel olarak aşağıdaki yetenekleri ifade eder:
1. Öğrenme yeteneğine sahip olma (birincil yetenek, insan diyaloğundan öğrenmeyi içerir; ileri yetenek, diğer diyalog robotlarından öğrenmeyi içerir)
2. Diyaloğu kendi kendine yönetme yeteneğine sahip (birincil yetenek, tek bir diyalog turunda neyi ifade etmeniz gerektiğini bilme becerisini içerir; gelişmiş yetenek, tüm diyalog sürecini kavrama becerisini içerir)
3. Bilgi bağlantı yeteneğine sahip olma (dünyadaki çoklu çok modlu bilgiyi birbirine bağlayabilme)
İnsan konuşmalarından öğrenmeyi bir örnek olarak ele alırsak, Xiaoiceun insanlarla yaptığı konuşmalar, Xiaoice ekibi tarafından oluşturulan Generation Models aracılığıyla basit yanıtlardan artımlı bilgiler içeren içeriğe kadar tek turdan çoklu tura ilerleyebilir.
Yukarıdaki resim aynı diyaloğa farklı yanıtlar veren üç farklı modeli göstermektedir.Bir insan "Cildim çok kuru" diyaloğu verdiğinde, SSA modeli "Ahhhhhh" yanıtını verir ve S2SA-MMI modeli verir Microsoft'un yanıtı "Ben de" ve Microsoft'un TA-Seq2Seq modelinin verdiği yanıt "Sonra nemlendir ve nemlendir" - "Nemlendir ve nemlendir" bariz bir bilgi artışıdır.
Wu Wei, araştırmanın kısa bir süre almasına rağmen çok hızlı geliştiğini söyledi.
Buna ek olarak, şu anda AI ses etkileşimi alanında tam çift yönlü çok yönlü diyalog gibi teknolojiler çok popüler.Son birkaç ayda Baidu, Ali, Xiaomi vb. İlgili yeni ürünleri art arda piyasaya sürdü.
Wu Wei, Zhishi'ye, Microsoft Xiaoice'un ilgili işlevleri çok erken başlattığını ve Xiaoice'un çok yönlü diyalog yeteneğinin yalnızca Xiaoice'un bağlamı daha doğru anlamasına ve daha doğru yanıtlar vermesine değil, daha da önemlisi Xiaoice'a izin verdiğini söyledi. Tüm diyalog akışını kontrol edecek ve interaktif diyalog rehberliği yapacak. Çünkü insan iletişim süreci basit bir soru-cevap modu değil, amaca yönelik ve duygusal bir iletişimdir.
Microsoft Xiaobing'in baş ses bilimcisi Luan Jian, Microsoft Xiaobing'in AI şarkı söyleme konusundaki ilerlemesini paylaştı.
Luan Jian, Microsoft Xiaobing'in şarkı söyleme teknolojisinin üç nedeni olduğunu söyledi: 1. AI şarkı söylemenin, AI konuşmaya göre daha yüksek bir teknik eşiği vardır; 2. Şarkı söylemenin daha zengin ve daha yoğun duygusal ifadesi vardır; 3. Şarkı söylemek çok önemli bir eğlence yöntemidir .
Şarkı söylemenin üç unsuru telaffuz, ritim ve melodidir. Bu üç öğe makineye iki şekilde girilecektir, birincisi mevcut ses girdisi ve ikincisi puan girdisi yoluyla olacaktır.
Luan Jian, AI şarkıları için, cappella verisinin ciddi eksikliğinden dolayı, eğitim için büyük miktarda karışık eşlik parça verisinin kullanılması gerektiğini söyledi.
Bu zorluğa yanıt olarak, Microsoft XiaoIce ekibi, model + veri kombinasyonu yoluyla ses parçası algılama, fonem hizalama, perde yörüngesi çıkarma vb. Yoluyla şarkı söyleyebilen XiaoIce'i başarıyla oluşturabilir.
Ancak Luan Jian, Zhishi'ye şunları vurguladı: Microsoft Xiaoiceun konuşma sentezleme teknolojisi şu an için yalnızca şirketlere açık olacak, bireylere açık olmayacak, çünkü bu teknoloji yüksek bir kullanıcı gizliliği ve yapay zeka dolandırıcılığı riskine sahip.
Bu paylaşım oturumu teknolojik ilerlemeye odaklanacak olsa da, Microsoft XiaoIce'in Ar-Ge uzmanları da Microsoft XiaoIce uygulamasında bazı ilerlemeleri paylaştılar.
Örneğin, çevrimiçi perakendede XiaoIce ekibi, Japonya ve Amerika Birleşik Devletleri'nde karşılık gelen teknolojileri zaten uygulamaya koydu.Az, birkaç basit soruyla kullanıcıların alışveriş ihtiyaçlarını hızla belirleyecektir.
Örneğin, bir kullanıcı bir mezuniyet hediyesi satın almayı teklif ettiğinde, AI, kullanıcının hediye alıcılarının ilgi alanlarını ve hobilerini 10 turdaki diyaloglar aracılığıyla art arda keşfedecek ve sonunda uygun bir hediye (kitaplar, kameralar, kahve vb.)
Wu Wei'ye göre, bu sistemdeki mevcut kullanıcı tıklamalarının önerilen dönüşüm oranı% 68'e kadar çıkmaktadır.
Song Ruihua, aynı zamanda müziğin, AI'nın müzik, metin ve resim yaratmasında çok büyük bir pazar olduğunu söyledi. Çünkü müzik için insan tüketim talebi büyük, ancak gerçekten şarkı yazabilen çok az insan var.
Luan Jian, Microsoft Xiaobing'in teknolojisinin yalnızca şirketlerin sanal şarkıcıları özelleştirmesine yardımcı olmakla kalmayıp, aynı zamanda kullanıcılara müzik araçları ve platformları sağlayarak kullanıcıların kendi şarkılarını daha rahat bir şekilde oluşturmalarına olanak tanıdığını söyledi.
AI kompozisyonunun optimizasyonunda Luan Jian bir kez daha veri + modelin çok önemli olduğunu vurguladı. Xiaoice bir yandan daha fazla veri arayacak ve daha fazla desen ve stil üretecek. Örneğin Xiaobing, daha iyi müzik üretmek için "Tik Ton Divine Comedy" deki mevcut popüler müzik tarzlarını araştırabilir.
Öte yandan, veriler yetersiz olduğunda, uzman modu kuralları çıkarmak için kullanılabilir ve kurallar ve algoritma modelleri daha organik olarak birleştirilebilir.