Microsoft Xiaoice'un üç baş bilim adamı ile diyalog: Yapay zekayı eğitmek için Douyin Divine Comedy'yi kullanarak makine kompozisyonu büyük bir potansiyele sahip

Akıllı şeyler (genel hesap: zhidxcom) Metin | Lina

21 Kasım'da bilge şeyler haberleri bugün, Microsoft XiaoIce baş bilim insanı Song Ruihua, baş NLP bilim adamı Wu Wei ve baş ses bilimcisi Luan Jian, bu yıl Microsoft genel merkezinde bir küçük medya değişim toplantısında Microsoft XiaoIcein doğal dil işleme ve fonetik olduğunu tanıttı Araştırma ve multimodal nesil gibi alanlarda araştırma ilerlemesi.

Soldan sağa: Microsoft Xiaoice Baş NLP Bilimcisi Wu Wei, Baş Ses Bilimcisi Luan Jian, Baş Bilim Adamı Song Ruihua

Toplantıdan sonra bir röportajda Luan Jian, Zhizhi'ye Xiaobing'in daha fazla veri arayacağını ve AI düzenlemesi açısından daha fazla desen ve stil üreteceğini söyledi. Örneğin Xiaobing, daha iyi müzik üretmek için "Tik Ton Divine Comedy" deki mevcut popüler müzik tarzlarını araştırabilir.

1. AI, kutup ayılarının nasıl "ayakları üzerinde eğilebileceğini" öğrenir

Microsoft XiaoIce'ın baş bilim adamı Song Ruihua'ya göre, son yıllarda Microsoft XiaoIce ekibi, büyük uluslararası konferanslarda 48 makale / makale yayınladı ve tam çift yönlü AI teknolojisi dahil olmak üzere 72 patent aldı.

XiaoIce şu anda 450 milyon üçüncü taraf akıllı cihazla donatılmıştır ve ortalama konuşma turu sayısı (CPS) 23'e ulaştı.

Song Ruihua, Xiaobing'in metafor ve çağrışımlardaki ilerlemesini ve Xiaobing'in hikayeleri insanlar gibi resimlere dönüştürmesini nasıl sağlayacağını paylaştı.

Xiaobing tarafından ilişkisel bağlantılar ve diğer yöntemlerle üretilen mecazi cümle

Ek olarak, XiaoIce'in hikayeleri bir kişi gibi resimlere dönüştürme yeteneği, mevcut popüler "modlar arası anlayış" teknolojisini içerir.

Örneğin, dil açısından, insanlar bir kutup ayısının foklarını avlayan bir paragrafını okuduğunda, ilgili sahne otomatik olarak zihinlerinde belirecektir.

Dahası, metin paragrafında kutup ayısının beyaz ve çevredeki buz ve karlı dünyanın beyaz olduğu belirtilmese de, insanlar bu eksik bilgiyi sağduyu yoluyla tamamlayabilir.

Song Ruihua, Zhishi'ye şu anda yapay zekanın hâlâ sağduyu alanında eksik olduğunu, çünkü insanların kendilerine alışık oldukları şeyleri kelimelerle yazmayacağını söyledi. Örneğin, insanlar özellikle "Bugün iki ayak üzerinde yürüyorum" demeyecek. AI sağduyusunu desteklemek için pek çok şey keşfedilebilir.

Aynı zamanda, insanlar bir kutup ayısının "uçtan uca" görünümünü görmemiş olabilirler, ancak kendi evlerinde kedi görünümünün yerini alabilirler. Xiaoice, insanlardan öğrenerek önceki deneyimi harekete geçirebilir, mevcut sahneyi simüle edebilir ve hikayeyi bir insan gibi bir resim olarak anlayabilir.

Xiaobing'in "Açlığını Doldurmak için Turta Boyama" hikayesine ilişkin imaj anlayışı

Song Ruihua, Zhishi'ye, önümüzdeki bir veya iki yıl içinde Microsoft Xiaoice'un çok modlu bir yönde gelişmeye devam edeceğini söyledi.Eğer Xiaoice'un gelecekte belirli bir görüntüsü varsa, bir kamera (gözlerle) ve bir mikrofon (kulaklı) olacak. Bu çok modlu AI teknolojisi, gelecekteki gelişimin odak noktası olacaktır.

2. Basit yanıttan bilgi artışına

Microsoft Xiaoice Şefi NLP Bilimcisi Wu Wei tarafından bugün paylaşılan konu "Kendi Kendini Tamamlayan Bir Sohbet Robotuna Doğru".

Wu Wei, "Kendi Kendini Tamamlama" nın takım içinde "yapılmış" bir kelime olduğunu söyledi, ancak Xiaoice'un son birkaç yıldaki başarılarını en iyi şekilde özetleyebilir.

Diyalog robotları için, "kendi kendini tamamlama" temel olarak aşağıdaki yetenekleri ifade eder:

1. Öğrenme yeteneğine sahip olma (birincil yetenek, insan diyaloğundan öğrenmeyi içerir; ileri yetenek, diğer diyalog robotlarından öğrenmeyi içerir)

2. Diyaloğu kendi kendine yönetme yeteneğine sahip (birincil yetenek, tek bir diyalog turunda neyi ifade etmeniz gerektiğini bilme becerisini içerir; gelişmiş yetenek, tüm diyalog sürecini kavrama becerisini içerir)

3. Bilgi bağlantı yeteneğine sahip olma (dünyadaki çoklu çok modlu bilgiyi birbirine bağlayabilme)

İnsan konuşmalarından öğrenmeyi bir örnek olarak ele alırsak, Xiaoiceun insanlarla yaptığı konuşmalar, Xiaoice ekibi tarafından oluşturulan Generation Models aracılığıyla basit yanıtlardan artımlı bilgiler içeren içeriğe kadar tek turdan çoklu tura ilerleyebilir.

Yukarıdaki resim aynı diyaloğa farklı yanıtlar veren üç farklı modeli göstermektedir.Bir insan "Cildim çok kuru" diyaloğu verdiğinde, SSA modeli "Ahhhhhh" yanıtını verir ve S2SA-MMI modeli verir Microsoft'un yanıtı "Ben de" ve Microsoft'un TA-Seq2Seq modelinin verdiği yanıt "Sonra nemlendir ve nemlendir" - "Nemlendir ve nemlendir" bariz bir bilgi artışıdır.

Wu Wei, araştırmanın kısa bir süre almasına rağmen çok hızlı geliştiğini söyledi.

Buna ek olarak, şu anda AI ses etkileşimi alanında tam çift yönlü çok yönlü diyalog gibi teknolojiler çok popüler.Son birkaç ayda Baidu, Ali, Xiaomi vb. İlgili yeni ürünleri art arda piyasaya sürdü.

Wu Wei, Zhishi'ye, Microsoft Xiaoice'un ilgili işlevleri çok erken başlattığını ve Xiaoice'un çok yönlü diyalog yeteneğinin yalnızca Xiaoice'un bağlamı daha doğru anlamasına ve daha doğru yanıtlar vermesine değil, daha da önemlisi Xiaoice'a izin verdiğini söyledi. Tüm diyalog akışını kontrol edecek ve interaktif diyalog rehberliği yapacak. Çünkü insan iletişim süreci basit bir soru-cevap modu değil, amaca yönelik ve duygusal bir iletişimdir.

3. AI şarkı söylemenin zorluğu: cappella verilerinin eksikliği

Microsoft Xiaobing'in baş ses bilimcisi Luan Jian, Microsoft Xiaobing'in AI şarkı söyleme konusundaki ilerlemesini paylaştı.

Luan Jian, Microsoft Xiaobing'in şarkı söyleme teknolojisinin üç nedeni olduğunu söyledi: 1. AI şarkı söylemenin, AI konuşmaya göre daha yüksek bir teknik eşiği vardır; 2. Şarkı söylemenin daha zengin ve daha yoğun duygusal ifadesi vardır; 3. Şarkı söylemek çok önemli bir eğlence yöntemidir .

Şarkı söylemenin üç unsuru telaffuz, ritim ve melodidir. Bu üç öğe makineye iki şekilde girilecektir, birincisi mevcut ses girdisi ve ikincisi puan girdisi yoluyla olacaktır.

Luan Jian, AI şarkıları için, cappella verisinin ciddi eksikliğinden dolayı, eğitim için büyük miktarda karışık eşlik parça verisinin kullanılması gerektiğini söyledi.

Bu zorluğa yanıt olarak, Microsoft XiaoIce ekibi, model + veri kombinasyonu yoluyla ses parçası algılama, fonem hizalama, perde yörüngesi çıkarma vb. Yoluyla şarkı söyleyebilen XiaoIce'i başarıyla oluşturabilir.

Ancak Luan Jian, Zhishi'ye şunları vurguladı: Microsoft Xiaoiceun konuşma sentezleme teknolojisi şu an için yalnızca şirketlere açık olacak, bireylere açık olmayacak, çünkü bu teknoloji yüksek bir kullanıcı gizliliği ve yapay zeka dolandırıcılığı riskine sahip.

4. Çevrimiçi perakende satış yapın, AI'yı eğitmek için Douyin Divine Comedy'yi kullanın

Bu paylaşım oturumu teknolojik ilerlemeye odaklanacak olsa da, Microsoft XiaoIce'in Ar-Ge uzmanları da Microsoft XiaoIce uygulamasında bazı ilerlemeleri paylaştılar.

Örneğin, çevrimiçi perakendede XiaoIce ekibi, Japonya ve Amerika Birleşik Devletleri'nde karşılık gelen teknolojileri zaten uygulamaya koydu.Az, birkaç basit soruyla kullanıcıların alışveriş ihtiyaçlarını hızla belirleyecektir.

Örneğin, bir kullanıcı bir mezuniyet hediyesi satın almayı teklif ettiğinde, AI, kullanıcının hediye alıcılarının ilgi alanlarını ve hobilerini 10 turdaki diyaloglar aracılığıyla art arda keşfedecek ve sonunda uygun bir hediye (kitaplar, kameralar, kahve vb.)

Wu Wei'ye göre, bu sistemdeki mevcut kullanıcı tıklamalarının önerilen dönüşüm oranı% 68'e kadar çıkmaktadır.

Song Ruihua, aynı zamanda müziğin, AI'nın müzik, metin ve resim yaratmasında çok büyük bir pazar olduğunu söyledi. Çünkü müzik için insan tüketim talebi büyük, ancak gerçekten şarkı yazabilen çok az insan var.

Luan Jian, Microsoft Xiaobing'in teknolojisinin yalnızca şirketlerin sanal şarkıcıları özelleştirmesine yardımcı olmakla kalmayıp, aynı zamanda kullanıcılara müzik araçları ve platformları sağlayarak kullanıcıların kendi şarkılarını daha rahat bir şekilde oluşturmalarına olanak tanıdığını söyledi.

AI kompozisyonunun optimizasyonunda Luan Jian bir kez daha veri + modelin çok önemli olduğunu vurguladı. Xiaoice bir yandan daha fazla veri arayacak ve daha fazla desen ve stil üretecek. Örneğin Xiaobing, daha iyi müzik üretmek için "Tik Ton Divine Comedy" deki mevcut popüler müzik tarzlarını araştırabilir.

Öte yandan, veriler yetersiz olduğunda, uzman modu kuralları çıkarmak için kullanılabilir ve kurallar ve algoritma modelleri daha organik olarak birleştirilebilir.

Patlamak! 36 yılın en kötü kaza: iki helikopter havada çarpıştı, 13 askerin tamamı öldü
önceki
Sık sık orduya müdahale eden Trump saldırıyor! Donanma Bakanı biraz memnun değildi ve hemen görevden alındı.
Sonraki
İlk Dünya 5G Konferansının açılışı: Xu Zhijun ve Lei Jun, yerinde kararlılık gösteriyor! Çin'in 870.0005G kullanıcısı var
Yardım ister istemez asker gönderin! Fransa Mali için neden bu kadar iyi? 58 nükleer santral için uranyum cevheri kaynakları
Garip adam ailesinin evini parçaladı ve 14. kattan bir meyve bıçağı fırlattı! Dava edildi
5nm Moore Yasasına nasıl devam ediyor? Devler, üç büyük katil sunan 2.0 süreç savaşını başlatıyor
"25 yaşındaki kız doğum gününde vasiyetname yaptı" üzerine yapılan ateşli arama hakkında ne düşünüyorsunuz?
İsrail tekrar F35'i artırdı ve Türkler yuttu: Açgözlü değilim! Rusya: Beşinci nesil makineyi geliştirmenize yardımcı olacağım
2019'da gelen turizm gelirinin 130 milyar ABD dolarını aşması bekleniyor
Sanayi ve Bilgi Teknolojileri Bakanlığı, dördüncü partiyi ve incelemeyi geçen bireysel şampiyonların ilk üretim partisini yayınladı. Dongtu Technology ve Pioneer Intelligence listeleniyor
055 ve 550 Güney Afrika'da buluşuyor! 10.000 tonluk eski kruvazör ve son teknoloji güdümlü füze fırkateyninin her birinin kendine özgü bir tarzı var
Capella, Sanya'da lüks oteller için savaşa giriyor Check in
Gece Okuması: Bugün özleyebileceğiniz haberler burada
Her zaman aidiyet duygusunu abartan markalar vardır ... Neden en çok rezonans yaratan Guangqi Honda? | 2019 Guangzhou Otomobil Fuarı
To Top