Tam metin 1850 Kelimeler, tahmini öğrenme süresi 6 dakika
Kaynak: weibo
Bir iOS kullanıcısı olarak, Siri ile günde kaç kez konuşuyorsunuz? Çoğu zaman, değil mi?
Yapay zeka ve derin öğrenme daha yerleşik hale geliyor ve sanal kişisel asistanlar geliştirmek için giderek daha fazla kullanılıyor.
Bugün, Siri'nin sesini iyileştirmek için bunları nasıl kullanacağımıza bir göz atacağız.
Keskin bir gözlemciyseniz, Siri'nin sesinin iOS 11 sisteminden bu yana daha insan gibi çıktığını göreceksiniz. Bunun nedeni, Apple'ın kullanıcılara en iyi kişisel asistan deneyimini sağlamak için yapay zeka, makine öğrenimi ve derin öğrenme teknolojilerine daha derin bir şekilde girmesidir.
Siri'nin iPhone 4S'de piyasaya sürülmesinden ve iOS11'e devam etmesinden bu yana, bu kişisel asistan insanlara daha yakın bir şekilde gelişti ve insanlarla iyi bir ilişki kurdu. Siri, kullanıcıların sesli komutlarına yanıt vermek için konuşma sentezi ve derin öğrenmenin bir kombinasyonunu kullanır.
Kaynak: baike
Konuşma sentezi, temelde insan konuşmasının yapay sentezidir. Bu teknoloji, sanal kişisel asistanlar, oyunlar ve eğlence dahil birçok alanda mükemmeldir. Birim seçimi ve parametre sentezinin temel modelinde bir miktar ilerleme kaydedildikten sonra, derin öğrenme giderek daha derinleşmiştir.
Bu teknoloji, konuşma sentezine entegre edilerek doğrudan dalga formu modellemesi adı verilen yeni bir model ortaya çıkar. Bu model ile artık yüksek kaliteli birim seçimi sentezini işlemek mümkündür ve esnekliği artırmak için parametre sentezinin kullanılmasına yardımcı olur.
Apple, Siri'ye en yüksek kalitede ses çıkışı sağlamak için hibrit birim seçim sisteminin derin öğrenme yeteneklerini kullanır.
TTS sisteminin çalışma prensibi, olası durumlarda insan seslerini kaydetmek, konuşma birimlerini bölmek ve makine öğrenimini kullanmaktır.
Olası koşullar altında insan seslerini kaydedin
Sanal kişisel asistanlar için bir metinden sese dönüştürme sistemi oluşturmanın birincil görevi, insan seslerini kaydetmektir. Bu ses sadece kulağa hoş gelmemeli, aynı zamanda herkes tarafından net bir şekilde duyulmalıdır.
Her türlü insan konuşmasını kapsayabilmek için profesyonel bir stüdyoda yaklaşık 20 saat konuşma kaydetmek gerekir. Bu, anlatı talimatları, sözlü hava durumu tahminleri, şakalar anlatmak vb. Dahil hemen hemen tüm yanıt türlerini içerir. Ses kliplerini kullanmak imkansızdır çünkü kullanıcıların kişisel asistanlara sorabilecekleri soru türlerinde herhangi bir kısıtlama yoktur. Ardından, kaydedilen bu yanıtları işleyin ve sanal asistana bunları bildirin.
Fonetik birimin çatallanması
İnsan tarafından kaydedilen konuşma birkaç bölüme ayrılır ve ardından mükemmel bir yanıt oluşturmak için alınan metne göre birbirine bağlanır. Belirli bir cihazın ses birimini optimize etmek veya bir dizi cihazla uyumlu hale getirmek, her telefonun akustik özelliklerini ve ses prozodisini analiz etmeyi gerektirir.
Makine öğreniminin kullanımı
Kulağa başka bir süreç gibi gelse de, geliştiricilerin vurgu ve tonlama (aruz) içeren bir modüle tam olarak hakim olmaları oldukça zor ve zordur. Ek olarak, cep telefonları için böyle bir dize formatının kullanımı çok karmaşıktır.
Makine öğreniminin tanıtılmasıyla bu zorluklar bir dereceye kadar çözüldü. Metin okuma sistemi, eğitim için veri toplayarak bu modeli anlayabilir ve insanlara benzer doğal çıktı sağlamak için farklı ses öğelerinin nasıl bölüneceğini anlayabilir.
Apple'ın mühendisleri Siri'nin ses işlevini büyük ölçüde iyileştirmeye karar verdiklerinde, 20 saatlik sesi Amerikan İngilizcesinde kaydetmek için bir kadın seslendirme sanatçısı ile çalıştılar. Bu 1-2 milyon ses klibi, derin öğrenme sistemini eğitmek için kullanılır.
Ardından mühendisler, deneklerden Siri'nin önceki ve yeni seslerinden seçim yapmalarını isteyerek çıktıyı test ettiler. Çoğu yeni, doğal, insan benzeri Siri sesini tercih ediyor. Siri önemsiz soruları yanıtladığında, "istek tamamlandı" bildirimini onayladığında ve diğer navigasyon talimatlarını verdiğinde, sesin bir robottan doğal bir sese dönüştüğünü fark ettiler.
Aşağıdaki resim, AB öznel dinleme testinin sonuçlarını göstermektedir:
Ayrıca, denek, bu sesin Siri'nin "kişiliği" ile tamamen tutarlı olduğuna inanıyor. iOS uygulama geliştirme hizmeti sağlayıcıları, daha yenilikçi uygulamalar geliştirmek için aynı teknolojiyi nasıl kullanabileceklerini anlamak için bu teknolojiyi inceliyor.
iPhone 8, iOS 11 ve Siri'nin yeni sesiyle donatılmış ilk Apple cep telefonu. Aynı zamanda piyasaya sürülen iPad ayrıca yeni bir kişisel sesli asistan ile donatılacak. Apple, yeni olasılıkları keşfetmek için teknik deneyleri asla durdurmadı. Siri'nin ses işlevinin iyileştirilmesiyle Apple, son kullanıcıların tepkisini anlamak için şu anda gözlem aşamasındadır.
Pratiklik açısından yapay zeka ve derin öğrenme, sanal kişisel asistanlarda ve diğer uygulamalarda temellerini pekiştiriyor. İnsanların olumlu tepkisi nedeniyle bu teknolojilerin geleceği oldukça parlak görünüyor.
Gelecekteki günü dört gözle beklerken, Siri sizinle insan duyguları içeren bir sesle konuşabilecek.
Yorum Beğen Takip Et
Yapay zeka öğrenme ve geliştirmenin kuru mallarını paylaşalım
Yeniden yazdırıyorsanız, lütfen arka planda bir mesaj bırakın ve yeniden yazdırma şartnamelerine uyun