g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

OpenAI, AI "değişken şarkıcı" yaratır! 1,2 milyon şarkı eğitin ve Britney Elvis olun

Akıllı şeyler (genel hesap: zhidxcom) düzenlendi | Dong Wenshu

Wisdom News, 6 Mayıs, kar amacı gütmeyen yapay zeka araştırma kuruluşu OpenAI, sinir ağlarını kullanan bir "müzik kutusu" -Jukebox geliştirdi. İster rock, ister hip-hop veya caz olsun, Jukebox herhangi bir baskı olmadan ilgili müzik tarzını oluşturabilir.

Önceki müzik oluşturma araçlarıyla karşılaştırıldığında, Jukebox insan seslerini ve daha ince tını, yoğunluğu ve ifade edici özellikleri doğru bir şekilde yakalayabilir.Türe, sanatçıya ve şarkı sözlerine girdiğiniz sürece, yüksek düzeyde simüle edilmiş müzik veya şarkılardan oluşan uygun bir stil üretebilirsiniz.

Araştırma OpenAI resmi web sitesinde yayınlandı ve makalenin başlığı "Müzik Kutusu: Müzik için Üretken Bir Model".

GitHub kodu: https://github.com/openai/jukebox/

Kağıt bağlantısı: https://cdn.openai.com/papers/jukebox.pdf

1. Ses dizisi uzun ve modelleme çok zor

Otomatik olarak oluşturulan müziğin keşfi, yarım asırdan daha uzun bir süre öncesine kadar izlenebilir.

Tipik bir yöntem, müzik üretmek için piyano tuşlarını kullanarak sembolik olarak çalınacak her notanın enstrümanı, perdesi, süresi ve hızını belirleyerek Piyano Rulosu'dur.

Araştırmacılar, 1 dakikalık uzun Bach korosu, çok enstrümanlı polifonik müzik ve birkaç dakika uzunluğunda müzik eserleri üretmek için bu tür müzik üretme yöntemini kullandılar.

Bununla birlikte, tek bir notadan müzik üretmenin bu yönteminin sınırlamaları vardır ve insan sesini ve performansın etkisi için çok önemli olan daha ince tını, yoğunluğu ve ifade edici özellikleri yakalayamaz.

Diğer bir yöntem, müziği doğrudan orijinal sese modellemektir. Müzik notalarını modellemeye kıyasla, ses seviyesinde müzik üretmek daha zordur.

Bunun nedeni, ses seviyesinde müziğin daha uzun bir sekansa sahip olmasıdır. Örneğin, tipik bir 4 dakikalık CD kalitesinde (44 kHz, 16 bit) müziğin 10 milyondan fazla zaman adımı (zaman adımı) vardır.

10 milyon kavramı nedir? 1,5 milyara kadar OpenAI parametrelerine sahip genel bir dil modeli olan GPT-2'nin yalnızca 1.000 zaman adımı olduğunu ve insan Dota 2 oyuncularını tamamen kötüye kullanan OpenAI Five'ın oyun başına yalnızca on binlerce zaman adımı harcadığını bilmelisiniz.

Bu nedenle, müziğin üst düzey anlambilimini öğrenmek için, modelin daha uzun süreli, daha çeşitli yapı ve daha çeşitli tını ile ses üretmek için uzun menzilli bağımlılık getirmesi gerekir.

Uzun girdi problemini çözmenin bir yolu, algısal olarak ilgisiz bazı bilgi bitlerini atarak orijinal sesi daha düşük boyutlu bir alana sıkıştırmak için bir otomatik kodlayıcı kullanmak ve ardından modeli bu sıkıştırılmış alanda ses üretecek şekilde eğitmektir. Up-sampling nihayet orijinal ses alanına geri döner ve sonunda beklenen stile benzer müzik üretir.

2. 1,2 milyon şarkıyla antrenman yapın! Britney ve Celine Dion ile pop müzik öğrenin

Araştırmacılar, orijinal sesi sıkıştırmak için hiyerarşik VQ-VAE mimarisini (hiyerarşik VQ-VAE mimarisi) seçerler, ardından müziği tahmin etmek için bir otoregresif seyrek Transformer kullanır ve her seviyede kaybolan bilgileri yeniden üretmek için bir otoregresif yukarı örnekleme algoritması eğitir. .

1. Orijinal sesi sıkıştırın

Önceki araştırmalar, hiyerarşik VQ-VAE modelinin yüksek kaliteli görüntüler oluşturabildiğini kanıtladı. OpenAI araştırmacıları, bu modelin orijinal sesi ayrı kodlara sıkıştırmak için kullanılabileceğine inanıyor.

Araştırmacılar orijinal sesi 3 farklı soyutlama seviyesinden modelledi.Her VQ-VAE seviyesi bağımsız olarak kodlandı. En alttaki kod en yüksek kalitede yeniden yapılandırmayı üretti ve üst kod yalnızca temel müzik bilgilerini korudu. Her katmanda, farklı atlama uzunluklarını eşleştirmek için aşağı örnekleme ve yukarı örnekleme 1-D evrişimi serpiştirmek için WaveNet tarzı nedensel olmayan 1-D genişleme evrişiminden oluşan bir artık ağ kullanılır.

Üç seviye, 44kHz'lik orijinal sesi 8x, 32x ve 128x'e göre sıkıştırır ve her seviyenin kod kitabı boyutu 2048'dir.

Bu altörnekleme yöntemiyle üretilen ses, ayrıntıların çoğunu kaybeder ve ses seviyesi daha da azaltıldığında gözle görülür bir gürültü ortaya çıkar. Ancak perde, ton ve ses seviyesi hakkındaki temel bilgileri tutar.

2. Müzik kodu oluşturun

Daha sonra, araştırmacılar, modeli VQ-VAE modeli tarafından kodlanan müzik kodlarının dağıtımını öğrenmesini sağlamak için modeli eğitmek ve modelin bu ayrı alanda müzik üretmesini sağlamak için basitleştirilmiş bir otoregresif seyrek Transformer kullandılar.

Benzer şekilde, araştırmacılar da üç seviyeden modellediler: en çok sıkıştırılmış kodları oluşturabilen bir üst düzey önceki model; daha az sıkıştırılmış kod üretmek için önceki iki yukarı örnekleme modeli.

En üst düzey önceki model, müziğin uzun menzilli yapısını simüle eder Bu düzeyden kodu çözülen örneklerin ses kalitesi düşüktür, ancak şarkı söyleme ve melodi gibi üst düzey anlambilimlerini yakalayabilir.

Orta ve alt katmanlardaki yukarı örnekleme modelleri, tını gibi özellikleri simüle edebilir ve ses kalitesini önemli ölçüde artırabilir.

Tüm önceki modeller eğitildikten sonra, araştırmacılar önceki üst düzey modelden kod üretebilir, kodu yukarı örneklemek için önceki modeli kullanabilir ve ardından kodu orijinal sese dönüştürmek için VQ-VAE kod çözücüyü kullanabilir.

3. 1,2 milyon şarkıyla antrenman yapın

Model oluşturulduktan sonra, araştırmacılar onu eğitmek için İnternetten 1,2 milyon şarkı topladılar (yarısı İngilizce şarkılardı) ve eğitim etkisini iyileştirmek için şarkı sözü ansiklopedisi LyricWiki'den şarkı sözleri ve meta verileri tanıttılar.

Meta veriler sanatçı, albüm stili, şarkı yılı, her şarkının ifade ettiği ortak duyguları ve çalma listesi anahtar kelimelerini içerir. Araştırmacılar eğitim için 32-bit, 44.1kHz ham ses kullandılar. Orijinal sese ek olarak, araştırmacılar ayrıca mono ses üretmek için sol ve sağ kanalları rastgele karıştırarak eğitim etkisini geliştirdiler.

Oluşturulan müziği daha iyi hale getirmek için araştırmacılar, üretilen şarkının şarkıcı ve sanatsal tarzını belirlediler. Eğitim sonuçları, modelin benzer stillere sahip sanatçıları veya türleri denetimsiz bir şekilde tek bir kategoride sınıflandırabileceğini göstermektedir.

Model 1,2 milyon şarkıyı ve müzisyeni reggae müziği, country müziği, film müzikleri, klasik müzik, POP, caz, blues müziği, soul müziği, rock müziği, Hip-Hop ve RB olarak sınıflandırıyor.

Sözleri sesle eşleştirmek için araştırmacılar basit bir şema tasarladılar: eğitim sırasında her karakter için sabit bir çalma süresi penceresi ayarlayın ve müzik devam ederken şarkı sözü karakterleri kronolojik sırayla çalınır.

Eğitim sonuçları, bu programla, daha hızlı konuşan Hip-Hop müziği dışında, sözlerin çoğunun sesle eşleştirilebileceğini göstermektedir.

Bu sorunu çözmek için araştırmacılar, her şarkıdan vokalleri çıkarmak için ses parçası ayırma yazılımı Spleeter'ı kullandılar ve daha sonra, doğru şarkı sözü eşleştirmesi elde etmek için çıkarılan vokalleri kelime düzeyinde eşleştirmek için otomatik şarkı sözü hizalama aracı NUS AutoLyricsAlign'i kullandılar. etki.

Modelin şarkı sözleriyle eşleştirilmesi

3. Sınırlamalar: Koro müziği oluşturulamıyor

Jukebox çeşitli türlerde ve sanatsal tarzlarda müzik üretebilmesine ve otomatik olarak oluşturulan sesin ses kalitesini, tutarlılığını ve uzunluğunu iyileştirebilmesine rağmen, bazı sınırlamaları vardır.

Her şeyden önce, Jukebox tarafından üretilen müzik ile insanlar tarafından yaratılan müzik arasında hala büyük bir boşluk var. Örneğin, Jukebox çok iyi solo müzik üretebilmesine rağmen, şu anda koro ve diğer daha karmaşık müzikleri üretemiyor.

Araştırmacılar, hiyerarşik VQ-VAE modelini daha fazla müzik bilgisi yakalayabilecek şekilde geliştirmenin bu kusuru iyileştirebileceğini söylüyor.

İkincisi, Jukebox'un örnekleme hızı da çok yavaştır 1 dakikalık müziğin işlenmesi yaklaşık 9 saat sürer, bu nedenle Jukebox etkileşimli uygulamalar için kullanılamaz.

Makale, modelin paralel bir örnekleyiciye çıkarılmasının örnekleme hızını artırabileceğine işaret etmektedir.

Ek olarak, mevcut model eğitim için ağırlıklı olarak İngilizce şarkı sözleri ve Batı müziği kullanıyor ve henüz daha fazla dilde şarkılar üretmedi.

Araştırmacılar, Jukebox modelinin doğrudan müzik oluşturmak için kullanılamasa da, gelecekte Jukebox'ın müzisyenlerin yaratım sürecinde yardım sağlayabileceğine inanıyor.

Makale ayrıca, OpenAI ekibinin 10 müzisyenle iletişim kurduğuna ve ikincisinin araştırmacılara geri bildirim sağlayacağını umduğuna dikkat çekti.

Sonuç: veya müzik oluşturma sürecini basitleştirmek için kullanılabilir

Önceki müzik oluşturma modeliyle karşılaştırıldığında, OpenAI ekibi tarafından geliştirilen Jukebox modeli büyük ilerleme kaydetmiştir.Otomatik olarak yüksek düzeyde simüle edilmiş insan şarkı sesi üretebilir ve oluşturulan içerik çeşitli müzik türlerini kapsar.

Gelecekte, Jukebox müzik yaratma sürecini basitleştirmek ve daha fazla insanın müzik hayallerini gerçekleştirmesine yardımcı olmak için kullanılabilir. Gazete şöyle diyor: "Müzik hayalleri olan pek çok kişi profesyonel eğitim alma fırsatına sahip değil, bu yüzden onun (Jukebox) insan müzisyenler için önemli bir araç olacağını düşünüyoruz."

Makale kaynağı: OpenAI

Okuduğunuz için teşekkürler. Gemide takip etmek ve sizi teknolojide ön plana çıkarmak için tıklayın ~

Uçak gemisinde vazgeçilmez bir araba, maliyeti en iyi süper otomobille karşılaştırılabilir, Hindistan bunun yerine bir traktör kullanıyor

"İlk hemşire" nin "ilk savaş muhabiri" ile tanıştığı Uluslararası Hemşireler Günü