Yazar: François Charton, Guillaume Lample
Çeviri: Feng Yu
Düzeltme: Wu Jindi
Bu makale hakkında 2650 kelime , Okumanız tavsiye edilir 10 dakika
Bu makale, daha geniş bir uygulama yelpazesinde derin öğrenmenin potansiyelini gösteren derin öğrenmede nöral makine çevirisi (NMT) teknolojisini kullanarak denklem problemlerini çözmek için bir yöntem ve sistem sunar.
Etiket: Neural Network
Facebook AI, sembolik akıl yürütmeyi kullanarak gelişmiş matematiksel denklemleri çözebilen ilk AI sistemini kurdu. Karmaşık matematiksel ifadeleri bir dil olarak ifade etmek için yeni bir yöntem geliştirerek ve ardından çözümü sıralı bir sinir ağı çeviri problemi olarak ele alarak, entegrasyon problemi ve birinci ve ikinci dereceden diferansiyel denklemler için bir çözüm geliştirdik. Tüm yönler geleneksel bilgi işlem sistemlerinden daha iyidir.
Daha önce, bu tür problemler derin öğrenme modelleri tarafından ulaşılamaz olarak görülüyordu, çünkü karmaşık denklemleri çözmek, tahminlerden çok kesinlik gerektirir. Sinir ağları, belirli bir piksel örüntüsünün muhtemelen bir köpeğin resmi olduğunu veya bir dildeki bir cümle özelliğinin başka bir dildeki bir cümle özelliğiyle eşleştiğini fark etmek gibi, tahmin yoluyla başarıya ulaşmada iyidir. Karmaşık denklemleri çözmek, b-4ac = 7 denklemindeki harfler gibi sembolik verileri kullanma becerisini de gerektirir. Bu tür değişkenler doğrudan eklenemez, çarpılamaz veya bölünemez.Sadece geleneksel örüntü eşleştirme veya istatistiksel analiz kullanılarak, sinir ağları son derece basit matematik problemleriyle sınırlıdır.
Çözümümüz, karmaşık denklemleri dilde cümleler olarak ele alan yepyeni bir yöntemdir. Bu, Nöral Makine Çevirisi'nde (NMT) etkili olduğu kanıtlanmış teknolojileri, eğitim modelleriyle sorunları özünde çözüme dönüştürmek için tam olarak kullanmamızı sağlar. Bu yöntemi uygulamak için, mevcut matematiksel ifadeleri benzer dil gramerlerine ayrıştırmak ve 100 milyondan fazla eşleştirilmiş denklem ve çözümden oluşan geniş ölçekli bir eğitim veri kümesi oluşturmak için bir yöntem geliştirmek gerekir.
Binlerce bilinmeyen ifade göründüğünde (bu denklemler eğitim verilerinin bir parçası değildir), modelimiz Maple, Mathematica ve Matlab gibi geleneksel cebir tabanlı denklem çözme yazılımlarından daha hızlı ve daha yüksek doğruluk gösterir. . Bu çalışma sadece derin öğrenmenin sembolik akıl yürütme için kullanılabileceğini göstermekle kalmıyor, aynı zamanda sinir ağlarının örüntü tanıma ile ilgili olmayanlar da dahil olmak üzere çeşitli görevleri çözme potansiyeline sahip olduğunu gösteriyor. Benzer eğitim setleri oluşturmak için yöntemimizi ve yöntemin ayrıntılarını paylaşacağız.
Sembolik matematikte iyi olan insanlar genellikle bir sezgiye güvenirler. Entegre fonksiyonda bir kosinüs olup olmadığını gözlemlemek gibi belirli bir problemin çözümünün ne olması gerektiğine dair bir algıya sahipler, yani integralinin bir sinüsü olabilir ve sonra bu sezgiyi kanıtlamak için gerekli işi yapıyorlar. Bu, cebir için gerekli olan doğrudan hesaplamalardan farklıdır. Sembolik denklemlerdeki kalıpları tespit etmek için modelleri eğiterek, sinir ağlarının, karmaşık problemler için insan sezgisine dayalı yöntemlere kabaca benzer şekilde, çözümlerine götüren ipuçlarını bir araya getirebileceğine inanıyoruz. Bu nedenle, sembolik akıl yürütmeyi bir NMT problemi olarak keşfetmeye başladık, burada model problem örneklerine ve bunların eşleşen çözümlerine dayanarak olası çözümleri tahmin edebilir.
Örnek olarak, yöntemimiz soldaki mevcut denklemin bir çeviri modeline girdi olarak kullanılabilecek bir ifade ağacına nasıl genişletileceğini gösterecektir. Bu denklem için, modele ön sıra girişi: (toplama, çarpma, 3, güç, x, 2, çıkarma, kosinüs, çarpma, 2, x, 1)
Bu uygulamayı sinir ağlarını kullanarak uygulamak için, matematiksel ifadeleri temsil etmenin yeni bir yoluna ihtiyacımız var. NMT sistemleri genellikle, kelime dizilerini yeni diziler olarak girdi ve çıktı olarak kullanan, tek tek sözcükler yerine tam cümleleri çevirmelerine izin veren diziden diziye (seq2seq) modellerdir. Bu yöntemi sembolik denklemlere uygulamak için iki aşamalı bir yöntem kullandık. İlk olarak, bir ağaç yapısının dallarında ayrıştırılmış denklemleri düzenleyerek, denklemleri etkili bir şekilde ayrıştırmak için bir süreç geliştirdik ve bu ağaç yapısı daha sonra seq2seq modeliyle uyumlu bir diziye genişletildi. Sabitler ve değişkenler yapraklar gibi davranırken, operatörler (artı ve eksi gibi) ve işlevler, ağacın dallarını birbirine bağlayan dahili düğümlerdir.
Geleneksel bir dil gibi görünmese de, ifadeleri bu şekilde düzenlemek, sayıların ve değişkenlerin isim olduğu ve operatörlerin fiil olarak davrandığı denklemler için dile benzer bir gramer sağlar. Yöntemimiz, NMT modelinin, bir dil cümlesini onaylanmış bir çeviriyle eşleştirmeye benzer şekilde, belirli bir ağaç yapısı probleminin çözümünü eşleşen denklemle (ağaç olarak da belirtilir) hizalamayı öğrenmesine izin verir. Bu yöntem, kelime dizilerini sembol dizileriyle değiştirmek için kullanıma hazır güçlü seq2seq NMT modelini kullanmamızı sağlar.
İfade ağacı gramerimiz, NMT modelinin karmaşık matematik problemlerini denklem çözümlerine etkili bir şekilde dönüştürmesini teorik olarak mümkün kılıyorsa da, böyle bir modeli eğitmek için çok sayıda örnek gerekecektir. Dahası, ilgilendiğimiz iki tür problem nedeniyle (integral ve diferansiyel denklemler), rastgele üretilen problemlerin her zaman çözümü yoktur, bu nedenle denklemleri toplayıp sisteme giremeyiz. Model tarafından okunabilir bir ifade ağacına dönüştürülen çözülmüş denklem örneklerini içeren yepyeni bir eğitim seti oluşturmamız gerekiyor. Bu, çeşitli diller arasında çevrilen bir cümle topluluğuna benzer iki demet denklem ve çözüm üretir. Koleksiyonumuz, binlerce örnek üzerinde sistem yetiştirmeye çalışan bu alanda daha önceki çalışmalarda kullanılan eğitim verilerinden de çok daha büyük olmalıdır. Sinir ağları yalnızca daha fazla eğitim verisine sahip olduklarında daha iyi performans gösterdiğinden, milyonlarca örnekten oluşan bir koleksiyon oluşturduk.
Bu veri setinin oluşturulması, bir dizi veri temizleme ve üretim teknolojisini entegre etmemizi gerektirir. Örneğin, sembolik integral denklemimiz için, çeviri yöntemini tersine çevirdik: problemler üretmek ve çözümlerini bulmak yerine, çözümler üretmek ve problemlerini (türevlerini) bulmak çok daha kolay bir iştir. Çözümlerden problem üretmenin bu yöntemi (bazen mühendisler tarafından tuzak kapısı problemleri olarak adlandırılır), milyonlarca bütünleyici örnek oluşturmayı mümkün kılar. Çeviriden esinlenen veri setimiz, entegrasyon probleminin bir alt kümesini ve birinci ve ikinci dereceden diferansiyel denklemleri içeren yaklaşık 100 milyon eşleştirilmiş örnek içerir.
Bu veri setini, 8 dikkat kafası ve 6 katmanlı bir seq2seq transformatör modeli eğitmek için kullanıyoruz. Transformatörler genellikle çeviri görevleri için kullanılır ve ağımız, belirli bir fonksiyonun belirsiz integralini belirlemek gibi çeşitli denklemlerin çözümlerini tahmin etmeyi amaçlar. Modelin performansını değerlendirmek için, sistemin eğitimde görünmeyen denklem modellerini tanımasını sağlamak için modele 5000 bilinmeyen ifade sağladık. Modelimiz integral problemini çözerken% 99,7 doğruluk göstermektedir Birinci ve ikinci mertebeden diferansiyel denklemler için doğrulukları sırasıyla% 94 ve% 81,2'dir. Bu sonuçlar, test ettiğimiz üç geleneksel denklem çözücünün tümünün sonuçlarını aşıyor. Mathematica, aynı entegrasyon probleminde% 84 doğrulukla ve diferansiyel denklem sonuçları için% 77.2 ve% 61.6 doğrulukla alt optimal sonuçlar elde etti. Modelimiz çoğu tahmini 0,5 saniyeden daha kısa sürede döndürebilirken, diğer sistemlerin bir çözüm bulması birkaç dakika sürebilir ve hatta bazen tamamen zaman aşımına uğrar.
Modelimiz soldaki denklemi (Mathematica'nın veya Matlab'ın çözemediği bir denklem) girdi olarak alır ve doğru çözümü bir saniyeden daha kısa sürede bulabilir (yukarıdaki şekilde gösterildiği gibi).
Üretilen çözümün referans çözümle karşılaştırılması, sonuçları kolay ve doğru bir şekilde doğrulamamıza olanak tanır. Ancak modelimiz, belirli bir denklem için birden çok çözüm üretir. Bu, makine çevirisinde olana benzer .. Makine çevirisinde, girdi cümlesini çevirmenin birçok yolu vardır.
Şu anda modelimiz tek değişkenli problemler için uygundur ve bunu çok değişkenli denklemlere genişletmeyi planlıyoruz. Bu yöntem, fizik alanı gibi matematiğe ve mantığa dayalı diğer alanlara da uygulanabilir, böylece bilim adamlarının çok çeşitli görevleri yerine getirmelerine yardımcı olabilecek yazılımlar geliştirmek mümkündür.
Ancak sistemimiz, sinir ağlarının araştırılması ve kullanılması için daha geniş bir öneme sahiptir. Daha önce mümkün olmadığı düşünülen derin öğrenmeyi kullanmanın bir yolunu keşfederek, bu çalışma diğer görevlerin yapay zekadan yararlanabileceğini gösteriyor. NLP teknolojisinin geleneksel olarak dil ile ilgisi olmayan alanlara daha fazla uygulanması veya yeni veya görünüşte ilgisiz görevlerde örüntü tanımanın daha açık bir şekilde keşfedilmesi yoluyla olsun, sinir ağlarının sınırlamaları hayal gücünün sınırlamalarından gelebilir. , Teknoloji değil.
Yazar
François Sardon, Facebook AI konuk girişimcisi
Guillaume Lampel, Facebook Yapay Zeka Araştırma Bilimcisi
Orjinal başlık:
Gelişmiş matematik denklemlerini çözmek için sinir ağlarını kullanma
Orijinal bağlantı:
https://ai.facebook.com/blog/using-neural-networks-to-solve-advanced-mathematics-equations/
Editör: Yu Tengkai
Redaksiyon: Lin Yilin
Çevirmen Profili
Feng Yu , algoritma mühendisi. Kişisel veya kurumsal kredi riski değerlendirme algoritmaları, piyasa riski değerlendirme algoritmaları, simülasyon optimizasyon algoritmaları vb. Tasarlamaktan sorumludur. Veriler gönüllüler gönderir.
-Bitiş-
Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " AI Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.