SQuAD2.0 burada! 50.000 manuel soru ekleyin ve yanıt olmayabilir

İçbükey tapınaktan Yunzhong

Qubit Raporu | Genel Hesap QbitAI

SQuAD 2.0 burada!

Bugün (13 Haziran), Stanford NLP ekibi, makine okuduğunu anlama veri seti SQuAD'in (Stanford Soru Cevaplama Veri Seti) SQuAD 1.1'den SQuAD 2.0'a yinelenecek yeni bir güncelleme dalgasını tamamladığını duyurdu.

Değişiklikler hala çok açık.

SQuAD 2.0

Stanford NLP resmi olarak, SQuAD 1.1'deki 100.000 soru ve yanıtla karşılaştırıldığında, SQuAD 2.0'ın 50.000 insan tarafından yazılmış soru daha eklediğini ve soruların karşılık gelen yanıtları olmayabileceğini söyledi.

Bu nedenle, SQuAD 2.0 test sisteminin eşzamanlı yinelemesi, makinenin yalnızca ilgili paragraftaki sorunun cevabını bulmasını gerektirmez, aynı zamanda makinenin tahmin yerine karşılık gelen cevap olmadığında Hayır diyebileceğini test eder.

Bunun, makinenin doğru cevap vermedeki zorluğunu daha da artırdığı düşünülmektedir.

Şu anda, insan performansı EM-doğru eşleştirme sonucudur: 86.831 puan, F1-bulanık eşleştirme: 89.452 puan.

2016 yılında SQuAD piyasaya sürüldüğünde, Stanford Üniversitesi Wikipedia'dan rastgele 500'den fazla makale seçti ve bunları 20.000'den fazla paragrafa böldü. Daha sonra kitle kaynak yöntemlerini kullanarak, insanlar bu makaleleri okuduktan sonra, her paragraf için beş soru sorulur ve paragraflardaki cevaplar manuel olarak etiketlenir.

Son olarak, 100.000'den fazla soru içeren okuduğunu anlama veri seti SQuAD'i oluşturur.

Ancak tartışma da gizlidir ve bu yılki "makine okuduğunu anlama yeteneği insanları yener" olayında tamamen tartışılmıştı.

SQuAD Fengyun

SQuAD veri setinde EM ve F1 olmak üzere iki ölçüm vardır.

EM tam bir eşleşme sonucudur, yani modelin verdiği cevap standart cevapla tamamen aynıdır.

F1, model tarafından verilen cevap ile standart cevap arasındaki çakışma derecesine göre hesaplanan, makine tarafından doğru cevabın bir parçası olarak anlaşılabilecek bulanık eşleştirmedir.

SQuAD sıralama yarışmasına dayalı olarak EM ve F1 sonuçlarını da inceler.

Geçtiğimiz yıl, çoğu zaman HKUST iFlytek ekibi ile Microsoft'un farklı ekipleri arasındaki rekabet yaşandı. Temmuz'da Microsoft zirveye ulaştı Ağustos'ta iFLYTEK ilk kez şampiyon oldu, Eylül ve Ekim'de temelde Microsoft'un dünyası oldu, Kasım ayında iFLYTEK yine en iyi sonuçlarını aldı.

Sonra durum birdenbire değişti. İlk olarak, Tencent Aralık sonunda aniden listeye girdi ve hakim olmayı başardı. Ancak, "iyi zamanlar uzun değil", Microsoft Asya Araştırma Enstitüsü ve Alibaba iDST ekibi bu yılın başlarında birlikte çalışarak bir kez daha tarihteki en iyi sonuçları belirlediler ve ilk kez "insanları geride bıraktılar" - ikisi de EM performansında "insan performansını" yendi .

Bu yüzden bir ses vardı: Okuduğunu anlama konusunda insanlar makineler tarafından aşıldı.

Ancak hemen çürütüldü.

Bir yandan akademik çevrelerdeki bazı kişiler, bu ifadenin çok abartılı ve katı olmadığını belirtti.

Öte yandan, bazı insanlar parmaklarını SQuAD veri setinin sınırlamasına işaret ediyor.

İsrail'deki Bar Ilan Üniversitesi'nde tanınmış bir NLP araştırmacısı olan Yoav Goldberg, SQuAD1.1'in üç ana eksikliğini listeleyen bir PPT yazdı:

  • Açıklığa göre cevaplanabilecek sorularla sınırlıdır;
  • Verilen paragrafta cevabı bulmanız gerekiyor;
  • Cevap paragrafta garantilidir.

Tesadüfen, DeepMind ayrıca bu konuları tartışmak için NarrativeQA adlı bir makale yayınladı.

SQuAD sorusunun cevabının belirli bir paragrafın içeriği olması gerektiğine, bunun, okuduğunu anlamayı değerlendirmek için kullanılması gereken ve hiç sorulamayacak birçok mantıklı soruya yol açtığına inanıyorlar.

Aynı zamanda bu basit cevap, belge yüzeyindeki sinyalden çıkarılabilir.Metindeki cümle ile cevaplanamayan veya metinde birkaç ayrı cümle ile cevaplanması gereken sorular için SQuAD tarafından eğitilen model genelleştirilemez.

Ek olarak, SQuAD'in birçok sorunu olmasına rağmen, pratik makaleleri az ve kısadır, bu da tüm veri setindeki kelime dağarcığı ve konuların çeşitliliğini sınırlar.

Bu nedenle, SQuAD'de iyi performans gösteren model daha karmaşık problemler için kullanılırsa, ölçeklenebilirlik ve uygulanabilirlik sorunludur.

DeepMindın makalesi, SQuAD dahil birçok okuduğunu anlama veri kümesinin " Okuduğunu anlama için gerekli olan kapsamlı yönleri test edemez ".

Bu nedenle, SQuAD 2.0 güncellemesi yukarıdaki sorulara bir dereceye kadar cevap olarak kabul edilebilir.

Son sıralama: Maymun Rehberlik Ekip Lideri Çin Ordusu

Elbette, bir AI veri seti yarışmasının olduğu her yerde, listeyi sürekli olarak yenileyen bir Çin ordusu her zaman olacaktır.

Daha önce SQuAD'da, Çin delegasyonunun sık ziyaretçileri iFlytek ve Microsoft Research Asia idi, ancak geçen yıldan beri Ali Dharma Akademisi bünyesindeki iDST ve Tencent de ordunun üyesi ve hatta birkaç kez bir numaralı oyuncu oldu.

Bununla birlikte, SQuAD 1.1'in son listesinde, Çin Ordusu'nun lideri olmak sizi YUANFUDAO'yu yabancılaştırabilir.

Doğru, çevrimiçi eğitime odaklanan maymun eğitmeni.

EM83.520 ve F189.612 sonuçlarına göre Yuanweidao şu anda Google Brain CMU ekibinin gerisinde kalıyor ve dünyada ikinci sırada yer alıyor.

Bununla birlikte, Yuandao, SQuAD'ın yeni yüzü olmasına rağmen, otoritesini çoktan bir başka tanınmış makine okuma yarışması MSMARCO'da ortaya çıkardı.

27 Mart'taki son sıralamada Yuanfudao, MSMARCO tarafından dünyada ilk sırada yer aldı.

Ve puanlar insan seviyesini aştı.O zamanlar maymun eğitim ekibinin iki test puanı 49.72 ve 48.02 idi. İnsan ölçütü 47 ve 46'dır.

Bu nedenle, Yuanjiao'nun SQuAD 1.1 küresel oyuncularının ön saflarında yer alması özellikle şaşırtıcı değildir.

Çin Ordusu'nun en son SQuAD 1.1 listesinde gerçekten süper güçlü olduğu söylenebilir.Çin ekipleri her yerde ilk on sıralamada görülebilir.

Bunun adı: harika, ülkem.

SQuAD2.0 tez portalı:

https://arxiv.org/abs/1806.03822

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalama Yazarı

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Ulusal Oyunların ilk günü: Shandong kadın takımı üst üste iki kaybetti, savunan şampiyon erken çıktı! + Sonuçların özeti!
önceki
Chevrolet Explorer 2.0T'nin test sürüşü: GM 9AT'nin ilk çıkışı, satın almaya değer mi?
Sonraki
Ağır! AFC, World Preliminaries'deki suçlu olduğu iddia edilen ekibin Çin ile hiçbir ilgisi olmadığını doğruladı
Gu Jian Qi Tan 3 eğlenceli mi? Tek başına bu seviye, son yıllarda Çin'deki en iyi oyun
Ulusal Oyunların ilk günü: Zhang Jike Shandong'u kurtaramadı, Fan Zhendong tek başına iki sayı attı! + Sonuçların özeti!
BYD, standardı her gün değiştirmeye çağırıldığı için kabul etmeyi reddediyor: BYD araba logosu parlak bir şekilde parlıyor, hatta Audi kıskanç
Gu Jian Qi Tan 3 ağlamayı planlıyor! Oyuncular tarafından bulunan güvenlik açıkları, seviyeyi savunma, kaçınma ve yaralanma olmadan geçme
Bu SUV uzak mesafeden 100.000 yuan satıyor ve kapıyı açtığınızda 1 milyon yuan'a satmanız gerekiyor!
SKT ayrıldı, Faker çok mu gülümsedi? Netizenler alay ediyor: Pit b takım arkadaşlarının sonunda ayrıldığını kutlayın!
TensorFlow ekip üyeleri şunları söylüyor: Derin öğrenmenin geleceği mikro denetleyicide yatıyor
Cadillac XTS veya Audi A6L satın almaktan bahsederken neden bahsediyoruz?
İtalya'nın iki efsanevi yıldızı, Serie B'de karşılaşmalar düzenledi
10 yıl önce, 1 milyon kişinin aynı anda çevrimiçi olduğu Tencentin en sıcak oyunu, artık artık olamayacak kadar soğuk
BYD araba etiketini asarak yüzünüzü kaybetmek mi? BYD sahibi bir şey yaptı ve geceleri güven doluydu
To Top