📚Makale Okumaları — volm.5

Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks

Başak Buluz Kömeçoğlu
9 min readAug 22, 2021

Test Kümelerindeki Yaygın Etiket Hataları Makine Öğrenmesindeki Karşılaştırmaları Dengesizleştiriyor

Bilgisayarlı Görü, Doğal Dil İşleme ve Ses İşleme alanlarında literatürdeki mevcut durumu ve araştırmacıların kendi modellerinin performanslarını değerlendirmek amacıyla kullandıkları ve güvendikleri, benchmark veri kümelerinin test kümelerinde ciddi oranda etiketleme hatalarının bulunduğu söylense, ilk düşündüğünüz şey ne olurdu? 😳

Resim Kaynağı

Endişe, kafa karışıklığı ve muhtemelen büyük oranda güven kaybı oluşturmuş olsa da, ne yazık ki bu bir gerçek! MIT ve Amazon araştırmacılarının sunduğu ve test kümelerindeki hatalı etiketlemelerin tespiti ve bu hataların doğurduğu sonuçların incelendiği makaleye buyurun birlikte göz atalım 👁️‍🗨️

🐌 Dünden bugüne..

Büyük boyutlu etiketli veri kümeleri, görüntü sınıflandırmadan duygu analizine ve ses sınıflandırmadan soru cevaplamaya kadar birçok farklı araştırma konusunda denetimli makine öğreniminin başarısı için kritik öneme sahiptir.

Önemini bu denli bildiğimiz veri kümelerini oluşturmak için kullanılan süreçler ise doğası gereği hataya açık olan (bir dereceye kadar) otomatik etiketleme veya kitle kaynak kullanımı (crowdsourcing) gibi teknikleri içermektedir. Her ne kadar hata düzeltme için kontroller yapılsa da, binlerce verinin etiketlenmesi söz konusu olduğunda gözden kaçan hatalı etiketler olabilmektedir.

Şekil 1. Görüntü veri kümeleri için her kategoriden örnek bir etiket hatası

Gürültülü etiketlerin etkilerinin incelendiği daha önceki çalışmaların neredeyse tamamı eğitim kümesi üzerine odaklanmıştır ve yapılan incelemeler sonucu bu hatalı etiketlemelerin endişe yaratacak düzeyde bir değişime sebep olmadığı gösterilmiştir. Fakat burada gözden kaçırılan nokta, test kümelerinin tamamen hatasız olarak kabul edilmiş olmasıdır!

🦉 Peki ya şimdi?

Araştırmacılar herhangi bir çalışma alanında kendilerinin farklı yollarla derleyebildikleri gerçek dünya verilerinden daha çok, özenle hazırlanmış ve literatürde daha önce birçok araştırmacının da ortak kullandığı benchmark veri kümelerine güvenirler.

Bilindiği üzere, üzerinde çalışılan veri kümesi içinde etiket hataları ne kadar fazla ise, makine öğrenmesindeki ilerlemeyi ölçtüğümüz çerçevenin de baltalanma potansiyeli o kadar fazladır. Bu gibi bir durumda, test kümelerindeki etiket hatalarının, geliştirilen modeller arasında gerçek dünyada hangi modellerin en iyi performansı gösterdiği konusunda yanlış sonuçlara götürebilmesi kuvvetle muhtemeldir.

İncelenen bu makalede ise bu endişe uyandırıcı noktayı ele almak üzere bilgisayarlı görü, doğal dil işleme ve ses işlemede yaygın olarak kullanılan 10 veri kümesinde etiket hatalarını tanımlayan ve sistematik olarak analiz eden ilk çalışma sunulmuştur. Bu önemli efor, çalışmayı yürüten ekibin benzer konudaki ilk çalışması da değildir. Ancak ekip bir önceki çalışmada yalnızca sentetik olarak üretilmiş gürültülü etiketlerin etkileri üzerine odaklanmıştır. Bu kez ise hemen hepimizin kullandığı, alanın önde gelen veri kümeleri üzerinde çalışılarak bir ilke imza atmışlardır!

🐝 Temel Motivasyon

Makine öğrenmesi alanındaki ilerlemenin ölçümlenmesi için kullanılan popüler kıyaslama (benchmark) veri kümelerinin test verilerindeki etiket hatalarının yaygınlığını karakterize etmek ve daha sonra bu hataların pratik sonuçlarını ve özellikle model seçimi üzerindeki etkilerini analiz etmek

🦇 İncelenen Veri Kümeleri

  • MNIST : El yazısı ile yazılmış rakamların ikili görüntülerinden oluşan bir veri kümesidir. Veri kümesi, Sayım Bürosu çalışanlarına ve lise öğrencilerine dağıtılan El Yazısı Örnek Formlarından oluşturulmuştur.
  • CIFAR-10 / CIFAR-100 : Sırasıyla 10 veya 100 sınıftan oluşan küçük 32 × 32 boyutlu görüntü ve sınıf etiketinden oluşan bir veri kümesidir. Görseller, sınıf etiketi anahtar kelimesi ile internette arama yapılarak toplanmıştır.
  • Caltech-256 : CIFAR veri kümesine benzer şekilde resimler ve sınıf etiketlerinden oluşan bir veri kümesidir. Görseller, görsel arama motorlarından derlenmiştir.
  • ImageNet : Görüntülerin, birkaç görüntü arama motorunda WordNet “eş anlamlı kümelerinden” (synsets) kelimeler sorgulanarak derlendiği bir resim ve sınıf etiketi içerikli veri kümesidir.
  • QuickDraw : Görsel sınıflandırma modellerini kıyaslamak amacıyla oluşturulan bu veri kümesi, deneysel bir oyunun kullanıcılarından toplanan 1 milyardan fazla karalama içermektedir. Kullanıcılara belirli bir etikete karşılık gelen resimleri çizmeleri talimatı verilerek, çizimler/karalamalar görsel olarak kabul edilmiştir.
  • 20news : Metin sınıflandırma ve kümeleme modellerini kıyaslamak için kullanılan bu veri kümesi, Usenet haber gruplarına gönderilen makalelerin bir koleksiyonudur. Her bir örneğin etiketi ise, orijinal olarak gönderildiği haber grubu olarak kabul edilir (ör. “misc.forsale”), bu nedenle genel veri toplama prosedürü sırasında etiketleme de sağlanmıştır.
  • IMDB : IMDB veri kümesi, ikili duygu analizi için kullanılan ve kullanıcılar tarafından yapılan film incelemelerinin 10 üzerinden ≤ 4 puan ise olumsuz; 10 üzerinden ≥ 7 pozitif olarak kabul edilmesi ile oluşturulmuştur.
  • Amazon Reviews : Amazon incelemeleri veri kümesi, duygu analizi modellerini kıyaslamak için kullanılan ve Amazon müşterilerinin metin incelemeleri üzerinden 5 kademeli derecelendirmelerin bir koleksiyonudur.
  • AudioSet : YouTube videolarından alınan 10 saniyelik ses kliplerinde bulunan sesleri sınıflandırmak üzere kullanılan ve birden çok etiketten oluşan bir koleksiyondur. Üç insan etiketleyici birbirinden bağımsız olarak, bir veya daha fazla etiketin varlığını (“mevcut”, “mevcut değil” ve “emin değilim”) değerlendirmiştir ve bir etiketin atanması için çoğunluğun anlaşması gerekmiştir.

🦊 Kıyaslama veri kümelerinde etiket hatalarını belirleme

Araştırmaya konu olan kıyaslama veri kümelerinin yüksek örneklem sayısı, manuel olarak etiket hatalarının belirlenmesi gibi bir sürecin çok zorlu olması sonucunu da doğurmaktadır. Bu sebeple araştırmacılar bir ön filtreleme adımı olarak Confident Learning (CL)’den yararlanarak tüm test kümesini manuel olarak kontrol etmeden etiket hatalarının bulunmasını sağlamıştır. Çünkü CL potansiyel etiket hatalarını otomatik olarak tanımlama yeteneğine sahiptir. Böylelikle bir sonraki adımda insanlar tarafından yapılacak doğrulama ihtiyacı duyulan örnek sayısının da %90 oranında azaltılması sağlanmıştır. [CL’den çalışma kapsamında nasıl yararlanıldığının ayrıntıları için lütfen orjinal makaleye bakınız.]

🌟 Confident Learning (CL)hakkında ayrıntılı bilgiyi için böyle buyurun..

🦧Etiket hatalarını doğrulama

CL ile algoritmik olarak tanımlanan etiket hataları bir de insan gözüyle doğrulanmıştır.

Çok sayıda hata içeren üç veri kümesi için (Caltech-256, QuickDraw ve Amazon) rastgele örnek kontrolü yapılırken; geri kalanı için tanımlanan tüm hatalar kontrol edilmiştir. Şekil 2.’de araştırmacıların etiket doğrulaması yapabilmeleri için geliştirilen ara yüz görülmektedir.

Şekil 2. CIFAR-10'dan bir örnek gösteren Mechanical Turk çalışanlarının kullandığı doğrulama arayüzü.

Ara yüzün orta noktasında yer alan görselin etiketinin doğrulanması için kontrolcüye en sağ tarafta görünen 4 seçenek sunulmuştur. Bu seçenekler sırasıyla;

  • (1)veri kümesindeki etiketi,
  • (2)CL tarafından tahmin edilen etiketi,
  • (3)her iki etiketinde kabul edilebilir olduğunu veya
  • (4)hiçbir şıkkın kabul edilebilir olmadığını ifade etmektedir.

Kontrolcüye kolaylık olması açısından ise sorgulanan görselin sağ ve sol tarafına eğitim kümesinden ve CL tarafından tahmin edilen sınıftan alınan yüksek güvenilirliğe sahip örnekler gösterilmiştir.

CL ile tanımlanan her etiket hatası, bağımsız olarak beş kişiye sunulmuştur ve anlaşma eşiği 3/5 olarak belirlenmiştir yani bir anlamda oy çokluğu esas alınmıştır. Ayrıca Tablo 2.’de görüldüğü üzere etiket hataları kategorize de edilmiştir.

  • “correctable” oy çokluğu ile CL’nin önerdiği etiketin doğru olması durumu
  • “multi-label” oy çokluğu ile iki etiketinde doğru olması durumu
  • “neither” oy çokluğu ile 2 etiketinde doğru olmaması durumu
  • “non-agreement” oy çokluğunun sağlanamaması durumu
Tablo 2. Etiket hatalarının varlığını onaylayan ve etiket sorunlarını sınıflandıran insan doğrulamasının sonuçları

🦂Test Verilerinde Etiket Hatalarının Etkileri

Peki ya etiket hatalarının test kümesinden silinmesi veya düzeltilmesi sonucunda state-of-the-art modellerin başarımlarında ne gibi değişiklikler olurdu? İşte işin en can alıcı kısmı da burada başlıyor 👊🏻

Şekil 3.a’da PyTorch ve Keras repolarında önceden eğitilmiş 34 modelin performansını karşılaştırmak için ImageNet veri kümesinin test kümesi yerine, hataların silindiği doğrulama veri kümesinin kullanılması sonuçları paylaşılmıştır. Sonuçlar pek de merak uyandırıcı değildir, çünkü hataların ortadan kaldırılması büyük ölçüde bir değişikliğe sebep olmamıştır 😏 Daha önce Recht ve arkadaşları tarafından yapılan bir diğer ilginç çalışmayı doğrular nitelikte sonuçlar elde edilmiştir.

Şekil 3. Test Verilerinde Etiket Hatalarının Etkileri-1

Ancak “correctable” olarak isimlendirilen, hatalı etiketlenmiş veriler üzerinde modellerin performansı daha yakından incelendiğinde ise (Şekil 3-b), işlerin baya bir karıştığını söylemek mümkün 🤯 Modelleri test kümesinin bir alt kümesi olan “correctable set [C] ” üzerinde değerlendirirken, orijinal test veri kümesinde (yanlış etiketleri içeren) en iyi performansı gösteren modellerin düzeltilmiş etiketlerde en kötü performansı gösterdiği görülmektedir 😬

Örneğin, ResNet-18, çok daha kötü orijinal test doğruluğu sergilemesine rağmen, C’ye göre düzeltilmiş doğruluk açısından NasNet’ten önemli ölçüde daha iyi performans göstermektedir. Modellerdeki bu performans değişiminin -modellerin başarıma göre- sıralamada ne kadar çarpıcı değişikliklere sebep olduğunu birkaç örnekle göstermek gerekirse;

🔻 Nasnet-large: 34 model arasından 1. sıradan → 29. sıraya gerileme

🔻Xception: 34 model arasından 2. sıradan → 24. sıraya gerileme

🔺ResNet-18: 34 model arasından 34. sıradan → 1. sıraya yükselme

🔺ResNet-50: 34 model arasından 20. sıradan → 2. sıraya yükselme

Aynı eğilimin, CIFAR-10'da önceden eğitilmiş 13 modelde bağımsız olarak gerçekleştiği de Şekil 3–c’de net bir şekilde gözükmektedir. Örneğin, C’ye göre VGG-11 VGG-19'dan önemli ölçüde daha iyi performans göstermektedir.

Bir başka dikkat çeken karşılaştırmada ise, önceden eğitilmiş modellerin benchmark veri kümelerinin durumuna göre performanslarının nasıl değiştiğini değerlendirilmiştir. Bunun için doğru etiketlenmiş örnekler rastgele ve aşamalı olarak kaldırılmıştır, ta ki yalnızca orijinal yanlış etiketlenmiş test verileri (düzeltilmiş etiketlerle) kalana kadar.

Şekil 4. ve 5'de ImageNet ve CIFAR-10'da artan derecelerde gürültü prevalansı uygulanarak oluşturulan alternatif (azaltılmış) test kümeleri üzerinde , her bir alternatif için ortaya çıkan orijinal (hatalı) test seti doğruluğunu ve modellerin düzeltilmiş doğruluğunu gösterilmektedir. Belirli bir test seti için çizgilerin dikey sıralaması (yani bu grafiklerin x ekseni boyunca bir nokta), bu test seti üzerinde orijinal doğruluk veya düzeltilmiş doğruluk temelinde modellerin nasıl tercih edileceğini göstermektedir.

Şekil 4. Test Verilerinde Etiket Hatalarının Etkileri-2

Hangi test setinin (değişken gürültü prevalansına sahip) dikkate alındığına bakılmaksızın, orijinal doğruluk temelinde daha esnek/yeni mimarilerin tercih edilme eğiliminde olduğunu görüyor olmamız işin şaşırtıcı olmayan kısmı. Örneğin, NasNet gibi güçlü modellerin ResNet-18 gibi daha basit modellerden daha iyi performans göstereceğine dair geleneksel beklentilerle uyumlu sonuçları görmekteyiz.

Şekil 5. Test Verilerinde Etiket Hatalarının Etkileri-3

Diğer taraftan odağımızı düzeltilmiş doğruluğa doğru kaydırırsak (yani pratikte gerçekten önemli olan tarafa!), daha güçlü modellerin aslında daha basit muadillerinden daha iyi olduğunu söylemek pek de mümkün değil gibi görünüyor 🤦🏻‍♀️ Bu noktada performans, büyük ölçüde test verilerindeki gürültü yaygınlığının derecesine bağlıdır!

Etiket hatalarının yaygın olduğu veri kümeleri için, bir uygulayıcının (düzeltilmiş doğruluk açısından) aslında en iyi model olmayan bir modeli (orijinal doğruluğa dayalı olarak) seçmesi daha olasıdır 😑

🦩 Özetle..

Bugün binlerce makine öğrenmesi yayınında hatasız olduğu ve geliştirilen farklı modellerin kıyaslanması için uygun olduğu kabul edilmiş veri kümelerinin test kümelerinde görülen hata oranları oldukça yüksek boyuttadır. Örneğin; CIFAR-100 test kümesinin yaklaşık %6 ‘sının yani 2.916 etiket hatasının bulunduğu görülmektedir. Diğer taraftan Amazon Reviews veri kümesinin yaklaşık %4’ünün (yaklaşık 390.000 veri) hatalı etiketlendiği belirlenmiştir. Test veri kümesindeki hata oranı en yüksek olan ise QuickDraw’dır. Test setinin yaklaşık %10'unu oluşturan 5 milyondan fazla hata içermektedir.

İncelenen 10 farklı veri kümesi için ortalama hata oranının %3.4 olduğu ortaya konmuştur⚠️

Çalışmada etiket hataları öncelikle CL kullanılarak algoritmik olarak tanımlanır ve daha sonra kitle kaynak kullanımı yoluyla insan tarafından doğrulanır. Algoritmik olarak işaretlenen hatalı etiket adaylarının %54'ü gerçekten hatalı olduğu da sunulan bir diğer önemli bilgidir.

CL öğrenme çerçevesinin belirli bir veri modalitesi veya modeline bağlı olmamasından faydalanan araştırmacılar, birçok farklı türde veri kümesinin etiket hatalarını böylelikle algoritmik olarak elde etmişlerdir.

⭐ Araştırmacıların alana en büyük katkılarından biri de, insanlar tarafından büyük oranda düzeltilen etiket hataları ile temizlenmiş test kümelerinin oluşturulmuş ve paylaşılmış olmasıdır. Bu büyük efor sonrasında beklentileri ise, gelecekteki araştırmaların orijinal hatalı etiketler yerine bu iyileştirilmiş test verilerinin kullanılmasıdır.

⭐ Ayrıca etiketleme hatalarının görülebileceği/duyulabileceği ve incelenebileceği bir web sitesi de hazırlanmıştır. Buradan sizde inceleyebilirsiniz 💁🏻

⭐ Diğer bir önemli katkı ise, açık kaynaklı bir python paketi olan cleanlab’ı sunmuş olmalarıdır. Böylece diğer araştırmacılar da kendi veri kümelerinde etiket hatalarını bulması kolaylaştırılmıştır.

Geleneksel olarak, uygulayıcılar hangi makine öğrenme modelini seçeceği gibi kritik bir konuda test doğruluğunu temel alırlar. Yapılan araştırmada da modelleri doğru etiketlenmiş test kümeleri üzerinden değerlendirmenin önemi ve bunun da özellikle gürültülü gerçek dünya veri kümeleri için daha yararlı olabileceği ortaya konmaktadır 🤞🏻

İncelenen “Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks” makalesi 2021 yılı Nisan ayında MIT ve Amazon araştırmacıları tarafından yayınlanmıştır. Ayrıca kısmen MIT-IBM Watson Yapay Zeka Laboratuvarı tarafından finanse edilerek desteklenmiştir.

✔️Orjinal makale : “Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks”

✔️Etiket hatalarının incelenebileceği web sitesi

Keyifli okumalar ☕

--

--

Başak Buluz Kömeçoğlu

Research Assistant at Information Technologies Institute of Gebze Technical University | Phd Candidate at Gebze Technical University