­čĄ╣­čĆ╗ÔÇŹÔÖÇ´ŞĆGPT-3 : GPT ailesinin 175 milyar parametreli yeni ├╝yesi

ÔÇťExtrapolating the spectacular performance of GPT3 into the future suggests that the answer to life, the universe and everything is just 4.398 trillion parameters.ÔÇŁ Geoffrey Hinton

Photo by Yulia Matvienko on Unsplash

Konu┼čmak, yazmak, okumak, d├╝┼č├╝nmek, hayal kurmak ve daha niceleri.. G├╝nl├╝k hayat─▒m─▒zda ├žo─ču zaman fark─▒nda bile olmadan, do─čal olarak ger├žekle┼čtirdi─čimiz bu eylemlerin tamam─▒ do─čal dili i┼čleyebilme yetene─čimizle ilintili ve bu yetene─če sahip olma ihtimali olan yapay sistemler daha ├Ânce yapay zeka konusunda genel k├╝lt├╝r seviyesinde bilgi sahibi olan ki┼čiler i├žin dahi olduk├ža ilgi ├žekici.. SiriÔÇÖnin verdi─či cevaplar, Robot SophiaÔÇÖn─▒n insanl─▒─č─▒ tehdit eder y├Ândeki esprileri derken; bug├╝n, verdi─činiz komutlarla basit ara y├╝z tasar─▒m─▒ yapabilen, daha ├Ânceki yaz─▒lar─▒ndan birka├ž sat─▒r verdi─činiz bir yazar─▒n ├╝slubunu taklit edebilen, kod yazabilen ve hatta yaz─▒lan kodun i┼člevini a├ž─▒klayabilen bir dil modeli ÔÇö nam-─▒ di─čer GPT-3 ÔÇö kimilerinde hayranl─▒k, kimilerinde korku, kimilerinde ise hayranl─▒k duyanlara kar┼č─▒ nefret duygusu olu┼čturmaya ba┼člad─▒ ­čśů

ÔÇö T├╝m ├Ânyarg─▒lar ve sizde yaratt─▒─č─▒ duygulardan ba─č─▒ms─▒z olarak ÔÇö GPT-3'├╝ genel hatlar─▒yla anlamak ve teknik altyap─▒s─▒na g├Âz atmak isterseniz, buyurunuz..­čĄÖ­čĆ╗

­čöÂGPT-3'e Genel Bak─▒┼č

­čöÂSonu├žlar

­čöÂMadalyonun Di─čer Y├╝z├╝

­čöÂUygulama ├ľrnekleri

­čö« GPT-3'e Genel Bak─▒┼č

May─▒s 2020'de OpenAI taraf─▒ndan ÔÇťLanguage Models are Few-Shot LearnersÔÇŁ isimli makale ile tan─▒t─▒lan GPT (Generative Pre-trained Transformer) ailesinin en yeni ├╝yesi GPT-3, 175 milyar parametreye sahip devasa bir dil modeli!

Dil modelleme (language modeling) g├Ârevi ve ÔÇö yaz─▒n─▒n devam─▒nda ├žok├ža ismini duyaca─č─▒n─▒z ÔÇö do─čal dil i┼čleme alan─▒nda en b├╝y├╝k s─▒├žralamalardan biri kabul edilen BERT dil modeli hakk─▒nda bilgi edinmek isterseniz blog yaz─▒s─▒na g├Âz atabilirsiniz ­čĄ×­čĆ╗

Yakla┼č─▒k 355 GPU y─▒l─▒na ve 4,6 milyon dolara mal oldu─ču tahmin edilmesini bir kenara b─▒rak─▒rsak, daha ├Ânce tan─▒t─▒lan dil modellerinden farkl─▒ olarak insan─▒n ├Â─črenme ┼čekline daha yak─▒n bir ├Â─črenme s├╝reci vadediyor.

├ľzellikle BERTÔÇÖin ba┼čar─▒s─▒yla NLP alan─▒nda t├╝m dikkatleri ├╝zerine ├žeken ve ├žok b├╝y├╝k korpusla e─čitimle elde edilen ├Ânceden e─čitilmi┼č dil modelleri, transfer ├Â─črenme yoluyla her ne kadar g├Âreve ├Âzg├╝ model mimarilerini kullanma ihtiyac─▒n─▒ ortadan kald─▒rsa da yine de iyi performans elde etmek i├žin toplanmas─▒ zor olan g├Âreve ├Âzg├╝ veri k├╝melerine ihtiya├ž duymaktad─▒r.

GPT-3 ise i┼čte tam da bu problemati─čin ├ž├Âz├╝lmesini ele alarak, ├žok s─▒n─▒rl─▒ ├Ârnekle veya hi├ž ├Ârne─če ihtiya├ž duymaks─▒z─▒n alt g├Ârevlerde en son teknolojiye yak─▒n performans elde etmeyi hedeflerÔŁŚ

­čôŹ Biraz daha derine..

GPT-3 modeli 125 milyondan 175 milyara kadar farkl─▒ parametre say─▒lar─▒nda 8 farkl─▒ boyutta sunuldu. Model boyutlar─▒ k─▒yasland─▒─č─▒nda en k├╝├ž├╝k GPT-3 modeli yakla┼č─▒k BERT-Base kadard─▒r, ancak di─čer taraftan en b├╝y├╝k GPT-3 modeli ise o g├╝ne kadar tan─▒t─▒lan en b├╝y├╝k dil modeli olan ve 11 milyar parametreye sahip olan T5'den kat be kat daha b├╝y├╝kt├╝r.

┼×ekil 1 : ├ľnceden e─čitilmi┼č dil modellerinin parametre say─▒s─▒ bak─▒m─▒ndan kar┼č─▒la┼čt─▒r─▒lmas─▒ (Kaynak)

Boyutlar─▒ de─či┼čkenlik g├Âsteren t├╝m GPT-3 modelleri, asl─▒nda 2. nesil GPT ile ayn─▒ dikkat tabanl─▒ mimariyi kullan─▒r. Ancak modeller aras─▒nda dikkat katman─▒ say─▒lar─▒ ve ba┼čl─▒k boyutlar─▒ farkl─▒l─▒k g├Âsterir. ├ľrne─čin 125 milyon parametreye sahip en k├╝├ž├╝k GPT-3 modeli her biri 12x64 boyutlu ba┼čl─▒─ča sahip 12 dikkat katman─▒, 175 milyar parametreye sahip en b├╝y├╝k GPT-3 modeli her biri 96x128 boyutlu ba┼čl─▒─ča sahip 96 dikkat katman─▒ kullan─▒r.

Daha genel bir ifade ile GPT-3 asl─▒nda model mimarisinde ├Ânemli bir de─či┼čiklik sunmadan, daha fazla ve geni┼č katman ve ├╝zerinde e─čitilecek ├žok daha fazla veri ile GPT-2'nin kapasitesini geni┼čletmi┼č oldu.

­čôŹ Veri veri veriÔÇŽ

E─čitimde kullan─▒lacak veri k├╝mesinin boyutu modelin boyutuna g├Âre ├Âl├žeklenme ihtiyac─▒ duyar. Dolay─▒s─▒yla 175 milyar parametreli bu modelin e─čitiminde 499 milyar jeton (token) kullan─▒lm─▒┼č olmas─▒ da ┼ča┼č─▒rt─▒c─▒ de─čildir.

Ancak burada dikkat ├žeken ├Ânemli bir nokta var ÔŁŚ GPT-2 1.5 milyar parametreye sahip ve 10 milyar jeton (token) ile e─čitilen bir model olarak kar┼č─▒m─▒za ├ž─▒km─▒┼čt─▒. Yani kabaca bir hesapla veri s─▒k─▒┼čt─▒rma oran─▒ 10/1.5 = 6.66. Di─čer taraftan ayn─▒ hesap GPT-3 i├žin yap─▒ld─▒─č─▒nda ise s─▒k─▒┼čt─▒rma oran─▒n─▒n 2.85 oldu─ču g├Âr├╝l├╝yor. S─▒k─▒┼čt─▒rma oranlar─▒ k─▒yasland─▒─č─▒nda GPT-3'├╝n sahip oldu─ču b├╝y├╝k parametre say─▒s─▒n─▒n modelin e─čitiminde verilerin ezberlemesi ve bilgi ├ž─▒kar─▒m─▒ yap─▒l─▒rken ├Âr├╝nt├╝ e┼čle┼čtirilmesi yoluna gitmesi gibi sak─▒ncalar─▒ da beraberinde getirebilece─či ├žok├ža tart─▒┼č─▒lan konular aras─▒nda ­čś│´ŞĆ

Bir di─čer tart─▒┼čma konusu GPT-3'├╝n e─čitiminde kullan─▒lan bu devasa veri k├╝mesinin internetten sa─članmas─▒ sebebiyle, e─čitim ve test k├╝melerinin birbiri ile ├žak─▒┼čmas─▒ yani bir di─čer deyi┼čle e─čitim ve test veri k├╝melerinin birbirine kar─▒┼čm─▒┼č olma ihtimalinin ├žok y├╝ksek olmas─▒ ­čĄ» Kirli verinin etkisinin ara┼čt─▒r─▒lmas─▒ i├žin OpenAI ekibi, her alt seviye dil g├Ârevinde test veri k├╝mesinin temiz bir versiyonunu olu┼čturarak, orjinal test veri k├╝mesi ile elde edilen ba┼čar─▒mlarla kar┼č─▒la┼čt─▒rm─▒┼čt─▒r. Kar┼č─▒la┼čt─▒rma sonu├žlar─▒n─▒n b├╝y├╝k k─▒sm─▒ performansta ├Ânemsiz boyutta sapma g├Âstermi┼čse de, birka├ž alt seviye dil g├Ârevi ├Ânemli d├╝zeyde etkilenmi┼čtir. Bu g├Ârevler daha fazla incelenmek ├╝zere i┼čaretlenmi┼čtir.

­čôŹ En derine..

BERT veya transformerXL gibi dil modellerinin sundu─ču ├ž├Âz├╝mler, alt seviye dil g├Ârevleri i├žin deyim yerindeyse tak-├žal─▒┼čt─▒r de─čildir. Bu g├Ârevler i├žin ince-ayar ihtiyac─▒ vard─▒r ve bu noktada da probleme ├Âzg├╝ veri k├╝mesi ihtiyac─▒ do─čmaktad─▒r.

Ge├žen sene tan─▒t─▒lan GPT-2 modelinin bir dizi alt seviye dil problemlerinin bir k─▒sm─▒nda ince-ayar yapmaks─▒z─▒n haz─▒r ├ž├Âz├╝m sunabilme potansiyeli zaten belirtilmi┼čti. Yeni nesil GPT modelinde ise bu konuda bir ├Âncekine nazaran daha iyi performans g├Âsterdi─čini ispatlar nitelikte sonu├žlar sunuldu.

┼×ekil 2: S─▒f─▒r, bir ve birka├ž ├Ârnekle ├Â─črenme yap─▒s─▒n─▒n geleneksel ince ayar (finetunning) ile kar┼č─▒la┼čt─▒r─▒lmas─▒ (Kaynak)

Ara┼čt─▒rmac─▒lar─▒n sundu─ču bu yenilik├ži yakla┼č─▒m─▒ ba─člam i├ži ├Â─črenme diye T├╝rk├žele┼čtirebilece─čimiz ÔÇťin-context learningÔÇŁ kavram─▒ ile tan─▒d─▒k. Bu yakla┼č─▒m, modelin e─čitimi esnas─▒nda bir dizi beceri ve ├Âr├╝nt├╝ tan─▒ma yetene─či geli┼čtirdi─či ve daha sonra istenen g├Âreve h─▒zl─▒ adapte olmak i├žin bu yetenekleri ├ž─▒kar─▒m zaman─▒nda kulland─▒─č─▒ varsay─▒m─▒na dayan─▒r.

Modelin giri┼čine s─▒f─▒r, bir veya birka├ž ├Ârne─čin eklenmesine izin veren bir paradigma kullan─▒r. Birka├ž ├Ârnekle ├Â─črenme (few-shot learning) senaryosunu ele al─▒rsak modele bir g├Ârev a├ž─▒klamas─▒, birka├ž d├╝zine ├Ârnek ve bir komut istemi sunulur. ├ľrne─čin, ─░ngilizceÔÇÖden T├╝rk├žeÔÇÖye ├ževiri g├Ârevi i├žin; g├Ârev tan─▒m─▒ ÔÇť ─░ngilizceÔÇÖden T├╝rk├žeÔÇÖye ├çeviriÔÇŁ c├╝mlesi, birka├ž d├╝zine ├Ârnek ÔÇťcat=>kediÔÇŁ, ÔÇťcar=>arabaÔÇŁ gibi metinler ve komut istemi ise ├ževirisini yap─▒lmas─▒n─▒ bekledi─čimiz ÔÇťwater=>ÔÇŁ ┼čeklinde olabilir. GPT-3 t├╝m bu bilgileri ba─člam olarak al─▒r ve ├ž─▒kt─▒ belirtecini tahmin etmeye ba┼člar. Sonu├ž olarak modelin, water kelimesi i├žin T├╝rk├že ÔÇťsuÔÇŁ ├ž─▒kt─▒s─▒n─▒ vermesi beklenir. T├╝m bu s├╝re├ž s─▒f─▒r-├Ârnek (zero-shot) ve tek-├Ârnek (one-shot) ile ├Â─črenmede de ayn─▒d─▒r; sadece ├Ârneklerin say─▒s─▒ azalt─▒l─▒r.

­čÉú SONU├çLAR

G├Âreve ├Âzg├╝ model mimarileri gerektirmemenin yan─▒ s─▒ra g├Âreve ├Âzg├╝ b├╝y├╝k veri k├╝meleri gerektirmeme kavram─▒, son teknoloji NLPÔÇÖyi daha eri┼čilebilir hale getirme y├Ân├╝nde b├╝y├╝k bir ad─▒md─▒r.

GPT-3'├╝n genelle┼čtirilebilirli─čini test etmek i├žin iki d├╝zineden fazla NLP g├Ârevi ├╝zerinde de─čerlendirme yap─▒lm─▒┼čt─▒r. G├Ârevler, dil modelini do─črudan kullananlardan (c├╝mle tamamlama gibi) modeli dolayl─▒ olarak ve bazen aritmetik problemleri ├ž├Âzmek gibi farkl─▒ ┼čekillerde kullanan g├Ârevlere kadar uzanmaktad─▒r. Gelin bu sonu├žlara - tamam─▒na olmasa da- g├Âz gezdirelim ­čžÉ

­čîÁ Dil Modelleme Testleri

Paragraf uzunlu─čundaki hikayelerin son kelimesinin tahminlenmesini gerektiren LAMBADA testinde s─▒f─▒r-├Ârnek yakla┼č─▒m─▒ daha ├Ânce elde edilen en y├╝ksek skora g├Âre 8 puanl─▒k kazan├ž ile %76 do─čruluk sa─člar.

LAMBADA testine benzer ┼čekilde, HellaSwag testi de bir hikaye i├žin en iyi sonu se├žme g├Ârevidir. GPT-3 bu g├Ârevde ise tek-├Ârnek yakla┼č─▒m─▒ ile %78'lik do─čruluk elde eder, ancak bu sonu├ž ┼ču anki son teknolojinin gerisindedir.

Bir di─čer dil modelleme testi ise StoryCloze testidir. Birden ├žok se├ženekten be┼č c├╝mlelik bir hikayeyi en iyi tamamlayan c├╝mleyi se├žmeyi gerektirir. GPT-3, s─▒f─▒r-├Ârnek yakla┼č─▒m─▒nda % 83 ve birka├ž-├Ârnek ile ise % 88 do─čruluk oran─▒na ula┼č─▒r. Bu sonu├ž, en iyi ince ayarl─▒ modelden d├Ârt puan daha d├╝┼č├╝k olsa da ├Ânceki s─▒f─▒r-├Ârnek sonu├žlar─▒na g├Âre yakla┼č─▒k 10 puan daha iyile┼čme sa─člam─▒┼čt─▒r.

­čîÁKapal─▒ Kitap Soru Cevaplama

NLP alan─▒nda klasikle┼čmi┼č bir g├Ârev olan kapal─▒ kitap soru cevaplamada (closed book QA) TriviaQA veri k├╝mesi i├žin GPT-3, yaln─▒zca ince ayar yapmakla kalmayan, ayn─▒ zamanda yan─▒t─▒ i├žermesi muhtemel metin par├žalar─▒n─▒ almak i├žin bir Bilgi Eri┼čim bile┼čeni kullanan literat├╝rdeki en son yakla┼č─▒mdan daha ├╝st├╝n performans sergilemi┼čtir.

Tablo 1: ├ť├ž farkl─▒ veri k├╝mesi i├žin soru cevaplama g├Âreviyle ilgili sonu├žlar (Kaynak)

NaturalQS ve WebQS veri k├╝melerinde ise ince ayar kullan─▒lmamas─▒na ra─čmen en son yakla┼č─▒mlar─▒n performans─▒na yakla┼čm─▒┼čsa da, ├╝st├╝n performans sergileyememi┼čtir.

­čîÁMakine ├çevirisi

GPT-3 ÔÇś├╝n e─čitiminde kullan─▒lan verilerin %93ÔÇÖ├╝ ─░ngilizce iken %7'si ise di─čer dillerdendir ve ara┼čt─▒rmac─▒lar modelin ├ževiri yetene─čini daha iyi anlamak i├žin ayr─▒ca analizlerini yayg─▒n olarak ├žal─▒┼č─▒lan Almanca ve RomenceÔÇÖyi i├žerecek ┼čekilde geni┼čletmi┼člerdir.

Tablo 2: ─░ngilizce, Frans─▒zca, Almanca ve Romence dillerinde makine ├ževirisi sonu├žlar─▒n─▒n kar┼č─▒la┼čt─▒r─▒lmas─▒ (Kaynak)

Genel olarak sonu├žlar incelendi─činde s─▒f─▒r-├Ârnek ile ├Â─črenmede GPT-3 makine ├ževirisi g├Ârevinde k├Ât├╝ performans g├Âsterirken, tek-├Ârnekli ├Â─črenmede sonu├žlar─▒n daha iyile┼čti─či g├Âr├╝lm├╝┼čt├╝r. Birka├ž-├Ârnekli ├Â─črenme yakla┼č─▒m─▒n─▒n sonu├žlar─▒nda ise GPT-3 en iyi ince ayarl─▒ denetimsiz modellerle rekabet edecek d├╝zeyde iyile┼čmi┼čtir.

­čîÁSa─čduyu Muhakemesi (Common Sense Reasoning)

Fiziksel ve/veya bilimsel ak─▒l y├╝r├╝tme gerektiren bu zorlu g├Ârev c├╝mle tamamlama, okudu─čunu anlama veya geni┼č kapsaml─▒ soru cevaplamadan farkl─▒d─▒r.

ÔÇťG├Âz far─▒n─▒ f─▒r├žas─▒z uygulamak i├žin pamuklu ├žubuk mu yoksa k├╝rdan m─▒ kullanmal─▒y─▒m?ÔÇŁ gibi sorular bar─▒nd─▒ran PhysicalQA veri k├╝mesi (PIQA), 3. s─▒n─▒ftan 9. s─▒n─▒fa kadar farkl─▒ d├╝zeylerde fen s─▒navlar─▒ndan al─▒nan ├žoktan se├žmeli sorular─▒ i├žeren Soyutlama ve Ak─▒l Y├╝r├╝tme G├Ârevi (ARC Challenge) ve ├žok ad─▒ml─▒ muhakeme gerektiren OpenBookQA veri k├╝mesi ├╝zerinde GPT-3 modeli test edilmi┼čtir. A┼ča─č─▒daki tabloda g├Âr├╝lebilece─či gibi, her ne kadar PIQA i├žin state-of-the-artÔÇÖ─▒n ├╝zerine ├ž─▒kmay─▒ ba┼čarm─▒┼č olsa da, di─čer veri k├╝meleri ├╝zerinde literat├╝rdeki ├žal─▒┼čmalara oranla olduk├ža d├╝┼č├╝k performans sergilemi┼čtir.

Tablo 3: PIQA, ARC ve OpenBookQA olmak ├╝zere 3 farkl─▒ sa─čduyu muhakemesi g├Ârevine ili┼čkin sonu├žlar.(Kaynak)

­čîÁOkudu─čunu Anlama (Reading Comprehension)

Okudu─čunu anlama g├Ârevini her y├Ân├╝yle test etmek isteyen ara┼čt─▒rmac─▒lar, a├ž─▒klama gerektiren, ├žoktan se├žmeli veya aral─▒k tabanl─▒ cevaplar─▒ olan diyalog veya tek soru ┼čeklinde y├Âneltilen anlama sorular─▒n─▒ bar─▒nd─▒ran 5 farkl─▒ veri k├╝mesi ile testleri ger├žekle┼čtirmi┼člerdir. Bu testlerde yan─▒tlama bi├žimlerine ba─čl─▒ olarak de─či┼čken ba┼čar─▒m oranlar─▒ elde edilmi┼čtir. En iyi sonu├ž serbest bi├žimli bir konu┼čma veri k├╝mesi olan CoQAÔÇÖda g├Âzlemlenirken, en k├Ât├╝ sonu├ž ise QuAC veri k├╝mesinde elde edilmi┼čtir. Genel olarak elde edilen sonu├žlar incelendi─činde CoQA veri k├╝mesi hari├ž di─čer veri k├╝melerinin tamam─▒nda literat├╝rdeki modellerden ├žok daha d├╝┼č├╝k ba┼čar─▒m elde edildi─či a├ž─▒k├ža g├Âr├╝lmektedir.

Tablo 4: Okudu─čunu anlama g├Ârevlerine ili┼čkin sonu├žlar. Do─čruluk de─čeri (accuracy) bildiren RACE sonu├žlar─▒ d─▒┼č─▒nda t├╝m puanlar F1'dir. (Kaynak)

­čîÁSentetik ve Nitelikli G├Ârevler

GPT-3ÔÇÖ├╝n yetenek aral─▒─č─▒n─▒ ke┼čfetmenin bir yolu da, an─▒nda basit say─▒sal muhakeme yapmay─▒, e─čitimde meydana gelmesi muhtemel olmayan yeni bir modeli tan─▒may─▒ veya al─▒┼č─▒lmad─▒k bir g├Âreve h─▒zl─▒ca adapte olmay─▒ gerektiren g├Ârevler vermektir. Bu g├Ârevlere ve elde edilen ba┼čar─▒mlara bir g├Âz atal─▒m o zaman..

­čŹäAritmetik ─░┼člemler

Ara┼čt─▒rmac─▒lar taraf─▒ndan GPT-3ÔÇÖ├╝n g├Âreve ├Âzg├╝ e─čitim olmadan basit aritmetik i┼člemleri ger├žekle┼čtirme yetene─čini test etmek i├žin, GPT-3'e do─čal dilde basit bir aritmetik problem sorulmas─▒n─▒ i├žeren 10 testlik k├╝├ž├╝k bir i┼člem serisi olu┼čturulmu┼čtur.

Bu i┼člemler; 2 basamakl─▒ toplanma/├ž─▒karma (2D +/-), 3 basamakl─▒ toplama/ ├ž─▒karma (3D +/-), 4 basamakl─▒ toplanma/├ž─▒karma (4D +/-), 5 basamakl─▒ toplanma/├ž─▒karma (5D +/-), 2 basamakl─▒ ├žarpma (2Dx) ve tek basamakl─▒ say─▒larla bile┼čik aritmetik i┼člem yapma (1DC). Her bir g├Ârev i├žin, rastgele 2.000 ├Ârnekten olu┼čan bir veri k├╝mesi olu┼čturulmu┼č ve bu ├Ârneklerle t├╝m modeller de─čerlendirilmi┼čtir.

Birka├ž ├Ârnekle e─čitim sonu├žlar─▒na bak─▒ld─▒─č─▒nda toplama ve ├ž─▒karma i┼člemlerinde, basamak say─▒s─▒ az oldu─čunda g├╝├žl├╝ bir yeterlilik g├Âsterdi─či g├Âr├╝lmektedir.

Tablo 5: GPT-3 (175B-parametre) i├žin temel aritmetik g├Ârevlerle ilgili sonu├žlar.(Kaynak)

K├╝├ž├╝k modeller ise t├╝m bu g├Ârevlerde yetersiz bir performans sergilemi┼čtir, ├Âyle ki 13 milyar parametreli GPT-3 modeli bile (175 milyar tam GPT-3'ten sonraki en b├╝y├╝k ikinci) 2 basamakl─▒ toplama ve ├ž─▒karma i┼čleminin yaln─▒zca yar─▒s─▒n─▒ ├ž├Âzebilmektedir.

Tek ├Ârnek ve s─▒f─▒r ├Ârnek performans─▒, birka├ž ├Ârnek performans─▒na g├Âre daha d├╝┼č├╝kt├╝r, bu da g├Âreve uyumun (veya en az─▒ndan g├Ârevin tan─▒nmas─▒n─▒n) bu hesaplamalar─▒ do─čru bir ┼čekilde ger├žekle┼čtirmek i├žin ├Ânemli oldu─čunu g├Âstermektedir.

­čŹäKelime Kar─▒┼čt─▒rma ve Manip├╝lasyon G├Ârevleri

Bu kez GPT-3'├╝n manip├╝le edilmi┼č kelimelerin orjinalini bulma yetene─činin ├Âl├ž├╝ld├╝─č├╝ 5 farkl─▒ g├Ârev ├╝zerine incelemeler yap─▒lm─▒┼čt─▒r. Bu g├Ârevlerde modele karakterlerin kar─▒┼čt─▒r─▒lmas─▒, eklenmesi veya silinmesiyle bozulmu┼č bir kelime verilerek ondan orijinal kelimeyi kurtarmas─▒ beklenmektedir. G├Ârevler ise ┼č├Âyledir:

  • S├Âzc├╝kteki harfleri ├ževirme (CL) : Orjinal kelimedeki harflerin s─▒ras─▒n─▒ de─či┼čtirmeksizin sadece karakterleri belli say─▒da ├Âteleyerek manip├╝le edilen kelimelerin orjinal hallerine geri d├Ând├╝r├╝lmesi beklenmektedir.
  • ─░lk ve son karakterler hari├ž t├╝m harflerin kar─▒┼čt─▒r─▒lmas─▒(A1) ÔÇö Modele, ilk ve son hari├ž t├╝m harflerin rastgele kar─▒┼čt─▒r─▒ld─▒─č─▒ bir kelime verilerek orijinal kelimeyi ├ž─▒karmas─▒ beklenmektedir.
    ├ľrnek: ÔÇťcriroptuonÔÇŁ Ôćĺ ÔÇťcorruptionÔÇŁ
  • ─░lk 2 ve son 2 karakter hari├ž t├╝m harflerin kar─▒┼čt─▒r─▒lmas─▒ (A2) ÔÇö Modele, ilk 2 ve son 2 hari├ž t├╝m harflerin rastgele kar─▒┼čt─▒r─▒ld─▒─č─▒ bir kelime verilerek orijinal kelimeyi ├ž─▒karmas─▒ beklenmektedir.
    ├ľrnek: ÔÇťopoepnntÔÇŁ Ôćĺ ÔÇťopponentÔÇŁ
  • Kelimedeki harfler aras─▒na rastgele karakter ekleme (RI) ÔÇö Bir kelimenin her harfinin aras─▒na rastgele bir noktalama veya bo┼čluk karakteri eklenerek modelin orijinal kelimeyi ├ž─▒karmas─▒ beklenmektedir.
    ├ľrnek: ÔÇťs.u! C / c! E.s s i / o / nÔÇŁ Ôćĺ ÔÇťsuccessionÔÇŁ
  • Ters s├Âzc├╝kler (RW) ÔÇö Modele tamamen ters y├╝z edilmi┼č olarak verilen s├Âzc├╝klerden ├ž─▒kt─▒ olarak kelimelerin orjinalinin elde edilmesi beklenmektedir.
    ├ľrnek: ÔÇťstcejboÔÇŁ Ôćĺ ÔÇťobjectsÔÇŁ

­čĺź Di─čer sonu├žlardan k─▒sa k─▒sa..

ÔÜíBir zamirin hangi kelimeye at─▒fta bulundu─čunu belirlemenin hedeflendi─či klasik bir g├Ârev olan Winograd Schemas ChallengeÔÇÖda klasik Winograd veri k├╝mesi i├žin ince-ayarla elde edilen literat├╝rdeki en y├╝ksek ba┼čar─▒m (fine-tuned SOTA) %90.1 iken; GPT-3'de s─▒ras─▒yla s─▒f─▒r ├Ârnekle, tek ├Ârnekle ve birka├ž ├Ârnekle e─čitimle elde edilen ba┼čar─▒mlar % 88,3,% 89,7 ve% 88,6'd─▒r.

ÔÜí ─░ki c├╝mle aras─▒ndaki ili┼čkiyi anlama becerisini ├Âl├žen Do─čal Dil ├ç─▒kar─▒m─▒ (Natural Language Inference (NLI)); ikinci c├╝mlenin mant─▒ksal olarak ilk c├╝mlenin ard─▒ndan m─▒ geldi─čini veya ilk c├╝mle ile ├želi┼čip ├želi┼čti─či gibi ├ž─▒kar─▒mlar─▒n do─čru yap─▒lmas─▒ beklenen zorlu bir g├Ârevdir. Farkl─▒ benchmark veri k├╝meleri ├╝zerinde elde edilen sonu├žlar, NLIÔÇÖnin dil modelleri i├žin hala ├žok zor bir g├Ârev oldu─čunu ve ilerleme belirtileri g├Âstermeye daha yeni ba┼člad─▒─č─▒n─▒ g├Âstermektedir.

ÔÜí ─░nsan ve GPT-3 modeli taraf─▒ndan ├╝retilen haber metinlerinin insanlar taraf─▒ndan ay─▒rt edilmesi deneyinde, model boyutu artt─▒k├ža kat─▒l─▒mc─▒lar─▒n ay─▒rt etmek i├žin daha fazla zaman harcamas─▒na kar┼č─▒n daha d├╝┼č├╝k do─čruluk puan─▒ elde ettikleri g├Âr├╝lmektedir. Bu sonu├ž da asl─▒nda model boyutunun b├╝y├╝mesi ile birlikte ay─▒rt edilmesi daha g├╝├ž haber metinlerinin ├╝retilebildi─či bulgusunu desteklemektedir.

┼×ekil 3: GPT-3 taraf─▒ndan ├╝retilen ve insanlar─▒n bir insan taraf─▒ndan yaz─▒lm─▒┼č makaleden ay─▒rt etmede en b├╝y├╝k zorlu─ča sahip oldu─čunu belirtti─či makale (do─čruluk:% 12). (Kaynak)

ÔÜí GPT-3'├╝n yeni kelimeleri ├Â─črenme ve kullanma yetene─či; asl─▒nda dil i├žerisinde hi├ž var olmam─▒┼č ÔÇťGigamuruÔÇŁ gibi bir kelimenin insanlar taraf─▒ndan uydurulmu┼č tan─▒m─▒ verildi─činde modelin onu anlam─▒na uygun olacak bir c├╝mlede kullanabilme becerisi ile ├Âl├ž├╝lmeye ├žal─▒┼č─▒lm─▒┼čt─▒r. Model taraf─▒ndan ├╝retilen baz─▒ c├╝mleler a┼ča─č─▒da verilmi┼čtir ve g├Âr├╝nen o ki ├╝retilen c├╝mleler, kelimenin do─čru veya en az─▒ndan makul bir kullan─▒m─▒ gibi.

┼×ekil 4: Gri renkteki uyar─▒ c├╝mleleri insanlar taraf─▒ndan yaz─▒lm─▒┼č metinleri, kal─▒n siyah olarak yaz─▒lm─▒┼č olan metinler ise GPT-3ÔÇÖ├╝n tamamlamalar─▒ g├Âstermektedir. ─░lk ├Ârnekte hem uyar─▒ hem tamamlama bir insan taraf─▒ndan sa─članm─▒┼čt─▒r; bu daha sonra GPT-3'├╝n art arda ek istemleri ald─▒─č─▒ ve tamamlamalar─▒ sa─člad─▒─č─▒ ├Ârnekler i├žin bir ko┼čulland─▒rma g├Ârevi g├Ârmektedir. GPT-3'e burada g├Âsterilen ko┼čulland─▒rma d─▒┼č─▒nda g├Âreve ├Âzg├╝ hi├žbir ┼čey sa─članmam─▒┼čt─▒r.(Kaynak)

ÔÜí Birka├ž ├Ârnekle ├Â─črenmenin (few-shot learning) iyi sonu├žlar─▒ndan biri de ─░ngilizce gramer d├╝zeltme g├Ârevinde g├Âzlenmi┼čtir.

┼×ekil 5: ─░ngilizce dilbilgisini d├╝zeltme g├Ârevi i├žin birka├ž ├Ârnekle e─čitilmi┼č (few-shot) GPT-3'├╝n tamamlamalar─▒. (Kaynak)

­čÄľ´ŞĆMadalyonun Di─čer Y├╝z├╝

­čĹŻ GPT-3 di─čer dil modellerinden niteliksel olarak daha iyi dursa da, metin sentezleme yetene─či, tekrarlar, yeterince uzun pasajlarda tutarl─▒l─▒k kayb─▒ ve ├želi┼čki gibi dil modellerinde a┼čina oldu─čumuz zay─▒f noktalara hala maruz kald─▒─č─▒ net bir ┼čekilde g├Âr├╝lmektedir.

­čĹŻGPT-3'├╝n baz─▒ g├Ârevlerinde ├žok a├ž─▒k ┼čekilde ba┼čar─▒s─▒z oldu─ču g├Âr├╝lm├╝┼čt├╝r. ├çift y├Ânl├╝ bilgiyi dahil etmek yerine (BertÔÇÖe benzer ┼čekilde) otoregresif bir yap─▒da olmas─▒ y├Ân├╝yle ba─člam i├ži ├Â─črenmeyi daha kolay ger├žekle┼čtiriyor olmas─▒, ne yaz─▒k ki a┼ča─č─▒ seviye dil g├Ârevlerinde istenen ba┼čar─▒y─▒ getirmemi┼čtir.

­čĹŻGPT-3 ├Âl├že─čindeki modellerle ili┼čkin bir di─čer s─▒n─▒rl─▒l─▒k ise modellerin mevcut bi├žimlerinde pratik uygulanabilirli─čin olduk├ža zor olmas─▒d─▒r. Gelecekte bu konuya olas─▒ bir ├ž├Âz├╝m olarak, b├╝y├╝k modellerin belirli g├Ârevler i├žin y├Ânetilebilir bir boyuta indirgenmesi d├╝┼č├╝n├╝lebilir. ├ç├╝nk├╝ GPT-3 gibi b├╝y├╝k modeller ├žok geni┼č bir beceri yelpazesi i├žerir ve bunlar─▒n ├žo─ču belirli bir g├Ârev i├žin gerekli de─čildir, bu da prensipte agresif dam─▒tman─▒n m├╝mk├╝n olabilece─čini d├╝┼č├╝nd├╝r├╝r.

­čĹŻGPT-3'de di─čer ├žo─ču derin ├Â─črenme modelinde ortak olan; kararlar─▒n─▒n kolayca yorumlanamamas─▒, e─čitim verilerindeki ├Ân yarg─▒lardan fazlaca etkilenme gibi baz─▒ k─▒s─▒tlar─▒ bar─▒nd─▒rmaya devam etmektedir. Modelin basmakal─▒p veya ├Ânyarg─▒l─▒ i├žerik olu┼čturmas─▒na yol a├žabilecek verilerdeki ├Ânyarg─▒lar, toplumsal bir bak─▒┼č a├ž─▒s─▒ndan ├Âzel bir endi┼če kayna─č─▒ olarak tan─▒mlanm─▒┼č ve bu konu makale i├žerisinde ayr─▒ca bir b├Âl├╝mde tart─▒┼č─▒lm─▒┼čt─▒r.

­čÄ«Uygulama ├ľrnekleri

├ťzerine ├žok├ža konu┼čulan ve 2020 y─▒l─▒nda alanda ┼ča┼čk─▒nl─▒k yaratan bir geli┼čme olarak kabul edilen GPT-3'├╝ teknik olarak ele almaya ├žal─▒┼čt─▒─č─▒m bu blog yaz─▒s─▒n─▒, GPT-3ÔÇÖ├╝n APIÔÇÖsine eri┼čim hakk─▒ olanlar─▒n ├╝retti─či ilgi ├žekici birka├ž GPT-3 uygulamas─▒n─▒ listeleyerek tamamlayal─▒m.

­čÜÇ ├ťretmek istedi─činiz uygulamay─▒ c├╝mlelerle ifade etti─činizde birka├ž saniye i├žerisinde bu uygulaman─▒n HTML tasar─▒m─▒n─▒n yan─▒ s─▒ra gerekli fonksiyonlar─▒ da kullanarak haz─▒rlanm─▒┼č Javascript kodunu size sunmas─▒n─▒ isterseniz buraya buyurun­čĄÖ­čĆ╗

­čÜÇPeki ya siz yaz─▒lm─▒┼č kodun ne i┼če yarad─▒─č─▒n─▒ anlayam─▒yorsan─▒z, onun da ├ž├Âz├╝m├╝ var!

­čÜÇ D├╝nyaca ├╝nl├╝ ┼čairlere ait yaln─▒zca birka├ž dize verdi─činizde, o ┼čairin kim oldu─čunu anlayan ve hatta o ┼čairin ├╝slubunu taklit ederek yeni ┼čiirler olu┼čturabilen bir uygulamaya ne dersiniz?

­čÜÇ Herhangi bir konuda otomatik s─▒nav olu┼čturan, cevap anahtar─▒ sunan ve bununla da yetinmeyip bu s─▒nav─▒n uyguland─▒─č─▒ ├Â─črencilerin cevaplar─▒n─▒ de─čerlendiren bir uygulama neden olmas─▒n?

­čÜÇ Lateks denklemlerini ─░ngilizce c├╝mlelerle ifade etti─čimizde otomatik olarak olu┼čturulmas─▒n─▒ hayal etmeyen bir doktora ├Â─črencisi yoktur san─▒r─▒m ­čĄô

­čÜÇ Karma┼č─▒k hukuk dili ile yaz─▒lm─▒┼č metinlerin sade bir ─░ngilizce ile ifade edilmesi alanda ├žal─▒┼čmayan ki┼čilerin i┼člerini olduk├ža kolayla┼čt─▒rmaz m─▒yd─▒?

­čÜÇMuhasebe bilgisi olmayan ki┼čilerin mali tablolar olu┼čturmas─▒n─▒ sa─člayan bir GPT-3 botu, ba┼čka bir deyi┼čle otomatik bir muhasebeci i├žin b├Âyle buyurun ­čĄÖ­čĆ╗

├ťretken ├ľn ─░┼člemeli D├Ân├╝┼čt├╝r├╝c├╝ (Generative Pre-trained Transformer) ailesinin son ├╝yesi olan GPT-3'├╝n tan─▒t─▒ld─▒─č─▒ ve teknik olarak incelendi─či bu blog yaz─▒s─▒, modeli olu┼čturan ara┼čt─▒rmac─▒lar─▒n kaleme ald─▒─č─▒ ÔÇťLanguage Models are Few-Shot LearnersÔÇŁ makalesi referans al─▒narak yaz─▒lm─▒┼čt─▒r.

Ayr─▒ca kullan─▒lan kaynaklar a┼ča─č─▒da listelenmi┼čtir:

ÔşÉOpenAI Blog

ÔşÉLambda labs ara┼čt─▒rmac─▒lar─▒ndan Chuan Li taraf─▒ndan kaleme al─▒nan GPT-3 teknik inceleme blog postu

ÔşÉ ETH ZurichÔÇÖde doktora ├Â─črencisi olan Yannic Kilcher taraf─▒ndan ÔÇťGPT-3: Language Models are Few-Shot LearnersÔÇŁ makale inceleme videosu

ÔşÉProf. Dr. Cem Say taraf─▒ndan yaz─▒lan ÔÇťYapay zek├ó, GPT-3 ve s─▒n─▒rlar─▒: Bilgisayarlar da bizi anl─▒yor mu?ÔÇŁ isimli makale

ÔşÉ(Uygulama ├ľrnekleri) Bar─▒┼č ├ľzcan taraf─▒ndan yay─▒nlanan ÔÇťYapay zeka d├╝nyas─▒ndaki en b├╝y├╝k s─▒├žrama ger├žekle┼čti! GPT-3 nedir?ÔÇŁ inceleme videosu

­čŹÇ Yaz─▒ hakk─▒nda g├Âr├╝┼čleriniz, ├Ânerileriniz ve katk─▒lar─▒n─▒z i├žin ┼čimdiden te┼čekk├╝rler! Keyifli okumalar ÔśĽ

­čĹę­čĆ╗ÔÇŹ­čĺ╗ Blog yaz─▒s─▒ hakk─▒ndaki geri bildirimleri ve yorumlar─▒ i├žin Ayy├╝ce K─▒zrak ve Yavuz K├Âme├žo─čluÔÇÖna te┼čekk├╝rlerimle..

Research Assistant at Information Technologies Institute of Gebze Technical University | Phd Candidate at Gebze Technical University

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store