Dil modelleri sadece gelişmiş bir T9 mu? Teknik olmayan bir bakış

İşte birden fazla kez, genellikle de epey kendinden emin biçimde yüksek sesle söylediğim bir görüş: Herkesin heyecanlandığı sohbet botları aslında gelişmiş bir T9. T9'u hatırlarsınız, eski telefonlardaki tahminli yazım; rakam tuşlarına basardınız, o da kelimeyi tahmin ederdi. İddia şöyle: Bir dil modeli aynı numaranın devasa hali. Kocaman bir metin yığınını okumuş ve özünde tek yaptığı, bir sonraki kelimeyi tekrar tekrar, çok ikna edici biçimde tahmin etmek. Anlama yok, düşünme yok, sadece çok pahalı bir otomatik tamamlama.

İnanması tatmin edici bir görüş. Abartılmış bir teknolojiyi yerli yerine oturtuyor ve içinde bir doğruluk payı da var. Ama bir şeyin tatmin edici olması, doğru olduğu anlamına gelmez ve hiç gerçekten denetlemediğim bir lafı tekrarlayıp durmak istemiyordum. Bu yüzden araştırmayı okudum, özellikle de beni haksız çıkaracak kanıtların peşinde, çünkü sevdiğiniz bir görüşü sınamanın tek dürüst yolu budur. Bulduklarım bunlar.

Önce T9'un gerçekte ne olduğuna bakalım, çünkü karşılaştırma ancak iki tarafa da adil davranırsak bir anlam taşır. T9, 1990'larda Tegic adlı bir şirket tarafından patentlendi. Çalışma mantığı basit: Bir tuş dizisine basarsınız, yazılım bu diziyi telefonla birlikte gelen sabit bir sözlükte arar ve eşleşenleri kullanım sıklığına göre sıralayıp gösterir. Fikrin tamamı bu. Dili öğrenmez. Bir cümlenin ne anlama geldiğini bilmez. Üstüne bir sıklık sayacı eklenmiş bir arama tablosudur. Patentin kendisi "bir kullanıcının makul olarak gireceği tüm kelimelerin yazımını içeren eksiksiz bir sözlük"ten söz eder ve eşleşmeleri "azalan kullanım sıklığı sırasına göre" sunduğunu söyler. [1]

Telefon tuş takımı animasyonu: 4-6-6-3 tuş dizisine basılır ve sözlük good, home, gone ve hood kelimelerini önerir, en yaygın olan good üzerinde karar kılar. — T9 böyle çalışıyordu: Aynı tuş dizisi (4-6-6-3) birden çok kelimeye uyar ve sözlük bunları kullanım sıklığına göre sıralayıp sunar. Anlama yok, sadece arama. Animasyon: Ramazan Yavuz.

Yani biri bir dil modeli için "sadece T9" dediğinde, bu iddianın katı hali şudur: Depolanmış kelimeleri geri kusan bir arama tablosu. Ve işte tam bu kısım, bir dil modelinin nasıl çalıştığını anlatmıyor. İçinde, bir şeyleri arayabileceğiniz cümlelerden oluşan bir sözlük yok. Ama iddianın daha yumuşak, daha ilginç bir hali var ve o hali ciddiye alınmayı hak ediyor.

Kendi görüşümün en güçlü ve dürüst versiyonu şöyle kurulabilir. Bir dil modeli gerçekten de dar tek bir şeyi yapmak üzere eğitilir: bir sonraki metin parçasını tahmin etmek. Mühendisler ona çok büyük miktarda metin verir ve örtülen bir sonraki kelimeyi doğru tahmin ettiğinde onu tekrar tekrar ödüllendirir. Eğitim hedefinin tamamı budur. 2019 tarihli ünlü GPT-2 makalesi matematiği yalın biçimde ortaya koyar: model, kendisinden önce gelen her şey verildiğinde bir sonraki metin parçasının olasılığını öğrenir. [2] Yani "ne yapması isteniyor?" düzeyinde, otomatik tamamlama karşılaştırması bir hakaret değil. Tam anlamıyla iş tanımıdır.

Şüpheciliğimin saygın bir akademik hali de var. 2021'de, Emily Bender ve Timnit Gebru'nun öncülük ettiği tanınmış bir grup araştırmacı, fikre lakabını veren bir makale yayımladı: olasılıksal papağan (stochastic parrot). Tanımları alıntılanmaya değer, çünkü neredeyse tıpatıp benim T9 lafımın daha özenli bir dille söylenmiş hali. Bir dil modeli, diye yazdılar, "devasa eğitim verisinde gözlemlediği dilsel biçim dizilerini, bunların nasıl birleştiğine dair olasılıksal bilgiye göre, ama anlama hiç başvurmadan gelişigüzel birbirine ekleyen bir sistemdir". [3] Metnin "iletişimsel niyete, herhangi bir dünya modeline ya da okuyucunun zihin durumuna dair herhangi bir modele dayanmadığını" ve çıkardığı anlamın makinenin değil, insan okurun kattığı bir şey olduğunu savunurlar. Bu ciddi, çokça atıf alan bir konum ve açıkça benim tarafımda duruyor.

xkcd 1838: Bir çöp adam, bir makine öğrenmesi sistemini, içine veri döküp diğer taraftan cevap topladığınız büyük bir doğrusal cebir yığını olarak anlatır; cevaplar yanlışsa, doğru görünmeye başlayana kadar yığını karıştırmanız yeter. — "Nasıl olsa sadece istatistik" sezgisi, bir şaka olarak çizilmiş. Şaka tutuyor çünkü içinde gerçek bir doğruluk payı var. Soru şu: bu, doğrunun tamamı mı?Çizgi: xkcd 1838, “Machine Learning”, Randall Munroe (CC BY-NC 2.5).

Dahası da var, çünkü dil modelleri T9'un hiç yapmadığı şeyi yapar: kendinden emin biçimde akıcı, makul ve tümüyle yanlış metin üretirler. Araştırmacılar buna konfabülasyon diyor ve 2024'te bir ekip bunu saptamak için bir yöntemi Nature dergisinde yayımladı. Tarifleri neredeyse komik: bu modellerden biri konfabüle ettiğinde "hiçbir sebep yokken bir şey uydurur" ve bunu yakalayabilirsiniz, çünkü aynı soruyu başka bir rastgelelik payıyla yeniden sorduğunuzda çoğu zaman farklı bir uydurma cevap verir. [4] Bu nadir bir laboratuvar tuhaflığı değil. Bir modelin, kendisine verilen bir belgedeki olgulara sadık kalıp kalmadığını ölçen, yeniden üretilebilir bir sektör ölçütünde, daha iyi modeller desteksiz iddiaları yüzde 4'ün altında bir oranda uydururken, bazı daha zayıf modeller bunu yüzde 20'nin üzerinde bir oranda yapıyor. [5] (Bunlar Mayıs 2026'dan, sağlayıcının ölçtüğü, insan değil yazılım tarafından değerlendirilen anlık değerler; bunu kesin hüküm değil, kaba bir gösterge olarak düşünün.)

Ve gerçek insanlara da zarar verdi. 2023'te New York'taki bir davada iki avukat, var olmayan mahkeme kararlarıyla dolu bir dilekçe sundu. ChatGPT'den iddialarını destekleyecek emsal kararlar istemişlerdi, o da üretti: ikna edici isimler, makul alıntılar, ne ararsanız vardı. Tek sorun, davaların kurgu olmasıydı. Hakim avukatlara para cezası verdi ve kararların varlığı sorgulandıktan sonra bile uydurma kararları savunmayı sürdürdüklerini kaydetti. [6] Bir uzmana hiç istifini bozmadan yedi hayali mahkeme kararı uzatabilen bir araç, hiç değilse o an, avukat gibi konuşmayı öğrenmiş bir papağan gibi davranıyor demektir. Buraya kadar görüşüm iyi dayanıyor.

Şimdi, frene basmama neden olan kısım. "Sadece T9" lafı, eğitim görevi basit olduğu için sonucun da basit olması gerektiğini sessizce varsayar. İşte bu varsayımda çöker ve en açık kanıt, hem de bir tahta oyunu olan Othello üzerine bir deney.

Bir araştırma grubu, bir modeli yalnızca kurallara uygun Othello hamle dizileri üzerinde eğitti. Ona kurallar hiç söylenmedi. Hiç tahta görmedi. Yalnızca bir sonraki hamleyi tahmin etti, "gelişmiş otomatik tamamlama"nın olabilecek en saf hali. Sonra içine baktılar ve modelin tamamen kendiliğinden, tahtaya dair içsel bir temsil kurmuş olduğunu buldular: taşların nerede olduğunu ve sıranın kimde olduğunu. Hatta bu içsel temsile uzanıp onu değiştirebiliyor ve modelin tahminlerinin buna göre değiştiğini görebiliyorlardı. Makalenin adı, çok yerinde biçimde, "Emergent World Representations" ve "tahta durumunun ortaya çıkan, doğrusal olmayan bir iç temsiline dair kanıt"tan söz ediyor. [7] Saf bir sonraki-hamle tahmincisi, daha iyi tahmin etmek için bir dünya modeli kurdu. T9'un hiçbir şeyin modeline ihtiyacı olmadı, çünkü bir kelimeyi sözlükte aramak hiçbir anlama gerektirmez. Bu ise gerektiriyor.

Aynı sürpriz, sıradan kullanımda da kendini gösterir. Bu modeller büyüdükçe, kimsenin onları eğitmediği görevleri yapmaya başladılar. 2020 tarihli, ilk ChatGPT'nin gelişim çizgisinde yer alan GPT-3 modelinin, hiç yeniden eğitim olmaksızın, yalnızca girişe yazılan birkaç örnekten bambaşka görevleri yerine getirdiği gösterildi. [8] Ona hiç görmediği bir işi verebilir, iki örnek gösterebilirsiniz ve örüntüyü izler. Telefonunuzun tahminli yazımı, sohbet kutusundaki iki örnekten yeni bir görev öğrenemez. Sonsuza dek tek bir şey yapar. Büyük modellerin içinde her ne oluyorsa, "sabit arama tablosu" o değil.

Burada dürüst yanıtın, bilimin hala kendi içinde tartıştığını da kabul etmesi gerekir, çünkü basit bir hikayeyi başka bir basit hikayeyle değiştirmek istemiyorum. Bu şaşırtıcı yeni yeteneklere dair gerçekten açık bir tartışma var; bunlara çoğu zaman ortaya çıkan yetenekler (emergent abilities) deniyor. 2022 tarihli etkili bir makale, bunların ölçek büyüdükçe aniden belirdiğini ve daha küçük modellerden tahmin edilemeyeceğini savundu. [9] 2023 tarihli bir makale buna sertçe karşı çıktı: o görünürdeki aniliğin büyük bölümünün, testleri nasıl puanladığımızın yarattığı bir yanılsama olduğunu savundu; aynı yeteneği daha ince ayrımlı bir ölçekle ölçtüğünüzde sıçrama ortadan kalkıp düzenli ve öngörülebilir bir artışa dönüşüyor. [10] Her iki makale de ciddi araştırmacıların eseri ve mesele kapanmış değil. Yani biri size, hangi yönde olursa olsun, makinenin "anlama" sorununun çözüldüğünü söylüyorsa, kanıtların söylediğinden ileri gitmiş demektir.

Logaritmik ölçekli çubuk grafik: dil modeli boyutunun 340 milyon parametreden (BERT, 2019) 1,57 trilyona (Switch-C, 2021) büyümesini, yani yaklaşık üç yılda kabaca 4.600 kat artışı gösteriyor. — Ölçek, kimsenin itiraz etmediği kısım. Modeller birkaç yılda binlerce kat büyüdü ve davranışları da onlarla birlikte değişti. Veriler, Bender ve arkadaşlarının "Stochastic Parrots" makalesinin Tablo 1'inden birebir alınmıştır [3]; grafik Ramazan Yavuz tarafından çizilmiştir.

Peki bu durumda en sevdiğim laf ne oluyor? Bir yanı doğrulanmış, bir yanı emekliye ayrılmış. İşte artık savunacağım hüküm, ve bu iki parçalı bir hüküm.

Sezgim hedef konusunda haklıydı. Bu sistemler gerçekten de bir sonraki metin parçasını tahmin etmek üzere eğitiliyor ve o tahmin yoldan çıktığında gerçekten de, düşünceli bir insanın yapmayacağı biçimde, kendinden emin saçmalıklar üretiyorlar. Yapay zekadan, sanki bir insan uzmanın bildiği gibi bir şeyler biliyormuş gibi söz eden herkes gerçek bir noktayı atlıyor ve olasılıksal papağan ekibi buna ısrarla işaret etmekte haklı.

Ama sezgim mekanizma ve sonuçlar konusunda yanılıyordu. "Gelişmiş T9", bir arama tablosu fikrini el altından sokuşturuyor ve bu sistemler öyle çalışmıyor. Yalnızca tahmin etmek üzere eğitilen bir sistem, yeterli ölçekte, kendi küçük dünyasının bir modeline epey benzeyen iç yapılar kurabilir ve kendisine hiç gösterilmemiş görevleri öğrenebilir. Bu, T9'un yaptığından kategorik olarak fazlasıdır ve aksini iddia etmek başlı başına dürüst olmayan bir tutumdur. Doğru cümle, eski cümlemden daha uzun ve daha az alıntılanabilir: Bunlar, tahminleri altında şaşırtıcı bir düzenek kuracak kadar iyi hale gelmiş bir sonraki-kelime tahmincileridir, ve o düzeneğin neye karşılık geldiğini hala tartışıyoruz.

Ve bence varılacak en yararlı sonuç bu. Ne "nasıl olsa sadece otomatik tamamlama, rahatla", ne de "anlıyor, hayran kal". Daha dikkatli ve daha ilginç bir şey: eleştirmenlerinin betimlediği yönlerden gerçekten sığ, eleştirmenlerinin gözden kaçırdığı yönlerden gerçekten şaşırtıcı bir araç; ve tam da bu ikisi aynı anda doğru olduğu için anlaşılmaya değer. Bu espriyi kullanmaya devam edeceğim. Sadece onun hikayenin tamamı olduğunu varsaymayı bırakacağım.

Kaynaklar