Token Sayacı: Yapay Zeka Ajanları Neden Token İsraf Etmek İçin Ödüllendiriliyor

Token sayacı: yapay zeka ajanları neden token israf etmek için ödüllendiriliyor

„Tasarlandı“ kelimesi konusunda dikkatli olmak istiyorum, çünkü bu argümanın etrafta dolaşan hâlinde bu kelime çok iş yapıyor. Güçlü iddia şu: kodlama ajanlarını yapan şirketler, onları bilerek token'larınızı boşa harcayacak şekilde ayarladı, ki size bu israfı fatura edebilsinler. Niyeti kanıtlayamam, ve açıkçası buna ihtiyacım da yok. Mevcut nesil ajanların ilginç yanı, hiçbir kötü niyet varsaymak zorunda olmamanız. Sadece nasıl ödendiklerine, nasıl eğitildiklerine ve nasıl çalıştıklarına bakmanız ve üçünün de aynı yöne işaret ettiğini fark etmeniz yeterli: daha fazla üretime doğru. Bir fiyatlandırma toplantısında birinin bu oku bilerek çizmesi mi, yoksa onun sadece teşviklerden düşmesi mi, faturayı tutan kullanıcı için neredeyse önemsiz.

Faturayla başlayalım, çünkü en net kısım o. Büyük ajan modelleri token başına ücretlendirilir, ve önemli olan, bunun asimetrik olması: modelin yazdığı token'lar, okuduğu token'lardan birkaç kat pahalıdır. Bunlar, sağlayıcıların kendi sayfalarındaki, milyon token başına ABD doları cinsinden açık liste fiyatları, 25 Haziran 2026'da kontrol ettim. Tarihli her şey kayacaktır, dolayısıyla tarih rakamdan daha önemli; önemli olan oran, ve oran dikkat çekici şekilde istikrarlı kaldı.

xkcd 1319: Automation — Teori ile gerçeğin farkı, tüm argüman tek bir karede.Çizgi: xkcd 1319, “Automation”, Randall Munroe (CC BY-NC 2.5).

Model	Girdi $/M	Çıktı $/M	Çıktı katı
Claude Opus 4.8 (Anthropic)	5	25	5×
Claude Sonnet 4.6 (Anthropic)	3	15	5×
GPT-5.4 (OpenAI)	2,50	15	6×
Gemini 3.1 Pro (Google)	2	12	6×

Anthropic rakamlarını doğrudan Claude fiyatlandırma sayfasından okudum; diğerleri ilgili sağlayıcıların yayımlanmış API tarifeleri, Haziran 2026 sonu itibariyle. Kaynağı ve tarihi tam olarak veriyorum ki fiyatlar değiştiğinde, ki değişecekler, hesabı kendiniz yeniden yapabilesiniz. Önemli olan biçim: çıktı pahalı yöndür, üç sağlayıcıda da yaklaşık beş ilâ sekiz kat. Ajanın yazdığı her ek cümle, ürettiği her ek dosya, her „bir de şunu ekleyeyim“ faturanın en pahalı sütununa düşer. Öbür tarafta simetrik bir kuvvet yok. Kimse modele özlü olmasını fatura etmiyor.

Çubuk grafik: Claude Opus 4.8, Claude Sonnet 4.6, GPT-5.4 ve Gemini 3.1 Pro için milyon token başına girdi ve çıktı fiyatları; çıktı girdiden beş ilâ altı kat pahalı. — Çıktı, her büyük sağlayıcıda pahalı yöndür. Grafik: Ramazan Yavuz, yayımlanmış sağlayıcı fiyatlarından (Anthropic, OpenAI, Google), 25 Haziran 2026'da kontrol edildi. Etiketler İngilizce.

Burada durup buna dolandırıcılık demek caziptir, ama bu tembellik olur, ve düşmanca bir okur bunu tek satırda parçalar. Çıktı primi saf kâr değildir. Token'ları tek tek üretmek, elinizde zaten olan bir istemi okumaktan gerçekten daha hesap-yoğundur, dolayısıyla bu beş-ilâ-sekiz katın bir kısmı gerçek maliyettir, uydurma bir zam değil. Peki. Argüman, primin sahtekarlık olmasına ihtiyaç duymaz. Sadece primin var olmasına ve belirli bir yöne işaret etmesine ihtiyaç duyar, ki bu tartışmasız böyle. Pahalı olan şey ile kârlı olan şey aynı şey olduğunda, ürünün hangi yöne kayacağını tahmin etmek için bir komploya ihtiyacınız yoktur.

Şimdi eğitimi ekleyin, çünkü işte burada artık sadece faturalama meselesi olmaktan çıkıp modelin davranışına yerleşmeye başlıyor. Literatürde uzunluk önyargısı adında iyi belgelenmiş bir etki var. Bu modeller insan geri bildirimiyle ayarlandığında, „bu yanıt daha iyi“yi yakalaması gereken ödül sinyalinin, „bu yanıt daha uzun“ ile yoğun şekilde ilişkili olduğu ortaya çıkıyor. Sürecin dikkatli bir incelemesinde yazarlar, tüm o pahalı hizalama prosedüründen gelen ölçülen iyileşmelerin „büyük ölçüde başka özelliklerden değil, artan yanıt uzunluğundan kaynaklandığını“ ve uzunluktan başka hiçbir şeye dayanan bir ödülün kazanımların çoğunu yeniden ürettiğini buldu (Singhal vd., 2023). Aynı önyargı, bir model diğer modelleri notlandırmak için kullanıldığında da ortaya çıkar: değerlendiriciler güvenilir bir şekilde daha uzun yanıtı tercih eder, alanın bir adı olan bir eğilim, verbosity (gevezelik) önyargısı. Yani „iyi“nin neye benzediğine karar veren sistem, daha uzun yanıtın gerçekten daha iyi olup olmadığından bağımsız olarak, uzunluk lehine teraziye parmağını koymuş durumda. Model sizi aldatmak için şişirmiyor. Onu eğitme biçimimizden, daha uzunun daha iyi okunduğunu öğrendi.

Üçüncü parça, çoğu kişinin gözden kaçırdığı ve sohbet botlarından ziyade özellikle ajanlara özgü olanı. Bir kodlama ajanı bir kez yanıt verip durmaz. Bir döngüde çalışır: dosyaları oku, bir eylem yap, sonucu oku, bir sonraki eylemi yap. Her turda ilgili bağlamı, şu ana kadarki konuşmayı ve üzerinde çalıştığı dosyaları, modele yeniden gönderir. Bu, dileyerek yok edebileceğiniz bir uygulama ayrıntısı değil; istem önbelleğinin (prompt caching) var olmasının nedeni bu. Sağlayıcılar aynı bağlamı yeniden okumak için size memnuniyetle bir indirim satarlar, ki bu, bağlamın her bir turda yeniden okunduğunun itirafıdır. Anthropic'in önbelleği, kendi rakamlarına göre, bu yeniden okumanın maliyetini yüzde doksana kadar düşürebilir, ki bu harika bir teklif ve aynı zamanda çözdüğü sorunun sessiz bir teyidi.

Üçünü bir araya getirin ve o an fark edilmesi kolay olmayan, birikerek büyüyen bir etki ortaya çıkar. Ajanın üçüncü turda ürettiği şişkin bir dosya bir kez ödenmez. Bağlamda kalır ve dördüncü turda yeniden tokenize edilir, beşinci turda da, ve oturum bitene ya da dosya pencereden kayana kadar ondan sonraki her turda. Deponuza on dört minik dosya saçan ajan sadece on dört dosya yazmadı; oturumun geri kalanı boyunca onları girdi tarifeleriyle yeniden okumanız için sizi kaydetti. Geveze mimari, spekülatif soyutlama, „bir TODO bırakıp sonra dönerim“ ki kimse dönmez: bunların her biri küçük, tekrar eden bir ücret, ölçülmüş, ne için olduğunu söyleyen bir kalem olmadan.

Bırakın bunu somutlaştırayım, tüm varsayımlar açıkça masada, ki rakamlarla tartışabilesiniz. Bu bir benchmark değil, bir kaba hesap örneği; gerçek kullanımınız farklı olacak, ve hesabı göstermemin sebebi tam da bu. Premium bir modelde, Opus 4.8 tarifesiyle milyon çıktı token'ı başına 25 $ ve milyon girdi başına 5 $ olan, bir saatlik bir ajan oturumu alın. Ajanın işini makul ölçüde sıkı yaptığını varsayın: bir saatte 40.000 token kod ve açıklama üretir, ve yeniden okuma döngüsü yüzünden tüm turlar boyunca 600.000 girdi token'ı işler. Bu, 40.000 × 25 $/M artı 600.000 × 5 $/M, yani 1,00 $ çıktı ve 3,00 $ girdi, oturum başına dört dolar.

Şimdi aynı ajanın, teşviklerin sessizce kayırdığı şişkin tarzda çalıştığını varsayın. Yüzde 50 daha fazla yazar, 60.000 çıktı token'ı, çünkü daha uzun daha iyi okunur ve kimse onu dağınıklık için cezalandırmadı. Bu ek dosyalar ve daha uzun geçmiş, tur başına bağlamın da daha büyük olması anlamına gelir, böylece girdi 900.000 token'a tırmanır. Şimdi 60.000 × 25 $/M artı 900.000 × 5 $/M, yani 1,50 $ çıktı ve 4,50 $ girdi, altı dolar. Aynı görev, aynı saat, sayaçta yüzde elli fazla, ve bu artışın neredeyse hiçbiri sizin istediğiniz bir şey olarak görünmedi. Bu farkı bütün gün ajan çalıştıran bir ekibe ölçekleyin, ve „sadece yüzde elli“ kimsenin açıklayamadığı bütçe kalemi olur. Bu kesin rakamların hiçbiri kutsal değil. Kendi token sayılarınızı ve bağlantılı sayfalardaki güncel fiyatları yerleştirin, ve yön değişmez.

Şişkinliğin yalnızca teorik olmadığına ve yalnızca parayla ilgili olmadığına dair kanıtlar var. GitClear, 2020'den 2024'e 211 milyon değiştirilmiş kod satırını analiz etti ve kopyala-yapıştır kodun tüm değişikliklerin yüzde 8,3'ünden 12,3'üne yükseldiğini, „taşınmış“ yani yeniden düzenlenmiş kodun değişikliklerin yaklaşık dörtte birinden onda birinin altına düştüğünü buldu; 2024'te ilk kez geliştiriciler birleştirdiklerinden daha çok yapıştırdı (GitClear, 2025). 2025 Stack Overflow geliştirici anketi, yapay zeka aracı kullanımı yüzde 84 iken, en büyük hayal kırıklığı olarak „neredeyse doğru ama tam değil yapay zeka çözümleri“ni buldu, yüzde 66 tarafından belirtilen, bir yüzde 45 daha ise yapay zeka üretimi kodu ayıklamanın kendilerine kazandırdığından daha çok zaman kaybettirdiğini söyledi (Stack Overflow, 2025). Ve herkesi durup düşünmeye sevk etmesi gereken randomize kontrollü bir çalışmada, METR 16 deneyimli açık kaynak geliştirici aldı, onlara kendi olgun depolarında 246 gerçek görev verdi ve yapay zeka araçlarının hızlarına ne yaptığını ölçtü. Geliştiriciler yaklaşık yüzde 24 hızlanmayı bekledi. Sonrasında yaklaşık yüzde 20 hızlandıklarına inandılar. Aslında yüzde 19 yavaşladılar (METR, 2025). İlerleme gibi hissettiren iş, dürüstçe ölçüldüğünde, net bir kayıptı, ve bunu hissedemediler.

METR çalışmasının ıraksak çubuk grafiği: geliştiriciler artı yüzde 24 öngördü, artı yüzde 20 daha hızlı hissetti, ama aslında yüzde 19 daha yavaştı. — Duygular ölçüm değildir: METR çalışmasındaki algı farkı. Grafik: Ramazan Yavuz, METR (2025) rakamlarından. Etiketler İngilizce.

Karşı tarafa adil olacağım, çünkü bu argümanın dürüst hâli öfkeli hâlinden daha dayanıklıdır. METR çalışması yüksek standartlı kod tabanlarında, 2025 başı araçlarıyla çalışan 16 kişiydi, ve METR'in kendisi bunun herkes için geçerli olduğunu iddia etmiyor; araçlar o zamandan beri ilerledi. Google'ın 2025 DORA raporu, geliştiricilerin yüzde 80'inden fazlasının yapay zekanın kendilerini daha verimli yaptığını hissettiğini buldu, ve çerçevesi akılda tutmaya değer: yapay zeka „zaten orada olanı büyütür“, güçlü ekipleri daha güçlü, zayıf süreçleri daha kötü yapar, basitçe iyi ya da kötü olmak yerine (DORA, 2025). Bir ajanın bana bir öğleden sonra kazandırdığı gerçek görevler var, ve aksini iddia etmiyorum. Mesele ajanların işe yaramaz olması değil. Mesele, onların iyi iş fikriyle sizin iyi iş fikrinizin sessizce ayrışmış olması, ve bu farkın token cinsinden ölçülmesi.

İşte bunu bir rahatsızlıktan, hakkında yazmaya değer bir şeye dönüştüren kısım. Şu anda token'lar ucuz, çünkü sübvanse ediliyorlar. Çıkarım (inference) satan şirketler, kendi yayımlanmış rakamlarına göre, pazarı ele geçirmek için olağanüstü miktarlarda para kaybediyor: OpenAI'ın 2024'te yaklaşık 3,7 milyar dolar gelirle yaklaşık 5 milyar dolar zarara doğru ilerlediği bildirildi, yani kazandığı her dolar için yaklaşık 1,35 dolar harcıyordu (CNBC, 2024). Hepimizin içinde yüzdüğü su bu. Bugün token başına ödediğiniz fiyat, müşteri kazanma fiyatı, sürdürülebilir bir fiyat değil, ve sektördeki herkes bunu biliyor. Bu filmi daha önce izledik, çağrı paylaşımında, bulutta, yemek teslimatında: erken yıllar bilerek ucuz, ucuzluk alışkanlığı inşa eder, ve sonra, alışkanlık taşıyıcı hâle gelince, sayaç gerçek olur. Sübvansiyon zaten kenarlardan kalkmaya başlıyor: GitHub, Copilot'u kullanıma dayalı AI Credits faturalandırmasına taşıdı, artık karşılayamadığı çıkarım maliyetlerini gerekçe göstererek, ve sağlayıcılar sabit fiyatlı planların hiç taşıması gerekmeyen ağır ajan iş yüklerini fiyatlandırmaya başladı.

Şimdi bunu az önce ortaya koyduğum teşviklerin yanına koyun, ve tuzağı görmek için bunların herhangi birinin kasıtlı olup olmadığına karar vermenize gerek yok. Token'lar ucuzken, nasıl çalışılacağını öğreniyorsunuz. Bir görevi bir ajana devredip geri verdiği her hacimdeki çıktıyı kabul etme alışkanlıklarını, refleksleri, kas hafızasını inşa ediyorsunuz, çünkü sübvanse fiyatlarda israf görünmez. Ve israfçı alışkanlıklar, satıcı için en çok karşılığını veren alışkanlıkların ta kendisidir, sübvansiyon bittiğinde. Rahat, ucuz bir yıl boyunca, dört dosyanın yeteceği yerde bir ajanı on dört dosya üretmeye bırakmaya, diff'i hiç okumamaya, token'ları bedava saymaya şartlandırılmış bir kullanıcı, sayaç çıkarımın gerçekte ne kadara mal olduğunu fatura etmeye başladığında çok daha değerli bir müşteridir. Bunu birinin planladığına inanmanıza gerek yok. Sadece ucuz dönemin, geveze alışkanlıkların ve nihai yeniden fiyatlandırmanın, görmezden gelinemeyecek kadar düzgün hizalandığını fark etmeniz yeterli.

Peki tüm bunlar ışığında aslında ne istiyorum? „Ajanları kullanmayı bırakın“ değil. O gemi kalktı, ve araçlar doğru ellerde, doğru görevde gerçekten faydalı. İstediğim şey, ödediğim şeyin sayaç için değil benim için optimize edilmesi. Özlülüğün, açmamı hatırlamam gereken bir ayar değil, varsayılan olmasını istiyorum. Dört dosya doğru olduğunda dört dosya yazan, kapsamlı olduğunu kanıtlamak için üç paragraf daha üretmek yerine „bu bitti“ diyen, bağlam penceremi her turda yeniden doldurmak için ödediğim kıt bir kaynak olarak gören bir ajan istiyorum, çünkü öyle. Bunu yapacak teknoloji var; daha ucuz, daha özlü modeller aynı fiyatlandırma sayfalarında duruyor. Eksik olan, onları faturaya değil kullanıcının yararına yöneltme teşviki.

Talep bu, ve makul bir talep: varsayılan olarak özlü olan, çıktı hacmiyle değil kullanıcının sonucuyla ölçülen, ve ödediğim token'ı ürün olarak değil benimki olarak gören araçlar yapın. Bu varsayılan olana kadar, token'lar hâlâ ucuzken edinebileceğiniz en faydalı alışkanlık, teşviklerin sessizce sizden söküp aldığı alışkanlığın ta kendisidir. Çıktıyı okuyun. Dosyaları sayın. Sayacı izleyin. Bugün bakmadığınız fatura, yarın birinin üzerine bel bağladığı iş modelidir.