Yerel LLM'ler hakkında fikrimi değiştiren ThinkPad

Yerel modellerle ciddi olarak ilgili her şey için uzun süredir dGPU'lu makineleri tercih ettim. 16 GB mobil GPU benim için kullanılabilir boyutun alt sınırıydı, ve altındaki her şey "zaten API'yi arayacağım" anlamına geliyordu. Bu, Strix Halo çıkana kadar makul bir varsayımdı. Sahip olduğum zihinsel modelin bunda kırıldı.

Strix Halo, büyük entegre bir GPU ve unified bellekli bir APU'yu paketler. Test ettiğim ThinkPad'de, GPU'nun ihtiyacına göre alabileceği 64 GB LPDDR5X var. Bu, eski zihinsel modelimi kıran sayı. 16 GB mobil dGPU sıkı bir sınırdır: 16 GB'nin üzerinde model ağırlığı yok. 64 GB unified bellekle sınır bunun yerine inferans'ın ne kadar büyük makul hızda çalıştığıdır. Bu, farklı bir kısıtlama biçimidir.

Fiyat beni satın almaya iten şeydi. 64 GB ile bir Strix Halo ThinkPad, 16 GB mobil dGPU'lu karşılaştırılabilir bir sistemden daha ucuz. dGPU makinelerinde GPU için, dahili VRAM için, her ikisini de evcilleştiren soğutma sistemi için ve hepsini barındıracak kadar büyük bir kasa için ödersiniz. Strix Halo'da bir APU için ödersiniz. Bu, aynı bellek bant genişliğinde ve gerçekten kullandığım 30B sınıfı modeller için benzer performanslı inferans'ta birkaç yüz Euro'luk bir fark.

Eğitim için kullanmazdım. 70B sınıfı modeller için kullanmazdım. Bellek bant genişliği entegre GPU standartlarına göre yüksektir, ama bir RTX 4090 mobile sunduğundan altındadır. İş yükünüz gerçekten bant genişliği sınırlıysa (ve bazıları öyledir), farkı hissedeceksiniz.

Kanepede Cyberpunk oynamak istesem alacağım şey de değil. Strix Halo için oyun sistemi iyidir, ama onu bunun için almadım.

Tipik iş akışım, cihazı yerel-tabanlı kod asistanları ve ayrıştırma yükleri için bir mobil iş istasyonu olarak kullanır. 14B veya 32B instruction-tuned bir model Q4_K_M ile rahatça çalışır, kodlama oturumlarında yolda olmayan bir yanıt gecikmesi ile. Embedding modelleri arka planda eş zamanlı çalışır. Bir Wireshark veya profilcı iş yüküne geçtiğimde, GPU'nun kullandığı RAM CPU'ya geri gider. Bu, unified bellek hikayesidir: diğer görevler için kullanılamayan dahili bir VRAM yok.

Bu yük altında üç saatlik pil ömrü gerçekçi. Sadece yazı yazarken sekiz saat de gerçekçi. Cihaz, sahip olduğum çoğu dGPU'lu ThinkPad'den yük altında pasif olarak daha serindir, çünkü 80 W bir GPU'nun yapacağı hiçbir şeyi yapmaz.

Hala bir ThinkPad. Klavye klavyedir. Trackpoint oradadır. Servis kapağı normal bir tornavida ile açılır. SSD değiştirilebilirdir. Wi-Fi modülü değiştirilebilirdir. eSIM ve fiziksel olarak meşgul olabilen bir LTE yuvası vardır. Web kamerasında fiziksel bir kapak vardır. Şasi son on yılın tüm ThinkPad'leri gibi hissettirir, modern P serisinin hafif sub-1.5kg ağırlığıyla.

Linux makinede çalışıyor, ki bu garanti değildi. Strix Halo yeni donanımdır, ve kernel desteği aşamalar halinde geldi. Mevcut 6.x kernel'inde Wi-Fi, ses, askıya alma, klavye arka ışığı, fan kontrolü ve entegre GPU kutudan çalışır. Hibernate doğru swap dosyasıyla çalışır. Harici HDMI çalışır. USB-C ekran çıkışı çalışır. Eksik olan: bazı satıcıya özgü güç ayar araçları. Ama TLP, auto-cpufreq ve normal güç yönetimi yığını her zamanki yaptıkları şeyi yaparlar.

Cihaz herkes için değil. İş akışınız bir 4090 veya daha büyüğü üzerine kuruluysa, doğru olan değil. Yerel olarak büyük eğitim çalışmaları istiyorsanız, doğru olan değil. En sessiz, en hafif, en uzun çalışan dizüstü istiyorsanız ve makinede LLM iş yükleri yapmıyorsanız, cüzdanınız için daha iyi seçenekler var.

Ama benim gibi her gün yerel modellerle çalışıyor, mobil bir iş akışına ihtiyaç duyuyor ve dGPU ödünleri olmadan bu iş akışlarını taşıyacak bir makine istiyorsanız – Strix Halo, pazarda matematiğin farklı çıktığı ilk noktadır. Zihinsel modelimi "yerel iş istasyonu demektir"den "yerel dizüstü olabilir"e kaydırdı, ve bu beklediğimden büyük bir değişiklik.