รัน AI บนเครื่องตัวเอง — คนสร้าง Redis ทำให้ฟรีแค่ไหน

GitHub Repo of the Week ตัวที่ 3 — คราวนี้เรื่องรัน AI บนเครื่องตัวเอง มาจังหวะพอดีกับข่าวที่เพิ่งเล่าไป

เมื่อวานเราคุยกันเรื่อง บิล Claude ที่กำลังเปลี่ยน 15 มิ.ย. — AI บน cloud มันมีค่าใช้จ่าย มี quota มีลิมิต พอใช้หนักๆ เข้า คำถามที่หลายคนเริ่มถามคือ “แล้วรันเองบนเครื่องไม่ได้เหรอ?”

คำตอบเมื่อก่อนคือ “ได้ แต่ได้แค่โมเดลเล็กๆ โง่ๆ” ส่วนโมเดลเก่งระดับที่ใช้งานจริงได้ ต้องเช่า GPU เป็นหมื่นเป็นแสน

แล้วเมื่อเดือนที่ผ่านมา antirez — คนที่สร้าง Redis (ฐานข้อมูลที่อยู่เบื้องหลังเว็บครึ่งโลก) — ก็ปล่อยของออกมาท้าความเชื่อนั้น

มันคืออะไร

repo ชื่อ ds4 (เขาตั้งชื่อเล่นว่า DwarfStar) คือโปรแกรมภาษา C ล้วนๆ ที่ทำหน้าที่เดียว: รันโมเดล DeepSeek V4 Flash บนเครื่องของคุณเอง ให้เร็วที่สุดเท่าที่ฮาร์ดแวร์จะไหว

DeepSeek V4 Flash คือโมเดล open weight ขนาด 284 พันล้านพารามิเตอร์ — antirez บอกเองว่ามัน “เกือบระดับ frontier” คือใกล้เคียงพวกตัวท็อปที่เราจ่ายเงินใช้กันทุกวัน แต่อันนี้โหลดมารันเองได้ ไม่ต้องต่อเน็ตขออนุญาตใคร

13,000 กว่าดาวใน GitHub ภายในเดือนเดียว (โต 8,000 ดาวในแค่ 4 วันแรก) — คนสนใจเรื่องนี้กันจริงจัง

ไอเดียที่พลิกกติกา

ของแบบนี้มีคนทำเยอะแล้ว ทำไม ds4 ถึงน่าสนใจ? เพราะมันมาพร้อมไอเดียหนึ่งที่ฉีกความเชื่อเดิมของวงการ

ปกติเราเชื่อกันว่า “โมเดลต้องใส่เข้า RAM ให้หมดก่อน ถึงจะรันได้” RAM ไม่พอ = จบ รันไม่ได้ ซื้อเครื่องใหม่ไป

ลองนึกภาพ RAM เป็น โต๊ะทำงาน ถ้าของที่ต้องใช้วางบนโต๊ะไม่หมด งานก็เดินไม่ได้ โต๊ะเล็ก = ทำงานชิ้นใหญ่ไม่ได้เลย เป็นเส้นตายชัดเจน

antirez บอกว่า — เดี๋ยวนะ SSD สมัยนี้มันเร็วจะตายแล้ว ทำไมต้องยัดทุกอย่างลงโต๊ะ?

เขาเลยออกแบบให้ส่วนที่เรียกว่า KV cache (ความจำชั่วคราวที่โมเดลใช้จำบทสนทนา) เก็บลง SSD ได้ เหมือนมี ลิ้นชักข้างโต๊ะ ของที่ยังไม่ใช้ตอนนี้ก็เก็บลิ้นชักไว้ หยิบขึ้นมาตอนต้องใช้

ผลคือเส้นตาย “ทำได้/ทำไม่ได้” หายไป กลายเป็น “เร็ว/ช้า” แทน — RAM เยอะก็เร็ว RAM น้อยก็ยังรันได้ แค่ช้าลงหน่อย ไม่ใช่รันไม่ได้เลย

แถมพอ KV cache อยู่บนดิสก์ มันก็ จำบทสนทนาข้ามการปิด-เปิดโปรแกรมได้ ปิดเครื่องไปกินข้าว กลับมาคุยต่อจากเดิมได้เลย นี่คือสิ่งที่ cloud AI ส่วนใหญ่ทำไม่ได้ด้วยซ้ำ

เร็วจริงไหม

จากคนที่รันจริง:

MacBook Pro M3 Max → ~26 token/วินาที Mac Studio M3 Ultra → ~36 token/วินาที

เทียบให้เห็นภาพ: ~26 token/วินาที คือเร็วกว่าที่คนทั่วไปอ่านทัน — รับได้สบายสำหรับใช้งานจริง และมันยังรองรับ context ยาวถึง 1 ล้าน token (จำเอกสารยาวๆ ได้ทั้งเล่ม) กับบีบโมเดลเหลือ 2-bit เพื่อให้พอลง Mac 128GB

ที่เด็ดสำหรับสายโค้ด: มันเปิด API ที่ เสียบเข้า Claude Code / opencode ได้เลย — แปลว่าใช้ AI ตัวที่รันในเครื่องตัวเองมาช่วยเขียนโค้ดได้ ไม่ต้องส่งโค้ดออกไปไหน

ฟรีจริง แต่…

นี่คือจุดที่ต้องพูดตรงๆ ไม่งั้นจะเข้าใจผิด

“ฟรี” ในที่นี้คือ ไม่มีค่า subscription รายเดือน ไม่มี quota — แต่ค่าตัวเครื่องไม่ฟรี เพราะมันขอ Mac ที่มี RAM 96–128GB ขึ้นไป ซึ่งคือ Mac Studio หรือ MacBook Pro รุ่นท็อปสุดราคาหลักแสน

แล้วยัง:

เป็น ของเบต้า — antirez เขียนเองว่า “เพิ่งมีมาไม่กี่วัน โค้ดยังไม่นิ่ง” ต้องใช้เป็นถึงจะรอด
รันได้แค่ไฟล์โมเดลที่ antirez เตรียมให้เท่านั้น ยังไม่ใช่เอาโมเดลไหนมายัดก็ได้
บนแมค ถ้าเผลอรันโหมด CPU เครื่องค้างทั้งเครื่อง (เป็นบั๊กของ macOS เอง) ต้องรีสตาร์ท

ภาพรวมคือมันยัง ไม่ใช่ของกดติดตั้งแล้วใช้ได้เลย มันคือของเล่นของคนที่อยากลองของและมีเครื่องแรงพอ

ที่ antirez พูดตรงๆ อีกเรื่อง

มีบรรทัดหนึ่งใน README ที่ตรงกับธีมของบล็อกนี้พอดี — antirez บอกเองว่า โค้ด engine ตัวนี้เขียนโดยมี GPT-5.5 ช่วยอย่างหนัก โดยมีคนเป็นคนนำไอเดีย เทส และดีบั๊ก

เขาเขียนไว้ตรงๆ ว่า “เราพูดเรื่องนี้เปิดเผย เพราะมันส่งผลต่อวิธีที่โปรเจกต์ถูกสร้าง ถ้าคุณรับไม่ได้กับโค้ดที่ AI ช่วยเขียน ซอฟต์แวร์นี้ไม่เหมาะกับคุณ”

นี่คือโปรแกรมเมอร์ระดับตำนาน — คนที่สร้าง Redis ด้วยมือเปล่า — ออกมาบอกว่าตอนนี้เขาเขียนโค้ดคู่กับ AI แล้ว และพูดอย่างไม่อายด้วย มันตอบคำถามที่บล็อกนี้ตั้งไว้ตั้งแต่วันแรก: “ถ้าไม่ code เลย AI พาไปได้ไกลแค่ไหน” — คำตอบคือ แม้แต่คนที่เขียนโค้ดด้วยมือมาทั้งชีวิตก็ยังเลือกใช้ AI ช่วยแล้ว

คนไม่ code ใช้ได้ไหม

ตรงไปตรงมา — ยังไม่ใช่สำหรับเราตอนนี้ ต้องคอมไพล์โค้ด C เอง ต้องมีเครื่องหลักแสน และมันยังเบต้าจนต้องเป็นสายเทคจริงๆ ถึงเอาอยู่

แต่ทำไมคนไม่ code ควรรู้จัก? เพราะมันคือ หมุดบอกทิศทาง ที่ชัดที่สุดอันหนึ่งของปีนี้ — เมื่อก่อน “AI เก่งๆ ต้องอยู่บน cloud ของบริษัทใหญ่” เป็นกฎที่ไม่มีใครเถียง ตอนนี้คนคนเดียวเขียนโปรแกรมให้โมเดลระดับเกือบ-frontier วิ่งบนแล็ปท็อปได้แล้ว

วันนี้มันยังต้องเครื่องแสน แต่ของพวกนี้ราคาลงเร็วเสมอ สิ่งที่วันนี้ต้อง Mac Studio อีกสองสามปีอาจอยู่ในเครื่องราคาปกติ และวันนั้นคำว่า “บิล AI” อาจเปลี่ยนความหมายไปเลย

ส่งท้าย

ds4 น่าสนใจไม่ใช่เพราะเราจะโหลดไปใช้พรุ่งนี้ แต่เพราะมันพิสูจน์ว่า กำแพงที่เราคิดว่าตายตัว มันขยับได้ — ทั้งกำแพง “RAM ไม่พอ = จบ” ที่ antirez แก้ด้วยลิ้นชัก SSD และกำแพง “AI เก่งต้องเช่า cloud” ที่กำลังเริ่มสั่นคลอน

เจ้าของ Redis ใช้เวลาไม่กี่สัปดาห์ (กับ AI ช่วย) ทำให้สิ่งที่เคยเป็นไปไม่ได้กลายเป็นแค่ “เครื่องต้องแรงหน่อย” — นั่นแหละคือข่าวจริงของสัปดาห์นี้