25 เมษายน · ผมเห็น Karpathy ปล่อย “Auto Research” — AI ทดลอง code เองวนลูป · ผมไม่ใช่ developer · เอามาใช้กับ blog ตัวเอง · วันแรก hook score 9.2/10
เห็นในคลิป
มีคลิป YouTube ตัวหนึ่งชื่อ “I Used Karpathy’s Autoresearch to Train an LLM!” · 30 นาที · คนทดลองใช้ pattern ของ Andrej Karpathy ในการ train LLM เล็ก ๆ ด้วยตัวเอง
Karpathy เรียก pattern นี้ว่า “Agentic Engineering” — แปลแบบไม่ tech: AI ทำงานวนลูปเอง · มนุษย์เปลี่ยนจาก “ผู้เขียน code” เป็น “Research Advisor” (คนกำหนดทิศ · ไม่ลงมือ)
“มนุษย์ไม่ได้ทำหน้าที่เป็นผู้ประสานงานอีกต่อไป · แต่ทำหน้าที่เหมือนที่ปรึกษาด้านการวิจัย · มีหน้าที่อธิบายว่าการวิจัยที่ดีควรเป็นอย่างไรในไฟล์ markdown · แล้วเดินจากไปได้เลย” — Karpathy
ผมหยุดดู · นี่ตรง thesis introvertlogic เป๊ะ (“ทำ AI โดยไม่ code”) — แต่อันนี้ไปไกลกว่าคือ ไม่อยู่ตอน AI ทำงานก็ได้
ก่อนเห็นคลิป — ความเหนื่อยของการเดา hook
ทุกครั้งที่ผมเขียน post ใหม่ · ผมจะนั่งเขียน hook 5-6 แบบ · เลือกที่รู้สึกดีที่สุด · publish · จบ
ปัญหา: ผม guess · ไม่มี feedback loop · ไม่รู้ว่า hook ที่เลือกดีกว่าตัวอื่นกี่ %
ลองคิดว่าจะ A/B test? — blog เดียว · 1 URL · ทำ A/B ในหัวเดียวก็ทำได้ · ในระดับ production ก็ทำไม่ได้
นี่คือสภาพที่ทำให้ผม “เปิดใจ” กับ Karpathy pattern ทันทีเมื่อเห็น
Pattern ของ Karpathy
3 ไฟล์ · 3 บทบาท · ratchet loop:
program.md— มนุษย์เขียน · เป้าหมาย · rubric · ข้อจำกัดexperiment.py— AI sandbox · แก้ได้ตัวเดียวmetric.py— ตัวชี้วัด · ห้ามแตะ (กัน AI cheat)
วงจร “Ratchet Loop”: 1. AI อ่าน goal · ตั้งสมมติฐาน 2. แก้ experiment.py 3. รัน metric → score 4. ดีขึ้น → keep · แย่ลง → git reset ย้อน 5. วนใหม่ · ไม่หยุดจนกว่ามนุษย์จะสั่ง
หัวใจคือ git reset — เหมือนประแจหมุนข้างเดียว · ไปข้างหน้าอย่างเดียว · ไม่ถอยหลัง
ในกรณีศึกษาคลิป · AI รัน 11 ครั้ง · val_bpb ลดลงทุกรอบ · text ที่ model สร้างได้ดีขึ้นชัดเจน
ผมไม่ใช่ developer แต่…
ผมไม่ train LLM · ผมเขียน blog
แต่กฎ 3 ข้อของ Karpathy เปิดทางให้ใช้ทุกที่ที่มี metric วัดได้อัตโนมัติ:
1. มี metric เป็นตัวเลขเดียว 2. มีไฟล์เดียวที่ AI แก้ได้ 3. มีรอบที่จบในเวลาจำกัด
ของผม:
- Metric: Claude Judge ให้คะแนน hook 1-10 vs rubric (Lab Ledger voice · concrete number · ไม่ marketing-speak)
- ไฟล์ AI แก้: prompt template ที่ใช้ generate hook
- รอบ: 5 posts × 5 วินาที/post = 25 วินาทีต่อรอบ
แล้วเขียน skill ใหม่ชื่อ auto-research · scaffold ครบ · loop.py orchestrator · vendored Karpathy’s pattern เข้า workflow ตัวเอง
ผลวันแรก — 9.2/10
Held-out set = 5 posts ล่าสุดของ introvertlogic · baseline target 8/10
“ post 298 (Claude Mythos): 10/10 post 294 (Gemini April): 10/10 post 286 (Sound Therapy 2): 9/10 post 260 (Sound Therapy 1): 8/10 post 229 (AI Workflow): 9/10 ───────────────────────────────── Average: 9.2/10 “
ตัวอย่าง hook ที่ AI generate ได้คะแนนเต็ม:
“เมื่อ AI เจอ bug ที่ซ่อนมา 27 ปี · ทำไม Anthropic ถึงซ่อนมันจากเรา?” (สำหรับ post Claude Mythos)
“6 features · 1 app · 1 subscription · แต่ 2 ปัญหาใหญ่: geo-lock + paid tier” (สำหรับ post Gemini April Drop)
ทั้งสองตัวมีตัวเลข · contrarian · ไม่ spoil · voice ตรง — judge ตรวจให้คะแนน 10/10 พร้อม reasoning
สิ่งที่ surprise ที่สุด: baseline ทะลุเป้า 8/10 ตั้งแต่รอบแรก ก่อนทำ ratchet ด้วยซ้ำ — แปลว่า prompt ที่เคยใช้ดีกว่าที่คิด · งานต่อไปคือ push 9.2 → 10/10
กฎ 3 ข้อ ใช้ได้ทุกสายงาน
Karpathy บอกว่า pattern นี้ใช้ได้ทุก domain ที่ครบ 3 เงื่อนไข — ไม่จำกัด ML
ผมคิดถึง 3 งานที่อยากลอง loop นี้ต่อ:
- hook score ของ introvertlogic → ทำอยู่แล้ว · 9.2/10
- headline ของ newsletter (ยังไม่มี) → metric = open rate
- cover image prompt → metric = vision score จาก Claude Vision
ส่วนยากที่สุดของคนไม่ code คือเขียน program.md ให้ดี — แปลความรู้ในหัวเป็นกฎที่ AI ทำตามได้
“การเขียน program.md ที่ดีต้องการคนที่เคยทำวิจัยนั้นจริง ๆ ด้วยตัวเอง — และนั่นอาจเป็นทักษะที่มีค่าที่สุดในทศวรรษหน้า” — Karpathy (แปล)
มนุษย์ไม่ได้หมดค่า — แต่งานเปลี่ยน · expert เป็นคนกำหนดทิศ · AI ลงมือ
คำถามที่ค้างวันแรก
- 9.2/10 อาจเป็นผลของ judge เก่ง ไม่ใช่ generator เก่ง — ต้อง cross-check กับคนจริงไหม?
- AI judge เห็น rubric เดียวกับ generator — bias ในการให้คะแนน?
- Loop รอบที่ 2-3 จะดันคะแนนได้ไหม หรือถึง ceiling แล้ว?
ตอบไม่ได้วันแรก · ต้องวนต่ออีกหลายรอบ
บรรทัดสุดท้าย
วันแรกที่ skill นี้ทำงานเสร็จ · ผมไม่ได้ทำ blog ลด · แต่นั่งถามตัวเองว่า “อยากให้ blog เป็นยังไงในอีก 6 เดือน”
คำถามนั้น AI ตอบไม่ได้ · Karpathy เรียกสิ่งนี้ว่า judgment — แต่ผมคิดว่ามันเป็นแค่ความอยากรู้ว่าชีวิตควรไปทางไหน
นี่อาจเป็นข้อได้เปรียบของคน introvert — เราไม่ค่อยเสียเวลากับ social game · เวลาคิดมีเยอะกว่าคนอื่น · ที่ใช้คิดว่าทิศไหนคุ้ม · ทิศไหนทิ้ง · เพื่อบอก AI ให้ทำต่อ
📍 Tested — ตัวเลข 9.2/10 จาก _auto-research/_runs/hook-1761403320.json ของจริง · ของวันที่ 25/04/2026 · 5 held-out posts · 25 second per round
Sources
- I Used Karpathy’s Autoresearch to Train an LLM! (YouTube)
- introvertlogic implementation: skill
auto-research+ scaffold_auto-research/(open source on this site if you ask) - NotebookLM briefing-doc ของ source: ใช้ Notebook LM ย่อย video → ได้ briefing-doc 12 KB ใช้ตัดสินใจ adopt
Title options (เลือก 1)
A. “Karpathy ปล่อย Auto Research · ผมไม่ใช่ developer · เอามาลองวันแรก · 9.2/10” – Number-first · concrete · contrarian (non-developer adopt)
B. “AI ทดลองเองตอนผมหลับ — ตื่นมา hook score 9.2/10” – Story angle · curiosity gap · less specific
C. “วันที่ผมเปลี่ยนเป็น ‘Research Advisor’ — เลิก improve hook เอง” – Identity shift angle · big-picture · less number-led
ผม recommend A — ตัวเลข concrete · contrarian (non-developer) · match thesis “tested”