INTROVERTLOGIC · LAB LEDGER

ENTRY LOG

AI ทดลองเองตอนผมหลับ — ตื่นมา hook score 9.2/10

25 เมษายน · ผมเห็น Karpathy ปล่อย “Auto Research” — AI ทดลอง code เองวนลูป · ผมไม่ใช่ developer · เอามาใช้กับ blog ตัวเอง · วันแรก hook score 9.2/10


เห็นในคลิป

มีคลิป YouTube ตัวหนึ่งชื่อ “I Used Karpathy’s Autoresearch to Train an LLM!” · 30 นาที · คนทดลองใช้ pattern ของ Andrej Karpathy ในการ train LLM เล็ก ๆ ด้วยตัวเอง

Karpathy เรียก pattern นี้ว่า “Agentic Engineering” — แปลแบบไม่ tech: AI ทำงานวนลูปเอง · มนุษย์เปลี่ยนจาก “ผู้เขียน code” เป็น “Research Advisor” (คนกำหนดทิศ · ไม่ลงมือ)

“มนุษย์ไม่ได้ทำหน้าที่เป็นผู้ประสานงานอีกต่อไป · แต่ทำหน้าที่เหมือนที่ปรึกษาด้านการวิจัย · มีหน้าที่อธิบายว่าการวิจัยที่ดีควรเป็นอย่างไรในไฟล์ markdown · แล้วเดินจากไปได้เลย” — Karpathy

ผมหยุดดู · นี่ตรง thesis introvertlogic เป๊ะ (“ทำ AI โดยไม่ code”) — แต่อันนี้ไปไกลกว่าคือ ไม่อยู่ตอน AI ทำงานก็ได้


ก่อนเห็นคลิป — ความเหนื่อยของการเดา hook

ทุกครั้งที่ผมเขียน post ใหม่ · ผมจะนั่งเขียน hook 5-6 แบบ · เลือกที่รู้สึกดีที่สุด · publish · จบ

ปัญหา: ผม guess · ไม่มี feedback loop · ไม่รู้ว่า hook ที่เลือกดีกว่าตัวอื่นกี่ %

ลองคิดว่าจะ A/B test? — blog เดียว · 1 URL · ทำ A/B ในหัวเดียวก็ทำได้ · ในระดับ production ก็ทำไม่ได้

นี่คือสภาพที่ทำให้ผม “เปิดใจ” กับ Karpathy pattern ทันทีเมื่อเห็น


Pattern ของ Karpathy

3 ไฟล์ · 3 บทบาท · ratchet loop:

  • program.md — มนุษย์เขียน · เป้าหมาย · rubric · ข้อจำกัด
  • experiment.py — AI sandbox · แก้ได้ตัวเดียว
  • metric.py — ตัวชี้วัด · ห้ามแตะ (กัน AI cheat)

วงจร “Ratchet Loop”: 1. AI อ่าน goal · ตั้งสมมติฐาน 2. แก้ experiment.py 3. รัน metric → score 4. ดีขึ้น → keep · แย่ลง → git reset ย้อน 5. วนใหม่ · ไม่หยุดจนกว่ามนุษย์จะสั่ง

หัวใจคือ git reset — เหมือนประแจหมุนข้างเดียว · ไปข้างหน้าอย่างเดียว · ไม่ถอยหลัง

ในกรณีศึกษาคลิป · AI รัน 11 ครั้ง · val_bpb ลดลงทุกรอบ · text ที่ model สร้างได้ดีขึ้นชัดเจน


ผมไม่ใช่ developer แต่…

ผมไม่ train LLM · ผมเขียน blog

แต่กฎ 3 ข้อของ Karpathy เปิดทางให้ใช้ทุกที่ที่มี metric วัดได้อัตโนมัติ:

1. มี metric เป็นตัวเลขเดียว 2. มีไฟล์เดียวที่ AI แก้ได้ 3. มีรอบที่จบในเวลาจำกัด

ของผม:

  • Metric: Claude Judge ให้คะแนน hook 1-10 vs rubric (Lab Ledger voice · concrete number · ไม่ marketing-speak)
  • ไฟล์ AI แก้: prompt template ที่ใช้ generate hook
  • รอบ: 5 posts × 5 วินาที/post = 25 วินาทีต่อรอบ

แล้วเขียน skill ใหม่ชื่อ auto-research · scaffold ครบ · loop.py orchestrator · vendored Karpathy’s pattern เข้า workflow ตัวเอง


ผลวันแรก — 9.2/10

Held-out set = 5 posts ล่าสุดของ introvertlogic · baseline target 8/10

post 298 (Claude Mythos): 10/10 post 294 (Gemini April): 10/10 post 286 (Sound Therapy 2): 9/10 post 260 (Sound Therapy 1): 8/10 post 229 (AI Workflow): 9/10 ───────────────────────────────── Average: 9.2/10

ตัวอย่าง hook ที่ AI generate ได้คะแนนเต็ม:

“เมื่อ AI เจอ bug ที่ซ่อนมา 27 ปี · ทำไม Anthropic ถึงซ่อนมันจากเรา?” (สำหรับ post Claude Mythos)

“6 features · 1 app · 1 subscription · แต่ 2 ปัญหาใหญ่: geo-lock + paid tier” (สำหรับ post Gemini April Drop)

ทั้งสองตัวมีตัวเลข · contrarian · ไม่ spoil · voice ตรง — judge ตรวจให้คะแนน 10/10 พร้อม reasoning

สิ่งที่ surprise ที่สุด: baseline ทะลุเป้า 8/10 ตั้งแต่รอบแรก ก่อนทำ ratchet ด้วยซ้ำ — แปลว่า prompt ที่เคยใช้ดีกว่าที่คิด · งานต่อไปคือ push 9.2 → 10/10


กฎ 3 ข้อ ใช้ได้ทุกสายงาน

Karpathy บอกว่า pattern นี้ใช้ได้ทุก domain ที่ครบ 3 เงื่อนไข — ไม่จำกัด ML

ผมคิดถึง 3 งานที่อยากลอง loop นี้ต่อ:

  • hook score ของ introvertlogic → ทำอยู่แล้ว · 9.2/10
  • headline ของ newsletter (ยังไม่มี) → metric = open rate
  • cover image prompt → metric = vision score จาก Claude Vision

ส่วนยากที่สุดของคนไม่ code คือเขียน program.md ให้ดี — แปลความรู้ในหัวเป็นกฎที่ AI ทำตามได้

“การเขียน program.md ที่ดีต้องการคนที่เคยทำวิจัยนั้นจริง ๆ ด้วยตัวเอง — และนั่นอาจเป็นทักษะที่มีค่าที่สุดในทศวรรษหน้า” — Karpathy (แปล)

มนุษย์ไม่ได้หมดค่า — แต่งานเปลี่ยน · expert เป็นคนกำหนดทิศ · AI ลงมือ


คำถามที่ค้างวันแรก

  • 9.2/10 อาจเป็นผลของ judge เก่ง ไม่ใช่ generator เก่ง — ต้อง cross-check กับคนจริงไหม?
  • AI judge เห็น rubric เดียวกับ generator — bias ในการให้คะแนน?
  • Loop รอบที่ 2-3 จะดันคะแนนได้ไหม หรือถึง ceiling แล้ว?

ตอบไม่ได้วันแรก · ต้องวนต่ออีกหลายรอบ


บรรทัดสุดท้าย

วันแรกที่ skill นี้ทำงานเสร็จ · ผมไม่ได้ทำ blog ลด · แต่นั่งถามตัวเองว่า “อยากให้ blog เป็นยังไงในอีก 6 เดือน”

คำถามนั้น AI ตอบไม่ได้ · Karpathy เรียกสิ่งนี้ว่า judgment — แต่ผมคิดว่ามันเป็นแค่ความอยากรู้ว่าชีวิตควรไปทางไหน

นี่อาจเป็นข้อได้เปรียบของคน introvert — เราไม่ค่อยเสียเวลากับ social game · เวลาคิดมีเยอะกว่าคนอื่น · ที่ใช้คิดว่าทิศไหนคุ้ม · ทิศไหนทิ้ง · เพื่อบอก AI ให้ทำต่อ

📍 Tested — ตัวเลข 9.2/10 จาก _auto-research/_runs/hook-1761403320.json ของจริง · ของวันที่ 25/04/2026 · 5 held-out posts · 25 second per round


Sources

  • I Used Karpathy’s Autoresearch to Train an LLM! (YouTube)
  • introvertlogic implementation: skill auto-research + scaffold _auto-research/ (open source on this site if you ask)
  • NotebookLM briefing-doc ของ source: ใช้ Notebook LM ย่อย video → ได้ briefing-doc 12 KB ใช้ตัดสินใจ adopt

Title options (เลือก 1)

A. “Karpathy ปล่อย Auto Research · ผมไม่ใช่ developer · เอามาลองวันแรก · 9.2/10” – Number-first · concrete · contrarian (non-developer adopt)

B. “AI ทดลองเองตอนผมหลับ — ตื่นมา hook score 9.2/10” – Story angle · curiosity gap · less specific

C. “วันที่ผมเปลี่ยนเป็น ‘Research Advisor’ — เลิก improve hook เอง” – Identity shift angle · big-picture · less number-led

ผม recommend A — ตัวเลข concrete · contrarian (non-developer) · match thesis “tested”