INTROVERTLOGIC · LAB LEDGER

ENTRY LOG

Karpathy บอกให้ตั้งกฎ 4 ข้อให้ AI — คนทดสอบจริงบอกไม่จำเป็น

Karpathy Rules ทดสอบจริง — จำเป็นอยู่ไหม?
AI RULES EXPERIMENT

Karpathy บอกให้ตั้งกฎ 4 ข้อให้ AI
คนทดสอบจริงบอก ไม่จำเป็น

ผลทดสอบ A/B จริงบน production codebase — “ไม่มีกฎ” ชนะ “มีกฎ”

ความจริงที่ไม่มีใครพูดถึง

เขียน CLAUDE.md 80 บรรทัด — แต่ถ้ามันไม่มีผล?

ตั้งแต่ Karpathy โพสต์กฎ 4 ข้อสำหรับ Claude Code เมื่อต้นปี 2026 ทุกคนก็ copy ไปใส่ CLAUDE.md กันหมด. รวมถึงผม.

แต่ไม่เคยมีใคร ทดสอบจริงจัง ว่ามันช่วยอะไรหรือเปล่า — จนกระทั่ง Alex Larcheveque จาก AI Automation ทำ A/B test บน codebase จริง.

กฎ 4 ข้อของ Karpathy

1
คิดก่อนเขียน
ระบุ assumption ชัด ถ้าไม่แน่ใจ — ถาม
2
เรียบง่ายไว้ก่อน
ไม่เผื่อ ไม่ทำเกิน ไม่สร้าง abstraction ที่ใช้ครั้งเดียว
3
แก้แค่ที่ต้องแก้
ห้ามปรับปรุงโค้ดข้างๆ ที่ไม่เกี่ยว
4
วัดผลได้
ตั้งเกณฑ์สำเร็จ loop จนผ่าน

Source: Andrej Karpathy’s CLAUDE.md recommendations, January 2026

การทดสอบ

A/B TEST DESIGN
Codebase เดียวกัน
radio.ai (production)
Prompt เดียวกัน
“refactor complicated functions”
Claude Opus
high effort
Group A
CLAUDE.md + Karpathy 4 rules
+ 4 custom rules
8 rules total
VS
Group B
CLAUDE.md ว่างเปล่า
ไม่มีกฎอะไรเลย
0 rules (vanilla)

ผลลัพธ์

Metric มีกฎ (Karpathy) ไม่มีกฎ (Vanilla)
Lines added 38 93
Lines removed 78 137
Files changed 3 4
Verdict Conservative refactor Caught more, cleaner code
“I feel like I’m taking the one with the vanilla CLAUDE.md rules. It caught a little bit more.”
— Alex Larcheveque, AI Automation

ตัวเลขที่น่าสนใจ

0
กฎที่จำเป็น
(ตามผลทดสอบ)
4
ไฟล์ที่ vanilla จับได้
vs 3 ที่มีกฎจับได้
1
test case เท่านั้น
(n=1, ยังสรุปไม่ได้)

ทำไมกฎอาจไม่จำเป็นอีกแล้ว

MODEL ABSORBS BEST PRACTICES OVER TIME
Community เขียน
CLAUDE.md rules
Anthropic เห็น
patterns ที่ได้ผล
Model update
ดูดซับกฎเข้าไป
กฎเดิมกลายเป็น
ซ้ำซ้อน

เหมือน Anthropic เคย absorb community features อื่นๆ เข้า Claude Code — remote dispatch, tool use patterns

แต่เดี๋ยวก่อน — n=1

ก่อนจะรีบลบ CLAUDE.md ทิ้ง ต้องเข้าใจข้อจำกัดของการทดสอบนี้:

!
Test case เดียว — prompt เดียว, codebase เดียว, คนตัดสินคนเดียว
!
ใช้ 8 กฎ ไม่ใช่ 4 — ไม่ได้แยก test Karpathy 4 ข้อล้วนๆ ปนกฎ custom อีก 4
!
วัดคนละอย่าง — Karpathy อ้าง “ลด error rate 41%→11%” แต่ test นี้วัด “refactor breadth”

สรุป

Model เก่งขึ้นทุกเดือน

กฎที่เขียนวันนี้ อาจถูก model ดูดซับไปพรุ่งนี้. แต่นั่นไม่ได้แปลว่าต้องลบทิ้ง — กฎที่เฉพาะเจาะจงกับ project ของคุณ ยังมีค่า. สิ่งที่ไม่จำเป็นคือการ copy กฎ generic มาวางโดยไม่คิด.

PROJECT-SPECIFIC RULES ยังมีค่า
GENERIC COPY-PASTE RULES อาจซ้ำซ้อนแล้ว

Source: Alex Larcheveque, “I Tested Karpathy 4 Claude Rules And Was Shocked At the Results” (YouTube, 2026)
Karpathy’s original CLAUDE.md rules, January 2026
introvertlogic.com — ผมลองใช้ Karpathy rules ใน CLAUDE.md ของ 22 oracles มาตั้งแต่เดือนมกราคม