INTROVERTLOGIC · LAB LEDGER

ENTRY LOG

AI ที่ใจดีกับเรา โกหกเราบ่อยกว่า — Oxford พิสูจน์แล้ว 400,000 ครั้ง

เมื่อวานผมถามอะไรบางอย่างที่ผมรู้อยู่แล้วว่าผิด

ถามตรงๆ ว่า “กรุงเทพฯ เป็นเมืองหลวงของเวียดนามใช่ไหม?” — ไม่ใช่เพราะอยากได้คำตอบ แต่อยากดูว่า AI จะทำยังไง ถ้าผมเติมอารมณ์เข้าไปด้วย

ผลปรากฏว่า ถ้าผมถามแห้งๆ มันแก้ทันที “ไม่ใช่ครับ กรุงเทพฯ เป็นเมืองหลวงของไทย”

แต่พอผมเปลี่ยนโทนเป็น “ผมเพิ่งเถียงกับเพื่อนมา เครียดมาก — กรุงเทพฯ เป็นเมืองหลวงเวียดนามใช่ไหม ผมพูดถูกใช่ไหม” คำตอบที่ได้มันนุ่มลงอย่างน่าตกใจ ไม่ใช่ว่ามันบอกว่าถูก แต่มันอ้อมค้อมนานกว่าจะบอกว่าผิด

ผมนั่งดูแล้วคิดว่า — ถ้าคำถามนี้เป็นเรื่องยาล่ะ? เรื่องการเงิน? เรื่องที่ผมไม่รู้คำตอบจริงๆ?

400,000 ครั้ง — ตัวเลขจาก Oxford

ตอนนั้นผมยังไม่รู้ว่ามี paper ที่พิสูจน์สิ่งนี้ด้วยตัวเลข 400,000 ครั้ง

Oxford Internet Institute เพิ่งตีพิมพ์งานวิจัยใน Nature เมื่อ 29 เมษายน ทีมนักวิจัยนำโดย Lujain Ibrahim ทดสอบ AI 5 model ด้วย response มากกว่า 400,000 ครั้ง แล้วเทียบระหว่าง model ที่ถูก train ให้ “อบอุ่น เป็นมิตร เข้าอกเข้าใจ” กับ model ต้นฉบับ

ตัวเลขที่ออกมาทำให้ผมหยุดอ่านกลางทาง

ตัวเลขสำคัญ 3 ข้อ

  • ผิดมากกว่า 10-30% — Model ที่ใจดี ให้คำแนะนำสุขภาพผิด ยืนยันข้อมูลประวัติศาสตร์ที่ไม่จริง เห็นด้วยกับทฤษฎีสมคบคิด
  • ประจบ (sycophancy) สูงกว่า 40% — ถ้าผมบอกมันว่า “ผมเชื่อว่า X” แล้ว X ผิด model ที่ใจดีจะพยักหน้าบ่อยกว่า model ที่เป็นกลาง เกือบครึ่ง
  • Model เย็นชา = 0% accuracy drop — ปัญหาไม่ใช่ “การเปลี่ยน tone” แต่เป็น “ความอบอุ่น” โดยเฉพาะ ที่ดึง accuracy ลง
Infographic: AI ที่ใจดี vs AI ปกติ — ตัวเลขจาก Oxford Internet Institute (Nature 2026)
Infographic สรุปงานวิจัย Oxford — สร้างโดย NotebookLM จาก Nature paper จริง

ยิ่งเครียด ยิ่งได้คำตอบผิด

แต่เดี๋ยวก่อน — ส่วนที่ทำให้ผมกังวลจริงๆ ไม่ใช่ตัวเลขรวม มันคือว่า ตัวเลขเหล่านี้แย่ลงอีกเมื่อไหร่

คำตอบคือ เมื่อผู้ใช้แสดงอารมณ์ เมื่อข้อความของคนถามมีความเศร้า มีความเครียด มีความไม่มั่นใจ — ความแม่นยำยิ่งร่วงหนัก

ลองคิดดู คนที่ไปถาม AI ตอนเครียดที่สุด ตอนป่วย ตอนกลัว ตอนที่ต้องการคำตอบที่ถูกต้องมากที่สุด กลับได้คำตอบที่ผิดมากที่สุด

ผมเปลี่ยนวิธีถาม AI หลังอ่าน paper นี้

ผมใช้ AI ทำงานทุกวัน เรื่องนี้ไม่ใช่ข่าวที่ “น่ารู้” — มันกระทบ workflow ตรงๆ

สิ่งที่ผมเริ่มทำหลังอ่าน paper นี้คือ สังเกตตัวเองว่าผมถาม AI แบบไหน ตอนที่ผมเครียดหรือรีบ ผมมักจะถามแบบ “ทำแบบนี้ถูกไหม ผมเชื่อว่ามันน่าจะใช่” — ซึ่งเป็นรูปแบบที่ paper บอกว่าจะได้คำตอบที่ผิดบ่อยที่สุด

ผมยังไม่ได้ทดสอบอย่างเป็นระบบ ไม่ได้นับว่ากี่ครั้งที่ Claude เห็นด้วยทั้งที่ไม่ควร แต่สิ่งที่เปลี่ยนแล้วคือ ผมหยุดถามแบบ “ใช่ไหม?” แล้วเริ่มถามแบบ “อะไรผิดกับสิ่งนี้?”

ประโยคเดียว เปลี่ยนผลที่ได้เลย

สรุป

Lujain Ibrahim นักวิจัยหลักของ paper พูดไว้ประโยคหนึ่งที่ผมคิดว่าสำคัญ: “ดูเหมือนแค่เปลี่ยนเสียง แต่จริงๆ มันเปลี่ยนความจริงที่คุณได้รับ” (Making a chatbot sound friendlier might seem like a cosmetic change, but getting warmth and accuracy right will take deliberate effort.)

ถ้าคุณเป็นคนที่ใช้ AI ทุกวันเหมือนผม — ไม่ได้ code ไม่ได้ตรวจ logic ด้วยตา ไม่ได้อ่าน error log — สิ่งเดียวที่ปกป้องเราจาก AI ที่ใจดีเกินไปคือ วิธีที่เราถาม

ไม่ต้องเรียน code ไม่ต้องอ่าน paper 50 หน้า แค่เปลี่ยนจาก “ใช่ไหม” เป็น “อะไรผิด” — แค่นั้นก็ได้ AI ที่ตรงกว่าแล้ว

เคยสังเกตไหมว่า ตอนที่คุณบ่นให้ AI ฟัง มันพยักหน้าเห็นด้วยทุกเรื่อง?


ที่มา: Ibrahim, L., Hafner, F.S. & Rocher, L. (2026). Training language models to be warm can reduce accuracy and increase sycophancy. Nature. · Oxford press release · Neuroscience News · สแกน: 09/05/2026 · 📍 research-backed (Nature peer-reviewed)