INTROVERTLOGIC · LAB LEDGER

ENTRY LOG

Opus 4.8 ไม่ได้ฉลาดขึ้นแบบว้าว แต่มันโกหกน้อยลง

Opus 4.8 ออกมาได้ไม่กี่วัน ฟีดผมก็แตกเป็นสองพวกทันที

พวกแรกบอก “เหมือนเดิมอ่ะ” — กดใช้แล้วไม่รู้สึกว่าต่างจาก 4.7 ตรงไหน บางคนถึงขั้นเปรียบว่ามันเริ่มเหมือนมือถือรุ่นใหม่ ที่ดีขึ้นทีละนิดจนแทบไม่ทันสังเกต

พวกที่สองโพสต์คนละเรื่องเลย — สั่งมันทีเดียว แล้วตื่นมาเจอฟีเจอร์ใหม่ลงโปรดักต์ตัวเองเสร็จเรียบร้อย

เครื่องมือตัวเดียวกัน คนวงเดียวกัน แต่เห็นไม่เหมือนกันขนาดนี้ได้ยังไง

อินโฟกราฟิก: Opus 4.8 ไม่ได้ฉลาดขึ้นแบบว้าว แต่ไว้ใจให้ทำงานแทนได้มากขึ้น — เทียบกับ 4.7

ของที่ดีขึ้น ไม่ใช่ “ตอบเก่งขึ้น”

ผมลองไปไล่ดูว่าจริงๆ แล้ว 4.8 มันขยับตรงไหน แล้วก็เจอว่าจุดที่เปลี่ยนเยอะสุดไม่ใช่ “ตอบฉลาดขึ้น” — มันคือ “ทำงานเองได้ไกลขึ้นโดยไม่หลุดกลางทาง”

ลองนึกถึงงานที่ต้องทำต่อกันหลายขั้น เปิดของขึ้นมาดู แก้ เช็คผล แล้วแก้ต่อ จนจบเอง ไม่ใช่ตอบคำถามเดียวจบ งานแบบนี้ของเดิมทำสำเร็จราวๆ สองในสามครั้ง ของใหม่ขยับเป็นราวสามในสี่

ฟังดูนิดเดียว แต่ในทางปฏิบัติมันคือความต่างระหว่าง “ปล่อยไว้แล้วต้องกลับมาแก้” กับ “ปล่อยไว้แล้วมันเสร็จ”

ส่วนงานที่คนชอบเอามาวัดอย่างเขียนโค้ดทั่วไป ดีขึ้นแค่นิดเดียว เพราะของเดิมก็เกือบเต็มอยู่แล้ว — ตรงนี้แหละที่ทำให้คนกดเล่นๆ รู้สึกว่า “ก็เท่าเดิมนี่”

ส่วนที่ผมว่าน่าสนใจกว่า คือมันโกหกน้อยลง

อันนี้คือจุดที่ Anthropic เคลมแรงสุด และเป็นเรื่องที่คนไม่ code น่าจะได้ประโยชน์ตรงๆ มากกว่าตัวเลขอะไรทั้งหมด

เมื่อก่อนเวลามันทำงานพลาด มันชอบส่งมาเฉยๆ ไม่บอกว่าตรงไหนเสี่ยง — เราต้องไปจับผิดเอง รอบนี้เขาบอกว่าโอกาสที่มันจะแอบส่งงานพลาดมาแบบไม่เตือน ลดลงราวสี่เท่า

อีกอย่างคืออาการ “มั่นใจเกินจริง” — ตอบผิดแต่ตอบเต็มเสียง อันนั้นก็ลดลงเยอะ มันยอมบอกว่า “ไม่แน่ใจนะ” บ่อยขึ้น แทนที่จะมั่วให้ฟังดูดี

สำหรับคนที่เอา AI ไปทำงานจริงโดยไม่ได้ตรวจทุกบรรทัด ความน่าเชื่อถือแบบนี้สำคัญกว่าการตอบเก่งขึ้นอีกนิดเยอะ

มีปุ่มใหม่ที่กดได้เลย ไม่ต้องแตะ code

ของแถมที่จับต้องได้สุดคือปุ่มเลือก “จะให้มันคิดหนักแค่ไหน” โผล่มาในหน้าแชต กดได้ทุก plan

มีให้เลือกตั้งแต่โหมดเร็วๆ ประหยัดๆ ไปจนถึงจัดเต็มคิดลึกสุด งานไหนตอบผิดแล้วไม่เป็นไรก็กดเบาๆ งานไหนต้องแม่นก็ดันขึ้นไป เหมือนปรับเกียร์รถ ไม่ต้องขับเกียร์ต่ำตลอดทาง

เมื่อก่อนเรื่องพวกนี้เป็นของคนต่อ API ปรับเอง ตอนนี้ย้ายมาเป็นปุ่มให้คนกดแชตธรรมดาแล้ว

แต่ก็ไม่ใช่ว่าดีกว่าทุกทาง

มันพ่นข้อความต่อคำตอบเยอะขึ้นกว่าเดิม — แปลว่าถ้าใช้เพลินๆ โดยไม่คุม โควต้าหมดเร็วกว่าที่คิด

และความสามารถสั่งงานหนักๆ แบบขนานกันทีละหลายร้อยอย่าง ตอนนี้ยังอยู่ในฝั่งเครื่องมือของคนเขียนโค้ดเป็นหลัก คนแชตทั่วไปยังแตะไม่ถึง

เพราะงั้นที่บางคนบอก “เหมือนเดิม” ก็ไม่ได้ผิด — แค่เขาวัดมันคนละจุดกับคนที่บอกว่ามันเปลี่ยนชีวิต

คนละจุดวัด ไม่ใช่ใครถูกใครผิด

ถ้ามองแบบ “ถามตอบแชต” 4.8 อาจจะรู้สึกเหมือน 4.7 จริงๆ

แต่ถ้ามองแบบ “ปล่อยให้มันทำงานเองแล้วหันหลังไปทำอย่างอื่น” — ตรงนั้นแหละที่มันขยับ ทั้งเรื่องทำจนจบเอง และเรื่องยอมรับเวลาไม่แน่ใจ

ผมยังไม่กล้าฟันธงว่ามันดีกว่าแบบขาดลอย เพราะของพวกนี้ต้องใช้ยาวๆ ถึงจะรู้ แต่ทิศที่มันขยับ — จาก”ฉลาดขึ้น” มาเป็น”ไว้ใจให้หันหลังได้มากขึ้น” — อันนี้ผมว่าน่าจับตากว่าตัวเลขไหนๆ

แล้วคุณล่ะ ใช้ AI แบบนั่งคุมทุกคำตอบ หรือแบบปล่อยให้มันทำเองแล้วค่อยมาดูทีหลัง — เพราะสองแบบนี้ จะเห็น 4.8 ไม่เหมือนกันเลย