เราทุกคนมักจะเคยถูกสอนว่าให้ใช้ z-test เพื่อทดสอบค่าเฉลี่ยของหนึ่งประชากรและสองประชากรกันมาแทบทุกคน และมีกฎง่ายๆ ที่เรียนกันมาโดยไม่เข้าใจเหตุผลหรือเข้าใจเหตุผลแบบผิดๆ ในตำราสถิติทั้งในภาษาไทยและภาษาอังกฤษกันว่า ถ้า n>30 ให้ใช้ z-test ถ้า n<30 ให้ใช้ t-test และบางเล่มอธิบายไปเสียจนเลยเถิดว่าเมื่อ n>30 ใช้ z-test ได้เพราะการแจกแจงของตัวอย่าง (Sampling distribution) จะกลายเป็นการแจกแจงปกติ และเมื่อ n<30 แล้วนั้น ต้องใช้ t-test เพราะการแจกแจงของตัวอย่าง (Sampling distribution) จะแจกแจงแบบ t !!!!!!

<  
ช้าก่อน สอนกันมาแบบนี้ช้านาน แต่ว่า sampling distribution มันไม่ได้ขึ้นกับขนาดตัวอย่างมากขนาดนั้นนะ
เรื่องนี้ William Sealy Gosset (13 June 1876 – 16 October 1937) ในนามปากกา student-t ได้เขียนบทความลงใน Biometrika ที่มี Karl Pearson เป็นบรรณาธิการ เหตุที่ Gosset ต้องใช้นามปากกา Student-t นั้นเพราะเขาทำงานในโรงงานเบียร์กินเนส และโรงงานไม่ต้องการให้ความลับหรือการควบคุมคุณภาพในโรงงานรั่วไหลออกไป เขาจึงต้องใช้นามปากกาในการเขียนงานการค้นพบ t-distribution นี้ ในบทความชื่อ The probable error of the mean ซึ่งหาอ่านได้ตามลิงค์นี้ https://www.york.ac.uk/depts/maths/histstat/student.pdf The probable error of the mean Gosset ได้อธิบายไว้ชัดเจนว่า เมื่อเราประมาณค่า Population variance ด้วย Sample variance ต่างหากที่ทำให้ Sampling distribution ไม่ได้แจกแจงปกติอีกต่อไป หากแต่แจกแจงแบบ t และที่สำคัญคือ degree of freedom นั้นก็ลดลงไปด้วยเพราะเราประมาณค่า Population variance ไป degree of freedom จะลดลงไปเท่ากับจำนวน Population variance ที่เราประมาณค่าด้วย Sample variance

<   บทความของ Gosset นั้นทรงอิทธิพลมาก และได้รับการยอมรับจาก Sir Ronald A Fisher เมื่อปี 2008 นั้น Gosset มีอายุครบ 100 ปี Journal of American Statistical Association หรือ JASA อันทรงอิทธิพลยิ่งในโลกทางสถิติได้ให้เนื้อที่บทความชื่อ On Student’s 1908 Article “The Probable Error of a Mean” เขียนโดย S. L. ZABELL ถึงเจ็ดหน้า ซึ่งควรค่าแก่การอ่านยิ่ง (อ่านได้จากลิงค์ด้านล่างนี้) http://cda.mrs.umn.edu/~jongmink/Stat2611/s1.pdf “The Probable Error of a Mean” เขียนโดย S. L. ZABELL โอกาสที่จะได้ใช้ z-test ทดสอบค่าเฉลี่ยของประชากรนั้นมีน้อยมาก เราจะทำวิจัยไปทำไม หากเรารู้ค่า Population variance แล้วเป็นอย่างดี โปรแกรมสำเร็จรูปทางสถิติยุคหลังๆ ในต่างประเทศเองถึงกับถอด z-test ออกไปจากการทดสอบค่าเฉลี่ย เหลือแต่ t-test ถึงกระนั้นก็ตาม textbook ทางสถิติจากต่างประเทศก็ยังคงสอนเช่นนี้อยู่จำนวนหนึ่ง ว่า
ถ้า n>30 ให้ใช้ z-test ถ้า n<30 ให้ใช้ t-test แทนที่จะสอนว่า ถ้า population variance known ให้ใช้ z-test ถ้า population variance unknown ให้ใช้ t-test ทั้ง ที่ William Gosset ได้พูดเรื่องนี้มาตั้งเป็นร้อยปีแล้วเช่นกัน


<   เหตุผลหลักที่ต้องใช้ t-test เสมอคือ ไม่ทราบ siqma-squared หรือ population variance จึงต้อง estimate ค่า population variance ด้วย sample variance ไม่ได้เกี่ยวอะไรกับ n>30 หรือ n<30 แต่อย่างใดเลย นี่แหละที่ทำให้ Gosset ต้อง derive t-distribution ขึ้นมาโดยเฉพาะ

<   เราทราบกันดีว่า t-distribution นั้นลู่เข้าหา normal distribution เมื่อ n เข้าใกล้ infinity โดยปกติ t-test จะ flat กว่า normal distribution และ หางจะหนากว่า (flat distribution and thick tail เมื่อเทียบกับ normal distribution)

<   การที่บอกว่าเมื่อ n>30 แล้วใช้ z-test ในการทดสอบ ออกจะห่างใกลความเป็นจริงที่ t-distribution จะลู่เข้าหา normal distribution เมื่อ n เข้าใกล้ infinity มากมาย และทำให้เราคำนวณค่า p-value ผิด ทำให้การตัดสินใจในการทดสอบสมมุติฐานก็ผิดตามไปด้วย เพราะใช้ sampling distribution ผิด อย่างที่บอกว่า n>30 ไม่ได้ใกล้เคียงกับคำว่า n เข้าใกล้อนันต์แต่อย่างใด จะมาทึกทักว่าเมื่อ n>30 แล้วใช้ normal distribution หรือ z-test ได้นั้นก็ไม่มีเหตุผลที่เพียงพอเลยครับ

<   ตำราสถิติภาษาไทยที่เขียนได้ถูกต้องเท่าที่อ่านมามีเพียงสองเล่มเท่านั้น ส่วนใหญ่ที่เหลือเขียนผิดหมดทั้งสิ้น เรื่องนี้เราควรคิดแก้ไขก่อนจะสายเกินไป เรื่องนี้เป็นผลสะท้อนของการเรียนการสอนสถิติศาสตร์โดยขาดการให้เหตุผลทางสถิติ ก็ขอฝากไว้ให้ช่วยกันแก้ไขด้วยครับ
แชร์สิครับ จะรออะไร จะได้ช่วยกันใช้ให้ถูกต้องอย่างมีเหตุผลครับ