Covariance กับ Correlation คืออะไร

สมมุติว่าคุณไปเดินเข้าร้านสะดวกชื้อแล้วไปนับดูว่ามีแอปเปิลแดงกี่อัน แล้วแอปเปิลเขียวกี่อัน คุณสามารถนำตัวเลขที่นับได้มาวาด graph แบบนี้

โดยที่แกน x เป็นแอปเปิลเขียว และแกน y เป็นแอปเปิลแดง เราสามารถทำการวาดจุดแอปเปิลแดงและเขียวให้เป็นจุดเดียวได้ดังแบบจุดน้ำเงิน เมื่อเราได้จุดน้ำเงิน เราก็จะสามารถดู relationship trend line ได้ดังรูปด้านล่าง

เส้นนี้บอกเราว่า ถ้า slope มีค่าเป็นบวก เพราะฉะนั้น ถ้าในร้านนั้นมีแอปเปิลเขียวเยอะ แอปเปิลแดงในร้านนั้นก็มีจำนวนเยอะตามกัน

กลับกัน ถ้าวาดออกมาแล้ว slope เป็นลบ แสดงว่าเมื่อแอปเปิลเขียวเพิ่มขึ้น แอปเปิลแดงจะน้อยลง; relationship ตรงกันข้าม

สุดท้ายถ้าเส้น slope เป็นแนวนอน หรือแนวตั้งแปลว่า แอปเปิลแดงกับแอปเปิลเขียวไม่มี relationship กันเลย

ตัวเลข covariance ใช้บอก relationship ที่ว่ามาได้ โดยเมื่อคำนวนออกมาจะได้เลข +, - หรือ 0

สูตรคำนวน Covariance ก็ตามนี้เลย

\[\dfrac{(x - \bar{x})(y - \bar{y})}{n - 1}\]

\(\bar{x}\) ก็ตือ mean ของแอปเปิลเขียว ส่วน \(\bar{y}\) ก็คือ mean ของแอปเปิลแดง

วิธีการหา mean ในที่นี้ก็คือ

\[\bar{x} = \dfrac{\text{sum of green apple}}{\text{number of store}}\]

ถ้าเราเปลี่ยนแกน y ให้เป็นแอปเปิลเขียวเหมือนกับแกน x สูตรของเราก็จะกลายเป็นสูตร Variance ธรรมดาตามนี้

\[\dfrac{\sum(x - \bar{x})^2}{n - 1}\]

ปัญหาของ Covariance

คือตัวเลขไม่ได้บอกว่า relationship นั้นเกี่ยวข้องกันขนาดไหน แค่บอกว่าเกี่ยวข้องแบบ positive slope (ไปในทางเดียวกัน) negative slope (ทางตรงข้าม) หรือเป็น 0 คือไม่เกี่ยวข้องกัน

ถ้า scale ของ data เปลี่ยนไป ก็ยังจะทำให้ค่า covariance เปลี่ยนอีกด้วย

แต่ covariance เป็นสูตรสำคัญที่เอาไว้ใช้คำนวนสูตรอื่นๆเช่น correlation และเป็นตัวที่สามารถมาแก้ปัญหาดังกล่าวได้

Correlation

ปัญหาของ covariance ที่ทำให้ไม่สามารถบอกได้ว่าแต่ละ relationship นั้น strong (ค่าต่างๆอยู่ใกล้เส้น trend line ที่เราวาด) หรือ weak (ค่าต่างๆอยู่ไกล)

วิธีการคำนวน correlation ก็คือ

\[\dfrac{covariance(x, y)}{\sqrt{variance(x)}\sqrt{variance(y)}}\]

ซึ่งที่สูตรนี้ทำก็แค่บีบค่าโดยใช้ตัวหารให้อยู่ระหว่าง -1 ถึง 1 เพื่อที่เราจะได้สามารถเข้าใจตัวเลขได้ง่าย

โดยที่ค่า 1 หมายถึง strong positive correlation และ -1 หมายถึง strong negative correlation ถ้า correlation ต่ำก็จะมีค่าใกล้เลข 0 ทั้งฝั่งบวกและลบ ถ้าเกิดเป็น 0 เลยแปลว่าไม่ correlate กันเลย

ถ้าเรามี data มากพอ ก็จะทำให้เราสามารถทำ educated guessed ค่าโดยใช้อีกค่าหนึ่งได้

สุดท้ายอย่าลืมว่า correlation วาด trend เป็นเส้นตรงเท่านั้น