By | February 2, 2022

สองวิธีในการวิเคราะห์ข้อมูลที่เหมือนกันทั้งในด้านวิชาการและการค้าคือ การวิเคราะห์ทางสถิติและการทำเหมืองข้อมูล แม้ว่าการวิเคราะห์ทางสถิติจะมีประวัติทางวิทยาศาสตร์มาอย่างยาวนาน การทำเหมืองข้อมูลเป็นวิธีการล่าสุดในการวิเคราะห์ข้อมูลที่เกิดจากวิทยาการคอมพิวเตอร์ ในบทความนี้ ฉันต้องการแนะนำวิธีการเหล่านี้และสรุปสิ่งที่ฉันเชื่อว่าเป็นหนึ่งในความแตกต่างหลักระหว่างสองสาขาของการวิเคราะห์

การวิเคราะห์ทางสถิติมักเกี่ยวข้องกับนักวิเคราะห์ที่กำหนดสมมติฐาน จากนั้นจึงทดสอบความถูกต้องของสมมติฐานนี้โดยเรียกใช้การทดสอบทางสถิติกับข้อมูลที่อาจรวบรวมไว้เพื่อวัตถุประสงค์ ตัวอย่างเช่น หากนักวิเคราะห์กำลังศึกษาความสัมพันธ์ระหว่างระดับรายได้และความสามารถในการรับเงินกู้ นักวิเคราะห์อาจตั้งสมมติฐานว่าจะมีความสัมพันธ์ระหว่างระดับรายได้กับจำนวนเครดิตที่บุคคลอาจมีสิทธิ์ได้รับ

นักวิเคราะห์สามารถทดสอบสมมติฐานนี้โดยใช้ชุดข้อมูลที่มีคนจำนวนหนึ่งพร้อมกับระดับรายได้และเครดิตที่มีให้ อาจทำการทดสอบเพื่อบ่งชี้ตัวอย่างว่าอาจมีความเชื่อมั่นในระดับสูงว่ามีความสัมพันธ์กันระหว่างรายได้และเครดิตที่มีอยู่จริง ประเด็นหลักในที่นี้คือ นักวิเคราะห์ได้กำหนดสมมติฐานแล้วใช้การทดสอบทางสถิติร่วมกับชุดข้อมูลเพื่อให้หลักฐานสนับสนุนหรือขัดต่อสมมติฐานนั้น

การทำเหมืองข้อมูลเป็นอีกพื้นที่หนึ่งของการวิเคราะห์ข้อมูลที่เกิดขึ้นเมื่อเร็วๆ นี้จากวิทยาการคอมพิวเตอร์ ซึ่งมีความแตกต่างหลายประการกับการวิเคราะห์ทางสถิติแบบเดิม ประการแรก เทคนิคการทำเหมืองข้อมูลจำนวนมากได้รับการออกแบบมาเพื่อใช้กับชุดข้อมูลที่มีขนาดใหญ่มาก ในขณะที่เทคนิคการวิเคราะห์ทางสถิติมักได้รับการออกแบบเพื่อสร้างหลักฐานที่สนับสนุนหรือขัดต่อสมมติฐานจากชุดข้อมูลที่จำกัดมากขึ้น

อย่างไรก็ตาม อาจมีความแตกต่างอย่างมีนัยสำคัญของหมอกที่นี่คือเทคนิคการทำเหมืองข้อมูลไม่ได้ถูกใช้เพื่อสร้างความเชื่อมั่นในสมมติฐานมากนัก แต่การดึงความสัมพันธ์ที่ไม่รู้จักอาจมีอยู่ในชุดข้อมูล นี่อาจเป็นตัวอย่างที่ดีที่สุด แทนที่จะเป็นกรณีข้างต้นที่นักสถิติอาจสร้างสมมติฐานระหว่างระดับรายได้และความสามารถของผู้สมัครในการรับเงินกู้ ในการทำเหมืองข้อมูล โดยทั่วไปไม่มีสมมติฐานเบื้องต้น นักวิเคราะห์การทำเหมืองข้อมูลอาจมีชุดข้อมูลขนาดใหญ่เกี่ยวกับสินเชื่อที่ให้แก่ผู้คนพร้อมกับข้อมูลด้านประชากรศาสตร์ของคนเหล่านี้ เช่น ระดับรายได้ อายุ หนี้สินที่มีอยู่ และหากพวกเขาเคยผิดนัดชำระหนี้มาก่อน

เทคนิคการทำเหมืองข้อมูลอาจค้นหาผ่านชุดข้อมูลขนาดใหญ่นี้ และดึงความสัมพันธ์ที่ไม่ทราบมาก่อนหน้านี้ระหว่างระดับรายได้ หนี้ที่มีอยู่ของประชาชน และความสามารถในการรับเงินกู้

แม้ว่าการวิเคราะห์ทางสถิติและการทำเหมืองข้อมูลจะมีความแตกต่างกันค่อนข้างน้อย แต่ฉันเชื่อว่าความแตกต่างนี้เป็นหัวใจสำคัญของปัญหา การวิเคราะห์ทางสถิติจำนวนมากเกี่ยวกับการวิเคราะห์ข้อมูลเพื่อสร้างความเชื่อมั่นสำหรับหรือต่อต้านสมมติฐานที่ระบุ ในขณะที่การทำเหมืองข้อมูลมักจะเกี่ยวกับการใช้อัลกอริทึมกับชุดข้อมูลเพื่อดึงความสัมพันธ์ที่ไม่คาดฝันก่อนหน้านี้