Hierarchical vs Partitional Clustering

การทำคลัสเตอร์เป็นเทคนิคการเรียนรู้ของเครื่องสำหรับการวิเคราะห์ข้อมูลและแบ่งออกเป็นกลุ่มของข้อมูลที่คล้ายกัน กลุ่มหรือชุดของข้อมูลที่คล้ายกันเหล่านี้เรียกว่าเป็นกลุ่ม การวิเคราะห์กลุ่มดูที่อัลกอริทึมการจัดกลุ่มที่สามารถระบุกลุ่มโดยอัตโนมัติ ลำดับชั้นและพาร์ทิชันเป็นสองคลาสดังกล่าวของอัลกอริทึมการจัดกลุ่ม อัลกอริทึมการจัดกลุ่มตามลำดับชั้นแบ่งข้อมูลเป็นลำดับชั้นของกลุ่ม อัลกอริธึมแบบแบ่งแบ่งชุดข้อมูลเป็นพาร์ติชันที่ไม่ต่อเชื่อมร่วมกัน

การจัดกลุ่มตามลำดับชั้นคืออะไร

อัลกอริธึมการจัดกลุ่มตามลำดับชั้นทำซ้ำวงจรของการรวมกลุ่มที่เล็กลงเข้ากับกลุ่มที่ใหญ่กว่าหรือแบ่งกลุ่มที่ใหญ่กว่าเป็นกลุ่มที่เล็กกว่า จะสร้างลำดับชั้นของกลุ่มที่เรียกว่า dendogram กลยุทธ์การจัดกลุ่ม Agglomerative ใช้วิธีการจากล่างขึ้นบนของการรวมกลุ่มในกลุ่มที่ใหญ่กว่าในขณะที่กลยุทธ์การจัดกลุ่มที่ใช้การแบ่งกลุ่มใช้วิธีการจากบนลงล่างของการแบ่งกลุ่มให้เล็กลง โดยทั่วไปแล้ววิธีโลภจะใช้ในการตัดสินใจว่าจะใช้กลุ่มที่ใหญ่กว่า / เล็กกว่าสำหรับการรวม / หาร ระยะทางแบบยุคลิดระยะทางแมนฮัตตันและความคล้ายคลึงกันของโคไซน์เป็นตัวชี้วัดที่มีการใช้กันมากที่สุดสำหรับข้อมูลตัวเลข สำหรับข้อมูลที่ไม่ใช่ตัวเลขจะใช้เมตริกเช่นระยะทาง Hamming เป็นสิ่งสำคัญที่จะต้องทราบว่าการสังเกตการณ์จริง (อินสแตนซ์) ไม่จำเป็นสำหรับการจัดกลุ่มแบบลำดับชั้นเนื่องจากเมทริกซ์ของระยะทางนั้นเพียงพอ Dendogram เป็นการแสดงภาพของกลุ่มซึ่งแสดงลำดับชั้นอย่างชัดเจน ผู้ใช้สามารถได้รับการจัดกลุ่มที่แตกต่างกันขึ้นอยู่กับระดับที่ตัด dendogram

การทำคลัสเตอร์แบบพาร์ทิชันคืออะไร

อัลกอริธึมการทำคลัสเตอร์แบบพาร์ติเคิลพาร์ติชันสร้างพาร์ติชันต่าง ๆ แล้วประเมินผลด้วยเกณฑ์บางอย่าง พวกมันยังถูกอ้างถึงว่าไม่ใช่ลำดับชั้นเมื่อแต่ละอินสแตนซ์ถูกวางไว้ในหนึ่งใน k ของแต่ละกลุ่มเท่านั้น เนื่องจากชุดคลัสเตอร์เพียงชุดเดียวเท่านั้นคือเอาต์พุตของอัลกอริทึมการจัดกลุ่มพาร์ทิชันทั่วไปผู้ใช้จึงจำเป็นต้องป้อนจำนวนคลัสเตอร์ที่ต้องการ (ปกติเรียกว่า k) หนึ่งในอัลกอริทึมการจัดกลุ่มส่วนที่ใช้บ่อยที่สุดคืออัลกอริทึมการจัดกลุ่ม k-mean ผู้ใช้จำเป็นต้องระบุจำนวนของกลุ่ม (k) ก่อนที่จะเริ่มและอัลกอริทึมเริ่มแรกที่ศูนย์ (หรือ centroids) ของพาร์ทิชัน k สรุป K-หมายถึงอัลกอริทึมการจัดกลุ่มจากนั้นกำหนดสมาชิกตามศูนย์ปัจจุบันและศูนย์ประเมินอีกครั้งตามสมาชิกปัจจุบัน สองขั้นตอนเหล่านี้ซ้ำจนกว่าจะมีฟังก์ชั่นวัตถุประสงค์ความคล้ายคลึงกันของคลัสเตอร์ภายในและฟังก์ชั่นวัตถุประสงค์ที่แตกต่างกันระหว่างคลัสเตอร์ถูกปรับให้เหมาะสม ดังนั้นการกำหนดค่าเริ่มต้นอย่างเหมาะสมของศูนย์จึงเป็นปัจจัยสำคัญอย่างยิ่งในการรับผลลัพธ์คุณภาพจากอัลกอริธึมการจัดกลุ่มแบบพาร์ทิชัน

อะไรคือความแตกต่างระหว่างลำดับชั้นและการจัดกลุ่มแบบแบ่งส่วน?

การจัดกลุ่มตามลำดับชั้นและแบบแบ่งส่วนมีความแตกต่างที่สำคัญในเวลาทำงานสมมติฐานพารามิเตอร์อินพุตและกลุ่มผลลัพธ์ โดยทั่วไปการทำคลัสเตอร์แบบพาร์ทิชันนั้นเร็วกว่าการทำคลัสเตอร์แบบลำดับชั้น การจัดกลุ่มตามลำดับชั้นต้องการเพียงการวัดความคล้ายคลึงกันในขณะที่การจัดกลุ่มแบบพาร์ทิชันต้องใช้สมมติฐานที่แข็งแกร่งเช่นจำนวนของกลุ่มและศูนย์เริ่มต้น การจัดกลุ่มแบบลำดับชั้นไม่ต้องการพารามิเตอร์อินพุตใด ๆ ในขณะที่อัลกอริทึมการทำคลัสเตอร์แบบพาร์ติเคิลนั้นต้องการจำนวนคลัสเตอร์เพื่อเริ่มการทำงาน การจัดกลุ่มตามลำดับชั้นจะส่งคืนการแบ่งกลุ่มที่มีความหมายและเชิงอัตนัยมากขึ้น อัลกอริทึมการจัดกลุ่มตามลำดับชั้นมีความเหมาะสมมากขึ้นสำหรับข้อมูลหมวดหมู่ตราบใดที่การวัดความคล้ายคลึงกันสามารถกำหนดได้