Ιεραρχική vs. Κατακερματισμένη Ομαδοποίηση

Η ομαδοποίηση είναι μια τεχνική εκμάθησης μηχανών για την ανάλυση δεδομένων και τη διαίρεση σε ομάδες παρόμοιων δεδομένων. Αυτές οι ομάδες ή σύνολα παρόμοιων δεδομένων είναι γνωστά ως συστάδες. Η ανάλυση συμπλέγματος εξετάζει τους αλγόριθμους ομαδοποίησης που μπορούν να προσδιορίσουν αυτόματα τις συστοιχίες. Η ιεραρχική και η μερική είναι δύο τέτοιες κατηγορίες αλγορίθμων ομαδοποίησης. Οι ιεραρχικοί αλγόριθμοι ομαδοποίησης διασπούν τα δεδομένα σε μια ιεραρχία ομάδων. Οι χωροταξικοί αλγόριθμοι διαιρούν το σύνολο δεδομένων σε χωριστά χωριστά διαμερίσματα.

Τι είναι η ιεραρχική ομαδοποίηση;

Οι αλγόριθμοι ιεραρχικής ομαδοποίησης επαναλαμβάνουν τον κύκλο είτε τη συγχώνευση μικρότερων ομάδων σε μεγαλύτερες είτε τη διαίρεση μεγαλύτερων συμπλεγμάτων σε μικρότερες. Είτε έτσι είτε αλλιώς, παράγει μια ιεραρχία ομάδων που ονομάζεται dendogram. Η στρατηγική συσσωρευτών με συσσωρευτές χρησιμοποιεί την προσέγγιση "από τη βάση προς τα πάνω" για τη συγχώνευση των συμπλεγμάτων σε μεγαλύτερες, ενώ η στρατηγική διαίρετης ομαδοποίησης χρησιμοποιεί την προσέγγιση από πάνω προς τα κάτω για τη διάσπαση σε μικρότερες. Συνήθως, η άπληστη προσέγγιση χρησιμοποιείται για να αποφασιστεί ποια μεγαλύτερα / μικρότερα σύνολα χρησιμοποιούνται για συγχώνευση / διαίρεση. Η ευκλείδεια απόσταση, η απόσταση από το Μανχάταν και η ομοιότητα κοσκινίσματος είναι μερικές από τις συχνότερα χρησιμοποιούμενες μετρήσεις ομοιότητας για αριθμητικά δεδομένα. Για μη-αριθμητικά δεδομένα, χρησιμοποιούνται μετρήσεις όπως η απόσταση Hamming. Είναι σημαντικό να σημειωθεί ότι οι πραγματικές παρατηρήσεις (περιπτώσεις) δεν χρειάζονται για ιεραρχική συστοιχία, επειδή μόνο η μήτρα αποστάσεων είναι επαρκής. Το Dendogram είναι μια οπτική αναπαράσταση των ομάδων, που εμφανίζει με μεγάλη σαφήνεια την ιεραρχία. Ο χρήστης μπορεί να αποκτήσει διαφορετική ομαδοποίηση ανάλογα με το επίπεδο στο οποίο έχει κοπεί το dendogram.

Τι είναι το Partitional Clustering;

Οι αλγόριθμοι μερικής ομαδοποίησης δημιουργούν διάφορα διαμερίσματα και στη συνέχεια αξιολογούν με κάποιο κριτήριο. Αναφέρονται επίσης ως μη ιεραρχικά καθώς κάθε περίπτωση τοποθετείται σε ακριβώς ένα από τα α αποκλειστικά συγκροτήματα. Επειδή μόνο ένα σύνολο συστοιχιών είναι η έξοδος ενός τυπικού αλγορίθμου διαχωριστικής ομαδοποίησης, ο χρήστης πρέπει να εισάγει τον επιθυμητό αριθμό συστάδων (συνήθως ονομάζεται k). Ένας από τους συνηθέστερα χρησιμοποιούμενους χωριστούς αλγορίθμους ομαδοποίησης είναι ο αλγόριθμος ομαδοποίησης k-mean. Ο χρήστης υποχρεούται να παρέχει τον αριθμό των συστάδων (k) πριν την εκκίνηση και ο αλγόριθμος αρχίζει πρώτα τα κέντρα (ή τα κεντροειδή) των χωρισμάτων k. Με λίγα λόγια, ο αλγόριθμος ομαδοποίησης k-σημαίνει εκχωρεί έπειτα τα μέλη με βάση τα τρέχοντα κέντρα και τα κέντρα επανεκτίμησης βάσει των σημερινών μελών. Αυτά τα δύο βήματα επαναλαμβάνονται μέχρις ότου βελτιστοποιηθεί μια συγκεκριμένη λειτουργία αντικειμενικής ομοιότητας εντός συμπλέγματος και η αντικειμενική συνάρτηση διακύμανσης μεταξύ συστάδων. Επομένως, η λογική αρχικοποίηση των κέντρων είναι ένας πολύ σημαντικός παράγοντας για την επίτευξη ποιοτικών αποτελεσμάτων από τους αλγορίθμους χωριστής ομαδοποίησης.

Ποια είναι η διαφορά μεταξύ της ιεραρχικής και της μερικής συμπλοκής;

Η ιεραρχική και η μερική συμπλοκοποίηση έχουν βασικές διαφορές στον χρόνο εκτέλεσης, τις παραδοχές, τις παραμέτρους εισόδου και τα προκύπτοντα συμπλέγματα. Τυπικά, η μερική συσσώρευση είναι ταχύτερη από την ιεραρχική συσσώρευση. Η ιεραρχική ομαδοποίηση απαιτεί μόνο ένα μέτρο ομοιότητας, ενώ η μερική συσσώρευση απαιτεί ισχυρότερες υποθέσεις όπως ο αριθμός των συστάδων και τα αρχικά κέντρα. Η ιεραρχική ομαδοποίηση δεν απαιτεί παραμέτρους εισόδου, ενώ οι αλγόριθμοι χωριστής ομαδοποίησης απαιτούν την έναρξη λειτουργίας του αριθμού των συστάδων. Η ιεραρχική ομαδοποίηση επιστρέφει μια πολύ πιο ουσιαστική και υποκειμενική κατανομή των συστάδων, αλλά η μερική συσσωμάτωση οδηγεί σε ομάδες ακριβώς k. Οι ιεραρχικοί αλγόριθμοι ομαδοποίησης είναι πιο κατάλληλοι για κατηγορηματικά δεδομένα, εφόσον μπορεί να οριστεί ανάλογα ένα μέτρο ομοιότητας.