K-Means algoritmen er ikke anvendelig til kategoriske data, da kategoriske variabler er diskrete og ikke har nogen naturlig oprindelse. Så det er ikke meningsfuldt at beregne euklidisk afstand til f.eks. rum.
Kan vi bruge clustering til kategoriske data?
De kategoriske data er blevet konverteret til numeriske ved at tildele rangværdi. Det er en, at et kategorisk datasæt kan gøres clustering som numeriske datasæt.. Det er observeret, at implementering af denne logik, k-middel giver samme ydeevne som brugt i numeriske datasæt.
Kan betyder bruges til kategoriske variable?
Der er ingen mådeat finde en middelværdi ud fra disse data, fordi der ikke er en "gennemsnitlig" øjenfarve. Du kan finde proportionerne, men ikke middelværdien. Håber dette hjælper!
Hvad skal bruges, når dataene er kategoriske?
Kategoriske data analyseres ved hjælp af mode og medianfordelinger, hvor nominelle data analyseres med mode, mens ordinaldata bruger begge. I nogle tilfælde kan ordinære data også analyseres ved hjælp af univariat statistik, bivariat statistik, regressionsapplikationer, lineære tendenser og klassifikationsmetoder.
Hvad er klyngedannelse med kategoriske attributter?
Klynger med kategorisk data refererer til det tilfælde, hvor dataobjekterne er defineret over kategoriske attributter … Det vil sige, at der ikke er nogen enkelt rækkefølge eller iboende afstandsfunktion for de kategoriske værdier, og der er ingen kortlægning fra kategoriske til numeriske værdier, der er semantisk fornuftige.