Options
Mining social science data: a study of voting of the members of the Seimas of Lithuania by using multidimensional scaling and homegeneity analysis
Krilavičius, Tomas | VŠĮ Baltijos pažangių technologijų institutas | Vytauto Didžiojo universitetas |
Morkevičius, Vaidas | Kauno technologijos universitetas |
Date Issued |
---|
2011 |
Multidimensional scaling (MDS) is a well known statistical and data mining technique. It is applicable for an exploratory data analysis and visualization in many different areas, such as economics, especially marketing, credit risk analysis, psychology and computer science. However, it suffers from some serious drawbacks, i.e. it depends on several subjective parameters: choice of data coding, similarity measures and modeling type. We demonstrate these drawbacks in a novel application of MDS analyzing a roll-call voting of the members of Lithuanian Parliament (MPs). We propose using a different technique allowing to escape from the mentioned problems in social science data mining, a homogeneity analysis. We briefly discuss it, illustrate its application on the same data and demonstrate its advantages over MDS. In the paper we concentrate on the technical and methodological aspects of the both methods, therefore, it can be easily reapplied to analyze various economic data, such as customers churn in telecommunications or customers groups in marketing. We discuss all the used tools, coding of votes, similarity measures, division (or non-division) of roll calls into the substantive periods, dimensionality of the solutions of MDS and homogeneity analysis as well as diverse visualization techniques. We compare diff erent visualization techniques of the results of homogeneity analysis where most of the objects in the produced plots represent MPs: 2D and 3D object plots; span plots, where for each class of objects (in our case a faction) a minimal spanning tree is drawn; 2D and 3D star plots, where each object is connected with its class centroid. We conclude with recommendations for researchers modeling social science data and present our future plans regarding voting analysis.
Daugiamačių skalių metodas (MDS) yra gerai žinomas statistikoje ir duomenų gavyboje. Jis gali būti taikomas tiriamajai duomenų analizei ir rezultatų vaizdavimui daugelyje sričių, pvz. ekonomikoje, ypač marketinge, kredito rizikos analizėje, psichologijoje ir informatikoje. Deja, šis metodas turi ir tam tikrų trūkumų – jis priklauso nuo keleto subjektyviai parenkamų parametrų: duomenų kodavimo būdų, panašumo matų ir modeliavimo tipų. Šiame straipsnyje mes atskleidžiame MDS trūkumus, pritaikydami jį naujame kontekste, t. y. analizuodami Lietuvos Respublikos Seimo (LRS) narių balsavimus. Taip pat siūlome duomenų analizės metodą, leidžiantį išvengti minėtų problemų – homogeniškumo analizę. Straipsnyje trumpai apžvelgiamas šis metodas ir pademonstruojamas jo efektyvumas taikant jį tiems pat duomenims. Straipsnyje taip pat gana detaliai aptariami techniniai ir metodologiniai darbo aspektai, kad mūsų pademonstruotus metodus būtų galima lengvai pritaikyti kitose srityse, pvz. analizuojant ekonominius duomenis – klientų kaitą ryšio paslaugų bendrovėse ar klientų grupavimą marketinge. Aprašomi ir visi darbo etapai: naudoti įrankiai, balsavimų kodavimas, panašumo įvertinimo matai, balsavimų (ne)skaidymas į prasmingus periodus, MDS ir homogeniškumo analizės sprendinių dimensijų skaičiaus analizė bei įvairūs gautų rezultatų vaizdavimo būdai. Taip pat aptariami bei lyginami skirtingi homogeniškumo analizės rezultatų vaizdavimo metodai: objektų1 atvaizdavimas 2-matėje ir 3-matėje erdvėse (angl. object plot), minimalaus jungimo medis objektams (angl. span plot), objektų centroidų jungtys su objektais 2-matėje ir 3-matėje erdvėje (angl. star plot), Voronojaus mozaikos (angl. Voronoi plot) ir kiti.