Multivariate dataverwerking – Olivier Thas
Multivariate dataverwerking Olivier Thas
1999-2000 eerste zit OTTOY 1. 2. 3. 4. 5.
Verachtingsintervallen van Betrouwbaarheidsintervalllen van lineaire regressie Interpretatie van SPSS-output Aan de hand van SPSS-output betrouwbaarheidsintervallen berekenen Nog 1 of 2 gemakkelijke oefeningen
VAN MEIRVENNE 1. 2. 3. 4.
PCA : alles uitleggen aan de hand van de matrices ( ook rotatie) Single linkage tegenover complete linkage uitleggen en wanneer single linkage gebruiken? Bereken de semi-variantie ( cfr. Voorbeeld in de cursus ) GEO-EAS : interpreteer een output zonder dat je hem krijgt. Hij vermeld iets en je moet dan kunnen geven hoe je dit in het programma kunt bekomen en wat je uit de bekomen output dan kunt afleiden. ( Gokken )
2000-2001 eerste zit OTTOY 1. 2. 3.
Wat zijn orthogonale, aanvullende en inwisselbare predictoren? Geef het verband met orthogonaliteit van een proefopzet. Leid de verwachtings- en betrouwbaarheidsintervallen af voor enkelvoudige lineaire regressie. Wat is hun betekenis? Oefening over laatste hoofdstuk (dummie variabele,…) aan de hand van SPSS-outputs.
VAN MEIRVENNE 1. 2. 3. 4. 5. 6.
Waarom wordt bij PCA Bartlett's test of sphericity gedaan? + oefening hierop aan de hand van een SPSS-output Geef de formule van cokriging + geef de betekenis van alle parameters Op welke matrix voert men bij PCA de analyse uit en waarom? Semivariante: X0 ligt op een meetpunt Geef de waarde van de Lagrange parameter , ²( X0),… Oefening op output van Geocas over kriging, z-score Welk model is het beste voor deze output: exponentieel…
VAN ROLLEGHEM 1.
Geef de 3 stappen voor proefopzet. Welke vragen moet men hierbij stellen? Pas ook toe voor proefopzet als men moet kiezen tussen een lineaire functie of een parabolische functie.
2002-2003 eerste zit 1. 2. 3.
Interpreteren biplot Afhankelijkheid van een gegeven dataset + interpreteervraagjes Discriminatanalyse + classificatieboom + interpreteervraagjes
1
Multivariate dataverwerking – Olivier Thas
2005-2006 eerste zit 1.
2.
dataset bestaande uit gegevens van depressieve en niet-depressieve mensen Gevraagd: probeer met 2 methoden te voorspellen of een patient depressief of niet is. Welke methode verkies je en waarom? output gegeven Gevraagd: bepaal Oddsratio en bereken een conditionele kans + bereken ook deze kans aan de hand van een cross tabel en leg het eventuele verschil tussen de kansen uit.
2008 – 2009 eerste zit
Beschrijving van een experiment + R output gegeven 1) Is het logisch dat men een PCA uitvoert met niet-gestandaardiseerde variabele? Waarom wel? waarom niet? 2) Bespreek de biplots 3) Normaliteit van belang bij PCA analyse 4) Vergelijk biplot met scatterplot van Fisher analyse, bespreek gelijkenissen/verschillen 5) 3 bomen: 1 op basis van originele variabelen, 1 op basis van eerste 3 PC's, 1 op basis van alle PC's. Bespreek gelijkenissen/verschillen
Beschrijving van een experiment + R output gegeven 1) LDA (homo-+hetero-scedastisch) + classificatie boom: welke verkies je en waarom? 2) Teken de boom 3) Gaat je misclassificatieerror verkleinen als je met gestandaardiseerde variabelen zou werken? 4) Is clusteranalyse waardevol voor discriminantanalyse? Relatie tussen beide? 5) Gaan er discriminatiemethoden uit van normaliteit?
1) PCA analyse op scores (van 1 tot 6) gegeven door de consument, voor verschillende eigenschappen van 23 automerken. a. standaardiseren nodig, nuttig? b. biplots interpreteren c. in output summary, de ontbrekende waarden (stand dev, prop of variance, cum. prop.) voor de vierde component invullen d. PCA voor studie variantie. Waarvoor kan het nog nuttig bij deze dataset? 2) verschillende classificaties gedaan a. wat is de beste methode (discriminant of tree?) (adhv plu-in classificatiefouten) b. wat zou je nog doen in deze analyse? c. er werd uniform gewerkt. Is dit goed? d. Zijn er discriminant analyse-methodes die gebruik maken van de MVN? e. waarvoor kan clusteranalyse hier nog een meerwaarde zijn? Wat is het verschil met discriminantanalyse? f. teken de boom na pruning (output zoals p137 gegeven) g. scatterplot van PCA bespreken.
2
Multivariate Data Analysis 2010-2011 1) On several car types (I don’t remember exactly how many but I believe 15 or so) 40 persons were asked to give marks(1= very good, 6 =very bad) on 8 variables: safety, service, depreciation of value, price(mark 1 = very cheap), economy, easy handling, design and sportive look. A PCA analysis was conducted, relevant output is given. a) This PCA analysis was performed using standardized variables. Was this a good idea? Why or why not? No, it’s not strictly necessary to do this because all variables are measured in the same unit. On the other hand it’s possible that one or more variables show a large variance. This means that the PCs will be dominated by this/these variable(s). Thus, if we want to treat the variables as equally important, standardization is recommended. b) Calculate the omitted values for component 4 Now, calculating the cumulative variance and the proportion of variance, is quite easy so I’ll leave that up to you. My way of calculating the stdev was as follows: ( ) ( ) In some way or another the ratio is quite constant. c) Interpret the biplots. In this case, real car types like Ferrari, BMW, Ford, Opel were used. So when you take a look at the biplots, you will see that Ferrari for example is more expensive than say an Opel Corsa. Even if you don’t have a lot of knowledge about car types, you know that Ferrari is indeed more expensive than an Opel. d) A PCA analysis gives us an insight into the data. For what other purposes could it serve based on this dataset? Discuss. Well, my answer was cluster analysis. If you take a look at the biplots certain cars can be grouped. 2) From the dataset Jobtype, 244 people in three different job classifications (customer service personal (1), mechanics (2) and dispatchers(3)) were observed on 3 psychological variables (outdoor interest, social behavior and conservativeness). a) Several discriminant analyses have been performed and classification tree has been calculated. Which of the methods would you prefer? Why? When we calculate the misclassification errors(ME) of those analyses, we can conclude that the classificication tree has the lowest ME (0.2049). Based on these results, we could indeed choose this method. Another argument is the fact that this method is a non-parametrical one which means that no distributional nor functional assumptions are made. On the other hand, when we look at the tree it looks very complex. Now, the heteroscedastic model has a slight higher ME( 0.23 or so) but it’s less complex. So the method that is finally preferred depends
on whether we want a smaller ME or less complexity. b) Which additional analysis techniques could be conducted in order to support the conclusions of the discriminant analysis? (this answer was found in an example discriminant analysis of this dataset on the Internet so it’s rather detailed. Keep it simple) Separate one-way ANOVAs - You could analyze these data using separate one-way ANOVAs for each psychological variable. The separate ANOVAs will not produce multivariate results and do not report information concerning dimensionality. MANOVA- tests of significance are the same as for discriminant function analysis but MANOVA gives no information on the individual dimensions. A PCA analysis could also reveal certain contrasts. c) In the analyses conducted here, uniform priors were used. Do you think this was a good choice? Why or why not? (According to me) No, this wasn’t a good choice. Uniform priors mean that the probability to belong to one of the groups is the same for all groups. Now, we can see in reality that people are not equally distributed over the groups. I believe there are certain other factors than the three considered in this study that determines to which group you belong. The most important argument is that we do not have access to the dataset thus we don’t have a view on the proportions of the people working in each group. Proportional priors would be a safer option. If the people are indeed uniform distributed over the groups, the proportional priors are equal to the uniform priors. d) What would be the value of a cluster analysis performed on this dataset? What is the relation (if present) with discriminant analysis? If we conduct a cluster analysis and we know that there are 3 clusters. In this particular case, we know which observation belongs to which group (normally when you start a cluster analysis you don’t know this). If the cluster analysis results in clusters/groups with (almost) the same observations as in the REAL dataset, the discriminant analysis on these new groups should be equivalent to the one performed on the original groups. If this is not the case then doubts about the predicting power of original discriminant analysis should arise. You can see that if we make a classification rule based on the original groups, a person will be classified in a group according to this rule. If the classification rule derived from the discriminant analysis of the new groups differs, it’s possible that the same person is classified in another group. e) Draw the pruned classification tree based on the output of the object job.prune.k1 (see figure1) f)
What is represented by figure 2? Give an interpretation. This represents the scatterplot of the 2 canonical discriminant functions. Although the separation isn’t quite obvious. We could conclude a difference between dispatchers and customer service in the first discriminant function.. For mechanics it’s too difficult(if not impossible) to draw conclusions. To see where dispatchers and customer service differ, we include the Z1 which is the equation of the first function. The canonical coefficients can be
extracted from the output. Based on the graph and this function we can thus conclude that dispatchers have a higher outdoor interest, a higher conservativeness and worse social behavior than customer service. g) *Memory fails*