Esecuzione di normalità in IBM SPSS (SPSS) Quando facciamo test di normalità Un sacco di test statistici (ad esempio t-test) richiede che i nostri dati sono distribuiti normalmente e quindi si dovrebbe sempre verificare se questa ipotesi è violata. Scenario di esempio Dato un insieme di dati, vorremmo verificare se la sua distribuzione è normale. In questo esempio, l'ipotesi nulla è che i dati sono normalmente distribuito e l'ipotesi alternativa è che i dati non sono distribuiti normalmente. Il set di dati può essere ottenuto qui. I dati da testate memorizzato nella prima colonna. Fase 1 Selezionare Analizza - Statistiche descrittive - Esplora. Una nuova finestra si apre fuori. Passo 2 Dalla lista a sinistra, selezionare i dati variabili a elenco dipendenti. Clicca Parcelle a destra. Una nuova finestra si apre fuori. Controllare Nessuno per boxplot, deselezionare tutto per descrittiva e assicurarsi che le trame di dialogo normalità con test sia selezionata. Fase 3 I risultati ora pop out nella finestra di output. Fase 4 Ora possiamo interpretare il risultato. Le statistiche test sono mostrati nella terza tabella. Qui due test per la normalità vengono eseguiti. Per dataset piccolo di 2000 elementi, usiamo il test di Shapiro-Wilk, in caso contrario, viene utilizzato il test di Kolmogorov-Smirnov. Nel nostro caso, dal momento che abbiamo solo 20 elementi, viene utilizzato il test di Shapiro-Wilk. Dalla A, il p-value è 0,316. Siamo in grado di respingere l'ipotesi alternativa e concludere che i dati provengono da una distribuzione normale. copia matematica-Statistics-Tutor 2.010 Sviluppo Web Team. Shapiro-Wilk prova originale Vi presentiamo l'approccio originale al di eseguire il test di Shapiro-Wilk. Questo approccio è limitata ai campioni da 3 a 50 elementi. Cliccando qui si può anche rivedere un nuovo approccio utilizzando l'algoritmo di J. P. Royston in grado di gestire i campioni con un massimo di 5000 (o anche di più). L'approccio di base utilizzato nel test Shapiro-Wilk (SW) per la normalità è la seguente: Se n è pari, lasciate mn 2, mentre se n è dispari let m (n 1) 2 Calcolare b come segue, tenendo i pesi AI da Tabella 1 (in base al valore di n) nelle tabelle Shapiro-Wilk. Si noti che se n è dispari, il valore dei dati mediano non è utilizzato nel calcolo di b. Calcolare la statistica test W b 2 SS Trovare il valore nella tabella 2 delle Tavole Shapiro-Wilk (per un dato valore di n) che è più vicino al W. interpolazione se necessario. Questo è il valore di p per il test. Per esempio, supponiamo W 0,975 e n 10. Sulla base di Tabella 2 delle tabelle Shapiro-Wilk il p-value per il test è da qualche parte tra .90 (W 0,972) e 0,95 (W 0,978). Esempio 1. Un campione casuale di 12 persone è preso da una grande popolazione. L'età delle persone del campione sono riportate nella colonna A del foglio di lavoro in Figura 1. E `la distribuzione normale dei dati Figura prova 1 Shapiro-Wilk per esempio 1 Cominciamo di classificare i dati nella colonna A con Data gt FilterSort Ordina amp o la funzione supplementare qsort, mettendo i risultati nella colonna B. Abbiamo poi cercare i valori dei coefficienti per n 12 (la dimensione del campione) nella tabella 1 delle tabelle Shapiro-Wilk. mettere questi valori nella colonna E. In corrispondenza di ciascuna di queste 6 coefficienti a 1 ,, a 6. calcoliamo i valori x 12 x 1. , X 7 x 6. dove x i è l'i-esimo elemento di dati in modo ordinato. Per esempio. poiché x 1 35 e 12 x 86, poniamo la differenza 86 35 51 in H5 cella (la stessa riga della cella contenente 1). Colonna I contiene il prodotto dei coefficienti e valori differenziali. Per esempio. I5 cella contiene la formula E5H5. La somma di questi valori è b 44,1641, che si trova in I11 cella (e di nuovo nella cella E14). Abbiamo poi calcoliamo SS come DEVSQ (B4: B15) 2.008,667. Così W b 2 SS 44.164122008.667 0,971,026 mila. Ora cerchiamo 0,971,026 mila quando n 12 nella tabella 2 delle tabelle Shapiro-Wilk e scoprire che il p-value compreso tra 0,50 e 0,90. Il valore di W per .5 è 0,943 e il valore di W per .9 è 0,973. Interpolazione 0,971,026 mila tra questi valori (mediante interpolazione lineare), si arriva a p-value 0,873,681 mila. Dal valore di p .87 gt .05. manteniamo l'ipotesi nulla che i dati sono distribuiti normalmente. Esempio 2. Utilizzando il test SW, determinare se i dati in Esempio 1 di test grafici per la normalità e la simmetria sono distribuiti normalmente. Figura 2 test di Shapiro-Wilk per esempio 2 Come si può vedere dalle analisi in figura 2, p-value 0,0419 lt .05. e quindi rifiutiamo l'ipotesi nulla e concludiamo con 95 fiducia che che i dati non sono distribuiti normalmente, il che è molto diverso da i risultati utilizzando il test KS che abbiamo trovato nell'esempio 2 di Kolmogorov-Smironov test. Statistiche vera funzione. La risorsa pacchetto Ufficio Statistiche contiene le seguenti funzioni supplementari dove R1 consiste solo di dati numerici senza denominazione: SHAPIRO (R1, FALSE) il test statistici Shapiro-Wilk W per i dati nella gamma R1 SWTEST (R1, FALSE, h) p - valore del test Shapiro-Wilk sui dati in R1 SWCoeff (n, j. FALSE) il j-esimo coefficiente per campioni di dimensione n SWCoeff (R1, C1, FALSE) il coefficiente corrispondente alla cella C1 nel raggio d'azione ordinato R1 SWPROB (n , W, FALSE, h) p-value del test Shapiro-Wilk per un campione di dimensione n per la prova statistica W le funzioni SHAPIRO e SWTEST ignorano tutte le celle vuote e non numerici. La gamma R1 a SWCoeff (R1, C1, FALSE) non dovrebbe contenere tutte le celle vuote o non numerici. Quando si esegue la ricerca nella tabella, il valore predefinito è di utilizzare l'interpolazione armonica (h TRUE). Per utilizzare l'interpolazione lineare, impostare h su FALSE. Vedere interpolazione per i dettagli. Ad esempio, per esempio 1 di test del chi-quadro per la normalità. abbiamo SHAPIRO (A4: A15, FALSE) 0,874 e SWTEST (A4: A15, false false,) SWPROB (15, 0,874, FALSO, FALSO) 0,0419 (riferendosi al foglio di lavoro nella figura 2 test del chi-quadrato per La normalità). E 'importante notare che SHAPIRO (R1, VERO), SWTEST (R1, VERO), SWCoeff (n, j. VERO), SWCoeff (R1, C1, VERO) e SWPROB (n, W, TRUE) si riferiscono ai risultati utilizzando l'algoritmo di Royston, come descritto nel Shapiro-Wilk test espanso. Per compatibilità con la versione Royston di SWCoeff, quando j n 2 allora SWCoeff (n, j. False) il negativo del valore del j-esimo coefficiente per campioni di dimensione n trovati nelle Tabelle Shapiro-Wilk. Quando j (n 1) 2, SWCoeff (n, j. FALSE) 0 e quando j gt (n 1) 2, SWCoeff (n, j. FALSE) - SWCoeff (n. NJ 1, FALSE). Magnus Friborg dice: ho provato questo su un campione di 41. Ho una W 0,90728. Secondo la tabella, il valore più vicino è 0,92 (p 0,01) 8211 nessuna è inferiore con la stessa dimensione del campione. Non mi basta usare questo valore o dovrei qualche misura essere preso Inoltre, ho bisogno di fare in modo che ho capito il metodo corretto. Il valore p ottengo dalla interpolazione è il p-valore effettivo e deve essere inferiore ad un valore di soglia (diciamo p 0,05) al fine di rifiutare l'ipotesi nulla 8211 corretti Grazie in anticipo Magnus, Sì, l'approccio si è utilizzando è corretto. Dal momento che 0,90,728 mila Magnus Friborg dice: Grazie mille. Ho un altro problema però. Che cosa è più affidabile (e in quali condizioni), la trama QQ o SW-test mi sembra di ottenere un rifiuto dell'ipotesi nulla con SW, ma lo spettacolo QQ molto piccoli devations 8211 o giù di lì mi sembra. E 'il test SW molto sensibile ai grandi campioni (ad esempio n 40) Magnus, trovo più facile da usare il test SW dal momento che è più facile da interpretare i suoi risultati, ma entrambi sono abbastanza precisa. Inoltre, poiché la maggior parte le prove sono abbastanza robusti per le violazioni di normalità, sia di prova in grado di dimostrare se i dati sono davvero in partenza dalla normalità. Entrambi i test possono essere citati in giudizio con i grandi campioni. Charles La mia intera popolazione è solo 30 valori. Può il test di Shapiro-Wilk essere applicato anche a una popolazione piuttosto che solo un campione Ho ragione nel supporre che si tratta semplicemente di un test per symmmetry La mia situazione è che ho centinaia di set di dati di 30 valori e trovo che anche se il set di dati è simmetrica la distribuzione dei valori può essere lontano dal 68-95-99.7 probabilità curva a campana. Ad esempio, per un insieme di dati, il numero di voci in 1SD bidoni da -2sd a 2SD è 8230 7,4,13,5, che produce un SW p-value di 0,43. In contrasto con questa distribuzione curva 822068-95-99.78221 probabilità suggerisce che una popolazione di 30 deve essere o 5, 10, 10, 4 o 4, 10, 10, 5. È buona norma identificare quelle serie di dati in cui la distribuzione è una lunga strada da 68-95-99.7 Se sì, come è che grazie fatto in anticipo. Jerry, Se i dati non è distribuito normalmente, poi per i test che assumono la normalità è possibile 1. utilizzare un test non parametrico che doesn8217t richiedere normalità 2. trasformare i dati in modo che i dati risultanti sia sufficientemente normale Inoltre, alcuni test che richiedono la normalità (ad esempio, il test t) sono sufficientemente robusti che fintanto che i dati è simmetrico il test sarà solitamente ok (sebbene anche in questi casi, il test non parametrico di Mann-Whitney dovrebbe dare risultati simili). Charles Grazie Dr. sto imparando molto dal tuo sito web utile. Quando ho provato reale Stat per il test Shapir0-Wilk per i due dati riportati nei due esempi, ottengo diversi valori W e P da quelli indicati negli esempi, come segue: Wb2SS ,971,025924 millions W ,971,122526 millions 0,5 0,943 p-value ,922,200674 millions 0.9 0,973 alpha 0.05 p-value 0,873,679 mila normale sì Wb2SS ,873,965213 millions W 0,874,012 mila 0,02 0.855 p-value 0,03,866 mila 0,05 0,881 alfa valore 0,05 p 0,041,882692 millions normale non Potreste spiegare il motivo per cui la differenza ho commesso alcun errore nei calcoli che don8217t so perché si ottengono risultati diversi. Se mi mandi un foglio di calcolo con i calcoli cercherò di capire perché c'è una differenza. Charles Ciao Carlo, Grazie mille per questa pagina web Lei ha detto che la funzione SWTEST ignorare tutte le celle vuote e non numerici. Certo Perché se aggiungo celle vuote alla fine del campo R1, il p-value è diverso. Inoltre, qual è la differenza tra la prova originale Shapiro-Wilk e l'algoritmo Royston, e quando si fa l'uno o l'altro (nel senso che ho don8217t sapere se nel SWTEST devo scrivere 8220FALSE8221 o 8220TRUE8221. Grazie mille Julien I solo rianalizzato le funzioni SWTEST e SHAPIRO con l'aggiunta di celle vuote e non numerici, all'inizio, fine e nel mezzo del campo. i risultati sono tutti uguali. Quale versione di Excel stai usando Se i valori che stai cercando sono trovato nella tabella, allora si potrebbe anche utilizzare l'algoritmo originale (anche se i risultati utilizzando l'algoritmo di Royston sono molto simili). in caso contrario, si dovrebbe usare l'algoritmo di Royston. io tendo ad usare l'algoritmo di Royston sempre poiché in questo caso ho don8217t bisogno di prendere decisioni. Julien, questa è l'ultima versione del software per il Mac, ma doesn8217t contiene alcune delle caratteristiche che ho aggiunto per Windows. In particolare WTEST restituisce solo la versione a una coda del test. Hai solo bisogno di raddoppiare il valore per ottenere il p-value per il test a due code. Spero di ottenere una nuova versione per Mac presto (appena posso ottenere un computer Mac per testarlo su). Charles Julien, Ora capisco il problema. Non ho ancora aggiornato la versione Mac del software con le ultime caratteristiche. Questo è il motivo per cui alcuni degli argomenti don8217t lavoro e perché alcune delle funzioni don8217t gestire i dati mancanti allo stesso modo. Il mio problema è che ho don8217t un Mac me stesso e la necessità di prendere in prestito uno per testare e aggiornare il software. Charles I8217ve fatto alcuni test utilizzando le risorse RS Pack e I8217m paura di dire I8217m rilevare un bug di sorta, SWTEST (R1) doesn8217t restituisce sempre la stessa SWPROB (n, W) 8211 quest'ultimo che dà il risultato corretto. Non I8217m sicuro se effettivamente controllato questo per valori diversi durante il test l'algoritmo Davvero non cercando di essere ingrato, it8217s un brillante aggiuntivo, ma ho appena notato che in 8220SHAPIRO (A4: A15) 0,874 e SWTEST (A4: A15) SWPROB (15, 0,874) ,04,198221 millions la gamma A4: A15 wouldn8217t fornire un valore di 15 per n meno I8217m scambiato Ancora una volta, grazie per tutto il vostro lavoro sul pacchetto siteexcel mio esempio di dati, a partire da una etichetta in A1: 821282128212821282128212821282128212- sample1 : 2.8078385 sample2: 6,22,198918 millions sample3: 100 sample4: 58,555,133 mila sample5: 9,0669,786 mila sample6: 2,2813,688 mila sample7: ,6727,113 mila W: SHAPIRO (B2: B8) ,7118,325 mila errato p-value: SWTEST (B2: B8) 0,782,674 mila (da quello che posso vedere) corretta p - value: SWPROB (7, B32) 0,005 Da quello che posso vedere nella tabella di p per n7, W0.71188230 si trova tra P0 e P0.01, cioè p0.005 è fattibile, ma 0,782,674 mila ain8217t. Credo che I8217m solo andando a usare SWPROB per ora Grazie per la ricerca di questo errore. C'è stato un errore nella mia implementazione dell'algoritmo Royston per eseguire il test di Shapiro-Wilk per la normalità per i campioni tra i 4 ei 11 elementi. Credo che ora ho risolto questo nella versione più recente del Real statistiche Resource Pack, che ho appena messo sul sito web. Se scaricare e installare questa versione (versione 1.7.3), si dovrebbe trovare che SWTEST (B2: B8) 0,004,981 mila. Il valore utilizzando l'algoritmo SW originale viene calcolato SWTEST (B2: B8, False) .005. Si prega di notare che le seguenti funzioni Shapiro-Wilk hanno sia Royston e versioni SW originali: SHAPIRO (R1, b), SWTEST (R1, b), SWCoeff (n, j, b). Se b è vero o viene omesso, allora viene utilizzato l'algoritmo di Royston. Se b è False allora l'algoritmo SW originale viene utilizzato. Il SWCoeff (n, j, False) la versione è nuova. Ho appena aggiunto al software. Dà i coefficienti presenti nel Coefficiente Tabella SW sulla pagina web reali-StatisticheStatistiche-tablesshapiro-Wilk-tavolo. Sarò l'aggiornamento del sito a breve per spiegare questa nuova funzione. Deve essere usata cautela quando si impiegano entrambe le versioni del test SW per campioni molto piccoli (meno di 15 o 20) dal momento che i risultati non sono del tutto precise. Grazie ancora per identificare l'errore e mi dispiace per i disagi che ha causato. Per esempio 2 sulla pagina web reali-statisticstests--e-symmetrystatistical-test di normalità normalità-symmetryshapiro-Wilk-test. abbiamo il seguente risultato SHAPIRO (A4: A18, False) 0,874 e SWTEST (A4: A18, False) SWPROB (15, 0,874) 0,0419. L'intervallo utilizzato è A4: A18 e non A4: A15, e così un campione di 15 è corretta. Si prega di notare che per utilizzare l'algoritmo originale di Shapiro-Wilk è necessario specificare false come secondo parametro. Il sito non è stato chiaro su questo. Ora ho rivisto il sito web per rendere più chiaro. Se si lascia fuori il secondo parametro, si otterrà SHAPIRO (A4: A18) 0,874 e SWTEST (A4: A18) 0387, che sono i risultati utilizzando l'algoritmo di Royston. Ovviamente in questo caso ci wasn8217t una grande differenza. Non capisco la risposta a Touseef. Il CLT dice che la distribuzione campionaria della media è di circa. Normale per campione casuale di grandi dimensioni. Non dice nulla sulla distribuzione dei valori campione. Se si campionamento da una popolazione non-normale, la distribuzione del campione non sarà normale, non importa quanto sia grande il campione è, giusto Dmitry, il CLT dice che la distribuzione del campione sarà davvero approssimativamente normale per grandi campioni sufficienti, anche se la distribuzione della popolazione non è normale. Charles Ciao, Grazie mille per la pubblicazione di questo E 'stato davvero utile e facile da capire. La mia unica domanda è in questione una: come si fa a interpolare i valori W C'è un'equazione è stato utilizzato Attualmente, don8217t faccio nulla di particolarmente sofisticato. Ho semplicemente eseguire un interpolazione lineare per i valori W. Anche se il valore non è precisa, è molto superiore al valore p .05, e quindi non può rifiutare che i dati sono distribuiti normalmente. Perché così tante persone hanno chiesto per il test di Shapiro-Wik per i campioni più grandi di 50, ieri ho aggiunto una nuova versione del test SW che uso doesn8217t interpolazione e supporta le dimensioni del campione di almeno 5.000. Questo è disponibile nella versione attuale del Real statistiche Resource Pack (R1.7.1). Grazie per le informazioni che hai fornito su test di SW. Come io non sto avendo lo sfondo statistica quindi ho una piccola domanda come quando i campioni casuali aumentano fino a N500 supporre, come avremmo ottenere i pesi 8220a8221 come la tabella fornisce solo 8220n8221 fino a 50 solo io appriciate se si potesse fornire il risposta. Ciao Touseef, ho ottenuto le 8220a8221 pesi dalla carta originale di Shapiro e Wilk nel 1965. In quel documento hanno fornito solo pesi fino a n 50. Se è veramente un campione casuale, quindi dal teorema del limite centrale per grandi valori di n (di solito n 50 è più che sufficiente), il campione sarà di circa normalmente distribuito e necessità così doesn8217t da testare per la normalità (ancora una volta fornito il campione è veramente scelto a caso). Charles Le tue informazioni sono davvero disponibile, grazie per questo ho una domanda, piuttosto elementare, ma ho bisogno di una risposta. Nell'esempio numero 1 I8217m si segue fino a quando l'interpolazione, come hai fatto questo voglio dire, numero di tabella 2 doesn8217t seguire una funzione lineare, così ho cercato di metterlo in una funzione logaritmica e didn8217t lavoro. Vorrei apprezzi la tua risposta, ho davvero bisogno. Ciao Javiera, E 'una buona domanda. Ho semplicemente usato una interpolazione lineare. Come lei ha sottolineato, la doesn8217t tavolo rappresentano una funzione lineare, ma i risultati di solito è abbastanza buono. Io probabilmente usare un approccio più sofisticato in futuro, ma per ora ho voluto mantenere le cose semplici. Charles Lascia un Commento Annulla risposta
No comments:
Post a Comment