Statistik är Lätt!

link: http://cs.nyu.edu/cs/faculty/shasha/papers/StatisticsIsEasyExcerpt.html
Dennis  Shasha och Manda Wilson

Statistik är aktiviteten av resultaten antyder om en befolkning med tanke på ett prov. Historiskt, statistik böcker anta en underliggande fördelning till data (vanligtvis normal distribution) och härleda resultaten under detta antagande. Tyvärr, i det verkliga livet, ett normalt inte kan vara säker på att den underliggande fördelningen. Det är anledningen till att denna bok presenterar en distribution-självständigt förhållningssätt till den statistik som bygger på en enkel computational räkna idé som kallas interpolering.

Den här boken förklarar de grundläggande begreppen i upplösning, för att sedan systematiskt presenterar statistiska åtgärder tillsammans med ett program (i Python för att beräkna dem med hjälp av interpolering, och slutligen illustrerar användningen av åtgärder och program i en fallstudie. I texten används junior high school algebra och många exempel för att förklara begreppen. Den idealiska läsaren behärskar åtminstone elementär matematik, gillar att tänka processuellt, och är bekväm med datorer.

Den Grundläggande Idén

Antag att du vill veta om vissa mynt är verkligt1. Du slänga den 17 gånger och det kommer upp huvuden alla, men 2 gånger. Hur kan du avgöra om det är rimligt att tro att myntet är rättvist? (Ett rättvist mynt ska komma upp huvuden med sannolikhet 1/2 och svansar med sannolikhet 1/2.) Du kan be att beräkna procentandelen gånger som du skulle få detta resultat om rättvisa antagande var sant. Sannolikhetsteori skulle föreslå att använda binomialfă ordelningen. Men du kan ha glömt en formel eller en härledning. Så att du kan slå upp det eller åtminstone komma ihåg namn så att du kan få programvaran att göra det. Nettoeffekten är att du inte förstår mycket, om du var på din sannolikhetsteori.

Alternativet är att göra ett experiment 10.000 gånger, där experimentet består av att kasta ett mynt som är känd för att vara rättvis 17 gånger och fråga hur många procent av de gånger du får huvuden 15 gånger eller mer. När vi körde detta program var andelen genomgående bra under 5 (som är under 5%, ett resultat som ofta används för att beteckna “osannolikt”), så det är inte troligt att myntet är i själva verket rättvisa. Din hand kan värk från att göra detta, men din PC kommer att göra detta på under en sekund.

Här är ett exempel på körning av denna kod:

9 av 10000 gånger vi fick minst 15 huvuden i 17 kastar.
Sannolikheten att slumpen ensam gav oss minst 15 huvuden i 17 kasten 0.0009 .

Här är ett annat exempel.

Tänk dig att vi har gett vissa människor placebo och andra läkemedel. Den uppmätta förbättringen (den mer positiva bättre)

Placebo: 54 51 58 44 55 52 42 47 58 46

Läkemedel: 54 73 53 70 73 68 52 65 65

Som du kan se, läkemedlet verkar mer effektiv om den genomsnittliga (den genomsnittliga uppmätta förbättringen är 63.7 för läkemedel och 50.7 för placebo). Men är denna skillnad i det genomsnittliga verkliga? Formel-baserad statistik skulle använda en t-test vilket innebär att vissa antaganden om normalitet och varians, men vi kommer att titta bara på de prover själva och blanda etiketter.

Vad detta innebär kan illustreras enligt följande. Vi sätter alla människor i en tabell med två kolumner värde och etikett (P för placebo och D för läkemedel).

VÄRDE ETIKETT
54 P
51 P
58 P
44 P
55 P
52 P
42 P
47 P
58 P
46 P
54 D
73 D
53 D
70 D
73 D
68 D
52 D
65 D
65 D

Blanda de etiketter som innebär att vi kommer att ta P: s och D: s och slumpmässigt fördela dem bland patienterna. (Tekniskt sett gör vi en enhetlig slumpmässiga permutation av kolumnen etikett.)

Detta kan ge:

VÄRDE ETIKETT
54 P
51 P
58 D
44 P
55 P
52 D
42 D
47 D
58 D
46 D
54 P
73 P
53 P
70 D
73 P
68 P
52 D
65 P
65 D

Vi kan då titta på skillnaden i det genomsnittliga P-värde vs. den genomsnittliga D-värde här. Vi får i genomsnitt 59,0 för P och 54.4 för D. Vi upprepa detta shuffle (blanda)-sedan-åtgärd förfarande 10.000 gånger och fråga vad bråkdel av tiden att vi gör en skillnad mellan läkemedlet och placebo större än eller lika med den uppmätta skillnaden på 63,7 – 50.7 = 13. Svaret i detta fall är enligt 0.001. Det är mindre än 0,1%. Så vi kan konstatera att skillnaden mellan medelvärden av de prover som är verkligt. Detta är vad som statistiker kallar betydande.

Låt oss ta ett steg tillbaka för ett ögonblick. Vad är motiveringen till att blanda etiketter? Tanken är helt enkelt detta: om läkemedlet inte hade någon verklig effekt, och sedan placebo skulle ofta ge en större förbättring än drogen. Genom att blanda etiketter, vi är en simulering av den situation i vilken en del placebo mätningar ersätta vissa läkemedel avstånd. Om den observerade genomsnittliga skillnaden i 13 skulle begränsas eller till och med överträffade i många av dessa shufflings, då läkemedlet kanske inte har någon effekt utöver placebo. Det är den observerade skillnaden kan ha uppstått av en slump.