Jag ska visa dig ett logiskt bevis på att statistik är tråkig… för att hjälpa dig att förstå poängen med alla de fina beräkningar som statistiker som jag gör. Som en extra bonus, detta är ganska mycket vad du skulle lära dig om dag 1 av de flesta STAT101 klasser, så det fungerar som en spion uppdrag för stats-nyfiken. Låt oss börja med att vältra oss i någon lokal jargong.

Denna statistiker är på väg att bevisa att statistiken är tråkig. Att dra ansikten hela tiden — jag lär mig fortfarande hur man använder mitt ansikte. Mänskligt är svårt. Kom och dra tillbaka ett ansikte mot mig här om du vill.
Befolkning
Vad kommer att tänka på när den typiska människan tänker på ordet ”befolkning”? Människor? Inte bara en eller två utan många. Alla människor! I vår disciplin är det mer som alla saker. En befolkning kan vara människor, pixlar, pumpor, Pokémon, eller vad annat slår din fantasi.
En befolkning är samlingen av alla objekt som vi är intresserade av.
– Sluta. Ta en stund. Du tittar på det juridiska kontraktet i hjärtat av hela jakten.
Här är affären: genom att skriva ner en beskrivning av din befolkning, håller du med om att bara befolkningen, hela befolkningen, och ingenting annat än befolkningen är intressant för ditt beslut. Genom att läsa vidare accepterar du dessa villkor. (Som du kan förvänta dig, denna blogg bor på populationer aplenty. Hitta fler fundingar här.)
Om du kommer upp med din intressebefolkning låter skrämmande, kom ihåg att det är upp till dig att välja vad du vill vara intresserad av. Det finns inget felaktigt val, så länge det är specifikt och grundligt. Jag ska vara så noggrann att jag ger dig tusen ord: träden på bilden nedan är vår befolkning av intresse för den här artikeln.

Om min befolkning är alla träd i den här skogen, representerar de allt jag bryr mig om för detta beslut. Jag blir ganska upphetsad över dessa träd. Egentligen, för att vara ärlig mot dig, är spänningen verklig: Jag är irrationellt förtjust i den här grafiken eftersom jag har använt den i mina föreläsningar i många år. Tillåt mig min missriktade nostalgi bara en gång… Naturligtvis är träd som flyter på några plan i rymden vettiga.
Eftersom detta är min befolkning, bör jag komma ihåg att jag inte har något att göra med att tumla ur min analys övertygad om att jag har lärt mig saker om träd i någon annan skog. Mina slutsatser kommer i bästa fall att gälla för dessa träd. I värsta fall, ja… låt oss bara säga att det kan finnas några karaktärsskapande stunder i en datavetare liv.
Något träd du inte kan se här? Död för dig, tråkigt. Det är inte en del av vår befolkning. Plocka någon enda träd? Döda för dig också. Lika tråkigt. Det är inte hela din befolkning. Bara alla av dem (tillsammans!) är intressanta för oss. Det är vad det juridiska kontraktet säger.
Prov
Ett urval någon samling av objekt från populationen.
Urvalet är de data du har och populationen är de data du * önska* du hade.

Endera av dessa orange samlingar av träd är ett prov. Jag hoppas att du har lite intuition om vilken som är bäst här. I en framtida artikel ska jag berätta allt om vad som gör ett prov till ett bra prov. Jag kommer att använda den som irriterar proffs för resten av detta exempel för att bevisa en punkt.
Observation
En observation är en mätning från en enskild punkt i ett prov.

Mätningen vi tog från detta blåmärkta träd är en observation. Sticklers för exakt språk kommer att märka att ett ”prov” är ett kollektivt substantiv för en grupp observationer. Tekniskt sett betyder ”prover” som en plural inte ”observationer”, det betyder ”flera samlingar av observationer”.
Statistik
Aha! Statistik! Detta är säkert något viktigt, eftersom vi namngav vår disciplin efter dessa saker!
En statistik är något sätt att samla upp provdata.
Så… vad är en statistik? Det är bara ett sätt att öka data som vi har. Vilken besvikelse! Cue den sorgliga trombon buller. Visar sig att en statistik och disciplin statistik är olika saker, läs allt om det här.

Exempel på statistik: om vi är intresserade av trädhöjder, skulle du inte bli förvånad över att se en statistik som medelhöjden på alla dessa orange-märkta träd. Om du känner för det, kan du också ta dessa provträdhöjder, hitta de tre bästa, lägga till dem, ta loggen, lägga till kvadratroten av skillnaden mellan de två nedre trädhöjderna, skicka hela den oheliga saken genom en köttkvarn… och ut dyker en annan statistik! Kanske användbar, kanske inte så användbar, men också en statistik.
Bevis på att statistiken är tråkig
Antag att vi är intereg i genomsnitt träd höjd, som råkar vara 22,5 m för detta prov. Är det här numret intressant för oss?
Låt oss hänvisa tillbaka till det juridiska kontrakt vi skrev upp för: bara befolkningen är intressant. Är det här provet populationen? Nej! Därför är det inte intressant för oss. Vi tog några tråkiga mätningar från några tråkiga träd, sedan gjorde vi upp de tråkiga mätningarna… det som kommer ut ur den processen är också tråkigt.
Så jag har bevisat för er vad ni har känt i era hjärtan hela tiden: statistiken är tråkig! Q.E.D
Misnomer!
Är statistiker galna? Varför skulle vi namnge vår disciplin efter några tråkiga siffror? Det är faktiskt en felnominering.
Hur vi använder termerna nuförtiden, analytics är den disciplin som handlar om att beräkna statistik, men statistiken handlar om att gå utöver dessa data mushups – ett iCarus-liknande språng in i det okända (förvänta dig en stor splat om du inte är försiktig). Läs mer här om datavetenskapens underdiscipliner.
Det sanna namnet på vår disciplin (i den bemärkelsen av ett sant namn som du kan använda för att kalla på trollkarlen) skulle vara mer ordnat: matsmältningen av statistik… men det låter lite brutet, så vi förkortade det till något tillgängligt. (Med vårt rykte för grumpiness behöver vi all den lämplighet vi kan få.)
Låt mig förklara.
Parameter
Ange stjärnan i vår show: parametern. Det här är så fint och glänsande. Det kommer att få en bukett efter föreställningen, det kommer vanligtvis till och med få sin egen grekiska bokstav (vanligtvis nedan). Du kan tänka dig parametern som populationsversionen av en statistik — en parameter är något sätt att öka alla intressanta data, som vi vanligtvis inte har tillgång till IRL.
En parameter sammanfattar populationen för dig.
Vi har kommit överens om att vi är djupt upphetsade över dessa träd och nu ska jag sammanfatta allt du bryr dig om? Var fortfarande ditt lilla hjärta! Du är så upphetsad av parametern!

Parametervärde avslöjade: den sanna genomsnittliga höjden på alla träd råkar bara vara 21,1 meter.
Tänk dig att det är lördag morgon och du står mitt i en glänta i skogen. Du har inte mätt några träd än, men du vill verkligen veta det här numret — det är allt du någonsin drömt om. (Genom juridiskt kontrakt, det vill säga. Du kan återgå till att vara en förnuftig person med andra intressen i livet när vi är klara med artikeln.)
Vad krävs för att känna till parametern?
Du måste mäta alla träd utan fel! När du har gjort det, har du någon osäkerhet? Nej, du har all information. Du kan avsluta med hjälp av analyser — bara gå vidare beräkna genomsnittet. Då är statistiken parametern eftersom ditt urval är populationen. Du har att göra med rena fakta. Tack vare att ha perfekta och fullständiga data krävs ingen komplicerad beräkning.
Jag råkar bo i New York. – så långt bort från träd som möjligt. Så lättja sparkar in när jag står inför en skrämmande uppgift som ”mäta alla dessa träd perfekt”. Jag skulle älska att känna till denna parameter, men jag börjar tänka för mig själv, ”Behöver jag verkligen veta det perfekt eller kan jag bara mäta några av träden? Kanske kunde jag komma undan med en liten titt på hela bilden för att skapa en bästa gissning om den parametern som är… bra nog för regeringsarbete.”
När jag tänker så tänker jag statistiskt! Jag kommer aldrig att få veta svaret. Min lättja betyder att jag måste ge upp om att få fakta eller säkerhet, men förhoppningsvis kommer jag att sluta med något som fortfarande är rimligt användbart för att fatta ett beslut. Jag kan fortfarande göra det till en rimlig handling. Det är vad disciplin för statistik handlar om.
Något av ingenting?
Några av er hoppas att jag ska säga, ”Med denna magiska formel kan ni göra säkerhet av osäkerhet!” Naturligtvis inte. Det finns ingen magi som gör något av ingenting.
När vi inte har fakta kan vi bara hoppas på att kombinera data med antaganden för att fatta rimliga beslut.
Hypotes
En hypotes är en beskrivning av hur universum kan se ut, men det behöver inte vara sant. Vi kommer att ta reda på om vårt urval gör att vår hypotes ser löjlig ut för att avgöra om vi ska ändra oss, men det vandrar utanför räckvidden för det här blogginlägget — plocka upp tråden här.

Här är jag och yttra några oinformerade sopor som ”Den sanna genomsnittliga höjden på alla träd är mindre än 20 meter.” Det är en hypotes. Du vet sanningen (jag har fel!) För att du är allvetande i det här exemplet… men jag vet ingenting. Mär en helt giltig hypotes, som beskriver hur verkligheten skulle kunna se ut. Jag får se vad jag tycker om det efter att jag fått lite data.
Uppskattning och skattning
Om vi visste parametern skulle vi vara hemma nu. Det är det faktum att vi letar efter, men tyvärr finns fakta inte alltid tillgängliga. Eftersom vi inte kan beräkna parametern kan vi bara göra en bästa gissning om den med hjälp av statistik.
En uppskattning är bara ett fint ord för bästa gissning.
En uppskattning är bara ett fint ord för bästa gissning om det sanna värdet av en parameter. Det är det värde du gissar tar, medan en estimator är formeln du använder för att komma fram till det numret.
Låt mig visa er att ni redan är fantastisk på statistisk uppskattning. Redo?
Låt oss anta att allt du vet är att ett av träden är 23m lång. Kan du berätta din uppskattning för den sanna medelhöjden på alla träd?
23m? Jag också!
Vi måste gissa 23m om det här är vår enda information – om vi gissar något annat så hittar vi bara på saker. 23m är allt vi vet, så vi måste gissa 23m. För att få något annat måste vi införliva mer information (som vi inte har i det här exemplet) eller så måste vi göra antaganden… då vi återigen har att göra med något annat än fakta.
Okej, vi provar en annan! Säg att vi har ett prov och allt vi vet om det är att det har i genomsnitt 22,5 m för höjden. Vad är din bästa gissning nu?

22,5? Wow! Du är så bra på det här! Du behöver inte ens en kurs!
Här är punchline i flera läroböcker kapitel’ värde av statistik som täcker metod för stunder uppskattning, maximal sannolikhet uppskattning, och alla deras kusiner: Det visar sig att svaret i slutet av bevis regnbågen är samma svar du bara kom till intuitivt! I 99% + av fallen du stöter på i verkliga livet, bara behandla ditt prov som om det är din befolkning och gå med vad som finns i det är hur du får den bästa gissning. Du behöver inga specialkurser. Taa-daa, vi är klara!
Det är en lögn som du alltid behöver statistik, det gör du inte. Om du bara försöker göra en bästa gissning för att bli inspirerad, är analys det bästa alternativet för dig. Rycka av p-värdena, du behöver inte onödig stress.
Istället kan du välja att leva efter dessa principer: Mer (relevanta) data är bättre och din intuition är ganska bra för att göra bästa gissningar, men inte för att veta hur bra dessa gissningar är… så håll ödmjuk.
Men tro inte för ett ögonblick att jag basherar min disciplin. Jag har ägnat över ett decennium åt att studera statistik och jag gillar att tro att jag inte är helt galen.
När man tar ett statistiskt tillvägagångssätt är det användbart, det är väldigt användbart.
Så när behöver du det? När kommer det att hindra dig från att skada dig själv? Läs min ”Vad är poängen med statistiken?” för att ta reda på…

This div height required for enabling the sticky sidebar
Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views :