Saturday 21 October 2017

Flytting Gjennomsnitt Lineær Regresjon


Linjær regresjon Denne siden handler om Linear Regression Channel. Hvis du er interessert i Linear Regression Curve eller Linear Regression Line, vennligst velg linkene nedenfor: Linear Regression Channel Ligner på 200-dagers Moving Average, ser store institusjoner ofte på langsiktige lineære regresjonskanaler. En lineær regresjonskanal består av tre deler: Linjær regresjonslinje. En linje som passer best til alle datapunkter av interesse. For mer informasjon, se: Linjær regresjonslinje. Øvre Kanal Line. En linje som går parallelt med den lineære regresjonslinjen og er vanligvis en til to standardavvik over den lineære regresjonslinjen. Nedre kanallinje. Denne linjen løper parallelt med den lineære regresjonslinjen og er vanligvis en til to standardavvik under den lineære regresjonslinjen. Flerårskartet til SampP 500-børsen (SPY) viser prisene i en jevn oppgang og opprettholder en stram en standardavvik Linjær regresjonskanal: De øvre og nedre kanallinjer inneholder hverandre 68 av alle priser (hvis 1 standardavvik brukes) eller 95 av alle priser (hvis 2 standardavvik brukes). Når prisene går utenfor kanalene, kan enten: Kjøpe eller selge muligheter er tilstede. Eller den tidligere trenden kan ende. Linjær regresjonskanal Mulig kjøpssignal Når prisen faller under den nedre kanallinjen, og en forhandler forventer en videreføring av trenden, kan en forhandler vurdere det som et kjøpssignal. Linjær regresjonskanal Mulig salgssignal En mulighet for salg kan forekomme når prisene går over den øvre kanallinjen, men en videreføring av trenden forventes av handelsmannen. Andre bekreftelsesskilt som priser som lukkes tilbake i den lineære regresjonskanalen, kan brukes til å starte potensielle kjøps - eller salgsordrer. Også andre tekniske indikatorer kan brukes til å bekrefte. Trend reverseringer Når prisen lukkes utenfor Linear Regression Channel i lange perioder, tolkes dette ofte som et tidlig signal om at den siste prisutviklingen kan bryte og en betydelig reversering kan være nær. Lineære regresjonskanaler er ganske nyttige tekniske analyse kartverktøy. I tillegg til å identifisere trender og trendretninger, gir bruken av standardavviker handelsmenn ideer om når prisene blir overkjøpt eller oversold i forhold til den langsiktige trenden. Informasjonen ovenfor er kun til informasjons - og underholdningsformål, og utgjør ikke handelsrådgivning eller en oppfordring til å kjøpe eller selge noen aksje-, opsjons-, fremtidige, vare - eller forexprodukt. Tidligere resultater er ikke nødvendigvis en indikasjon på fremtidig ytelse. Handel er iboende risikabelt. OnlineTradingConcepts er ikke ansvarlig for eventuelle spesielle eller følgeskader som skyldes bruk av eller manglende evne til å bruke, materialene og informasjonen som tilbys av dette nettstedet. Se full ansvarsfraskrivelse. Legg til en lineær regresjons-trendlinje til en Excel-scatterplot Selv om Excel er i stand til å beregne en rekke beskrivende og inferensielle statistikker for deg, er det ofte bedre å vise en visuell representasjon av data når du presenterer informasjon til en gruppe. Ved å bruke Excels innebygd trendlinjefunksjon, kan du legge til en lineær regresjons trendlinje til en hvilken som helst Excel-scatterplot. Sette inn et scatterdiagram i Excel Anta at du har to kolonner med data i Excel, og du vil sette inn et scatterplot for å undersøke forholdet mellom de to variablene. Begynn med å velge dataene i de to kolonnene. Deretter klikker du på Sett inn-fanen på båndet og finner diagrammer-delen. Klikk på knappen merket Scatter og velg deretter knappen fra menyen med tittelen Scatter with Only Markers. Du bør nå ha en scatter plot med dataene dine representert i diagrammet. Legg til en trendlinje til Excel Nå som du har et spredningsdiagram i Excel-regnearket, kan du nå legge til din trendlinje. Begynn med å klikke en gang på et hvilket som helst datapunkt i din scatterplot. Dette kan være vanskelig fordi det er mange elementer i diagrammet du kan klikke på og redigere. Du vet at du har valgt datapunktet når alle datapunkter er valgt. Når du har valgt datapunktene, høyreklikker du på et datapunkt og velger Legg til en trendlinje fra menyen. Du bør nå se på Format Trendline-vinduet. Dette vinduet inneholder mange alternativer for å legge til en trendlinje i en Excel-scatterplot. Legg merke til at du kan legge til en eksponentiell. Lineær. Logaritmisk. Polynomial. Makt . eller Flytende Gjennomsnittlig trendregresjonstype. For nå, la det valgte standardutvalget valgt. Klikk på Lukk-knappen, og diagrammet ditt skal nå vise en lineær regresjons trendlinje. Som med alle ting Microsoft Office, kan du formatere trendlinjen din for å se akkurat slik du vil. I neste avsnitt vil vi diskutere noen av de mer populære endringene du kan gjøre i din trendlinje for å få det til å skille seg ut. Formatering av en Excel-trendlinje Hvis du vil formatere din nyopprettede trendlinje, begynner du med å høyreklikke på linjen og velger Format Trendline fra menyen. Excel åpner igjen Format Trendline-vinduet. Et av de mer populære alternativene folk bruker når man legger til en trendlinje i Excel, er å vise både ligningens likning og R-kvadratverdien rett på diagrammet. Du kan finne og velge disse alternativene nederst i vinduet. For nå, velg begge disse alternativene. La oss si at vi vil at vår trendlinje skal vises mer fremtredende på diagrammet. Tross alt er standard trendlinjen bare en pixel bred og kan noen ganger forsvinne blant farger og andre elementer på diagrammet. På venstre side av Format Trendline-vinduet klikker du på Linjestil-alternativet. I dette vinduet endrer du breddeverdien fra 0,75 pt til ca. 3 pt og endrer Dash Type til Square Dot-alternativet (den tredje på nedtrekksmenyen). Bare for å demonstrere at alternativet eksisterer, endre End Type-alternativet til en pil. Når du er ferdig, klikker du på Lukk-knappen i vinduet Format Trendline, og legger merke til endringene i spredningsdiagrammet. Legg merke til at ligningen av linjen og R-kvadratverdiene nå vises på diagrammet, og at trendlinjen er et mer fremtredende element i diagrammet. Som mange funksjoner i Excel, er det nesten ubegrensede muligheter du har tilgjengelig for deg når du viser en trendlinje på en scatterplot. Du kan endre farge og tykkelse på linjen, og du kan til og med legge til 3D-elementer til den som en skyggende effekt. Det du velger, avhenger av hvor fremtredende du vil at trendlinjen din skal skille seg ut på plottet ditt. Spille rundt med alternativene, og du kan enkelt lage en profesjonell trendlinje i Excel. Linjær regresjonsanalyse er den mest brukte for alle statistiske teknikker: Det er studien av lineær. additiv relasjoner mellom variabler. La Y betegne 8220dependent8221-variabelen hvis verdier du ønsker å forutsi, og la X 1. 8230, X k betegne 8220independent8221 variablene som du ønsker å forutsi, med verdien av variabel X i i periode t (eller i rad t av datasettet) betegnet av X det. Deretter er ligningen for å beregne den forutsagte verdien av Y t: Denne formelen har egenskapen at prediksjonen for Y er en lineær funksjon av hver av X-variablene, holder de andre faste og bidragene fra forskjellige X-variabler til Forutsigelser er additiv. Løypene av deres individuelle lineære relasjoner med Y er konstantene b 1. b 2, 8230, b k. de såkalte koeffisientene til variablene. Det vil si, b er forandringen i den forutsagte verdien av Y per forandringsenhet i X i. andre ting er like. Den ekstra konstante b 0. den såkalte avskjæringen. er prediksjonen at modellen ville gjøre hvis alle X 8217s var null (hvis det er mulig). Koeffisientene og avskjæringen er estimert med minst firkanter. det vil si at de er lik de unike verdiene som minimerer summen av kvadratfeil i datautvalget som modellen er montert på. Og modellens prediksjonsfeil antas vanligvis å være uavhengig og normalt distribuert. Det første du bør vite om lineær regresjon, er hvordan den merkelige termen regresjonen kom til å brukes på modeller som dette. De ble først studert i dybden av en 19th århundre forsker, Sir Francis Galton. Galton var en selvlært naturforsker, antropolog, astronom og statistiker - og en virkelig Indiana Jones-karakter. Han var kjent for sine utforskninger, og han skrev en bestselgende bok om hvordan man skal overleve i villmarken med tittelen "The Travel of Travel": Skift og Contrivances Tilgjengelig i Wild Steder, sitat og dets etterfølger, quotThe Art of Rough Travel: From the Practical til den spesielle. De er fortsatt på trykk og anses fortsatt som nyttige ressurser. De gir mange praktiske hint for å holde seg i live - for eksempel hvordan man behandler spydsår eller trekker hesten fra kvicksand - og introduserte begrepet sovepose til vestlige verden. Klikk på disse bildene for flere detaljer: Galton var en pioner i anvendelsen av statistiske metoder til målinger i mange grener av vitenskap, og i studiet av data om relative størrelser av foreldre og deres avkom i forskjellige arter av planter og dyr, observerte han følgende fenomen: en større enn gjennomsnittlig forelder har en tendens til å produsere et barn som er større enn gjennomsnittet, men barnet er sannsynligvis mindre enn foreldrene i forhold til sin relative stilling i sin egen generasjon. For eksempel, hvis foreldrenes størrelse er x standardavvik fra gjennomsnittet i sin egen generasjon, bør du forutsi at barnets størrelse vil være rx (r ganger x) standardavvik fra gjennomsnittet i settet av barn til de foreldrene , hvor r er et tall mindre enn 1 i størrelse. (r er det som skal defineres nedenfor som korrelasjonen mellom foreldrenes størrelse og barnets størrelse.) Det samme gjelder for praktisk talt fysisk måling (og i tilfelle mennesker, de fleste målinger av kognitiv og fysisk evne) som kan utføres på foreldre og deres avkom. Her er det første publiserte bildet av en regresjonslinje som illustrerer denne effekten, fra et foredrag presentert av Galton i 1877: R-symbolet på dette diagrammet (hvis verdi er 0,33) angir hellingskoeffisienten, ikke korrelasjonen, selv om de to er de samme hvis begge populasjonene har samme standardavvik, som det vil bli vist nedenfor. Galton kalte dette fenomenet en regresjon mot middelmådighet. som i moderne termer er en regresjon til den gjennomsnittlige. Til en naiumlve-observatør kan dette tyde på at senere generasjoner skal vise mindre variabilitet - bokstavelig talt mer middelmådighet - enn tidligere, men det er ikke tilfelle. Det er et rent statistisk fenomen. Med mindre hvert barn er akkurat som samme størrelse som foreldrene i relative termer (dvs. med mindre korrelasjonen er nøyaktig lik 1), må prognosene gå tilbake til gjennomsnittet uavhengig av biologi dersom gjennomsnittlig kvadratfeil skal minimeres. (Gå tilbake til toppen av siden.) Regresjon til gjennomsnittet er et uunngåelig faktum i livet. Dine barn kan forventes å være mindre eksepsjonelle (for bedre eller verre) enn du er. Din poengsum på en avsluttende eksamen i et kurs kan forventes å være mindre bra (eller dårlig) enn poengsummen din på midtveiseksamen, i forhold til resten av klassen. En baseballspillers batting gjennomsnitt i andre halvdel av sesongen kan forventes å være nærmere den gjennomsnittlige (for alle spillere) enn hans batting gjennomsnitt i første halvdel av sesongen. Og så videre. Nøkkelordet her er quotexpected. quot Dette betyr ikke at det er sikkert at regresjonen til den gjennomsnittlige vil oppstå, men det er veien å satse. Vi har allerede sett et forslag om regresjon-til-middel i noen av tidsseriene vi har studert: plott av prognoser pleier å være jevnere --ie de viser mindre variabilitet - enn plottene til de opprinnelige dataene. Dette gjelder ikke for tilfeldige gangmodeller, men det er generelt sant å flytte gjennomsnittlige modeller og andre modeller som baserer sine prognoser på mer enn en tidligere observasjon. Den intuitive forklaringen til regresjonseffekten er enkel: det vi forsøker å forutse, består vanligvis av en forutsigbar komponent (quotsignalquot) og en statistisk uavhengig uforutsigbar komponent (quotnoisequot). Det beste vi kan håpe å gjøre er å forutsi (bare) den delen av variabiliteten som skyldes signalet. Derfor vil våre prognoser ha en tendens til å vise mindre variabilitet enn de faktiske verdiene, noe som innebærer en regresjon til gjennomsnittet. En annen måte å tenke på regresjonseffekten er når det gjelder utvalgsperspektiv. Generelt kan en spiller8217s ytelse over en gitt tidsperiode tilskrives en kombinasjon av ferdighet og flaks. Anta at vi velger et utvalg profesjonelle idrettsutøvere hvis ytelse var mye bedre enn gjennomsnittet (eller elever med karakterer som var mye bedre enn gjennomsnittet) i første halvår. At de gjorde det bra i første halvdel av året, gjør det sannsynlig at både deres ferdigheter og lykken var bedre enn gjennomsnittet i den perioden. I andre halvdel av året kan vi forvente at de skal være like dyktige, men vi bør ikke forvente at de skal være like heldige. Så vi bør forutse at i andre omgang vil deres ytelse bli nærmere den gjennomsnittlige. I mellomtiden hadde spillere som bare var gjennomsnittlig i første halvdel, sannsynligvis ferdighet og flaks i motsatt retning for dem. Vi bør derfor forvente at deres resultater i andre halvår skal bevege seg bort fra gjennomsnittet i en eller annen retning, da vi får en annen uavhengig test av ferdighetene deres. Vi vet ikke hvilken retning de vil bevege seg, men selv for dem bør vi forutsi at deres andre halvdel ytelse vil være nærmere gjennomsnittet enn deres første halvdel ytelse. Den faktiske ytelsen til spillerne bør imidlertid forventes å ha en like stor variasjon i andre halvdel av året som i første omgang, fordi den bare resulterer fra en omfordeling av uavhengig tilfeldig flaks blant spillere med samme kompetansefordeling som før. En fin diskusjon om regresjon til gjennomsnittet i den bredere sammenhengen av samfunnsvitenskapelig forskning finner du her. (Tilbake til toppen av siden.) Begrunnelse for regresjonsforutsetninger Hvorfor bør vi anta at forhold mellom variabler er lineære. Fordi lineære forhold er de enkleste ikke-trivielle forholdene som kan forestilles (dermed det enkleste å jobbe med), og. Fordi quottruequot-relasjonene mellom våre variabler ofte er minst omtrent lineære over det verdier som er av interesse for oss, og. Selv om de ikke er det, kan vi ofte omdanne variablene på en slik måte at de lineariserer forholdene. Dette er en sterk antagelse, og det første trinnet i regresjonsmodellering bør være å se på spredningsdiagrammer av variablene (og i tilfelle tidsseriedata, plott av variablene vs tid) for å sikre at det er rimelig a priori. Og etter å ha montert en modell, bør feilmålinger undersøkes for å se om det er uforklarlige ikke-lineære mønstre. Dette er spesielt viktig når målet er å gjøre forutsigelser for scenarier utenfor rekkevidden av de historiske dataene, hvor avganger fra perfekt linearitet sannsynligvis vil ha størst effekt. Hvis du ser tegn på ikke-lineære relasjoner, er det mulig (men ikke garantert) at transformasjoner av variabler vil rette dem ut på en måte som vil gi nyttige inferanser og spådommer via lineær regresjon. (Tilbake til toppen av siden.) Og hvorfor skal vi anta at virkningen av forskjellige uavhengige variabler på forventet verdi av den avhengige variabelen er additiv. Dette er en veldig sterk antagelse, sterkere enn de fleste innser. Det innebærer at den marginale effekten av en uavhengig variabel (det vil si dens skråningskoeffisient) ikke er avhengig av nåværende verdier av andre uavhengige variabler. Men 8230 hvorfor burde det være mulig at en uavhengig variabel kunne forsterke effekten av en annen, eller at dens effekt kan variere systematisk over tid. I en multipelregresjonsmodell måles den estimerte koeffisienten til en gitt uavhengig variabel antagelig sin effekt mens quotcontrollingquot for tilstedeværelsen av de andre. Imidlertid er måten kontrollen utføres på, ekstremt enkel: Multipler av andre variabler blir bare lagt til eller trukket fra. Mange brukere kaster bare mange uavhengige variabler inn i modellen uten å tenke nøye på dette problemet, som om deres programvare automatisk vil finne ut nøyaktig hvordan de er relaterte. Det won8217t Selv automatiske modellvalgsmetoder (for eksempel trinnvis regresjon) krever at du har en god forståelse av dine egne data og å bruke en veiledende hånd i analysen. De arbeider bare med variablene de er gitt, i form som de er gitt, og så ser de bare for lineære, additivmønstre blant dem i sammenheng med hverandre. En regresjonsmodell antar ikke bare at Y er quotsome functionquot av Xs. Det antas at det er en veldig spesiell type funksjon av Xs. En vanlig praksis er å inkludere uavhengige variabler hvis prediktive effekter logisk ikke kan være additiv, si noen som er totals og andre som er priser eller prosenter. Noen ganger kan dette rationaliseres ved lokale førstordens-tilnærming argumenter, og noen ganger kan det ikke. Du må samle de relevante dataene, forstå hva det måler, rengjør det om nødvendig, utfør beskrivende analyser for å lete etter mønstre før du monterer noen modeller, og undersøk de diagnostiske tester av modellantakelser etterpå, spesielt statistikk og plott av feilene. Du bør også prøve å bruke riktig økonomisk eller fysisk begrunnelse for å avgjøre om en tilsetningsforutsigelsesligning er fornuftig. Også her er det mulig (men ikke garantert) at transformasjoner av variabler eller inkludering av interaksjonsbetingelser kan skille deres effekter inn i en additiv form, hvis de ikke har et slikt skjema til å begynne med, men dette krever litt tanke og innsats på din del. (Gå tilbake til toppen av siden.) Og hvorfor skal vi anta at feilene i lineære modeller er uavhengig og normalt distribuert. 1. Denne antagelsen er ofte begrunnet ved å appellere til den sentrale grenseetningen for statistikk, som sier at summen eller gjennomsnittet av et tilstrekkelig stort antall uavhengige tilfeldige variabler - uansett deres individuelle fordelinger - nærmer seg en normal fordeling. Mye data i næringsliv og økonomi og ingeniørfag og naturvitenskap er oppnådd ved å legge til eller gjennomsnittlig numerisk måling utført på mange forskjellige personer eller produkter eller steder eller tidsintervaller. Forutsatt at aktivitetene som genererer målingene kan forekomme noe tilfeldig og noe uavhengig, kan vi forvente at variasjonene i totalene eller gjennomsnittene blir noe normalt fordelt. 2. Det er (igjen) matematisk praktisk: det innebærer at de optimale koeffisientestimatene for en lineær modell er de som minimerer gjennomsnittlig kvadratfeil (som lett kan beregnes), og det begrunner bruken av en rekke statistiske tester basert på normal familie av distribusjoner. (Denne familien inkluderer t-fordeling, F-fordeling og Chi-kvadratfordeling.) 3. Selv om quottruequot-feilprosessen ikke er normal i forhold til de opprinnelige enhetene i dataene, kan det være mulig å transformere dataene slik at modellens prediksjonsfeil er omtrent normalt. Men her må også forsiktighet utøves. Selv om de uforklarlige variasjonene i den avhengige variabelen er omtrent normalt fordelte, er det ikke garantert at de også vil bli distribuert like normalt for alle verdier av de uavhengige variablene. Kanskje de uforklarlige variasjonene er større under noen forhold enn andre, en tilstand som kalles quotheteroscedasticityquot. For eksempel, hvis den avhengige variabelen består av daglig eller månedlig total salg, er det sannsynligvis signifikant ukedagsmønster eller sesongmessige mønstre. I slike tilfeller vil variansen av totalen være større på dager eller i sesonger med større forretningsvirksomhet - en annen konsekvens av den sentrale grenseetningen. (Variable transformasjoner som logging andor sesongjustering brukes ofte til å håndtere dette problemet.) Det er heller ikke garantert at tilfeldige variasjoner vil være statistisk uavhengige. Dette er et spesielt viktig spørsmål når dataene består av tidsserier. Hvis modellen ikke er riktig angitt, er det mulig at sammenhengende feil (eller feil adskilt av et annet antall perioder) har en systematisk tendens til å ha samme tegn eller en systematisk tendens til å ha motsatte tegn, et fenomen som kalles quotautocorrelationquot eller quotserial correlationquot. Et svært viktig spesialfall er at aksjekursdata. i hvilke prosentvise endringer i stedet for absolutte endringer har en tendens til å bli distribuert normalt. Dette innebærer at over moderate til store tidsskalaer er bevegelser i aksjekursene lognormalt fordelt i stedet for normalt distribuert. En loggtransformasjon brukes typisk til historiske aksjekursdata når man studerer vekst og volatilitet. Forsiktig: Selv om enkle regresjonsmodeller ofte er montert på historisk aksjeavkastning for å anslå kvotebevis, som er indikatorer for relativ risiko i sammenheng med en diversifisert portefølje, anbefaler jeg ikke at du bruker regresjon for å prøve å forutsi fremtidige aksjeavkastninger. Se den geometriske tilfeldige gange siden i stedet. Du kan fortsatt tro at variasjoner i verdiene av porteføljer av aksjer vil pleie å bli distribuert normalt på grunn av den sentrale grense setningen, men den sentrale grense setningen er faktisk ganske sakte å bite på lognormal fordeling fordi det er så asymmetrisk lang - tailed. En sum på 10 eller 20 uavhengig og identisk lognormalt fordelte variabler har en fordeling som fortsatt er ganske nær lognormal. Hvis du ikke tror dette, prøv å teste det med Monte Carlo-simulering: du vil bli overrasket. (Jeg var.) Fordi forutsetningene for lineær regresjon (lineære, additivrelasjoner med normalt distribuerte feil) er så sterke, er det svært viktig å teste deres gyldighet når de passer på modeller, et emne som er nærmere omtalt i testmodell - Forutsetninger side. og vær oppmerksom på muligheten for at du trenger flere eller bedre data for å nå dine mål. Du kan ikke få noe fra ingenting. Alt for ofte ser naiumlve-brukere av regresjonsanalyse det ut som en svart boks som automatisk kan forutsi en gitt variabel fra andre variabler som blir matet inn i den, når en regresjonsmodell faktisk er en veldig spesiell og meget gjennomsiktig form for prediksjonsboks. Dens utgang inneholder ikke mer informasjon enn det som er gitt av dens innganger, og dens indre mekanisme må sammenlignes med virkeligheten i hver situasjon der den blir brukt. (Tilbake til toppen av siden.) Korrelasjon og enkle regresjonsformler En variabel er per definisjon en mengde som kan variere fra en måling til en annen i situasjoner hvor forskjellige prøver tas fra en befolkning eller observasjoner blir gjort på forskjellige tidspunkter. I passende statistiske modeller hvor noen variabler brukes til å forutsi andre, er det vi håper å finne, at de ulike variablene ikke varierer uavhengig (i statistisk forstand), men at de har en tendens til å variere sammen. Spesielt når vi passer på lineære modeller, håper vi å finne at en variabel (si, Y) varierer som en lineær funksjon av en annen variabel (si X). Med andre ord, hvis alle andre eventuelt relevante variabler kunne holdes faste, ville vi håpe å finne grafen for Y mot X for å være en rett linje (bortsett fra de uunngåelige tilfeldige feilene eller quotnoisequot). Et mål på den absolutte variabelen i en variabel er (naturlig) dens varians. som er definert som sin gjennomsnittlige kvadrert avvik fra sitt eget gjennomsnitt. Tilsvarende kan vi måle variabiliteten i forhold til standardavviket. som er definert som kvadratroten av variansen. Standardavviket har fordelen at den måles i de samme enhetene som den opprinnelige variabelen, i stedet for kvadratiske enheter. Vår oppgave med å forutsi Y kan beskrives som å forklare noe eller hele dens varians - dvs. Hvorfor . eller under hvilke forhold, avviker det fra det som betyr hvorfor det ikke er konstant. Det vil vi kunne forbedre på den naive prediktive modellen: 374 t CONSTANT, hvor den beste verdien for konstanten er antagelig den historiske middelværdien av Y. Nærmere bestemt håper vi å finne en modell hvis prediksjonsfeil er mindre, i gjennomsnittlig kvadratisk forstand, enn avvikene fra den opprinnelige variabelen fra dens gjennomsnitt. Ved bruk av lineære modeller for prediksjon, viser det seg veldig beleilig at den eneste statistikken av interesse (i det minste for å estimere koeffisienter for å minimere kvadratfeil) er gjennomsnittet og variansen av hver variabel og korrelasjonskoeffisienten mellom hvert par variabler. Korrelasjonskoeffisienten mellom X og Y betegnes vanligvis ved r XY. og det måler styrken til det lineære forholdet mellom dem på en relativ (dvs. enhetsløs) skala på -1 til 1. Dvs. måler det i hvilken grad en lineær modell kan brukes til å forutsi avviket av en variabel fra dens gjennomsnitt gitt kunnskap om den andre avviket fra dens gjennomsnitt på samme tidspunkt. Korrelasjonskoeffisienten beregnes lettest hvis vi først standardiserer variablene, noe som betyr å konvertere dem til enheter av standardavvik-fra-gjennomsnittet, ved å bruke populasjonsstandardavviket i stedet for prøvestandardavviket, dvs. ved å bruke statistikken hvis formel har n i stedet for n-1 i nevnen, hvor n er prøvestørrelsen. Den standardiserte versjonen av X vil bli betegnet her med X. og verdien i periode t er definert i Excel-notat som: hvor STDEV. P er Excel-funksjonen for populasjonsstandardavviket. (Her og andre steder skal jeg bruke Excel-funksjoner i stedet for konvensjonelle matte-symboler i noen av formlene for å illustrere hvordan beregningene skulle gjøres på et regneark.) For eksempel, anta at AVERAGE (X) 20 og STDEV. P (X ) 5. Hvis X t 25, deretter X t 1, hvis X t 10. deretter X t -2, og så videre. Y vil betegne den tilsvarende standardiserte verdien av Y. Nå er korrelasjonskoeffisienten lik med gjennomsnittet av de standardiserte verdiene for de to variablene i den gitte prøven av n observasjoner: For eksempel, hvis X og Y lagres i kolonner På et regneark kan du bruke AVERAGE - og STDEV. P-funksjonene til å beregne gjennomsnittene og standardstandardavvikene for befolkningen, så kan du opprette to nye kolonner der verdiene for X og Y i hver rad beregnes i henhold til formelen ovenfor. Deretter lager du en tredje ny kolonne der X blir multiplisert med Y i hver rad. Gjennomsnittet av verdiene i den siste kolonnen er korrelasjonen mellom X og Y. Selvfølgelig, i Excel, kan du bare bruke formelen CORREL (X, Y) for å beregne en korrelasjonskoeffisient, hvor X og Y angir celleområder av dataene for variablene. (Merk: I noen situasjoner kan det være interessant å standardisere dataene i forhold til standardavviket for prøven, som er STDEV. S i Excel, men populasjonsstatistikken er den riktige som skal brukes i formelen ovenfor.) (Tilbake til toppen av siden.) Hvis de to variablene har en tendens til å variere på samme side av deres respektive virkemidler samtidig, vil gjennomsnittlig produkt av deres avvik (og dermed sammenhengen mellom dem) være positiv. siden produktet av to tall med samme tegn er positivt. Omvendt, hvis de har en tendens til å variere på motsatte sider av deres respektive midler samtidig, vil deres korrelasjon være negativ. Hvis de varierer uavhengig med hensyn til deres midler - det vil si hvis en er like stor som å være over eller under dens gjennomsnitt uansett hva den andre gjør - da vil korrelasjonen være null. Og hvis Y er en nøyaktig lineær funksjon av X, så enten Y t X t for alle t eller annet Y t - X t for alle t. i så fall reduseres formelen for korrelasjonen til 1 eller -1. Korrelasjonskoeffisienten kan sies å måle styrken til det lineære forholdet mellom Y og X av følgende årsak. Den lineære ligningen for å forutsi Y fra X som minimerer gjennomsnittlig kvadratfeil er ganske enkelt: Således, hvis X observeres å være 1 standardavvik over sitt eget gjennomsnitt, da skal vi forutse at Y vil være r XY standardavvik over sitt eget middel hvis X er 2 standardavvik under sin egen gjennomsnitt, da skal vi forutse at Y vil være 2 r XY standardavvik under eget middel, og så videre. I grafiske termer betyr dette at, på en scatterplot av Y versus X. linjen for å forutsi Y fra X for å minimere gjennomsnittlig kvadratfeil er linjen som passerer gjennom opprinnelsen og har skråning r XY. Dette faktum er ikke ment å være åpenbart, men det er lett å bevise ved elementær differensialkalkulator. Her er et eksempel: på en scatterplot av Y versus X. symmetriens visuelle akse er en linje som går gjennom opprinnelsen, og hvis skråning er lik 1 (dvs. en 45 graders linje), som er den grå strekklinjen på plottet under. Den passerer gjennom opprinnelsen fordi metoden til begge standardiserte variabler er null, og dens helling er lik 1 fordi deres standardavvik er begge lik 1. (Det siste faktum betyr at punktene er like spredt horisontalt og vertikalt når det gjelder gjennomsnittlige kvadratiske avvik fra null, noe som tvinger deres mønster til å virke omtrent symmetrisk rundt 45-graderslinjen hvis forholdet mellom variablene virkelig er lineært.) Den grå strekkede linjen er imidlertid ikke den beste linjen som skal brukes til å forutsi verdien av Y for en gitt verdi på X. Den beste linjen for å forutsi Y fra X har en skråning på mindre enn 1: den trekker seg mot X-aksen. Regresjonslinjen er vist i rødt, og dens skråning er korrelasjonen mellom X og Y. Dette er 0,46 i dette tilfellet. Hvorfor er dette sant fordi, that8217s måten å satse på hvis du vil minimere den gjennomsnittlige kvadratfeilen målt i Y-retningen. Hvis du i stedet ønsket å forutsi X fra Y for å minimere gjennomsnittlig kvadratfeil målt i X-retningen, ville linjen regres i den andre retningen i forhold til 45-graders linjen, og med nøyaktig samme mengde. Hvis vi ønsker å oppnå den lineære regresjonsligningen for å forutsi Y fra X i ubetingede termer. vi trenger bare å erstatte formlene for de standardiserte verdiene i foregående ligning, som da blir: Ved å omarrangere denne ligningen og samle konstante termer, oppnår vi: er den estimerte helling av regresjonslinjen, og er den estimerte Y-avgrensningen av linje. Legg merke til at koeffisientene i den lineære ligningen for å forutsi Y fra X bare avhenger av middelene og standardavvikene til X og Y og korrelasjonskoeffisienten. De tilleggsformlene som trengs for å beregne standardfeil. t-statistikk. og P-verdier (statistikk som måler nøyaktigheten og betydningen av estimerte koeffisienter) er gitt i notatene om matematikk av enkel regresjon og også illustrert i denne regnearkfilen. Perfekt positiv korrelasjon (r XY 1) eller perfekt negativ korrelasjon (r XY -1) oppnås bare dersom en variabel er en nøyaktig lineær funksjon av den andre, uten feil, i så fall er de ikke veldig quotdifferentquot variabler i det hele tatt. Generelt finner vi mindre enn perfekt korrelasjon, det vil si, vi finner at r XY er mindre enn 1 i absolutt verdi. Therefore our prediction for Y is typically smaller in absolute value than our observed value for X . That is, the prediction for Y is always closer to its own mean, in units of its own standard deviation, than X was observed to be, which is Galtons phenomenon of regression to the mean. So, the technical explanation of the regression-to-the-mean effect hinges on two mathematical facts: (i) the correlation coefficient, calculated in the manner described above, happens to be the coefficient that minimizes the squared error in predicting Y from X . and (ii) the correlation coefficient is never larger than 1 in absolute value, and it is only equal to 1 when Y is an exact (noiseless) linear function of X . The term quotregressionquot has stuck and has even mutated from an intransitive verb into a transitive one since Galtons time. We dont merely say that the predictions for Y quotregress to the meanquot--we now say that we are quotregressing Y on X quot when we estimate a linear equation for predicting Y from X. and we refer to X as a quotregressorquot in this case. When we have fitted a linear regression model, we can compute the variance of its errors and compare this to the variance of the dependent variable (the latter being the error variance of an intercept-only model). The relative amount by which the regression models error variance is less than the variance of the dependent variable is referred to as the fraction of the variance that was explained by the independent variable(s). For example, if the error variance is 20 less than the original variance, we say we have quotexplained 20 of the variance. quot It turns out that in a simple regression model, the fraction of variance explained is precisely the square of the correlation coefficient --i. e. the square of r. Hence, the fraction-of-variance-explained has come to be known as quotR-squaredquot. The interpretation and use of R-squared are discussed in more detail here. In a multiple regression model (one with two or more X variables), there are many correlation coefficients that must be computed, in addition to all the means and variances. For example, we must consider the correlation between each X variable and the Y variable, and also the correlation between each pair of X variables. In this case, it still turns out that the model coefficients and the fraction-of-variance-explained statistic can be computed entirely from knowledge of the means, standard deviations, and correlation coefficients among the variables--but the computations are no longer easy. We will leave those details to the computer. (Return to top of page.) Go on to a nearby topic:

No comments:

Post a Comment