Statistisk test for tidsserier der utfallet oppstår - python

stemmer
49

Jeg spør om hjelp til regresjonstesting. Jeg har en kontinuerlig tidsserie som svinger mellom positive og negative heltall. Jeg har også hendelser som oppstår gjennom denne tidsserien på tilsynelatende tilfeldige tidspunkter. Når en hendelse inntreffer, tar jeg det respektive heltall. Jeg vil da teste om dette heltallet påvirker hendelsen i det hele tatt. Som i er det mer positive / negative heltal.

Jeg trodde opprinnelig logistisk regresjon med det positive / negative tallet, men det ville kreve minst to forskjellige grupper. Mens jeg bare har informasjon om hendelser som har skjedd. Jeg kan egentlig ikke ta med den mengden hendelser som ikke oppstår, fordi det er noe kontinuerlig og tilfeldig. Hvor mange ganger en hendelse ikke skjer, er umulig å måle.

Så min distinkte gruppe er sant på en måte, siden jeg ikke har noen resultater fra noe som ikke forekom. Det jeg prøver å klassifisere er:

Når et utfall oppstår, påvirker det positive eller negative heltallet dette utfallet .

Publisert på 11/05/2020 klokken 04:28
kilden bruker
På andre språk...                            


3 svar

stemmer
0

Skjønt, spørsmålet er ganske vanskelig å forstå etter første ledd. La meg hjelpe fra det jeg kunne forstå av dette spørsmålet.

Forutsatt at du vil forstå om det er sammenheng mellom hendelsene som skjer og heltalene i dataene.

1. tilnærming: Plott dataene i en 2d skala og sjekk visuelt om det er en sammenheng mellom data. 2. tilnærming: gjør dataene fra hendelsene kontinuerlige og fjern hendelsene fra andre data og bruk rullende vindu til å glatte ut dataene og sammenligne deretter begge trender.

Ovenfor gitt tilnærming fungerer bare bra hvis jeg forstår problemet ditt riktig. Det er også en ting til som er kjent som Survivorship bias. Du mangler kanskje data. Kontroller også den delen.

Svarte 18/05/2020 kl. 13:52
kilden bruker

stemmer
0

Det høres ut som om du er interessert i å bestemme de underliggende kreftene som produserer en gitt datastrøm. Slike matematiske modeller kalles Markov-modeller. Et klassisk eksempel er studiet av tekst.

Hvis jeg for eksempel kjører en skjult Markov-modellalgoritme på et avsnitt i engelsk tekst, vil jeg finne at det er to drivkategorier som bestemmer sannsynligheten for hvilke bokstaver som vises i avsnittet. Disse kategoriene kan grovt sett deles inn i to grupper, "aeiouy" og "bcdfghjklmnpqrstvwxz". Verken matematikken eller HMM "visste" hva de skulle kalle disse kategoriene, men det er det som er statistisk konvertert til ved analyse av et avsnitt av tekst. Vi kan kalle disse kategoriene "vokaler" og "konsonanter". Så, vokaler og konsonanter er ikke bare 1. klassekategorier å lære, de følger av hvordan tekst skrives statistisk. Interessant nok oppfører et "rom" seg mer som en vokal enn en konsonant. Jeg ga ikke sannsynlighetene for eksemplet over, men det er interessant å merke seg at "y" ender med en sannsynlighet på omtrent 0,6 vokal og 0,4 konsonant; noe som betyr at "y" er den mest konsonant som oppfører seg vokalen statistisk.

En god artikkel er https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf som går over de grunnleggende ideene til denne typen tidsserie-analyser og til og med gir noen sudo-kode for referanse.

Jeg vet ikke så mye om dataene du har å gjøre med, og jeg vet ikke om begrepene "positive" og "negative" spiller en avgjørende faktor i dataene du ser, men hvis du kjørte en HMM på dataene dine og fant at de to gruppene var samlingen av positive tall og samling av negative tall, så vil svaret ditt bli bekreftet, ja, de mest innflytelsesrike to-kategoriene som driver dataene dine er begrepene positive og negative. Hvis de ikke deler seg jevnt, er svaret ditt at disse begrepene ikke er en innflytelsesrik faktor for å drive dataene. Enda mer så vil algoritmen ende med flere sannsynlighetsmatriser som viser deg hvor mye hvert heltall i dataene dine blir påvirket av hver kategori, og derfor vil du ha mye større innsikt i oppførselen til tidsseriedataene dine.

Svarte 19/05/2020 kl. 07:59
kilden bruker

stemmer
0

Kanskje jeg misforstår problemet ditt, men jeg tror ikke at du kan forhåndsforme noen form for meningsfull regresjon uten mer informasjon.

Regresjon brukes vanligvis for å finne et forhold mellom to eller flere variabler, men det ser ut til at du bare har en variabel (hvis de er positive eller negative) og en konstant (utfallet er alltid sant i data). Kanskje du kan gjøre noen statistikker om fordelingen av tallene (gjennomsnitt, median, standardavvik), men jeg er usikker på hvordan du kan gjøre regresjon. https://en.wikipedia.org/wiki/Regression_analysis

Det kan være lurt å vurdere at det kan være noen sterke overlevelsesskjevheter hvis du mangler en stor del av dataene dine. https://en.wikipedia.org/wiki/Survivorship_bias

Håper dette i det minste er litt nyttig for å få deg styrt i riktig retning

Svarte 11/05/2020 kl. 04:53
kilden bruker

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more