Det høres ut som om du er interessert i å bestemme de underliggende kreftene som produserer en gitt datastrøm. Slike matematiske modeller kalles Markov-modeller. Et klassisk eksempel er studiet av tekst.
Hvis jeg for eksempel kjører en skjult Markov-modellalgoritme på et avsnitt i engelsk tekst, vil jeg finne at det er to drivkategorier som bestemmer sannsynligheten for hvilke bokstaver som vises i avsnittet. Disse kategoriene kan grovt sett deles inn i to grupper, "aeiouy" og "bcdfghjklmnpqrstvwxz". Verken matematikken eller HMM "visste" hva de skulle kalle disse kategoriene, men det er det som er statistisk konvertert til ved analyse av et avsnitt av tekst. Vi kan kalle disse kategoriene "vokaler" og "konsonanter". Så, vokaler og konsonanter er ikke bare 1. klassekategorier å lære, de følger av hvordan tekst skrives statistisk. Interessant nok oppfører et "rom" seg mer som en vokal enn en konsonant. Jeg ga ikke sannsynlighetene for eksemplet over, men det er interessant å merke seg at "y" ender med en sannsynlighet på omtrent 0,6 vokal og 0,4 konsonant; noe som betyr at "y" er den mest konsonant som oppfører seg vokalen statistisk.
En god artikkel er https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf som går over de grunnleggende ideene til denne typen tidsserie-analyser og til og med gir noen sudo-kode for referanse.
Jeg vet ikke så mye om dataene du har å gjøre med, og jeg vet ikke om begrepene "positive" og "negative" spiller en avgjørende faktor i dataene du ser, men hvis du kjørte en HMM på dataene dine og fant at de to gruppene var samlingen av positive tall og samling av negative tall, så vil svaret ditt bli bekreftet, ja, de mest innflytelsesrike to-kategoriene som driver dataene dine er begrepene positive og negative. Hvis de ikke deler seg jevnt, er svaret ditt at disse begrepene ikke er en innflytelsesrik faktor for å drive dataene. Enda mer så vil algoritmen ende med flere sannsynlighetsmatriser som viser deg hvor mye hvert heltall i dataene dine blir påvirket av hver kategori, og derfor vil du ha mye større innsikt i oppførselen til tidsseriedataene dine.