LUIS setter mellomrom i ytringene når tegnsetting stede forårsaker enhet bli feilaktig tolket

stemmer
0

Jeg spiller rundt med Luis lager ticker eksempel her, GitHub MicrosoftBotBuilder Eksempel , det fungerer godt, og foretaket i ytringene er identifisert, men det er børstelegrafer i verden som har perioder i dem som bt.a

Luis som standard pre-prosesser ytringer der ordet pauser er satt rundt skilletegn og derfor en ytring om hva er prisen på bt.a blir hva er prisen på bt. En , og derfor Luis mener enheten er bt i stedet av bt.a

Er det noen som vet hvordan de skal komme rundt dette? Takk

Publisert på 31/07/2016 klokken 00:04
kilden bruker
På andre språk...                            


2 svar

stemmer
2

Dette er hvordan LUIS tokenizes ytringer, og jeg tror ikke det kommer til å endre int han nær fremtid. Jeg tror du kan undersøke en av de 2 løsningene:

  1. Preprocess ytringen og normal enheter med tegnsetting (kanskje lagre dem i et kart), og reversere prosessen når LUIS kalles, og enhetene har blitt hentet.
  2. Bruk setning liste funksjoner og legge til enheter som LUIS savner i sin symbolbasert form, merke foretakets tokens i ytringen, og trene modellen (jeg foreslår at du prøver det i en klone av programmet ditt, slik at du ikke mister noen gjeldende fremdrift )
Svarte 31/07/2016 kl. 11:37
kilden bruker

stemmer
1

Jeg trenger å behandle setninger med web-adresser i dem, så jeg måtte forholde seg til flere ulike symboler. Jeg har funnet en teknikk som fungerer for meg, men det er ikke veldig elegant.

Jeg antar her at du har en enhet oppsett for å representere den "stock symbol"

Her er hva dette vil se ut i ditt tilfelle.

  1. Oppdage tilfeller når LUIS får "aksjesymbol" enhet galt. I ditt tilfelle kan dette være når det ender i en periode.
  2. Når LUIS får foretaket galt, tokenize rå søket ved hjelp mellomrom som skilletegn. Ta tak i riktig token ved å se etter en kamp med feil delvis token.

Så for eksempel ....

"Hva er prisen på bt.a"

Du vil se "stock symbol" enhet av "bt". og vet at det er galt fordi det ender i en periode. Du vil da tokenize spørringen og ser etter symboler som inneholder "bt.". Dette vil identifisere "bt.a" som forespurte symbol.

Det er ikke pen, men i tilfelle av web-adresser har vært pålitelig.

Svarte 31/07/2016 kl. 04:35
kilden bruker

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more