You are here

Mikä on luonnollisen kielen sanaluokitin?

Connexorin luonnollisen kielen sanaluokitin sisältää kaikki perustason toiminnot luonnollisen kielen analysointiin. Samalla kertaa saat vastaukset kysymyksiin:

  • Mikä on sana? Mikä on lause?
  • Miten tunnistaa saman sanan taivutetut muodot?
  • Millaisia sanayhdistelmiä tekstistä löytyy?
  • Mitä ominaisuuksia sanoilla on?

Sanojen tunnistaminen ei ole välttämättä niin helppoa kuin voisi ajatella. Välillä kirjainjono välilyöntien välissä ei muodosta järkevää yksikköä. Otetaan esimerkiksi merkkijono New York-lähtöinen (esim. virkkeessä: "Bubblekirjaimet on New York-lähtöinen pyöreistä muodoista koostuva kirjaintyyli"). Jos jaetaan tämä kahdeksi sanaksi välilyönnin kohdalta saadaan New ja York-lähtöinen. Nämä eivät muodosta järkeviä yksiköitä ja mahdollisissa myöhemmissä käsittelyvaiheessa virheellisistä sanajaosta on haittaa. Tätä sanarajojen tunnistusta kutsutaan myös tokenisoinniksi.

Lauseiden tunnistaminen on pieni asia, joka tekee elämästä helpompaa kahdella tavalla. Ensinnäkin muu tekstianalyysi toimii jouhevammin kun tunnistetaan järkevät käsittely-yksiköt ja toiseksi peruskielianalyysiä hyödyntävät kehittyneemmät sovellukset toimivat paremmin.

Useimmissa kielissä sanoilla on useita taivutusmuotoja. Esimerkiksi englannissa taivutusmuotoja on niukalti, esimerkiksi adjektiivi small taipuu muotoihin smaller ja smallest, mutta suomessa vastaavasta sanasta pieni muodostuu noin 18 000 taivutusmuotoa. Tätä taivutusmuotojen tunnistustehtävää kutsutaan morfologiseksi analyysiksi, perusmuotoon palauttamiseksi tai lemmatisoinniksi riippuen siitä, mihin tarkoitukseen ja kuka tällaista analyysia tarvitsee. Hakusovelluksissa se on usein perusmuotoistamista, kun taas semanttisissa sovelluksissa käytetään usein morfologia-nimitystä.

Kun luodaan älykkäitä sovelluksia, ei ole kyse vain sanoista vaan asioista. Luonnollisen kielen sanaluokitin tukee tätä tuottamalla perusanalyysin, jonka päälle semanttinen tieto tai ontologiat on liitettävissä. Otetaanpa vaikka sanaparit New York ja Valkoinen talo. Yksinään sanat new ja valkoinen eivät sisällä hyödyllistä tietoa, vaan merkitys syntyy sanakokonaisuudesta. Tällaisia sanaliittoja emme välttämättä edes lukiessa huomaa kuten "harmaa talous", jolla ei ole mitään tekemistä värin kanssa. Tästä tunnistustehtävästä käytämme termejä entiteettien tunnistus ja substantiivilausekkeiden (NP) tunnistus.

Connexorin sanaluokitinohjelmisto on nimeltään Machinese Phrase Tagger.
Ohjelmisto analysoi seuraavia kieliä: suomi, englanti, ruotsi, saksa, ranska, espanja, italia, hollanti, venäjä, tanska ja norja.