Primääri- ja sekundääritieto

Kun havaintotietoa tuodaan Lajitietokeskukseen, on tärkeää erotella toisistaan ns. primääri- ja sekundääritieto, jotta muutostilanteissa ei syntyisi ongelmia.

Primääritieto tarkoittaa sitä kopiota tiedosta, jota ylläpidetään. Ylläpidolla tarkoitetaan kaikkia tietoon tehtäviä muutoksia, esimerkiksi uuden tiedon lisäämistä, vanhan tiedon korjauksia ja virheellisen tiedon poistamista.

Sekundääritieto tarkoittaa primääritiedosta otettua kopiota, jota ei muuteta. Jos sekundääritiedossa huomataan esim. virheitä, niistä ilmoitetaan primääritiedon haltijalle, joka korjaa tiedon primääritietoon. Tämän jälkeen sekundääritieto voidaan korvata uudella primääritiedosta otetulla kopiolla.

Jos primääritietoa yritetään pitää kahdessa paikassa yhtä aikaa, seuraa usein ongelmia.

Esimerkki ongelmatilanteesta

Organisaatio O on koonnut laajan aineiston kerttuleista. O säilyttää tietoja paikkatietojärjestelmässä P1, jota sen työntekijät käyttävät aktiivisesti työssään.

  • Havainto P1:ssa: hannukerttuli, Heinola, Jyräkö, 31.12.2019

Tutkimusryhmä T tutkii myös kerttuleja. T pyytää saada tietoja O:lta täydentääkseen käsitystään lajin esiintymisestä. O toimittaa tiedot T:lle, joka tallentaa sen omaan paikkatietojärjestelmäänsä P2.

  • Havainto P1:ssa: hannukerttuli, Heinola, Jyräkö, 31.12.2019
  • Havainto P2:ssa: hannukerttuli, Heinola, Jyräkö, 31.12.2019

Kuluu vuosi. O kerää uusia tietoja ja tallentaa niitä P1:hen. Samalla se tekee korjauksia vanhoihin tietoihin. Samaan aikaan myös T täydentää tietoja omassa paikkatietojärjestelmä P2:ssa.

  • Havainto P1:ssa: hannukerttuli, Heinola, Jyränkö, 15.7.2019(paikan nimi korjattu, päivämäärä korjattu)
  • Havainto P2:ssa: hannukerttuli, Heinola, Jyräkö, 6787:3448, 1.1.-31.12.2019(koordinaatit lisätty, päivämäärä korjattu tekemällä siitä epätarkempi)

Nyt tiedot halutaan julkaista yhtenä kokonaisuutena. Miten tiedot yhdistetään? Samoja havaintoja on muutettu sekä P1:ssa että P2:ssa. Kumman versio julkaistaan? Kummassakaan järjestelmässä ei ole kaikkia havaintoja, joten vain toisen julkaiseminen ei ole myöskään ole mahdollista, jos halutaan kattava kokonaiskuva lajista.

Ongelma on syntynyt, koska aineistoa on käsitelty primääritietona kahdessa eri tietojärjestelmässä. Usein tällaisessa tilanteessa on päädytty julkaisemaan molemmat aineistot, mikä johtaa duplikaattien syntyyn.

Primääritiedon ja sekundääritiedon erottelu

Jotta samaa tietoa ei päivitettäisi useassa eri paikassa, Lajitietokeskus määrittelee tarkasti mikä on primääriaineistoa ja mikä sekundääriaineistoa. Nämä tallennetaan eri tietojärjestelmiin.

Lajitietokeskuksella on tällä hetkellä kolme primääritietojärjestelmää:

  1. Kotka-kokoelmienhallintajärjestelmä, joka on tarkoitettu luonnontieteellisten museoiden kokoelmatietojen ylläpitoon.
  2. Vihko-havaintojärjestelmä, joka on tarkoitettu kartoitus- ja seurantaprojektien sekä luontoharrastajien havainto- ja kokoelmatietojen ylläpitoon.
  3. iNaturalist Suomi, joka on tarkoitettu luontoharrastajien havaintotietojen ylläpitoon sekä tunnistusavun saamiseen.

Lajitietokeskuksen tietovarasto on sekundääritietojärjestelmä. Kaikki siihen kopioitavat tiedot ovat tallessa ja ylläpidettävinä jossakin muussa tietojärjestelmässä. Tietoja saadaan mm. seuraavista primäärijärjestelmistä:

  • Lajitietokeskuksen Kotka
  • Lajitietokeskuksen Vihko
  • iNaturalist Suomi
  • Luomuksen linnustonseuranta- ja rengastustietokannat
  • SYKE:n pohjaeläintietokanta
  • Metsähallituksen LajiGIS-järjestelmä (sisältäen SYKEn vanhan Hertta-järjestelmän havainnot)
  • ...ja monista muista

Kun tietoa päivitetään jossakin näistä järjestelmistä, se kopioidaan (usein automaattisesti) tietovarastoon, jossa se korvaa vanhan havainnon. Tietovarastossa olevia tietoja ei muuteta muilla tavoin, vaan ainoastaan alkuperäistiedon, eli primääritiedon kautta.

Täysin ongelmaton tämäkään malli ei ole, mm. koska näihin primäärijärjestelmiin on usein tallennettu kopioita samasta tiedosta (eli ne sisältävät tietoa, joka on todellisuudessa sekundääritietoa). Esimerkiksi näyte on voitu tallettaa Kotkaan ja havaintona Herttaan, jolloin tieto tulee näkyviin duplikaattina. Tämän ratkaisemiseksi tarvitaan duplikaattien merkintää, automaattista klusterointia tms. toiminnallisuutta.