tiedon luokittelu
tiedon luokittelu on prosessi, jossa tiedot järjestellään luokkiin, joiden avulla ne on helppo hakea, lajitella ja tallentaa tulevaa käyttöä varten.
hyvin suunniteltu tiedon luokittelujärjestelmä tekee olennaisten tietojen löytämisestä ja hakemisesta helppoa. Tämä voi olla erityisen tärkeää riskienhallinnan, lainsäädännön löytämisen ja noudattamisen kannalta. Tiedon luokitteluperiaatteiden kirjallisissa menettelyissä ja ohjeissa tulisi määritellä, mitä kategorioita ja kriteerejä organisaatio käyttää tietojen luokitteluun sekä määritellä työntekijöiden tehtävät ja vastuut organisaation sisällä koskien tietojen hoitamista. Kun tietojen luokittelujärjestelmä on luotu, on käsiteltävä turvallisuusstandardeja, joissa määritetään kullekin luokalle asianmukaiset käsittelykäytännöt, ja säilytysstandardeja, joissa määritellään tietojen elinkaarivaatimukset.
tietojen luokittelun tarkoitus
tietojen paikantamisen ja hakemisen helpottamiseksi huolellisesti suunniteltu tietojen luokittelujärjestelmä tekee myös olennaisten tietojen käsittelyn ja jäljittämisen helpoksi. Vaikka jotkut yhdistelmä kaikki seuraavat ominaisuudet voidaan saavuttaa, useimmat yritykset ja data ammattilaiset keskittyvät tiettyyn tavoitteeseen, kun ne lähestyvät tietojen luokitteluprojekti. Yleisimpiä tavoitteita ovat muun muassa seuraavat:
- luottamuksellisuus. Luokitusjärjestelmä, joka arvostaa luottamuksellisuuden muiden attribuuttien yläpuolelle, keskittyy enimmäkseen turvatoimiin, kuten käyttöoikeuksiin ja salaukseen.
- tietojen eheys. Tietojen eheyteen keskittyvä järjestelmä vaatii lisää tallennustilaa, käyttöoikeuksia ja kunnollisia pääsykanavia.
- tietojen saatavuus. Kun tietoturvaa ja eheyttä ei tarvitse hioa, tieto on helpointa saada helpommin käyttäjien ulottuville.
tiedon luokittelun merkitys
tiedon luokittelu on tapa varmistaa, että yritys tai organisaatio noudattaa yrityksen, paikallisten tai liittovaltion ohjeita tietojen käsittelystä sekä tapa parantaa ja maksimoida tietoturvaa.
Yleiset tiedonluokitusvaiheet
tavallisimmin kaikkia tietoja ei tarvitse luokitella, ja osa tuhoutuu vielä paremmin. On tärkeää aloittaa priorisoimalla, minkä tyyppisten tietojen on käytävä läpi luokittelu-ja uudelleenluokitteluprosessit.
seuraavaksi datatutkijat ja muut ammattilaiset luovat kehyksen, jonka puitteissa aineisto järjestetään. Ne määrittelevät tietoihin metatietoja tai muita tunnisteita, joiden avulla koneet ja ohjelmistot voivat lajitella ne heti eri ryhmiin ja luokkiin. On tärkeää säilyttää joka vaiheessa, että kaikki tietojen luokittelujärjestelmät noudattavat yrityksen toimintaperiaatteita sekä paikallisia ja liittovaltion säännöksiä tietojen käsittelystä.
lisäksi yritysten on aina otettava huomioon eettiset ja yksityisyydensuojakäytännöt, jotka vastaavat parhaiten niiden standardeja sekä asiakkaiden ja asiakkaiden odotuksia:
- skannaa. Tähän vaiheeseen kuuluu koko tietokannan kartoittaminen ja digitaalisen pelisuunnitelman tekeminen organisointiprosessiin puuttumiseksi.
- tunnista. Mitä tahansa tiedostotyypistä merkkiyksiköihin tietopakettien kokoon voidaan käyttää tietojen lajitteluun haettaviin, siirrettäviin luokkiin.
- erillinen. Kun data on luokiteltu datatieteen ammattilaisen toteuttamalla järjestelmällä, se voidaan erottaa näistä luokista aina, kun järjestelmää kutsutaan tuomaan ne esiin.
sellaisten tietojen luvaton luovuttaminen, jotka kuuluvat johonkin yrityksen tietoluokitusjärjestelmän suojattuun luokkaan, on todennäköisesti protokollan rikkomista ja joissakin maissa sitä voidaan pitää jopa vakavana rikoksena. Asianmukaisten protokollien valvomiseksi suojatut tiedot on ensin lajiteltava herkkyysluokkaansa.
tiedon luokittelua voidaan käyttää jäsennellyn tiedon luokitteluun edelleen, mutta se on erityisen tärkeä prosessi, jotta jäsennellystä datasta saadaan kaikki irti maksimoimalla sen hyödyllisyys organisaatiolle.
tiedon Luokittelutyypit
tietokoneohjelmoinnissa tiedostojen jäsentäminen on tapa jakaa tietopaketit pienempiin alipaketteihin, jolloin niitä on helpompi siirtää, manipuloida ja luokitella tai lajitella. Erilaiset jäsennystyylit auttavat järjestelmää määrittämään, millaista tietoa syötetään. Päivämäärät jaetaan esimerkiksi päivän, kuukauden tai vuoden mukaan, ja sanat voidaan erottaa välilyönneillä.
tiedon luokittelussa voidaan soveltaa monenlaisia intervalleja, muun muassa seuraavia:
- manuaaliset intervallit. Manuaalisten intervallien käyttäminen tarkoittaa sitä, että ihminen käy läpi koko tietokokonaisuuden ja astuu luokkatauoille tarkkailemalla, missä ne ovat järkevimpiä. Tämä on aivan erinomainen järjestelmä pienemmille tietokokonaisuuksille, mutta saattaa osoittautua ongelmalliseksi suuremmille tiedonkeruille.
- määritellyt aikavälit. Määritellyt intervallit määrittelevät paketin sisältämien merkkien määrän. Tiedot saatettiin esimerkiksi jakaa pienempiin paketteihin kolmen yksikön välein.
- yhtä usein. Jaa koko tietojoukko tasaisin väliajoin tiettyyn ryhmään ja jaa tietomäärä tasaisesti näille ryhmille.
- Kvantiilit. Kvantiilien käyttö edellyttää useiden sallittujen tietojen arvojen asettamista luokkatyypeittäin.
- Luonnolliset tauot. Ohjelmat pystyvät itse määrittämään, missä suuria muutoksia datassa tapahtuu, ja käyttämään näitä indikaattoreita keinona määrittää, missä tiedot hajotetaan.
- geometriset intervallit. Geometristen intervallien osalta sallitaan sama yksikkömäärä luokkaa kohti.
- Keskihajontavälit. Nämä määräytyvät sen mukaan, kuinka paljon merkinnän attribuutit poikkeavat normista. On asetettu lukuarvot näyttää kunkin merkinnän poikkeamat.
- omat vaihteluvälit. Käyttäjä voi luoda ja asettaa mukautettuja alueita ja muuttaa niitä milloin tahansa.
luokittelu on tärkeä osa tiedonhallintaa, joka vaihtelee hieman aineiston karakterisoinnista. Luokittelussa on kyse tiedon ja datan lajittelusta, kun taas luokittelussa on kyse niistä todellisista järjestelmistä, jotka pitävät hallussaan kyseistä tietoa ja dataa.
on olemassa tiettyjä tiedonluokitusstandardiluokkia. Jokaisessa näistä standardeista voi olla liittovaltion ja paikallisia lakeja siitä, miten niitä on käsiteltävä. Ne tarkoittavat seuraavia asioita:
- julkista tietoa. Tätä standardia ylläpitävät valtion laitokset, ja se edellyttää tietojen julkistamista osana tiettyjä lakeja.
- luottamuksellinen tieto. Tällä voi olla oikeudellisia rajoituksia sen käsittelytavan suhteen, tai sen käsittelytavan ympärillä voi olla muita seurauksia.
- arkaluonteiset tiedot. Tämä on kaikki valtion laitosten tallentamat tai käsittelemät tiedot, jotka sisältävät valtuutusvaatimuksia ja muita jäykkiä sääntöjä niiden käytöstä.
- henkilötiedot. Yleensä ihmisten henkilötietoja pidetään lain suojaamina, ja niitä on käsiteltävä tiettyjen protokollien ja sääntöjen mukaisesti asianmukaisen käytön varmistamiseksi. Joskus moraalivaatimusten ja niiden käyttöä koskevan nykyisen lainsäädännön välillä on kuiluja.
säännöllinen lauseke on yhtälö, jota käytetään minkä tahansa tiettyyn kategoriaan sopivan tiedon nopeaan vetämiseen, jolloin on helpompi luokitella kaikki näihin parametreihin kuuluva tieto.
tiedon luokittelussa voidaan käyttää erilaisia työkaluja, kuten tietokantoja, business intelligence-ohjelmistoja ja standardoituja tiedonhallintajärjestelmiä. Esimerkkejä yritysten tiedon luokittelussa käyttämistä business intelligence-ohjelmistoista ovat muun muassa Google Data Studio, Databox, vimme ja SAP Lumira.
Tietoluokituksen hyödyt
tietoluokituksen käyttäminen auttaa organisaatioita säilyttämään tietojensa luottamuksellisuuden, helppouden ja eheyden. Se auttaa myös pienentämään riskiä siitä, että rakenteeton arkaluonteinen tieto joutuu alttiiksi hakkereille, ja se säästää yrityksiä jyrkiltä tietojen tallennuskustannuksilta. Massiivisten järjestämättömien tietojen tallentaminen on kallista ja voi olla myös rasite.
GDPR (EU: n yleinen tietosuoja-asetus)
EU: n yleinen tietosuoja-asetus (GDPR) on joukko kansainvälisiä ohjeita, jotka on luotu auttamaan yrityksiä ja laitoksia käsittelemään luottamuksellisia tai arkaluonteisia tietoja huolellisesti ja kunnioittavasti. Se koostuu seitsemästä ohjaavasta periaatteesta: oikeudenmukaisuus, rajallinen soveltamisala, tietojen minimointi, tarkkuus, tallennusrajoitukset, oikeudet ja eheys. Näiden normien noudattamatta jättämisestä on joissakin maissa hyvin ankaria rangaistuksia.
esimerkkejä tiedon luokittelusta
järjestelmässä tietoihin voidaan soveltaa useita eri kategorialuetteloita. Näitä tutkintojen luetteloita kutsutaan myös tiedon luokittelujärjestelmiksi. Yksi tapa luokitella herkkyysluokkia voisi olla esimerkiksi salaiset, luottamukselliset, vain yrityskäyttöön tarkoitetut ja julkiset luokat. Organisaatio voi myös käyttää järjestelmää, joka luokittelee tiedon sen mukaan, millaisiin ominaisuuksiin se porautuu. Tietotyypit voivat olla esimerkiksi sisältötietoja, jotka menevät tiedostoihin etsimään tiettyjä ominaisuuksia. Kontekstipohjainen luokittelu tarkastelee sovelluksia, käyttäjiä, maantieteellistä sijaintia tai sovelluksen luojatietoja. Käyttäjäluokitus perustuu siihen, mitä loppukäyttäjä päättää luoda, muokata ja tarkistaa.
tietojen uudelleenluokittelu
osana prosessia tietojen luokittelujärjestelmien pitämiseksi mahdollisimman tehokkaina, on tärkeää, että organisaatio päivittää luokitusjärjestelmää jatkuvasti muuttamalla arvoja, vaihteluvälejä ja tuotoksia siten, että ne vastaavat paremmin organisaation luokittelutavoitteita.
Regressioalgoritmi vs. luokittelualgoritmi
sekä regressioalgoritmi että luokittelualgoritmi ovat tiedonhallinnan vakiotyylejä. Datan järjestämisessä suurimmat erot regressio – ja luokittelualgoritmien välillä ovat odotetun tuotoksen tyypin sisällä. Kaikki järjestelmät, jotka tuottavat yhden joukon mahdollisia tuloksia äärellisellä alueella, luokittelualgoritmit ovat ihanteellisia. Kun algoritmin tulokset ovat jatkuvia, kuten ajan tai pituuden tuotos, regressioalgoritmin tai lineaarisen regressioalgoritmin käyttäminen on tehokkaampaa.