dataklassificering
Dataklassificering er processen med at organisere data i kategorier, der gør det nemt at hente, sortere og gemme til fremtidig brug.
et velplanlagt dataklassificeringssystem gør vigtige data nemme at finde og hente. Dette kan være af særlig betydning for risikostyring, juridisk opdagelse og overholdelse. Skriftlige procedurer og retningslinjer for dataklassificeringspolitikker skal definere, hvilke kategorier og kriterier organisationen vil bruge til at klassificere data og specificere medarbejdernes roller og ansvar i organisationen med hensyn til dataforvaltning. Når der er oprettet et dataklassificeringsskema, skal sikkerhedsstandarder, der specificerer passende håndteringspraksis for hver kategori, og lagringsstandarder, der definerer dataens livscykluskrav, løses.
formålet med dataklassificering
ud over at gøre data lettere at lokalisere og hente gør et omhyggeligt planlagt dataklassificeringssystem også vigtige data nemme at manipulere og spore. Mens en kombination af alle følgende attributter kan opnås, fokuserer de fleste virksomheder og datafagfolk på et bestemt mål, når de nærmer sig et dataklassificeringsprojekt. De mest almindelige mål inkluderer, men er ikke begrænset til følgende:
- fortrolighed. Et klassificeringssystem, der værdsætter fortrolighed over andre attributter, vil for det meste fokusere på sikkerhedsforanstaltninger, herunder brugertilladelser og kryptering.
- integritet af data. Et system, der fokuserer på dataintegritet, kræver mere opbevaring, brugertilladelser og korrekte adgangskanaler.
- tilgængelighed af data. Når sikkerhed og integritet ikke behøver at blive perfektioneret, er det nemmest at gøre data lettere tilgængelige for brugerne.
betydningen af dataklassificering
Dataklassificering er en måde at være sikker på, at en virksomhed eller organisation overholder virksomhedens, lokale eller føderale retningslinjer for datahåndtering og en måde at forbedre og maksimere datasikkerheden på.
almindelige trin i dataklassificering
oftest skal ikke alle data klassificeres, og nogle er endnu bedre ødelagt. Det er vigtigt at begynde med at prioritere, hvilke typer data der skal gennemgå klassificerings-og omklassificeringsprocesserne.
dernæst skaber dataforskere og andre fagfolk en ramme, inden for hvilken dataene kan organiseres. De tildeler metadata eller andre tags til oplysningerne, som gør det muligt for maskiner og programmer øjeblikkeligt at sortere dem i forskellige grupper og kategorier. Det er vigtigt at opretholde på hvert trin, at alle dataklassificeringsordninger overholder virksomhedens politikker såvel som lokale og føderale regler omkring håndteringen af dataene.
derudover skal virksomheder altid overveje de etiske og privatlivspraksis, der bedst afspejler deres standarder og kundernes og kundernes forventninger:
- Scan. Dette trin indebærer at gøre status over en hel database og lave en digital spilplan for at tackle organisationsprocessen.
- identificere. Alt fra filtype til tegnenheder til størrelse på datapakker kan bruges til at sortere oplysningerne i søgbare, sorterbare kategorier.
- separat. Når dataene er kategoriseret med et system, som data science professional implementerer, kan de adskilles af disse kategorier, når systemet kaldes for at bringe dem op.
uautoriseret videregivelse af oplysninger, der falder inden for en af de beskyttede kategorier af en virksomheds dataklassificeringssystemer, er sandsynligvis et brud på protokollen og kan i nogle lande endda betragtes som en alvorlig forbrydelse. For at håndhæve korrekte protokoller skal de beskyttede data først sorteres i sin følsomhedskategori.
dataklassificering kan bruges til yderligere at kategorisere strukturerede data, men det er en særlig vigtig proces for at få mest muligt ud af ustrukturerede data ved at maksimere dets anvendelighed for en organisation.
typer af dataklassificering
i computerprogrammering er filparsing en metode til opdeling af informationspakker i mindre underpakker, hvilket gør dem lettere at flytte, manipulere og kategorisere eller sortere. Forskellige parsing stilarter hjælpe et system til at bestemme, hvilken slags information er input. For eksempel, datoer opdeles efter dag, måned eller år, og ord kan adskilles med mellemrum.
inden for dataklassificering er der mange slags intervaller, der kan anvendes, herunder men ikke begrænset til følgende:
- manuelle intervaller. Brug af manuelle intervaller involverer et menneske, der gennemgår hele datasættet og går ind i klassepauser ved at observere, hvor de giver mest mening. Dette er et helt fint system til mindre datasæt, men kan vise sig problematisk for større samlinger af information.
- definerede intervaller. Definerede intervaller angiver et antal tegn, der skal medtages i en pakke. For eksempel kan oplysninger opdeles i mindre pakker hver tredje enhed.
- lige store intervaller. Lige intervaller opdeler et helt datasæt i et bestemt antal grupper og fordeler mængden af information over disse grupper jævnt.
- kvantiler. Brug af kvantiler indebærer at indstille et antal dataværdier, der er tilladt pr.
- naturlige pauser. Programmer er i stand til at bestemme, hvor store ændringer i dataene forekommer alene og bruge disse indikatorer som en måde at bestemme, hvor dataene skal opdeles.
- geometriske intervaller. For geometriske intervaller er det samme antal enheder tilladt pr.
- standardafvigelsesintervaller. Disse bestemmes af, hvor meget attributterne for en post adskiller sig fra normen. Der er indstillede talværdier for at vise hver posts afvigelser.
- brugerdefinerede intervaller. Brugerdefinerede intervaller kan oprettes og indstilles af en bruger og ændres på ethvert tidspunkt.
klassificering er en vigtig del af datastyring, der varierer lidt fra datakarakterisering. Klassificering handler om sortering af information og data, mens kategorisering involverer de faktiske systemer, der indeholder disse oplysninger og data.
der er visse dataklassificeringsstandardkategorier. Hver af disse standarder kan have føderale og lokale love om, hvordan de skal håndteres. De omfatter følgende:
- offentlig information. Denne standard opretholdes af statslige institutioner og er underlagt offentliggørelse som en del af visse love.
- fortrolige oplysninger. Dette kan have juridiske begrænsninger for den måde, det håndteres på, eller der kan være andre konsekvenser omkring den måde, det håndteres på.
- følsomme oplysninger. Dette er enhver information, der er gemt eller håndteret af statslige institutioner, der inkluderer autorisationskrav og andre stive regler omkring dens anvendelse.
- personlige oplysninger. Generelt betragtes folks personlige oplysninger som beskyttet af loven, og de skal håndteres efter visse protokoller og regler for korrekt brug. Nogle gange er der huller mellem de moralske krav og nutidige lovgivningsmæssige beskyttelser til deres brug.
et regulært udtryk er en ligning, der bruges til hurtigt at trække data, der passer til en bestemt kategori, hvilket gør det lettere at kategorisere alle de oplysninger, der falder inden for disse bestemte parametre.
forskellige værktøjer kan bruges i dataklassificering, herunder databaser, business intelligence-programmer og standarddatastyringssystemer. Nogle eksempler på business intelligence-programmer, der bruges af virksomheder til dataklassificering, inkluderer Google Data Studio, Visme og SAP Lumira.
fordele ved dataklassificering
brug af dataklassificering hjælper organisationer med at opretholde fortroligheden, let adgang og integritet af deres data. Det hjælper også med at mindske faren for, at ustrukturerede følsomme oplysninger bliver sårbare over for hackere, og det sparer virksomheder fra stejle datalagringsomkostninger. Opbevaring af massive mængder uorganiserede data er dyrt og kan også være en forpligtelse.
GDPR (EU ‘s generelle databeskyttelsesforordning)
EU’ s generelle databeskyttelsesforordning (GDPR) er et sæt internationale retningslinjer, der er oprettet for at hjælpe virksomheder og institutioner med at håndtere fortrolige eller følsomme data omhyggeligt og respektfuldt. Den består af syv vejledende principper: retfærdighed, begrænset omfang, minimeret data, nøjagtighed, opbevaringsbegrænsninger, rettigheder og integritet. Der er meget stejle sanktioner for ikke at overholde disse standarder i nogle lande.
eksempler på dataklassificering
en række forskellige kategorilister kan anvendes på oplysningerne i et system. Disse lister over kvalifikationer er også kendt som dataklassificeringsordninger. En måde at klassificere følsomhedskategorier på kan omfatte klasser som hemmelig, fortrolig, kun forretningsbrug og offentlig. En organisation kan også bruge et system, der klassificerer information som baseret på den type kvaliteter, den træner ned i. For eksempel kan typer af oplysninger være indholdsinfo, der går ind i filerne på udkig efter bestemte egenskaber. Kontekstbaseret klassificering undersøger applikationer, brugere, geografisk placering eller skaberinfo om applikationen. Brugerklassificering er baseret på, hvad en slutbruger vælger at oprette, redigere og gennemgå.
Dataklassificering
som en del af at opretholde en proces for at holde dataklassificeringssystemer så effektive som muligt er det vigtigt for en organisation løbende at opdatere klassificeringssystemet ved at omfordele værdier, intervaller og output for mere effektivt at opfylde organisationens klassificeringsmål.
Regressionsalgoritme vs. klassificeringsalgoritme
både Regressions-og klassificeringsalgoritmer er standard datastyringsformer. Når det kommer til at organisere data, falder de største forskelle mellem Regressions-og klassificeringsalgoritmer inden for typen af forventet output. For alle systemer, der vil producere et enkelt sæt potentielle resultater inden for et begrænset interval, er klassificeringsalgoritmer ideelle. Når resultaterne af en algoritme er kontinuerlige, såsom et output af tid eller længde, er det mere effektivt at bruge en regressionsalgoritme eller lineær regressionsalgoritme.