데이터 분류
데이터 분류는 나중에 사용하기 위해 데이터를 쉽게 검색,정렬 및 저장할 수있는 범주로 구성하는 프로세스입니다.
잘 계획된 데이터 분류 시스템을 통해 필수 데이터를 쉽게 찾고 검색 할 수 있습니다. 이는 위험 관리,법적 발견 및 규정 준수에 특히 중요 할 수 있습니다. 데이터 분류 정책에 대한 서면 절차 및 지침은 조직에서 데이터를 분류하는 데 사용할 범주와 기준을 정의하고 데이터 관리에 관한 조직 내 직원의 역할과 책임을 지정해야 합니다. 데이터 분류 체계가 생성되면 각 범주에 대해 적절한 처리 방법을 지정하는 보안 표준과 데이터의 수명 주기 요구 사항을 정의하는 스토리지 표준을 해결해야 합니다.
데이터 분류의 목적
데이터를 더 쉽게 찾고 검색 할 수 있도록 신중하게 계획된 데이터 분류 시스템을 통해 필수 데이터를 쉽게 조작하고 추적 할 수 있습니다. 다음과 같은 모든 속성의 일부 조합이 달성 될 수 있지만 대부분의 비즈니스 및 데이터 전문가는 데이터 분류 프로젝트에 접근 할 때 특정 목표에 중점을 둡니다. 가장 일반적인 목표는 다음과 같습니다:
- 기밀성. 다른 속성보다 기밀성을 중요시하는 분류 시스템은 주로 사용자 권한 및 암호화를 포함한 보안 조치에 중점을 둡니다.
- 데이터의 무결성. 데이터 무결성에 중점을 둔 시스템은 더 많은 스토리지,사용자 권한 및 적절한 액세스 채널을 필요로합니다.
- 데이터의 가용성. 보안 및 무결성을 완벽하게 할 필요가 없는 경우 사용자가 데이터를 보다 쉽게 액세스할 수 있도록 하는 것이 가장 쉽습니다.
데이터 분류의 중요성
데이터 분류는 회사 또는 조직이 데이터 처리에 대한 회사,지역 또는 연방 지침을 준수하는지 확인하고 데이터 보안을 개선하고 극대화하는 방법입니다.
데이터 분류의 일반적인 단계
가장 일반적으로 모든 데이터를 분류 할 필요는 없으며 일부는 더 잘 파괴됩니다. 먼저 분류 및 재분류 프로세스를 거쳐야 하는 데이터 유형의 우선 순위를 지정하는 것이 중요합니다.
다음으로,데이터 과학자와 다른 전문가들은 데이터를 구성 할 수있는 프레임 워크를 만듭니다. 메타 데이터 또는 기타 태그를 정보에 할당하여 기계 및 소프트웨어가 다른 그룹 및 카테고리로 즉시 정렬 할 수 있습니다. 모든 데이터 분류 체계가 데이터 처리에 관한 지역 및 연방 규정뿐만 아니라 회사 정책을 준수하도록 모든 단계에서 유지하는 것이 중요합니다.
또한 기업은 항상 자신의 기준과 고객 및 고객의 기대를 가장 잘 반영하는 윤리적 및 개인 정보 보호 관행을 고려해야합니다:
- 스캔. 이 단계는 전체 데이터베이스를 재고하고 조직 프로세스를 해결하기위한 디지털 게임 계획을 수립하는 것입니다.
- 식별. 데이터 패킷의 크기에 문자 단위에 파일 형식에서 아무것도 검색,정렬 가능한 범주로 정보를 정렬하는 데 사용할 수 있습니다.
- 분리. 데이터가 데이터 과학 전문가가 구현하는 시스템으로 분류되면 시스템이 호출 될 때마다 해당 범주로 구분할 수 있습니다.
회사의 데이터 분류 시스템의 보호 범주 중 하나에 속하는 정보의 무단 공개는 의정서 위반 일 가능성이 높으며 일부 국가에서는 심각한 범죄로 간주 될 수도 있습니다. 적절한 프로토콜을 적용하려면 먼저 보호된 데이터를 민감도 범주로 분류해야 합니다.
데이터 분류는 구조화된 데이터를 추가로 분류하는 데 사용될 수 있지만,조직에 대한 유용성을 극대화하여 구조화되지 않은 데이터를 최대한 활용하는 데 특히 중요한 프로세스입니다.
데이터 분류 유형
컴퓨터 프로그래밍에서 파일 구문 분석은 정보 패킷을 더 작은 하위 패킷으로 분할하여 이동,조작 및 분류 또는 정렬하기가 더 쉽습니다. 다른 구문 분석 스타일은 시스템이 입력되는 정보의 종류를 결정하는 데 도움이됩니다. 예를 들어,날짜는 일,월 또는 년으로 분할하고,단어는 공백으로 구분 될 수있다.
데이터 분류 내에서 다음을 포함하되 이에 국한되지 않는 많은 종류의 간격이 적용될 수 있습니다:
- 수동 간격. 수동 간격을 사용하는 것은 인간이 전체 데이터 세트를 통과하고 가장 적합한 곳을 관찰하여 클래스 나누기를 입력하는 것을 포함합니다. 이 작은 데이터 세트에 대한 완벽하게 좋은 시스템이지만,정보의 큰 컬렉션에 대한 문제가 증명할 수 있습니다.
- 정의 된 간격. 정의된 간격은 패킷에 포함할 문자 수를 지정합니다. 예를 들어,정보는 세 단위마다 작은 패킷으로 나눌 수 있습니다.
- 같은 간격. 동일한 간격은 전체 데이터 집합을 지정된 수의 그룹으로 나누어 해당 그룹에 대한 정보의 양을 균등하게 분배합니다.
- 분위수. 분위수를 사용하면 클래스 유형 당 허용되는 데이터 값 수를 설정하는 작업이 포함됩니다.
- 자연 휴식. 프로그램은 데이터의 큰 변화가 자체적으로 발생하는 곳을 결정하고 데이터를 분리 할 위치를 결정하는 방법으로 이러한 지표를 사용할 수 있습니다.
- 기하학적 간격. 기하학적 간격의 경우 클래스 범주 당 동일한 수의 단위가 허용됩니다.
- 표준 편차 간격. 이 항목은 항목의 속성이 표준과 얼마나 다른지에 따라 결정됩니다. 각 항목의 편차를 표시하도록 설정된 숫자 값이 있습니다.
- 사용자 정의 범위. 사용자 지정 범위는 사용자가 생성 및 설정하고 언제든지 변경할 수 있습니다.
분류는 데이터 특성화와 약간 다른 데이터 관리의 중요한 부분입니다. 분류는 모든 정보와 데이터를 정렬에 관한 것입니다,분류는 정보와 데이터를 보유 실제 시스템을 포함하는 동안.
특정 데이터 분류 표준 범주가 있습니다. 이 기준의 각자는 취급될 필요가 있는 까 라고에 관하여 연방과 현지 법률을 있을지도 모른다. 그들은 다음을 포함합니다:
- 공공 정보. 이 표준은 국가 기관에 의해 유지되며 특정 법률의 일부로 공개 될 수 있습니다.
- 기밀 정보. 이 처리 하는 방법에 대 한 법적 제한이 있을 수 있습니다 또는 처리 하는 방법 주위 다른 결과 있을 수 있습니다.
- 민감한 정보. 이는 권한 부여 요구 사항 및 사용에 관한 기타 엄격한 규칙을 포함하는 주 기관에 의해 저장되거나 처리되는 모든 정보입니다.
- 개인 정보. 일반적으로 사람들의 개인 정보는 법률에 의해 보호되는 것으로 간주되며 적절한 사용을 위해 특정 프로토콜 및 규칙에 따라 처리해야합니다. 때로는 도덕적 요구 사항과 사용에 대한 현대 입법 보호 사이에 간격이 있습니다.
정규식은 특정 범주에 맞는 모든 데이터를 빠르게 가져 오는 데 사용되는 방정식이므로 특정 매개 변수에 속하는 모든 정보를 쉽게 분류 할 수 있습니다.
데이터베이스,비즈니스 인텔리전스 소프트웨어 및 표준 데이터 관리 시스템을 포함한 다양한 도구가 데이터 분류에 사용될 수 있습니다. 데이터 분류를 위해 회사에서 사용하는 비즈니스 인텔리전스 소프트웨어의 몇 가지 예는 다음과 같습니다.
데이터 분류의 이점
데이터 분류를 사용하면 조직이 데이터의 기밀성,액세스 용이성 및 무결성을 유지할 수 있습니다. 또한 구조화되지 않은 민감한 정보가 해커에게 취약해질 위험을 낮추는 데 도움이되며 가파른 데이터 저장 비용으로부터 회사를 절약 할 수 있습니다. 조직화되지 않은 방대한 양의 데이터를 저장하는 것은 비용이 많이 들며 또한 책임이 될 수 있습니다.
유럽 연합 일반 데이터 보호 규정
유럽 연합 일반 데이터 보호 규정(유럽 연합 일반 데이터 보호 규정)은 기업 및 기관이 기밀 또는 민감한 데이터를 신중하고 정중하게 처리하도록 돕기 위해 만들어진 일련의 국제 지침입니다. 그것은 일곱 가지 원칙으로 구성되어 있습니다: 공정성,제한된 범위,최소화 된 데이터,정확성,스토리지 제한,권리 및 무결성. 일부 국가에서는 이러한 표준을 준수하지 않는 것에 대해 매우 가파른 벌칙이 있습니다.
데이터 분류의 예
여러 가지 범주 목록을 시스템의 정보에 적용할 수 있습니다. 이러한 자격 목록은 데이터 분류 체계라고도 합니다. 민감도 범주를 분류하는 한 가지 방법에는 비밀,기밀,비즈니스 전용 및 공개와 같은 클래스가 포함될 수 있습니다. 조직은 또한 정보를 드릴다운하는 품질 유형에 따라 분류하는 시스템을 사용할 수도 있습니다. 예를 들어 정보 유형은 특정 특성을 찾는 파일에 들어가는 콘텐츠 정보일 수 있습니다. 컨텍스트 기반 분류는 응용 프로그램,사용자,지리적 위치 또는 응용 프로그램에 대한 작성자 정보를 검사합니다. 사용자 분류는 최종 사용자가 생성,편집 및 검토하기 위해 선택한 항목을 기반으로합니다.
데이터 재분류
데이터 분류 시스템을 최대한 효율적으로 유지하기 위한 프로세스 유지 관리의 일환으로 조직의 분류 목표를 보다 효과적으로 달성하기 위해 값,범위 및 출력을 재할당하여 분류 시스템을 지속적으로 업데이트하는 것이 중요합니다.
회귀 알고리즘 대 분류 알고리즘
회귀 알고리즘과 분류 알고리즘은 모두 표준 데이터 관리 스타일입니다. 데이터를 구성 할 때 회귀 알고리즘과 분류 알고리즘 간의 가장 큰 차이점은 예상 출력 유형에 속합니다. 유한 범위 내에서 단일 잠재적 결과 집합을 생성하는 모든 시스템의 경우 분류 알고리즘이 이상적입니다. 알고리즘의 결과가 시간 또는 길이의 출력과 같이 연속적 일 때 회귀 알고리즘 또는 선형 회귀 알고리즘을 사용하는 것이 더 효율적입니다.