데이터란 무엇이며,왜 중요한가?
*원래 2015 년 9 월 16 일에 게시되었습니다. 2018 년 6 월 28 일에 업데이트 됨
데이터–컴퓨터가 처리 할 수있는 형태로 번역 된 사실(숫자,단어,측정,관찰 등)모음
어떤 산업에서 일하든 관심사가 무엇이든”데이터”가 우리 세계의 얼굴을 어떻게 변화시키고 있는지에 대한 이야기를 거의 확실하게 접하게 될 것입니다. 그것은 질병을 치료하는 데 도움이 연구의 일부가 될 수 있습니다,회사의 수익을 증대,건물을보다 효율적으로 만들거나 당신이 계속보고 그 타겟 광고에 대한 책임.
일반적으로 데이터는 정보의 또 다른 단어입니다. 그러나 컴퓨팅 및 비즈니스(데이터에 관해서는 뉴스에서 읽은 내용 대부분–특히 빅 데이터에 관한 경우)에서 데이터는 사람이 읽을 수있는 것과는 반대로 기계가 읽을 수있는 정보를 의미합니다.
인간 대 기계
사람이 읽을 수있는 정보(비정형 데이터라고도 함)는 이미지 나 텍스트 블록의 의미와 같이 인간 만이 해석하고 연구 할 수있는 정보를 나타냅니다. 사람이 그것을 해석해야하는 경우,그 정보는 사람이 읽을 수 있습니다.
기계 판독 가능(또는 구조화 된 데이터)은 컴퓨터 프로그램이 처리 할 수있는 정보를 나타냅니다. 프로그램은 데이터를 조작하기 위한 일련의 지침입니다. 그리고 우리가 데이터를 가지고 일련의 프로그램을 적용 할 때,우리는 소프트웨어를 얻습니다. 프로그램이 데이터에 대한 지침을 수행하기 위해서는 해당 데이터가 일종의 균일 한 구조를 가져야합니다.
예를 들어,미국 해군 장교 매튜 모리,좌표 경로(기계 판독)의 큰 컬렉션(사람이 읽을 수있는)오래된 손으로 쓴 운송 로그의 년을 돌렸다. 그런 다음 그는 평균 해군 여행을 33%줄이기 위해 이러한 경로를 한꺼번에 처리 할 수있었습니다.
뉴스의 데이터
포브스 기사와 맥킨지 보고서에 있는 구조화 된 데이터의 유형에 관해서,가장 관심을 얻는 경향이 있는 몇 가지 다른 유형이 있다…
개인 데이터
개인 데이터는 당신에 게 특정 아무것도. 그것은 당신의 인구 통계,위치,이메일 주소 및 기타 식별 요인을 다룹니다. 이(애슐리 매디슨 스캔들 등)유출됩니다 또는(동네 짱이 바람을 피우고 있었다 밖으로 일 때)논란이 방법으로 사용되는 경우는 뉴스에 보통이다.
다른 회사의 많은 귀하의 개인 데이터를 수집(특히 소셜 미디어 사이트),언제 당신은 당신의 이메일 주소 또는 신용 카드 정보에 넣어 가지고 당신은 당신의 개인 데이터를 멀리주고있다. 종종 그들은 당신이 참여를 유지하기 위해 개인화 된 제안을 제공하기 위해 데이터를 사용합니다. 예를 들어 페이스 북은 당신이 당신과 비슷한 다른 사람들이 좋아하는 것을 기반으로보고 싶어 할 수 있습니다 콘텐츠를 제안하기 위해 개인 정보를 사용합니다..
또한 개인 데이터는 집계되어(다소 비 개인화하기 위해)광고 및 경쟁 연구 목적으로 다른 회사에 판매됩니다. 즉,당신도 들어 본 적이없는 회사에서 타겟 광고 및 콘텐츠를 얻을 수있는 방법 중 하나입니다.
트랜잭션 데이터
트랜잭션 데이터는 수집 작업이 필요한 모든 것입니다. 광고 클릭,구매,특정 웹 페이지 방문 등을 할 수 있습니다.
거의 당신이 방문하는 모든 웹 사이트는 어떤 종류의 트랜잭션 데이터를 수집,중 구글 웹 로그 분석을 통해,다른 제 3 자 시스템 또는 자신의 내부 데이터 캡처 시스템.
트랜잭션 데이터는 가변성을 노출하고 최고 품질의 결과를 위해 운영을 최적화하는 데 도움이 되기 때문에 기업에 매우 중요합니다. 많은 양의 데이터를 검사함으로써 숨겨진 패턴과 상관 관계를 발견 할 수 있습니다. 이러한 패턴은 경쟁 우위를 창출하고보다 효과적인 마케팅 및 매출 증가와 같은 비즈니스 이점을 창출 할 수 있습니다.
웹 데이터
웹 데이터는 연구 목적으로 또는 다른 방법으로 연구 할 것인지 여부에 관계없이 인터넷에서 가져올 수있는 모든 유형의 데이터를 나타내는 집합 적 용어입니다. 그것은 경쟁자가 판매하는 것,출판 된 정부 데이터,축구 점수 등에 대한 데이터 일 수 있습니다. 그것은 공공 직면(즉,일부 내부 데이터베이스에 저장되지 않음)인 웹에서 찾을 수있는 모든 것에 대한 캐치 홀입니다. 이 데이터를 연구하는 것은 특히 경영진에게 잘 전달 될 때 매우 유익 할 수 있습니다.
웹 데이터는 기업이 스스로 생성하지 않는 정보에 액세스 할 수있는 주요 방법 중 하나이기 때문에 중요합니다. 양질의 비즈니스 모델을 만들고 중요한 양방향 결정을 내릴 때 기업은 조직 내에서 내부 및 외부 적으로 일어나는 일과 더 넓은 시장에서 일어나는 일에 대한 정보가 필요합니다.
웹 데이터는 경쟁사 모니터링,잠재 고객 추적,채널 파트너 추적,리드 생성,앱 구축 등에 사용될 수 있습니다. 구조화되지 않은 데이터를 구조화 된 데이터로 전환하는 기술이 향상됨에 따라 용도가 여전히 발견되고 있습니다.
웹 데이터는 웹 스크레이퍼를 작성하여 수집하거나 스크래핑 도구를 사용하거나 제 3 자에게 스크래핑을 지불하여 수집 할 수 있습니다. 웹 스크레이퍼는 웹 사이트를 입력으로 가져 와서 구조화 된 형식으로 데이터를 가져 오는 컴퓨터 프로그램입니다.
센서 데이터
센서 데이터는 객체에 의해 생성되며 종종 사물의 인터넷이라고합니다. 그것은 날씨를 측정하는 외부 센서와 건물에 당신의 심장 박동을 측정하여 스마트 워치에 이르기까지 모든 것을 포함한다.
지금까지 센서 데이터는 대부분 프로세스를 최적화하는 데 사용되었습니다. 예를 들어,에어아시아는 운영 비용을 절감하고 항공기 사용량을 늘리기 위해 센서 및 기술을 사용하여 3 천만~5 천만 달러를 절약했습니다. 주변에서 일어나는 일을 측정함으로써 기계는 생산성을 높이고 유지 보수가 필요할 때 사람들에게 경고하기 위해 현명한 변경을 수행 할 수 있습니다.
데이터는 언제 빅 데이터가 되는가?
기술적으로 위의 모든 유형의 데이터가 빅 데이터에 기여합니다. 데이터를”큰”것으로 만드는 공식적인 크기는 없습니다. 이 용어는 단순히 증가하는 양과 현재 데이터 수집의 일부로 수집되는 다양한 유형의 데이터를 나타냅니다.
점점 더 많은 세계의 정보가 온라인으로 이동하고 디지털화됨에 따라 분석가가 데이터로 사용하기 시작할 수 있음을 의미합니다. 소셜 미디어,온라인 서적,음악,비디오 및 센서의 증가 된 양과 같은 것들이 모두 분석에 사용할 수있게 된 데이터 양의 놀라운 증가에 추가되었습니다.
빅데이터를 이전에 분석한”일반 데이터”와 차별화시킨 점은 빅데이터를 수집,저장 및 분석하는 데 사용하는 도구가 크기 및 복잡성의 증가를 수용하기 위해 변경되어야 한다는 것입니다. 시장에 나와있는 최신 도구를 사용하면 더 이상 샘플링에 의존 할 필요가 없습니다. 대신,우리는 데이터 세트 전체를 처리하고 우리 주변의 세계에 대한 훨씬 더 완전한 그림을 얻을 수 있습니다.
데이터 수집의 중요성
데이터 수집은 데이터를 수집하고 측정하는 프로세스라는 점에서 데이터 마이닝과 다릅니다. 이 모든 것은 고품질 연구가 시작되고 느린 질문에 대한 답변을 찾을 수 있기 전에 수행해야합니다. 데이터 수집은 일반적으로 소프트웨어로 수행되며 다양한 데이터 수집 절차,전략 및 기술이 있습니다. 대부분의 데이터 수집은 전자 데이터를 중심으로 이루어지며 이러한 유형의 데이터 수집은 많은 정보를 포함하기 때문에 일반적으로 빅 데이터 영역으로 넘어갑니다.
그렇다면 데이터 수집이 중요한 이유는 무엇입니까? 데이터 수집을 통해 비즈니스 또는 경영진은 추가 분석,연구 및 연구에서 정보에 입각 한 결정을 내리는 데 필요한 품질 정보를 보유하고 있습니다. 데이터를 수집하지 않고,기업은 자신의 결정을 내릴 오래된 방법을 사용하여 어둠 속에서 우연히 발견 할 것이다. 데이터 수집 대신 그들이 동향의 상단에 머물 문제에 대한 답변을 제공하고,큰 효과에 대한 새로운 통찰력을 분석 할 수 있습니다.
21 세기의 가장 섹시한 직업?
데이터 수집 후,그 모든 데이터는 통찰력에 사용되기 전에 누군가에 의해 처리,연구 및 해석되어야합니다. 아무리 당신이 얘기하는 데이터의 종류,그 사람은 일반적으로 데이터 과학자입니다.
데이터 과학자들은 이제 가장 수요가 많은 위치 중 하나입니다. 구글의 전직 간부는 심지어 그것을”21 세기의 가장 섹시한 직업”이라고 부르기까지했다.
데이터 과학자가 되려면 컴퓨터 과학,모델링,통계,분석 및 수학의 견고한 기반이 필요합니다. 비즈니스 프로세스를 이해 하는 전통적인 직책에서 떨어져 그들을 설정 하 고 품질 결과 비즈니스 관리 및 조직 비즈니스 도전 접근 방식에 영향을 미칠 수 있는 방식으로 지도자를 전달 하는 능력 그리고 길을 따라 문제를 대답.
데이터 리소스
빅 데이터,데이터 수집에 대한 자세한 내용을 배우고 싶은,또는 제공하는 모든 활용을 시작하려면,이 블로그,이벤트,기업 등을 확인하십시오.
데이터 블로그
- 흐르는 데이터-박사에 의해 실행. 네이선 야마,박사,그것은 자습서,시각화,자원,책 권장 사항 및 업계가 직면 한 도전에 대한 유머러스 한 토론이
- 다섯 30–데이터 대단한 네이트 실버에 의해 실행,그것은 정치,문화,스포츠,경제에서 인기있는 뉴스 주제에 대한 데이터 분석을 제공합니다
- 에드윈 첸-드롭 박스의 머리 데이터 과학자에서 자기라는 이름의 블로그,이 블로그는 알고리즘과 분석을 사용하기위한 손에 팁을 제공합니다
- 데이터 분석
- 과학 주간–데이터 과학의 최신 뉴스,이 궁극적 인 이메일 뉴스 레터입니다
- 없음 무료 직감(카글) -다수의 예측 모델링 대회를 개최합니다. 그들의 경쟁 및 데이터 과학 블로그는 데이터 과학 스포츠와 관련된 모든 것을 다룹니다.
- 스마트 데이터 집단-비즈니스 인텔리전스,데이터 관리 및 데이터 수집의 최신 동향에 대한 정보를 제공하는 오늘날 소셜 미디어가 검토하는 온라인 커뮤니티입니다.
- 케이디너겟은 데이터 과학 커뮤니티에서 기득권을 가진 모든 사람들을 위한 포괄적인 리소스입니다.
- 데이터 불로 불사의 영약-웹에서 데이터 뉴스의 큰 검거,당신은받은 편지함으로 바로 전송 주간 다이제스트를 얻을 수 있습니다.
데이터를 영향력을
- 마커스코(CTO 스파크)–그의 피드는 쌓으로 시각화의 복잡한 개념 같은 사물인터넷(IoT)및 여러 가지 형 NoSQL
- 릴리안 피어슨(저자,데이터에 대한 과학 인형)–그녀는 링크를 무리의 정보 기사에서,뉴스에서 최신 회사의 활용,빅 데이터 도움이 되는 블로그 게시물에게서 영향력을 모두 데이터 과학 및 사업 공간
- 커크가 부담(주요 데이터 과학자 BoozAllen)–글과 리트윗의 링크 매혹적인 기사 빅 데이터 및 데이터 과학
- 40 데이터 매버릭스 40 세 미만-이 목록에는 데이터 및 신생 기업에서 밝고 혁신적인 사람이 누구인지 포함됩니다.
데이터 컨퍼런스
- 스트라타+하둡 월드–뉴욕,뉴욕(2010 년 9 월 26 일) 29–10 월. 1)-특히 빅 데이터가 대기업에 미치는 영향에 중점을 둡니다.
- 추출물-샌프란시스코,캘리포니아(10 월 30 일)–데이터 과학에서 최고의 마음의 600 개 이상의 함께 가져 오는 것은 데이터 분석과 성장 해킹을 결합하여 당신이 분야에서 최고의 데이터 과학자가 될 장비합니다.
- 빅 데이터 테크 콘 2015-시카고,일리노이(11 월 2 일 -4)-새로운 기업이 빅 데이터에 걸릴 방법에 매우 유익한 것으로 판명됩니다 빅 데이터 사용에 대한 주요”방법”.
- 빅 데이터 부트 캠프–탬파,플로리다(12 월 7-9)–집중,초보자 친화적 인,빅 데이터의 세계에 자신을 몰두 실습 교육 경험
- 빅 데이터 혁신 정상 회의-라스베가스,네바다(1 월 21-22)-당신이 당신의 데이터를 실행 가능하고 효과적으로 만들 수있는 방법을 정확하게 허쉬,넷플릭스,국토 안보부의 좋아하는 소식을들을 수 있습니다.
- 데이터 서밋 2016-뉴욕,뉴욕(5 월 9-11 일)-정부 기관,공공 기관 및 주요 기업을 통합하여 일상적인 경험에 데이터를 더욱 통합하기위한 새로운 기술과 전략을 활용합니다.
- 코드 학교–단계 자습서 및 과정에 의해 다음의 간단한 단계에 따라 온라인 코딩 알아보기
- 디코딩–디지털 세계의 엄청난 잠재력을 잠금 해제 코드에 필수적인 소개
- 데이터 캠프–온라인 코딩을위한 무료 및 유료 교육 과정 데이터 과학의 견고한 기반을 구축,당신의 연구 프로그래밍 기술을 강화.
- 코세라–최고의 대학 및 단체와 협력하여 온라인 과정을 제공합니다.
데이터 도구
- 오픈 파인–분석을 위해 데이터를 사전 처리 할 수있는 데이터 정리 소프트웨어.
- 울프람알파-기술 검색에 대한 상세한 응답을 제공하고 매우 복잡한 계산을 수행합니다. 비즈니스 사용자의 경우 정보 차트 및 그래프를 제공하며 높은 수준의 가격 기록,상품 정보 및 주제 개요에 탁월합니다.
- Import.io 웹 페이지에 표시되는 비정형 데이터를 구조화된 데이터 테이블로 변환할 수 있습니다.
- 극적 장면–쉽게 새로운 방식으로 데이터를 볼 수 있습니다 시각화 도구입니다.
- 구글 퓨전 테이블-데이터 분석,대용량 데이터 세트 시각화 및 매핑을위한 다양한 도구입니다.
- 블록 스프링–스트리트 뷰 이미지를 실행,대화 형지도를 작성,라이브 데이터를 얻을 이미지 인식을 얻고,이 구글 시트 플러그인 드롭 박스에 저장
- 줄거리.데이터 세트 내에서 키워드와 개념 사이의 관계를 확인하고 제품 인식에 대한 통찰력을 수집
- 가격,제품 기능 및 지리 등의 모든 변수와 함께,당신의 시장의 모델을 구축