구글

응람 뷰어는 무엇을 합니까?

구글 북즈응람 뷰어에 문구를 입력하면 선택한 몇 년 동안 해당 문구가 책 모음(예:”영국 영어”,”영어 소설”,”프랑스어”)에서 어떻게 발생했는지 보여주는 그래프가 표시됩니다. 의 샘플 그래프를 살펴 보자:

이것은 1960 년부터 2015 년까지 3 그램의 추세를 보여줍니다:”보육 학교”(2 그램 또는 비 그램),”유치원”(1 그램 또는 유니 그램)및”보육”(다른비 그램). 이 축이 보여주는 것은: 포함 된 모든 빅그램 중영어로 쓰여지고 연합 된 출판 된 책의 샘플에서,그들 중 몇 퍼센트가”보육원”또는”보육원”입니까?모든 유니 그램 중에서”유치원”은 몇 퍼센트입니까?여기에서”육아”라는 문구의 사용이 1960 년대 후반에 증가하기 시작했으며,1970 년경”보육원”과 1973 년경”유치원”을 추월했습니다. 그것은 1990 년 직후에 정점을 찍었고 그 이후로 꾸준히 떨어졌습니다.

(흥미롭게도 코르푸스가 영국 영어로 전환 될 때 결과가 눈에 띄게 다릅니다.)

응그램의 선 그림 위에 마우스를 올려 놓으면 강조 표시됩니다. 선 플롯을 마우스 왼쪽 버튼으로 클릭하면 특정 응그램에 초점을 맞추고 차트의 다른 응그램을 회색으로 표시 할 수 있습니다(있는 경우). 차트의 다른 선 플롯에 대한 후속 왼쪽 클릭에서 여러 그램에 초점을 맞출 수 있습니다. 차트의 영역을 두 번 클릭하여 쿼리의 모든 그램을 복원할 수 있습니다.

또한 쿼리에서 와일드카드를 지정하거나,굴절을 검색하거나,대/소문자를 구분하지 않는 검색을 수행하거나,특정 품사를 찾거나,그램 더하기,빼기 및 나누기를 수행할 수 있습니다.고급 사용에 따라 사람들에 대한 자세한.

고급 사용

와일드카드 검색,굴절 검색,대소문자를 구분하지 않는 검색,품사 태그,응람 컴포지션 등 구문 사용에 대해 좀 더 깊이 파고드는 사용자에게 어필할 수 있습니다.

와일드카드 검색

단어 대신*를 넣으면 상위 10 개의 대체 단어가 표시됩니다.예를 들어,”대학”다음 가장 인기있는 단어를 찾으려면”대학*”을 검색하십시오.

대체 그램을 마우스 오른쪽 버튼으로 클릭하여 모두 원래 와일드카드 쿼리로 축소할 수 있습니다. 이후에 마우스 오른쪽 버튼을 클릭하면 와일드카드 쿼리가 모든 대체 항목으로 다시 확장됩니다. 응람 뷰어는 응람당*하나만 지원합니다.

상위 10 개 교체는 지정된 시간 범위에 대해 계산됩니다. 따라서 다른 연도 범위에 대해 다른 대체품을 얻을 수 있습니다. 상위 10 개 목록에서 구두점 기호를 필터링했지만 문장을 시작하거나 끝내는 단어의 경우 문장 경계 기호(_시작_또는_끝_)중 하나를 대체 기호로 볼 수 있습니다.

굴절 검색

굴절은 측면,대소 문자,성별,기분,숫자,사람,시제 및 음성 등 다양한 문법적 범주를 나타내는 단어를 수정하는 것입니다. 당신은 그들을 검색 할 수 있습니다. 예를 들어”호텔 예약”을 검색하면”예약”,”예약”,”예약”및”예약”에 대한 결과가 표시됩니다.:

굴절을 마우스 오른쪽 버튼으로 클릭하면 모든 형태가 합계로 축소됩니다. 참고:이 뷰어는 쿼리 당 하나의 키워드만 지원합니다.

경고:와일드카드 검색,굴절 및 대소문자를 구분하지 않는 검색을 하나의 특정 그램에 자유롭게 혼합할 수 없습니다.그러나 쿼리에서 이러한 기능 중 하나를 사용하여 별도의 그램을 검색 할 수 있습니다.

대/소문자 구분 검색

기본적으로 대/소문자 구분 검색을 수행합니다. 쿼리 상자의 오른쪽에 있는”대소문자 구분”확인란을 선택하여 대소문자를 구분하지 않는 검색을 수행할 수 있습니다. 그러면 입력 쿼리의 가장 일반적인 대/소문자를 구분하지 않는 변수의 연도 합계가 표시됩니다.

연도별 합계를 마우스 오른쪽 단추로 클릭하면 가장 일반적인 대소문자를 구분하지 않는 변형으로 확장됩니다. 예를 들어”듀폰(모두)”을 마우스 오른쪽 버튼으로 클릭하면”듀폰”,”듀폰”,”듀폰”및”듀폰”의 네 가지 변형이 발생합니다.

품사 태그

단어 태클을 고려하십시오.이 태클은 동사(“태클문제”)또는 명사(“낚시 태클”)일 수 있습니다.

태그의 전체 목록은 다음과 같습니다:

_명_ 이 태그는 독립 실행 형(_프론_)
또는 단어에 추가 될 수 있습니다.)
_버블_
_질문_ 형용사
_어린_ 부사
_발음_ 대명사
_뎃_ 결정자 또는 기사
_아드프_ 위치: 전치사 또는 후치
_번호_ 숫자
_연결_ 접속사
_프린트_ 입자
_루트_ 구문 분석 트리의 루트 이러한 태그는 단독으로 서 있어야 합니다(예:,_시작_)
_시작_ 문장의 시작
_끝_ 문장의 끝

이 컨텍스트에서 가장 일반적인 결정자가 무엇인지 알고 싶다면 와일드카드와 품사 태그를 결합하여 특정 단어를 읽을 수 있습니다.:

단어의 가장 빈번한 품사 태그는 와일드 카드 기능을 사용하여 검색 할 수 있습니다.

굴절 키워드는 품사 태그와 결합할 수도 있습니다. 예를 들어,”쿡”이라는 구두 감각의 굴절을 구분하는 쿼리 쿡_인프,아래의 쿡_버브_인프를 고려하십시오.:

때로는 패턴보다 의존성 측면에서 단어를 생각하는 데 도움이됩니다. 당신이 어떻게 알고 싶어한다고 가정 해 봅시다.종종 맛있는 디저트를 수정합니다. 즉,맛있는 냉동 디저트,바삭 바삭하고 맛있는 것을 완전히 언급하고 싶습니다.디저트,맛있지 만 값 비싼 디저트 및 기타 모든 맛있는 단어가 디저트에 적용되는 상황.이를 위해 다음과 같은 종속성 관계를 제공합니다.=>연산자:

구문 분석 된 모든 문장에는_루트_가 있습니다. 다른 태그와 달리_루트_는 문장에서 특정 단어 나 위치를 나타내지 않습니다. 구문 분석을 통해 생성된 구문 분석 트리의 루트이며,문장의 주동사가 수정하는 위치에 대한 자리 표시자로 생각할 수 있습니다. 그래서 여기에 식별하는 방법은 다음과 같습니다.얼마나 자주 문장의 주요 동사가 될 것인가:

위의 그래프는 래리 윌이 결정하는 문장을 포함 할 것입니다. 그러나 래리는 윌이 그 문장의 주요 동사가 아니기 때문에 그가 결정할 것이라고 말했다.

종속성을 와일드카드와 결합할 수 있습니다.

“순수한”품사 태그는 일반 단어와 자유롭게 혼합 될 수 있습니다.1-, 2-, 3-, 4-, 이 경우 토스트는 다음과 같습니다.

응람 컴포지션

응람 뷰어는+,-,/,*및:의 다섯 가지 연산자를 제공합니다.

+ 양쪽의 식을 합산하여 여러 시계열을 하나로 결합할 수 있습니다.
왼쪽의 식에서 오른쪽의 식을 뺍니다. 하이픈으로 연결된 구를 검색하려는 경우가 많으므로-기호 양쪽에 공백을 넣으십시오.
/ 왼쪽의 표현식을 오른쪽의 표현식으로 나눕니다.
* 왼쪽의 식에 오른쪽의 숫자를 곱하여 매우 다른 주파수의 그램을 쉽게 비교할 수 있습니다. *는 와일드카드로 해석되지 않도록 괄호로 묶어야 합니다.)
: 왼쪽의 응그램을 오른쪽의 코퍼스에 적용하여 서로 다른 말뭉치의 응그램을 비교할 수 있습니다.

응람 뷰어는 이러한 행동을 적용할지 여부를 추측하려고합니다. 괄호를 사용하여 강제로 설정하고 사각형 괄호를 사용하여 강제로 해제 할 수 있습니다. 예:및/또는 분할 및 또는;문구 및/또는 사용의 사용을 측정합니다.그리고 좋은 의미는 구 잘 의미를 검색합니다;당신이 잘에서 의미를 빼려면,사용(잘 의미).

+연산자를 시연하기 위해 게임,스포츠 및 놀이의 합계를 찾는 방법은 다음과 같습니다.

사람들이 몇 년 동안 선택에 대해 더 많이 썼는지 여부를 결정할 때 선택,선택,옵션 및 대안을 비교하여 형용사 형태를 피하기 위해 명사 형태를 지정할 수 있습니다(예:선택 섬세함,대안 음악):

코퍼스 선택 연산자를 사용하면 다른 언어 또는 미국 대 영국 영어(또는 소설)또는 2009 년,2012 년 및 2019 년 버전의 책 스캔을 비교할 수 있습니다.2009 년에 원래 응람 뷰어 말뭉치를 만들었을 때,우로크르는 오늘날만큼 좋지 않았습니다. 이것은 19 세기 이전 영어에서 특히 분명했습니다. 다음은 코퍼스 연산자를 사용하여 2009 년,2012 년 및 2019 년 버전을 비교한 이후 개선된 내용입니다:

을 비교하여 소설에 대해 모두 영어,우리가 볼 수 있는 usesof 마법사에서 일반적인 영어 확보 되었습 recentlycompared 를 사용에 허구:

모음

아래의 설명은 모음 하는 검색할 수 있으로 theGoogle 책 Ngram 뷰어입니다. 모든 말뭉치는 2009 년 7 월,2012 년 7 월 및 2020 년 2 월에 생성되었습니다. 낮은 품질의 책과 연재물은 제외되었습니다.

비공식 코퍼스 이름 속기 영구 식별자 설명
미국 영어 2019 2019 구글북-미국-20200217 주로 미국에서 출판된 영어로 된 책들.
2012 년 11 월 1 일~2012 년 12 월 11 일,2012 년 12 월 11 일,2012 년 12 월 11 일,2012 년 12 월 11 일,2012 년 12 월 11 일-20120701
2009 -20090715
2019 2019 20200217 주로 영국에서 출판 된 영어로 된 책.
2012 2012 -20120701
2009 2009 -20090715
영어 2019 영어 2019 영어 20200217 주로 영어로 된 책은 모든 국가에서 출판됩니다.
2012 -20120701
2009 -20090715
영어소설 2019 영어소설 2019 구글북-영어소설 20200217 도서관이나 출판사가 소설로 식별한 영어로 된 책들.
2012 년 -20120701
2009 년 -20090715
2009 년 10 월 15 일,2009 년 10 월 15 일,2009 년 10 월 15 일,2009 년 10 월 15 일,2009 년 10 월 15 일,2009 년 10 월 15 일,2009 년 10 월 15 일,2009 년 10 월 15 일,2009 년 10 월 15 일,2009 년 10 월 15 일,2009 년 10 월 15 일,2009 년 10 월 15 일,2009 년 모두 영어로되어 있으며 날짜는 1500 에서 2008 사이입니다. 어느 한 해에서 약 6000 권 이상의 책이 선택되었는데,이는 초기에 스캔 된 모든 책이 제시되고 나중에 나온 책이 무작위로 샘플링된다는 것을 의미합니다. 랜덤 샘플링은 해당 연도의 주제 분포를 반영합니다(따라서 2000 년에는 1980 년보다 더 많은 컴퓨터 책이 있습니다).
중국어 2019 치 _심 _2019 구글북-치-심-20200217 주로 중국어 간체로 된 책.
중국어 2012 치심 _2012 구글북-치심-모두-20120701
중국어 2009 치심 _2009 구글북-치심-모두-20090715
2019 년 11 월 15 일(토)~2019 년 12 월 15 일(일)~2019 년 12 월 15 일(일)~2019 년 12 월 15 일(일)~2019 년 12 월 15 일(일)~2019 년 12 월 15 일(일)~2019 년 12 월 15 일(일)~2019 년 12 월 15 일(일)~2019 년 12 월 15 일(일)~2019 년 12 월
2012 년 11 월 1 일~2012 년 12 월 15 일~2012 년 12 월 15 일~2012 년 12 월 15 일~2012 년 12 월 15 일~2012 년 12 월 15 일~2012 년 12 월 15 일-20120701
2009 년 -20090715
2019 주로 독일어로 된 책.
2012 -20120701
2009 -20090715
2019 년 11 월 15 일-2019 년 12 월 15 일-2019 년 12 월 15 일-2019 년 12 월 15 일-2019 년 12 월 15 일-2019 년 12 월 15 일-2019 년 12 월 15 일-2019 년 12 월 15 일-2019 년 12 월 15 일-2019 년 12 월 15 일-2019 년 12 월 15 일-2019 년 12 월
2012 헤브라이어 2012 -20120701
2009 헤브라이어 2009 -20090715
2019 2019 구글북-스파-20200217 주로 스페인어로 된 책.
2012 2012 -20120701
2009 2009 -20090715
러시아 2019 러시아 _2019 구글북-루시-20200217 주로 러시아어로 된 책.
러시아 2012 러시아 _2012 -20120701
러시아 2009 러시아 _2009 -20090715
이탈리아 2019 이타 _2019 구글북-이타-20200217 주로 이탈리아어로 된 책.
2012 -20120701

2009 년 버전에 비해 2012 년과 2019 년 버전에는더 많은 책,개선 된 도서관,개선 된 도서관 및 출판사 메타 데이터. 2012 및 2019 버전은 또한 문장 경계를 가로 지르는 엔 그램을 형성하지 않으며 2009 버전과 달리 페이지 경계를 넘어 엔 그램을 형성합니다.

2012 년과 2019 년 코퍼라에서는 수동으로 고안된 일련의 규칙(세분화에 통계 시스템이 사용되는 중국어 제외)을 사용하여 토큰 화도 향상되었습니다. 2009 년 말뭉치에서 토큰 화는 단순히 공백을 기반으로했습니다.

구글 북 내부 검색

그래프 아래,우리는 당신의 쿼리 용어에 대한”흥미로운”연도 범위를 보여줍니다. 그 클릭하면 구글 북에 직접 쿼리를 제출합니다. 하지만 구글 북서치 결과는 그렇지 않습니다.

이러한 검색에서는 선택한 언어의 구가 생성되지만 결과는 전체 구글북 코퍼스에서 반환됩니다. 그래서 만약 여러분이 응람 뷰어를 사용하여 프랑스어에서 프랑스어를 검색한 다음 구글 북스를 클릭해 본다면,그 검색은 같은 프랑스어를 검색하게 될 것입니다.이 문구는 주로 다른 언어로 된 책에서 발생할 수 있습니다.

자주 묻는 질문

왜 내가 기대하는 결과를 볼 수 없습니까?

아마도 이러한 이유 중 하나:

  • 이 뷰어는 대/소문자를 구분합니다. 검색어를 대문자로 표시하거나 검색 상자 오른쪽에 있는”대/소문자를 구분하지 않음”상자를 선택합니다.
  • 예기치 않은 코퍼스에서 검색 중입니다. 예를 들어,프랑켄슈타인은 러시아어 책에 표시되지 않습니다,그래서 당신은 러시아 말뭉치에서 검색하면 당신은 평면을 볼 수 있습니다. 검색 상자 아래의 드롭 다운 메뉴를 통해 또는 코퍼스 선택 연산자를 통해 코퍼스를 선택할 수 있습니다.
  • 문구에는 쉼표,더하기 기호,하이픈,별표,콜론 또는 슬래시가 있습니다. 그 외에도 다양한 기능들이 준비되어 있습니다. 구를 대괄호로 묶어보십시오(쉼표로는 도움이되지 않지만).

문장 부호를 어떻게 처리합니까?

우리는 특정 언어에 특정한 토큰 화 규칙 세트를 적용합니다. 영어로 수축은 두 단어가됩니다(그들은 그들이 다시 비그 람이되고,우리는 그렇게 될 것입니다). 소유욕은 또한 분리되어 있지만 하나의 토큰으로 남아 있습니다. 부정(안 함)은 정규화되어 있지 않습니다. 러시아어,분음 부호 제 1000 에 정규화 전자,등등. 같은 규칙은 사용자가 입력 한 그램과 코퍼스에서 추출 된 그램을 모두 구문 분석하는 데 적용됩니다. 그러나 이것은 특정 양식을 명시 적으로 검색 할 수있는 방법이 없다는 것을 의미합니다.

컨텍스트에서 샘플 사용법을 어떻게 볼 수 있습니까?

응람 뷰어 차트 아래에는 미리 정의 된 구글 도서 검색 테이블을 제공하며,각각 연도 범위로 좁혀졌습니다. 관심도에 따라 범위를 선택합니다.

2019 년 응람 뷰어 코퍼스와 달리 구글 북 코퍼스는 음성 태그가 지정되지 않았습니다. 하나는 구글 책에서 응원의 동사 형태를 검색 할 수 없습니다. 따라서 일부 연설 태그가있는 모든 그램(예: 구글북 검색 표에서 제외됩니다.2009 년,2012 년,2019 년 말뭉치를 가지고 있지만,구글 북스는 그런 식으로 작동하지 않습니다. 구글북스에서 검색하면 현재 사용 가능한 모든 도서를 검색하므로 구글북스에서 보는 것과 응람 뷰어 차트에서 볼 수 있는 것 사이에 약간의 차이가 있을 수 있습니다.

왜 초기에 더 많은 스파이크와 고원을 볼 수 있습니까?

출판은 16 세기와 17 세기에 비교적 드문 사건이었다. (19 세기 이전에 영어로 약 50 만 권의 책이 출판되었습니다. 따라서 1 년에 한 권의 책에서 한 문구가 발생하지만 이전 또는 다음 해에는 그렇지 않은 경우 나중에 몇 년 동안보다 더 큰 스파이크를 만듭니다.

고원은 일반적으로 단순히 부드럽게 스파이크입니다. 스무딩을 0 으로 변경합니다.

“평활화”란 무엇을 의미합니까?

데이터를 이동 평균으로 볼 때 추세가 더욱 분명해지는 경우가 많습니다. 1 의 평활화는 1950 에 대해 표시된 데이터가 1950 에 대한 원시 개수의 평균과 양쪽에 1 값을 더한 것을 의미합니다:(“1949 년 카운트”+”1950 년 카운트”+”1951 년 카운트”),로 나눈 값 3. 따라서 10 의 평활화는 21 개의 값이 평균화된다는 것을 의미합니다.

그래프의 왼쪽 및 오른쪽 가장자리에는 더 적은 값이 있습니다. 평활화가 3 인 경우 가장 왼쪽 값(1950 년 이전)은(“1950 년 카운트”+”1951 년 카운트”+”1952 년 카운트”+”1953 년 카운트”)으로 4 로 나눈 값으로 계산됩니다.

0 의 평활화는 평활화가 전혀 없음을 의미합니다.

더 많은 책이 근대에 출판됩니다. 이 결과가 왜곡되지 않습니까?

우리가 매년 출판 된 책의 수를 표준화하지 않았다면.

내 쿼리의 문구가 적어도 하나의 책에서 발생했다는 것을 알 때 왜 0%플랫 라인을 표시합니까?

무거운 하중 하에서,응람 뷰어는 때때로 아플라트라인을 반환한다. 또한,우리는 적어도 40 책에서 발생하는 그램 만 고려합니다. 그렇지 않으면 데이터 세트의 크기가 풍선 것이며,우리는 그들 모두를 제공 할 수 없습니다.

품사 태깅은 얼마나 정확합니까?

품사 태그와 종속 관계가 자동으로 예측됩니다. 이러한 예측의 정확성을 평가하는 것은 어렵지만 현대 영어의 경우 음성 부분 태그의 정확도는 약 95%이고 종속 관계의 정확도는 약 85%입니다. 이전 영어 텍스트 및 기타 언어의 경우 정확도는 낮지 만 음성 부분 태그의 경우 90%이상,종속성의 경우 75%이상일 수 있습니다. 이는 상당한 수의 오류를 의미합니다.결단을 그릴 때 고려해야합니다.

품사 태그는 작은 훈련 세트(영어의 경우 백만 단어)로 구성됩니다. 이것은 때때로 녹색 또는 도고르 책과 같은 드문 용도를 동사로 표현하거나 명사로 묻습니다.

중국어에 대한 추가 참고 사항:20 세기 이전에 고전중국은 전통적으로 모든 서면 통신에 사용되었습니다. 고전 중국어는 고대 중국어의 문법과 어휘를 기반으로하며,구문 주석은 따라서 그들이 옳은 것보다 더 자주 잘못 될 것입니다.

또한,2009 년 말뭉치는 일부 연설되지 않았습니다.

나는 당신의 결과에 따라 논문을 쓰고 있어요. 어떻게 당신의 작품을 인용 할 수 있습니까?

이 데이터를 학술 출판물에 사용하려는 경우 원본 논문을 인용하십시오:

장 밥 티스트 미셸*,위안 퀘 쉔,아비바 프레 서 에이든,아드리안 베레스,매튜 케이 그레이,윌리엄 브록 만,구글 북 팀,조셉 피. 피켓,데일 호이버그,댄 클랜시,피터 노르 빅,존 오 완트,스티븐 핑커,마틴 노박,에레즈 리버만 에이든*.수백만 개의 디지털책을 사용한 문화의 정량 분석. 과학(인쇄 앞서 온라인으로 게시:12/16/2010)

우리는 또한 우리의 품사 태그에 대한 논문을 가지고:

유리 린,장 밥 티스트 미셸,에레즈 리버만 에이든,존 오완트,윌리엄 브록 만,슬라브 페트 로프.구글 책 응람 코퍼스에 대한 구문 주석. 제 50 차 전산언어학회 연례회의 진행량 2: 데모 논문’12) (2012)

내 자신의 실험을 실행하기 위해 데이터를 다운로드 할 수 있습니까?

예! 이 데이터는 다음과 같은 경우에 사용할 수 있습니다. 파일 크기를 관리할 수 있도록,우리는 그들의 시작 문자로 그들을 그룹화 하 고 다음 다른 응그램 크기를 별도 파일에 그룹화 했습니다. 각 파일은 알파벳순으로 정렬되지 않습니다.

기계 판독 가능 파일 이름을 생성하기 위해,우리는 비 로마자 스크립트(중국어,히브리어,러시아어)를 사용하는 언어에 대한 그램을 음역 파일 이름을 결정하는 음역의 시작 문자를 사용했다. 문자에 대해 동일한 접근 방식이 취해졌습니다.독일어로 된 다음과 같은 문자. 음역은 파일 이름을 결정하는 데에만 사용되었다는 점에 유의하십시오.

책/잡지/블로그/프레젠테이션에 응람 그래프를 게시하고 싶습니다. 당신의 허용 기간은 무엇입니까?