Visualizador do Ngram do Google
o que faz o Visualizador do Ngram?
When you enter phrases into the Google Books Ngram Viewer, it displaysa graph showing how those phrases have occurred in a corpus of books (e.g.,”British English”, “English Fiction”, “French”) over the selectedyears. Vamos ver um gráfico de amostras:
isto mostra tendências em três ngramas de 1960 a 2015:” nurseryschool “(um 2 grama ou bigram),”kindergarten “(um 1 grama ou unigram), e” child care ” (outro bigrama). O que o eixo y mostra é isto.: de todos os negros contidos em nossa amostra de livros escritos em inglês e publicados nos Estados Unidos, que porcentagem deles são “creche” ou “creche”?De todos os unigrams, que porcentagem deles são “Jardim de infância”?Aqui, você pode ver que o uso da frase ” cuidado infantil “começou a subir no final da década de 1960, ultrapassando” creche”por volta de 1970 e, em seguida,” Jardim de infância ” por volta de 1973. Atingiu um pico pouco depois de 1990 e tem vindo a diminuir de forma constante desde então.
(curiosamente, os resultados são notavelmente diferentes quando o corpus é mudado para Inglês Britânico.)
pode sobrevoar a linha de um ngram, que o destaca. Se carregar com o botão esquerdo no gráfico de uma linha, poderá concentrar-se num ngram em particular, preenchendo os outros ngramas do gráfico, se houver. Em sucessivos leftclicks em outros gráficos de linha no gráfico, vários ngrams podem ser focados em. Você pode clicar duas vezes em qualquer área do gráfico para reinstalar os ngrams na consulta.
pode também indicar caracteres especiais nas consultas, procurar por inflexões,efectuar uma pesquisa insensível a maiúsculas, procurar por determinadas partes da fala, ou adicionar, subtrair e dividir os telegramas.Mais sobre aqueles sob uso avançado.
utilização avançada
algumas características do Visualizador do Ngram podem apelar aos utilizadores que queiram aprofundar um pouco o uso das frases: Pesquisa por caracteres especiais,Pesquisa por inflexão, pesquisa insensível a maiúsculas,marcas de parte da fala e composições de ngram.
pesquisa por caracteres especiais
quando colocar uma * no lugar de uma palavra, o Visualizador do Ngram irá mostrar as dez substituições mais importantes.Por exemplo, para encontrar as palavras mais populares após “Universidade de”, Procure por “Universidade de *”.
pode carregar com o botão direito em qualquer um dos ngramas de substituição para recolher todos na pesquisa original dos caracteres especiais, sendo o resultado a soma anual das substituições. Um botão direito subsequente expande a Pesquisa wildcard de volta para todas as substituições. Note que o Visualizador do Ngram só suporta um * por ngram.
Note que as dez substituições de topo são calculadas para o intervalo de tempo especificado. Você pode, portanto, obter diferentes substituições para diferentes intervalos de anos. Nós filtramos os símbolos de Pontuação da lista de dez melhores, mas para palavras que normalmente começam ou terminam frases, você pode ver um dos símbolos de limite de sentença (_START_ ou _END_) como uma das substituições.Uma inflexão é a modificação de uma palavra para representar várias categorias gramaticais, tais como aspecto, caso, gênero, humor, número, Pessoa, tempo e voz. Você pode procurá-los adicionando _INF a um ngram. Por exemplo, procurar “book_INF a hotel” irá mostrar resultados para “livro”, “reservado”, “livros” e “reserva”:
clicando à direita qualquer inflexão colapsa todas as formas em sua soma. Note que o Visualizador do Ngram só suporta uma palavra-chave _INF por consulta.
aviso: não pode misturar livremente as pesquisas com caracteres especiais, inflexões e pesquisas sem distinção de maiúsculas para um ngram em particular.No entanto, você pode procurar com qualquer um destes recursos para ngramas separados em uma consulta:” book_INF um hotel, livro * hotel “é bom, mas” book_INF * hotel ” não é.
procura insensível a maiúsculas
por omissão, o Visualizador do Ngram efectua pesquisas com maiúsculas: questões de capitalização. Poderá efectuar uma pesquisa sem distinção de maiúsculas se seleccionar a opção “sem distinção de minúsculas” à direita da área de pesquisa. O Visualizador do Ngram irá então mostrar a soma anual das variáveis mais comuns sem distinção de maiúsculas da consulta de entrada. Aqui estão dois engramas sem distinção de maiúsculas, “Fitzgerald”e ” Dupont”:
clicando à direita em qualquer soma anual resulta em uma expansão para as variantes mais comuns sem distinção de maiúsculas. Por exemplo, um clique direito em “Dupont (All)” resulta nas seguintes quatro variantes: “DuPont”, “Dupont”, “duPont” e “DUPONT”.
part-of-speech Tags
considere a palavra “tackle”, que pode ser um verbo (“tackle theproblem”) ou um substantivo (“fishing tackle”). Você pode distinguir entre estas diferentes formas adicionando _VERBor _NUN:
a lista completa de tags é a seguinte:
_NOUN_ | Estas tags podem ou autônomo (_PRON_) ou pode ser acrescentado a uma palavra (she_PRON) |
|
_VERB_ | ||
_ADJ_ | adjetivo | |
_ADV_ | advérbio | |
_PRON_ | pronome | |
_DET_ | árbitro ou do artigo | |
_ADP_ | um adposition: uma preposição ou um postposition | |
_NUM_ | numeral | |
_CONJ_ | conjunto | |
_PRT_ | partícula | |
_ROOT_ | raiz da árvore de análise | Estas tags devem ficar sozinho (e.g., _START_) |
_START_ | início de uma frase | |
_END_ | final de uma frase |
Desde o part-of-speech tags não precisa anexar ao particular palavras,você pode usar o DET tag para procurar para ler um livro,ler o livro, ler aquele livro, leia este livro,e assim por diante, como se segue:
Se você queria saber o que o mais comum determinantes neste contexto são, você pode combinar caracteres curinga e part-of-speech tags para ler *_DET livro:
Para obter as diferentes inflexões da palavra livro, que tem sido seguido bya SUBSTANTIVO no corpus que você pode emitir a consulta book_INF _NOUN_:
Mais frequentes em part-of-speech tags de uma palavra podem ser obtidas com a funcionalidade de curinga. Considere a consulta cook_*:
a palavra-chave de inflexão também pode ser combinada com tags de parte da fala. Por exemplo, considere a consulta cook_INF, cook_VERB_INF abaixo, que separa as inflexões do sentido verbal de”cook”:
os limites das frases do Visualizador de Ngram, permitindo-lhe identificar ngramas no início e no fim das frases com as marcas de início e fim:
por vezes ajuda a pensar em palavras em termos de dependênciasem vez de padrões. Digamos que queres saber o quanto saboroso modifica a sobremesa. Isto é, você quer menções totalmente de sobremesa congelada saborosa, crocante, tastydessert, sobremesa saborosa, mas caro, e todas as outras circunstâncias em que a palavra saborosa é aplicada à sobremesa.Para isso, o Visualizador do Ngram fornece relações de dependência com o operador => :
cada sentença analisada tem uma _ROOT_. Ao contrário de outras marcas, _ROOT_ não representa uma palavra ou posição particular na sentença. É a raiz da árvore de análise construída através da análise da sintaxe; você pode pensar nela como um substituto para o que o verbo principal da sentença está modificando. Então aqui está como identificar como frequentemente will era o verbo principal de uma frase:
o gráfico acima incluiria a sentença Larry willdecide. mas o Larry não disse que ia decidir,já que o will não é o verbo principal dessa frase.
as dependências podem ser combinadas com wildcards. Por exemplo, considere a bebida de consulta= > * _NUN abaixo:
part-of-speech tags pode ser misturado livremente com wordsin regular 1-, 2-, 3-, 4-, e 5 gramas (por exemplo, a torrada ou a torrada).
composições de Ngram
o Visualizador de Ngram fornece cinco operadores que você pode usar para combinengramas:+, -,/,*, e :.
+ | resume as expressões de ambos os lados, permitindo-lhe combinar várias séries temporais ngram em uma. |
– | subtrai a expressão à direita da expressão à esquerda, dando-lhe uma forma de medir um ngram em relação a outro. Porque os usuários muitas vezes querem procurar por frases hífen, colocar espaços em ambos os lados do – sign. |
/ | Divide-se a expressão à esquerda, pela expressão do direito, que é útil para isolar o comportamento de um ngram em relação a outro. |
* | multiplica a expressão à esquerda pelo número à direita, tornando mais fácil comparar ngramas de frequências muito diferentes. (Certifique-se de incluir todo o ngram entre parênteses para que * não seja interpretado como um wildcard.) |
: | aplica o ngram à esquerda para o corpo à direita, permitindo-lhe comparar ngramas em diferentes corpora. |
o Visualizador do Ngram tentará adivinhar se deve aplicar estes comportamentos. Você pode usar parênteses para forçá-los, e squarebrackets para forçá-los. Exemplo: and/or willdivide and by or; to measure the usage of thephrase and / or, use .E o bem-significado irá procurar o bem-Significado da palavra; se você quiser subtrair o significado do bem, use (bem-significado).
Para demonstrar o operador+, aqui está como você pode encontrar a soma do jogo, do esporte, e jogar:
Quando determinar se as pessoas escreveram mais sobre escolhas mais de theyears, você couldcompare escolha, de seleção, de opção e alternativa, especificando a forma substantiva para evitar theadjective formas (por exemplo, escolha delicadeza, alternativemusic):
Ngram subtração dá-lhe uma maneira fácil de comparar um conjunto de ngrams para outro:
Aqui está como você pode combinar + e / mostrar como a palavra maçã floresceu em detrimento de molho de maçã:
A * operador é útil quando você deseja comparar ngrams de diversas frequências, como o violino e o mais esotérico theremin:
A :corpus operador de seleção permite que você compare ngrams indiferente idiomas, ou Americano versus o inglês Britânico (ou ficção),ou entre a 2009, 2012 e 2019 versões do nosso livro examina.Aqui está o chat em inglês versus o mesmo unigram em francês:
quando geramos o original Ngram Viewer corpora em 2009, ourOCR não era tão bom quanto é hoje. Isto era especialmente óbvio em Inglês do século XIX, onde o alongado medial-s (ſ) era frequentemente interpretado como um f, por isso o melhor era frequentemente lido como beft. Aqui estão evidências das melhorias que fizemos desde então, usando o corpus operator para comparar as versões 2009, 2012 e 2019:
comparando a ficção com todo o Inglês, podemos ver que os usos de mago em Inglês geral têm vindo a ganhar uma comparação recente com os usos na ficção:
Corpora
abaixo estão descrições dos corpos que podem ser pesquisados com o visualizador Ngram. Todos os corpora foram gerados em julho de 2009, julho de 2012 e fevereiro de 2020; vamos atualizar estes corpora como a nossa programação de livros continua, e as versões atualizadas terão distintos identificadores de persistência. Livros com baixa qualidade OCR e seriados foram excluídos.
Informal corpus nome | Abreviada | identificador Persistente | Descrição |
inglês Americano 2019 | eng_us_2019 | googlebooks-por-us-20200217 | Livros predominantemente no idioma inglês, que foram publicados nos Estados Unidos. |
inglês Americano 2012 | eng_us_2012 | googlebooks-por-us-todos os-20120701 | |
inglês Americano 2009 | eng_us_2009 | googlebooks-por-us-todos os-20090715 | |
Inglês britânico 2019 | eng_gb_2019 | googlebooks-eng-gb-20200217 | Livros predominantemente no idioma inglês, que foram publicados na Grã-Bretanha. |
inglês Britânico 2012 | eng_gb_2012 | googlebooks-eng-gb-todos os-20120701 | |
inglês Britânico de 2009 | eng_gb_2009 | googlebooks-eng-gb-todos os-20090715 | |
Inglês 2019 | eng_2019 | googlebooks-eng-20200217 | Livros predominantemente em língua inglesa, publicados em qualquer país. |
inglês 2012 | eng_2012 | googlebooks-eng-todos os-20120701 | |
inglês de 2009 | eng_2009 | googlebooks-eng-todos os-20090715 | |
Inglês Ficção 2019 | eng_fiction_2019 | googlebooks-eng-ficção-20200217 | Livros predominantemente no idioma inglês, que uma biblioteca ou publisher identificado como ficção. |
inglês de Ficção de 2012 | eng_fiction_2012 | googlebooks-eng-ficção-todos os-20120701 | |
inglês de Ficção de 2009 | eng_fiction_2009 | googlebooks-eng-ficção-todos os-20090715 | |
Inglês de Um Milhão de | eng_1m_2009 | googlebooks-eng-1M-20090715 | O “Google Milhões”. Todos estão em inglês, com datas que variam de 1500 a 2008. Não foram escolhidos mais de 6000 livros de qualquer ano, o que significa que todos os livros digitalizados dos primeiros anos são apresentados, e os livros dos últimos anos são amostrados aleatoriamente. As amostras aleatórias reflectem as distribuições de temas para o ano (por isso existem mais livros informáticos em 2000 do que em 1980). |
Chinês 2019 | chi_sim_2019 | googlebooks-chi-sim-20200217 | Livros, predominantemente, em Chinês simplificado script. |
Chinês 2012 | chi_sim_2012 | googlebooks-chi-sim-todos-20120701 | |
Chinês de 2009 | chi_sim_2009 | googlebooks-chi-sim-todos-20090715 | |
Francês 2019 | fre_2019 | googlebooks-fre-20200217 | Livros predominantemente no idioma francês. |
francês 2012 | fre_2012 | googlebooks-fre-todos os-20120701 | |
francês 2009 | fre_2009 | googlebooks-fre-todos os-20090715 | |
Alemão 2019 | ger_2019 | googlebooks-ger-20200217 | Livros predominantemente no idioma alemão. |
alemão 2012 | ger_2012 | googlebooks-ger-todos os-20120701 | |
alemão de 2009 | ger_2009 | googlebooks-ger-todos os-20090715 | |
Hebraico 2019 | heb_2019 | googlebooks-heb-20200217 | Livros predominaram na língua hebraica. |
hebraico 2012 | heb_2012 | googlebooks-vv-todos os-20120701 | |
hebraico 2009 | heb_2009 | googlebooks-vv-todos os-20090715 | |
Espanhol 2019 | spa_2019 | googlebooks-spa-20200217 | Livros predominantemente no idioma espanhol. |
espanhol 2012 | spa_2012 | googlebooks-spa-all-20120701 | |
espanhol 2009 | spa_2009 | googlebooks-spa-all-20090715 | |
Russo 2019 | rus_2019 | googlebooks-rus-20200217 | Livros predominantemente no idioma russo. |
russo 2012 | rus_2012 | googlebooks-rus-todos os-20120701 | |
russo de 2009 | rus_2009 | googlebooks-rus-todos os-20090715 | |
Italiano 2019 | ita_2019 | googlebooks-ita-20200217 | Livros predominantemente em língua italiana. |
italiano de 2012 | ita_2012 | googlebooks-ita-todos os-20120701 |
Comparado a 2009 versões, a de 2012 e 2019 versões havemore livros, melhoria de OCR, melhoria da biblioteca e publishermetadata. As versões de 2012 e 2019 também não formam ngrams que cruzam os envios, e formam ngrams através dos limites da página, ao contrário das versões de 2009.
com os corpora de 2012 e 2019, a tokenização também melhorou, usando um conjunto de regras concebidas manualmente (exceto para o chinês, onde o sistema astatístico é usado para segmentação). No corpora de 2009,a tokenization foi baseada simplesmente em espaços em branco.
à procura no Google Books
abaixo do gráfico, mostramos intervalos de anos “interessantes” para os seus queryterms. Se carregar neles, irá enviar a sua consulta directamente para os GoogleBooks. Note que o Visualizador do Ngram é sensível à capitalização, mas os resultados do Google Bookssearch não são.
essas pesquisas irão produzir frases na língua de onde ocorpus você selecionou, mas os resultados são retornados a partir do Corpus GoogleBooks completo. Então, se você usar o Visualizador do Ngram para procurar uma frase em francês no corpus francês e então clicar no Google Books, essa pesquisa será para a mesma frase em francês — que pode ocorrer em um livro predominantemente em outra língua.
FAQs
por que não estou a ver os resultados que espero?
talvez por uma destas razões:
- o Visualizador do Ngram é sensível a maiúsculas. Tente capitalizar a sua pesquisa ou assinale a opção “insensível a maiúsculas”à direita da opção de pesquisa.Está à procura num corpo inesperado. Por exemplo, o Frankenstein não aparece nos livros russos, por isso, se procurares no corpo russo, verás uma linha recta. Você pode escolher o corpus através do menu abaixo da caixa de pesquisa, ou através do operador de seleção do corpus, por exemplo, Frankenstein: eng_2019.
- sua frase tem uma vírgula, Mais sinal, hífen, asterisco, cólon, ou barra frontal nela. Estes têm significados especiais para o Programviewer; veja o uso avançado. Tente incluir a frase entre parêntesis rectos (embora isto não ajude com vírgulas).
como é que o Visualizador do Ngram lida com a pontuação?
aplicamos um conjunto de regras de tokenization específicas à língua particular. Em inglês, contrações se tornam duas palavras (eles são o bigram eles são, Nós nos tornaremos nós, e assim por diante). Os possessivos também estão separados, mas o r’n’B continua a ser um símbolo. As negações (não) são formalizadas para que não se tornem não. Em russo,normaliza-se o diacrítico como E, E assim por diante. As mesmas regras areapplied para analisar tanto o ngrams digitadas pelos usuários e o ngramsextracted a partir de corpora, o que significa que se você estiver searchingfor não, não se assuste com o fato de que o Ngram Viewerrewrites que ele não; ele está retratando fielmente os usos ofboth não, e não no corpus. No entanto, isso significa que não há nenhuma maneira de procurar explicitamente as formas específicas não podem (ou não podem): você consegue não pode e não pode e não pode tudo de uma vez.
Como posso ver exemplos de usos no contexto?
abaixo do Gráfico de visualizações do Ngram, nós fornecemos uma tabela de pesquisas pré-definidas de livros doogle, cada um limitado a uma gama de anos. Nós escolhemos as gamas de acordo com o interesse: se um ngram tem um pico enorme em um determinado ano, isso aparecerá por si só como uma busca, com outras pesquisas cobrindo períodos mais longos.Ao contrário do Corpus Visualizador de ngram 2019, o corpus do Google Books não está marcado como parte da fala. Não se pode procurar, digamos, a forma verbal de cheer no Google Books. Assim, qualquer ngrams com parte de speechtags (e.g., cheer_VERB) são excluídos da tabela de pesquisas de GoogleBooks.
o Visualizador do Ngram tem 2009, 2012 e 2019 corpora, mas o Google Booksdoesnão funciona assim. Quando está a pesquisar no Google Books, está a pesquisar todos os livros actualmente disponíveis, por isso pode haver algumas diferenças entre o que vê no Google Books e o que espera ver, dado o gráfico do Visualizador do Ngram.Por que vejo mais espinhos e planaltos nos primeiros anos?
a publicação foi um evento relativamente raro nos séculos XVI e XVII. (Existem apenas cerca de 500.000 livros publicados em inglês antes do século XIX).) Assim, se uma frase ocorre em um livro em um ano, mas não nos anos anteriores ou seguintes, que cria um pico de ataller do que ele faria em anos posteriores.
os planaltos são normalmente simplesmente espinhos suavizados. Muda o batido para 0.
o que significa” suavização”?
muitas vezes, as tendências tornam-se mais evidentes quando os dados são vistos como uma média móvel. Uma suavização de 1 significa que os dados apresentados para 1950 será a média da contagem bruta para 1950 mais 1 valor em ambos os lados:(“count for 1949” + “count for 1950” + “count for 1951”), dividido por 3. Assim, um alisamento de 10 significa que 21 valores serão calculados em média: 10 em cada lado, mais o valor alvo no centro deles.
nas arestas esquerda e direita do gráfico, há menos valores. Com uma suavização de 3, o valor mais à esquerda (pretender é o ano de 1950) será calculado como (“contagem para 1950” + “contagem para 1951” + “contagem para 1952” + “contagem para 1953”), dividido por 4.
uma suavização de 0 significa nenhuma suavização: apenas dados brutos.
muitos mais livros são publicados nos anos modernos. Isto não distorce os resultados?
seria se não normalizássemos pelo número de livros publicados em cada ano.
por que você está mostrando uma linha plana de 0% quando eu sei que a frase em myquery ocorreu em pelo menos um livro?
sob carga pesada, o Visualizador de Ngram às vezes retornará aflatline; recarregue para confirmar que não há realmente nenhuma resposta para a frase. Além disso, só consideramos ngramas que ocorrem em pelo menos 40 livros. Caso contrário, o conjunto de dados seria balão em tamanho e não seria possível oferecê-los a todos.
quão precisa é a marcação da parte da fala?
as etiquetas de parte da fala e as relações de dependência são preditadas de forma automática. A avaliação da exactidão destas previsões é difícil, mas para o Inglês moderno esperamos que a exactidão das etiquetas de parte da fala seja de cerca de 95% e a exactidão das relações de dependência de cerca de 85%. No texto Inglês mais antigo e noutras línguas, as precisões são inferiores, mas provavelmente superiores a 90% para as tags em parte da fala e superiores a 75% para as dependências. Tal implica um número significativo de errosque devem ser tidos em conta aquando da elaboração das conclusões.
as etiquetas de parte da fala são construídas a partir de um pequeno conjunto de treinamento(um mero milhão de palavras para o inglês). Isto irá, por vezes, representar usos incomuns, como o livro verde ou dogor como verbos, ou perguntar como um substantivo.
An additional note on Chinese: Before the 20th century, classicalChinese was traditionally used for all writtencommunication. O chinês clássico é baseado na gramática e no vocábulo do chinês antigo, e as anotações sintáticas estarão, portanto, mais erradas do que certas.
Also, note that the 2009 corpora have not been part of-speechtagged.
estou escrevendo um artigo baseado em seus resultados. Como posso citar o seu trabalho?
se você vai usar esses dados para uma publicação acadêmica, por favor cite o artigo original:
Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, the Google Books Team,Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak e Erez Lieberman Aiden*.Análise quantitativa da cultura utilizando milhões de livros digitalizados. Ciência (Publicado on-line antes da impressão: 12/16/2010)
também temos um papel no nosso part-of-speech tagging:
Yuri Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant,William Brockman, Eslavos Petrov.Anotações sintáticas para os livros do Google Ngram Corpus. Trabalhos da 50A Reunião Anual da Associação para a Linguistica computacional (2): Papeis de demonstração (ACL ’12) (2012)
posso baixar os seus dados para fazer as minhas próprias experiências?
Sim! Os dados do ngram estão disponíveis para odownload aqui. Para tornar o ficheiro acessível, agrupámo-los pela sua letra inicial e agrupámos os diferentes tamanhos do ngram em ficheiros separados. Os arquivos de ngrams withineach não estão ordenados alfabeticamente.
para gerar nomes de arquivos legíveis por máquina, nós transliteramos os programas para linguagens que usam scripts não-Romanos (chinês, hebraico,russo) e usamos a letra inicial do ngram transliterado para determinar o nome do arquivo. A mesma abordagem foi adoptada para característicos como o alemão. Note que a transliteração foi usada apenas para determinar o nome do arquivo; os ngramas reais são codificados inUTF-8 usando o alfabeto específico da linguagem.
eu gostaria de publicar um grafo Ngram em meu livro/revista/blog/apresentação. Quais são as suas condições de licenciamento?