Visor de Ngram de Google

¿Qué hace el visor Ngram?

Cuando introduce frases en el visor de Ngram de Google Books, muestra un gráfico que muestra cómo se han producido esas frases en un corpus de libros (por ejemplo,»Inglés Británico», «Ficción Inglesa», «Francés») durante los años seleccionados. Veamos un gráfico de muestra:

Esto muestra las tendencias en tres ngrams de 1960 a 2015:» escuela de enfermería «(un bigrama o 2 gramos),»jardín de infantes «(un unigrama o 1 gramo) y» cuidado infantil » (otro). Lo que muestra el eje y es esto: de todos los bigramas contenidos en nuestra muestra de libros escritos en inglés y publicados en los Estados Unidos, ¿qué porcentaje de ellos son «guarderías» o «guarderías»?De todos los unigramas, ¿qué porcentaje de ellos son «kindergarten»?Aquí, puede ver que el uso de la frase «cuidado de niños» comenzó a aumentar a finales de la década de 1960, superando a «guardería» alrededor de 1970 y luego a»jardín de infantes» alrededor de 1973. Alcanzó su punto máximo poco después de 1990 y ha estado cayendo de manera constante desde entonces.

(Curiosamente, los resultados son notablemente diferentes cuando el corpus se cambia al inglés británico.)

Puede pasar el cursor sobre la gráfica de línea para una ngram, que la resalta. Con un clic izquierdo en un gráfico de líneas, puede centrarse en un ngram en particular,oscureciendo los otros ngram en el gráfico, si los hay. En los clicks izquierdos posteriores en otras gráficas de línea en el gráfico, se pueden enfocar múltiples ngrams. Puede hacer doble clic en cualquier área del gráfico para reinstalar todos los ngrams de la consulta.

También puede especificar comodines en consultas, buscar inflexiones,realizar búsquedas que no distinguen entre mayúsculas y minúsculas, buscar partes particulares del habla o sumar, restar y dividir ngrams.Más información sobre aquellos en Uso Avanzado.

Uso avanzado

Algunas características del visor de Ngram pueden atraer a los usuarios que desean profundizar un poco más en el uso de frases: búsqueda de comodines,búsqueda de inflexión, búsqueda insensible a mayúsculas y minúsculas,etiquetas de parte de voz y composiciones de ngram.

Búsqueda comodín

Cuando se coloca un * en lugar de una palabra, el visor de Ngram mostrará las diez sustituciones principales.Por ejemplo, para encontrar las palabras más populares después de «Universidad de», busque «Universidad de*».

Puede hacer clic con el botón derecho en cualquiera de los ngram de reemplazo para colapsarlos todos en la consulta comodín original, con el resultado de la suma anual de los reemplazos. Un clic derecho posterior expande la consulta comodín de nuevo a todos los reemplazos. Tenga en cuenta que el visor de Ngram solo admite uno * por ngram.

Tenga en cuenta que los diez reemplazos principales se calculan para el rango de tiempo especificado. Por lo tanto, es posible que obtenga diferentes reemplazos para diferentes rangos de años. Hemos filtrado los símbolos de puntuación de la lista de los diez primeros, pero para las palabras que a menudo comienzan o terminan oraciones, es posible que vea uno de los símbolos de límite de oración (_EMPEZAR o _ TERMINAR) como uno de los reemplazos.

Búsqueda de inflexión

Una inflexión es la modificación de una palabra para representar varias categorías gramaticales como aspecto, caso, género, estado de ánimo, número, persona, tiempo y voz. Puede buscarlos añadiendo _INF a un ngram. Por ejemplo, la búsqueda en «book_INF a hotel» mostrará los resultados de «reservar», «reservado», «libros » y»reserva»:

Al hacer clic con el botón derecho en cualquier inflexión, se contraen todos los formularios en su suma. Tenga en cuenta que el visor de Ngram solo admite una palabra clave _INF por consulta.

Advertencia: No puede mezclar libremente búsquedas comodín, inflexiones y búsquedas que no distinguen entre mayúsculas y minúsculas para una ngram en particular.Sin embargo, puede buscar ngrams separados con cualquiera de estas funciones en una consulta: «book_INF a hotel, book * hotel» está bien, pero «book_INF * hotel» no lo está.

Búsqueda que no distingue entre mayúsculas y minúsculas

De forma predeterminada, el visor de Ngram realiza búsquedas que distinguen entre mayúsculas y minúsculas: el uso de mayúsculas importa. Puede realizar una búsqueda que no distingue entre mayúsculas y minúsculas seleccionando la casilla de verificación» que no distingue entre mayúsculas y minúsculas » a la derecha del cuadro de consulta. El visor de Ngram mostrará entonces la suma anual de las variantes más comunes que no distinguen mayúsculas de minúsculas de la consulta de entrada. Aquí hay dos ngrams que no distinguen entre mayúsculas y minúsculas, «Fitzgerald» y «Dupont»:

hacer clic con el botón derecho en cualquier suma anual da como resultado una expansión a las variantes más comunes que no distinguen entre mayúsculas y minúsculas. Por ejemplo, un clic derecho en «Dupont (Todos)» da como resultado las siguientes cuatro variantes: «DuPont», «Dupont», «duPont»y » DUPONT».

Etiquetas de parte del habla

Considere la palabra tackle, que puede ser un verbo («tackle theproblem») o un sustantivo («tackle fishing»). Puede distinguir entre estas diferentes formas añadiendo _VERBor _NOUN:

La lista completa de etiquetas es la siguiente:

_NOUN_ Estas etiquetas pueden estar solos (_PRON_)
o puede ser añadido a una palabra (she_PRON)
_VERB_
_ADJ_ adjetivo
_ADV_ adverbio
_PRON_ pronombre
_DET_ determinativo o artículo
_ADP_ un adposition: ya sea una preposición o un postposition
_NUM_ numeral
_CONJ_ junto
_PRT_ de partículas
SERVIDOR raíz del árbol de análisis Estas etiquetas deben independiente (por ejemplo,, _INICIAR_)
_INICIAR_ comienzo de una oración
_END_ fin de una oración

Dado que las etiquetas de parte de discurso no necesitan adjuntarse a palabras particulares, puede usar la etiqueta DET para buscar leer un libro,leer el libro, leer ese libro, leer este libro,etc. de la siguiente manera:

Si desea saber cuáles son los determinantes más comunes en este contexto, puede combinar comodines y etiquetas de parte de discurso para leer * _DET book:

Para obtener todas las diferentes inflexiones del libro de palabras que han sido seguidas por un SUSTANTIVO en el corpus, puede emitir la consulta book_INF _NOUN_:

Las etiquetas de parte de voz más frecuentes para una palabra se pueden recuperar con la funcionalidad comodín. Considere la consulta cook_*:

La palabra clave de inflexión también se puede combinar con etiquetas de parte de voz. Por ejemplo, considere la consulta cook_INF, cook_VERB_INF a continuación, que separa las inflexiones del sentido verbal de»cook»:

El Visor de Ngram etiqueta los límites de las oraciones, lo que le permite identificar ngrams al comienzo y al final de las oraciones con las etiquetas de INICIO y FIN:

A veces ayuda pensar en palabras en términos de dependencias, más que en patrones. Digamos que quieres saber cuan a menudo sabroso modifica el postre. Es decir, desea menciones totales de sabroso postre congelado, crujiente, sabroso postre, sabroso pero caro postre, y todas las demás circunstancias en las que la palabra sabroso se aplica al postre.Para ello, el visor de Ngram proporciona relaciones de dependencia con el operador => :

Cada oración analizada tiene un _ROOT_. A diferencia de otras etiquetas, _ROOT_ no representa una palabra o posición en particular en la oración. Es la raíz del árbol de análisis construido analizando la sintaxis; puedes considerarlo como un marcador de posición para lo que el verbo principal de la oración está modificando. Así que aquí está cómo identificar cómo a menudo will era el verbo principal de una oración:

El gráfico anterior incluiría la oración Larry willdecide. pero Larry no dijo que él decidiría, ya que will no es el verbo principal de esa oración.

Las dependencias se pueden combinar con comodines. Por ejemplo, considere la consulta drink = > * _NOUN a continuación:

Las etiquetas de parte del habla» puras » se pueden mezclar libremente con palabras regulares en 1-, 2-, 3-, 4-, y 5 gramos (por ejemplo, la tostada _ADJ_ o la tostada _DET__ADJ_).

Composiciones de Ngram

El visor de Ngram proporciona cinco operadores que puede usar para combinar engramas:+, -,/, * y :.

+ Suma las expresiones de cada lado, lo que le permite combinar varias series temporales de ngram en una sola.
Resta la expresión de la derecha de la expresión de la izquierda, lo que le da una forma de medir un ngram en relación con otro. Debido a que los usuarios a menudo desean buscar frases con guiones, coloque espacios a ambos lados del signo -.
/ Divide la expresión de la izquierda por la expresión de la derecha, que es útil para aislar el comportamiento de un ngram con respecto a otro.
* Multiplica la expresión de la izquierda por el número de la derecha, lo que facilita la comparación de ngrams de frecuencias muy diferentes. (Asegúrese de incluir la ngram completa entre paréntesis para que * no se interprete como un comodín.)
: Aplica el ngram de la izquierda al corpus de la derecha, lo que le permite comparar ngrams en diferentes corpus.

El visor de Ngram intentará adivinar si se deben aplicar estos comportamientos. Puede usar paréntesis para forzarlos a activarlos y corchetes para forzarlos a desactivarlos. Ejemplo: y / o se dividirá y por o; para medir el uso de la frase y / o, use .Y bienintencionado buscará la frase bienintencionada; si quieres restar significado a bien,usa (bienintencionado).

Para demostrar el operador+, así es como puede encontrar la suma de juego, deporte y juego:

Al determinar si las personas escribieron más sobre las opciones a lo largo de los años, puede comparar elección, selección, opción y alternativa, especificando las formas nominales para evitar las formas subjetivas (por ejemplo, delicadeza de elección, música alternativa):

La resta de Ngram le da una manera fácil de comparar un conjunto de ngrams con otro:

Aquí le mostramos cómo puede combinar + y / para mostrar cómo la palabra compota de manzana ha florecido a expensas de la salsa de manzana:

El operador * es útil cuando desea comparar ngrams de frecuencias muy variables, como el violín y el theremin más esotérico:

: el operador de selección de corpus le permite comparar ngrams en diferentes idiomas, o en inglés americano versus inglés británico (o ficción),o entre las versiones de 2009, 2012 y 2019 de nuestros escaneos de libros.Aquí está el chat en inglés frente al mismo unigrama en francés:

Cuando generamos los corpus originales de Ngram Viewer en 2009, ourOCR no era tan bueno como lo es hoy. Esto era especialmente obvio en el inglés del siglo XIX, donde la alargada-s medial (ſ) a menudo se interpretaba como una f, por lo que best a menudo se leía como beft. Aquí hay evidencia de las mejoras que hemos realizado desde entonces, utilizando el operador corpus para comparar las versiones de 2009, 2012 y 2019:

Al comparar la ficción con todo el inglés, podemos ver que los usos de wizard en inglés general han ido ganando recientemente en comparación con los usos en ficción:

Corpus

A continuación se muestran descripciones de los corpus que se pueden buscar con el visor de Ngram de Libros de Google. Todos los corpus se generaron en julio de 2009, julio de 2012 y febrero de 2020; actualizaremos estos corpus a medida que continúe el análisis de libros, y las versiones actualizadas tendrán identificadores persistentes distintos. Se excluyeron los libros con baja calidad OCR y las publicaciones seriadas.

Nombre de corpus informal Abreviatura Identificador persistente Descripción
Inglés Americano 2019 eng_us_2019 googlebooks-eng-us-20200217 Libros publicados predominantemente en inglés en los Estados Unidos.
inglés Americano 2012 eng_us_2012 googlebooks-eng-us-todos los-20120701
inglés Americano 2009 eng_us_2009 googlebooks-eng-us-todos los-20090715
Inglés británico 2019 eng_gb_2019 googlebooks-eng-gb-20200217 Libros predominantemente en el idioma inglés que fueron publicados en Gran Bretaña.
inglés Británico 2012 eng_gb_2012 googlebooks-eng-gb-todos los-20120701
inglés Británico 2009 eng_gb_2009 googlebooks-eng-gb-todos los-20090715
Inglés 2019 eng_2019 googlebooks-eng-20200217 Libros predominantemente en el idioma inglés publicados en cualquier país.
inglés 2012 eng_2012 googlebooks-spa-todos los-20120701
inglés de 2009 eng_2009 googlebooks-spa-todos los-20090715
Inglés Ficción 2019 eng_fiction_2019 googlebooks-eng-ficción-20200217 Libros predominantemente en el idioma inglés que una biblioteca o un editor identificado como ficción.
inglés de Ficción 2012 eng_fiction_2012 googlebooks-eng-ficción-20120701
inglés Ficción de 2009 eng_fiction_2009 googlebooks-eng-ficción-20090715
Inglés de Un Millón de eng_1m_2009 googlebooks-eng-1M-20090715 La «Google Millones». Todos están en inglés con fechas que oscilan entre 1500 y 2008. No se eligieron más de 6000 libros de un año, lo que significa que todos los libros escaneados de los primeros años están presentes, y los libros de los años posteriores se muestrean aleatoriamente. Los muestreos aleatorios reflejan las distribuciones de temas para el año (por lo que hay más libros de computadora en 2000 que en 1980).
Chino 2019 chi_sim_2019 googlebooks-chi-sim-20200217 Libros predominantemente en escritura china simplificada.
Chino 2012 chi_sim_2012 googlebooks-chi-sim-todos los-20120701
Chino 2009 chi_sim_2009 googlebooks-chi-sim-todos los-20090715
Francés 2019 fre_2019 googlebooks-fre-20200217 Libros predominantemente en el idioma francés.
francés 2012 fre_2012 googlebooks-fre-todos los-20120701
francés de 2009 fre_2009 googlebooks-fre-todos los-20090715
Alemán 2019 ger_2019 googlebooks-ger-20200217 Libros predominantemente en el idioma alemán.
alemán 2012 ger_2012 googlebooks-ger-todos los-20120701
alemán de 2009 ger_2009 googlebooks-ger-todos los-20090715
Hebreo 2019 heb_2019 googlebooks-hb-20200217 Libros predominó en el idioma hebreo.
hebreo 2012 heb_2012 googlebooks-hb-todos los-20120701
hebreo 2009 heb_2009 googlebooks-hb-todos los-20090715
Español 2019 spa_2019 googlebooks-spa-20200217 Libros predominantemente en el idioma español.
español 2012 spa_2012 googlebooks-spa-all-20120701
español 2009 spa_2009 googlebooks-spa-all-20090715
Ruso 2019 rus_2019 googlebooks-rus-20200217 Libros predominantemente en el idioma ruso.
ruso 2012 rus_2012 googlebooks-rus-todos los-20120701
ruso 2009 rus_2009 googlebooks-rus-todos los-20090715
Italiano 2019 ita_2019 googlebooks-ita-20200217 Libros predominantemente en el idioma italiano.
Italiano 2012 ita_2012 googlebooks-all-all-20120701

En comparación con las versiones de 2009, las versiones de 2012 y 2019 tienen más libros, OCR mejorado, biblioteca mejorada y datos de publicación. Las versiones de 2012 y 2019 tampoco forman ngrams que cruzan los límites de sentencia, y forman ngrams a través de los límites de página, a diferencia de las versiones de 2009.

Con los corpus de 2012 y 2019, la tokenización también ha mejorado, utilizando un conjunto de reglas diseñadas manualmente (excepto en chino, donde se utiliza un sistema estadístico para la segmentación). En los corpus de 2009, la tokenización se basaba simplemente en espacios en blanco.

Buscando dentro de Google Books

Debajo del gráfico, mostramos rangos de años «interesantes» para sus consultas. Al hacer clic en ellos, enviará su consulta directamente a GoogleBooks. Tenga en cuenta que el visor de Ngram distingue entre mayúsculas y minúsculas, pero los resultados de búsqueda de libros de Google no lo son.

Esas búsquedas producirán frases en el idioma en el que haya seleccionado, pero los resultados se devuelven del corpus completo de GoogleBooks. Así que si usas el Visor de Ngram para buscar una frase en francés en el corpus francés y luego haces clic en Google Books, esa búsqueda será para la misma frase en francés, lo que podría ocurrir en un libro predominantemente en otro idioma.

Preguntas frecuentes

¿Por qué no veo los resultados que espero?

Quizás por una de estas razones:

  • El visor de Ngram distingue entre mayúsculas y minúsculas. Intente poner en mayúscula su consulta o marque la casilla «sin distinción de mayúsculas y minúsculas»a la derecha del cuadro de búsqueda.
  • Estás buscando en un corpus inesperado. Por ejemplo, Frankenstein no aparece en los libros rusos, por lo que si busca en el corpus ruso, verá una línea plana. Puede elegir el corpus a través del menú desplegable debajo del cuadro de búsqueda o a través del operador de selección de corpus, por ejemplo, Frankenstein:eng_2019.
  • La frase tiene una coma, un signo más, un guion, un asterisco, dos puntos o una barra diagonal. Estos tienen significados especiales para el NgramViewer; consulte Uso avanzado. Intente encerrar la frase entre corchetes (aunque esto no ayudará con las comas).

¿Cómo maneja la puntuación el visor de Ngram?

Aplicamos un conjunto de reglas de tokenización específicas para el idioma en particular. En inglés, las contracciones se convierten en dos palabras (se convierten en el bigrama que son, we’ll becomes we’ll, y así sucesivamente). El posesivo ‘ s también se separa, pero R’n’B sigue siendo un símbolo. Las negaciones (no) se normalizan para que no se conviertan en no. En ruso, el diacrítico ё se normaliza a e, y así sucesivamente. Se aplican las mismas reglas para analizar tanto los ngrams escritos por los usuarios como los ngrams extraídos de los corpus, lo que significa que si está buscando para no, no se alarme por el hecho de que el visor de Ngram lo escribe para no hacerlo; está representando con precisión los usos de ambos no lo hacen y no lo hacen en el corpus. Sin embargo, esto significa que no hay manera de buscar explícitamente las formas específicas que no se pueden (o no se pueden): obtienes no se puede y no se puede y no se puede de una sola vez.

¿Cómo puedo ver ejemplos de usos en contexto?

Debajo del gráfico del visor de Ngram, proporcionamos una tabla de búsquedas de libros de Google predefinidas, cada una reducida a un rango de años. Elegimos los rangos de acuerdo con el interés: si un ngram tiene un pico enorme en un año en particular, aparecerá por sí solo como una búsqueda, mientras que otras búsquedas cubren duraciones más largas.

A diferencia del corpus Ngram Viewer de 2019, el corpus de Google Books no está etiquetado como parte del discurso. Uno no puede buscar, por ejemplo, la forma verbal de alegría en Google Books. Por lo tanto, cualquier ngram con parte de etiquetas de voz (p. ej., cheer_VERB) están excluidos de la tabla de búsquedas de GoogleBooks.

El visor de Ngram tiene corpus de 2009, 2012 y 2019, pero los libros de Google no funcionan de esa manera. Cuando está buscando en Google Books, está investigando todos los libros disponibles actualmente, por lo que puede haber algunas diferencias entre lo que ve en Google Books y lo que esperaría ver dado el gráfico del visor de Ngram.

¿Por qué veo más picos y mesetas en los primeros años?

La publicación fue un evento relativamente raro en los siglos XVI y XVII. (Solo hay unos 500.000 libros publicados en inglés antes del siglo XIX.) Así que si una frase aparece en un libro en un año, pero no en los años anteriores o siguientes, eso crea un pico más bajo de lo que lo haría en años posteriores.

Las mesetas suelen ser picos simplemente alisados. Cambia el suavizado a 0.

¿Qué significa «suavizado»?

A menudo, las tendencias se hacen más evidentes cuando los datos se ven como una media móvil. Un suavizado de 1 significa que los datos mostrados para 1950 serán un promedio del recuento bruto para 1950 más un valor de 1 en cada lado:(«count for 1949» + «count for 1950» + «count for 1951»), dividido por 3. Por lo tanto, un suavizado de 10 significa que se promediarán 21 valores: 10 en un lado, más el valor objetivo en el centro de ellos.

En los bordes izquierdo y derecho del gráfico, se promedian menos valores. Con un suavizado de 3, el valor más a la izquierda (pretendit es el año 1950) se calculará como («cuenta para 1950» + «cuenta para 1951» + «cuenta para 1952» + «cuenta para 1953»), dividido por 4.

Un suavizado de 0 significa que no hay suavizado en absoluto: solo datos sin procesar.

Muchos más libros se publican en los años modernos. ¿Esto no sesga los resultados?

Lo sería si no nos normalizáramos por el número de libros publicados en cada año.

¿Por qué muestra una línea plana del 0% cuando sé que la frase de myquery se produjo en al menos un libro?

Bajo carga pesada, el visor de Ngram a veces devuelve aflatline; recargar para confirmar que en realidad no hay coincidencias para la frase. Además, solo consideramos ngrams que aparecen en al menos 40 libros. De lo contrario, el conjunto de datos aumentaría de tamaño y no podríamos ofrecerlos todos.

¿Qué tan preciso es el etiquetado de la parte del habla?

Las etiquetas de parte de voz y las relaciones de dependencia se predicen automáticamente. Evaluar la precisión de estas predicciones es difícil, pero para el inglés moderno esperamos que la precisión de las etiquetas de parte de voz sea de alrededor del 95% y la precisión de las relaciones de dependencia de alrededor del 85%. En texto inglés antiguo y para otros idiomas, las precisiones son más bajas, pero probablemente por encima del 90% para etiquetas de parte de voz y por encima del 75% para dependencias. Esto implica un número significativo de errores, que deben tenerse en cuenta a la hora de elaborar conclusiones.

Las etiquetas de parte del habla se construyen a partir de un pequeño conjunto de entrenamiento(un mero millón de palabras para el inglés). Esto a veces representará usos poco comunes, como el libro verde o dogor como verbos, o preguntar como sustantivo.

Una nota adicional sobre el chino: Antes del siglo XX, el chino clásico se usaba tradicionalmente para todas las comunicaciones escritas. El chino clásico se basa en la gramática y el vocabulario del chino antiguo, y las anotaciones sintácticas serán, por lo tanto, erróneas más a menudo de lo que son correctas.

Además, tenga en cuenta que los corpus de 2009 no han sido parte de speechtagged.

estoy escribiendo un artículo basado en sus resultados. ¿Cómo puedo citar su trabajo?

Si va a utilizar estos datos para una publicación académica, cite el artículo original:

Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, and Li Lieberman Aiden*.Análisis Cuantitativo de la Cultura Utilizando Millones de Libros Digitalizados. Ciencia (Publicado en línea antes de imprimir: 16/12/2010)

También tenemos un artículo sobre nuestro etiquetado de parte del discurso:

Yuri Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant, William Brockman, Slav Petrov.Anotaciones sintácticas para el Corpus Ngram de Google Books. Actas de la 50a Reunión Anual de la Asociación de Lingüística Computacional Volumen 2: Documentos de demostración (ACL ’12) (2012)

¿Puedo descargar sus datos para ejecutar mis propios experimentos?

¡Sí! Los datos de ngram están disponibles para descargar aquí. Para que los tamaños de archivo sean manejables, los hemos agrupado por su letra de inicio y luego agrupamos los diferentes tamaños de ngram en archivos separados. Los archivos ngram withineach no están ordenados alfabéticamente.

Para generar nombres de archivo legibles por máquina, transliteramos los nombres de archivo para los idiomas que usan escrituras no romanas (chino, hebreo,ruso) y usamos la letra inicial del ngram transliterado para determinar el nombre del archivo. El mismo enfoque se adoptó para personajes como ä en alemán. Tenga en cuenta que la transliteración se utilizó solo para determinar el nombre del archivo; los ngrams reales están codificados inUTF-8 utilizando el alfabeto específico del idioma.

Me gustaría publicar un gráfico de Ngram en mi libro/revista/blog/presentación. ¿Cuáles son sus términos de licencia?