Google Ngram Viewer

BY admin

| Luglio 4, 2021

Cosa fa il visualizzatore Ngram?

Quando inserisci frasi nel visualizzatore Ngram di Google Books, visualizza un grafico che mostra come tali frasi si sono verificate in un corpus di libri (ad esempio,”Inglese britannico”, “Narrativa inglese”, “Francese”) negli anni selezionati. Diamo un’occhiata a un grafico di esempio:

Questo mostra le tendenze in tre ngram dal 1960 al 2015: “nurseryschool” (a 2 grammi o bigram), “kindergarten”(a 1 grammo o unigram) e “child care” (anotherbigram). Quello che mostra l’asse y è questo: di tutti i bigrammi contenutinel nostro campione di libri scritti in inglese e pubblicati negli Stati Uniti, quale percentuale di essi è “scuola materna”o” assistenza all’infanzia”?Di tutti gli unigrammi, quale percentuale di essi è “asilo nido”?Qui, potete vedere che l’uso della frase “child care” ha iniziato a aumentarenella fine degli anni ‘ 60, superando “scuola materna” intorno al 1970 e poi”asilo” intorno al 1973. Ha raggiunto un picco poco dopo il 1990 e da allora sta cadendo costantemente.

(È interessante notare che i risultati sono notevolmente diversi quando thecorpus viene passato all’inglese britannico.)

È possibile passare il mouse sopra il grafico di linea per un ngram, che lo evidenzia. Con un clic sinistro su un grafico di linea, è possibile concentrarsi su un particolare ngram,ingrigendo gli altri ngram nel grafico, se presenti. Nei successivi clic a sinistra su altri grafici di linea nel grafico, più ngram possono essere focalizzati su. È possibile fare doppio clic su qualsiasi area del grafico per reinstallare tutti gli ngram nella query.

È anche possibile specificare i caratteri jolly nelle query, cercare le inflessioni,eseguire ricerche senza distinzione tra maiuscole e minuscole, cercare parti particolari del discorso o aggiungere, sottrarre e dividere ngram.Più su quelli in uso avanzato.

Uso avanzato

Alcune caratteristiche del visualizzatore Ngram possono fare appello agli utenti che vogliono scavare un po ‘ più in profondità nell’uso frase: ricerca jolly,ricerca inflessione, ricerca case insensitive,tag part-of-speech e composizioni ngram.

Ricerca jolly

Quando metti un * al posto di una parola, il visualizzatore Ngram mostrerà le prime dieci sostituzioni.Ad esempio, per trovare le parole più popolari dopo “Università di”, cercare “Università di *”.

È possibile fare clic destro su uno qualsiasi degli ngram di sostituzione per comprimerli tutti nella query jolly originale, con il risultato che è la somma annuale delle sostituzioni. Un successivo clic destro espande la query con caratteri jolly a tutte le sostituzioni. Si noti che il visualizzatore Ngram supporta solo un * per ngram.

Si noti che le prime dieci sostituzioni vengono calcolate per l’intervallo di tempo specificato. Si potrebbe quindi ottenere diverse sostituzioni per diversi intervalli di anni. Abbiamo filtrato i simboli di punteggiatura dalla lista top ten, ma per le parole che spesso iniziano o terminano frasi, potresti vedere uno dei simboli di confine della frase (_START_ o _END_) come una delle sostituzioni.

Ricerca di inflessione

Un’inflessione è la modifica di una parola per rappresentare varie categorie grammaticali come aspetto, caso, genere, umore, numero, persona, tempo e voce. Puoi cercarli aggiungendo _INF a una ngram. Ad esempio, la ricerca “book_INF un hotel” visualizzerà i risultati per “prenota”, “prenotato”, “libri ” e”prenotazione”:

Fare clic con il pulsante destro del mouse su qualsiasi inflessione comprime tutte le forme nella loro somma. Si noti che il visualizzatore Ngram supporta solo una parola chiave _INF per query.

Attenzione: non è possibile combinare liberamente ricerche con caratteri jolly, inflessioni e ricerche senza distinzione tra maiuscole e minuscole per una particolare ngram.Tuttavia, è possibile cercare con una di queste funzionalità ngram separati in una query: “book_INF un hotel, book * hotel” va bene, ma “book_INF * hotel” non lo è.

Ricerca case insensitive

Per impostazione predefinita, il visualizzatore Ngram esegue ricerche case-sensitive: le maiuscole sono importanti. È possibile eseguire una ricerca senza distinzione tra maiuscole e minuscole selezionando la casella di controllo” Senza distinzione tra maiuscole e minuscole ” a destra della casella di query. Il visualizzatore Ngram visualizzerà quindi la somma annuale delle varianti case-insensitive più comuni della query di input. Qui ci sono due ngram senza distinzione tra maiuscole e minuscole, “Fitzgerald”e ” Dupont”:

Facendo clic con il pulsante destro del mouse su qualsiasi somma yearwise si ottiene un’espansione nelle varianti senza distinzione tra maiuscole e minuscole più comuni. Ad esempio, un clic destro su “Dupont (Tutti)” produce le seguenti quattro varianti: “DuPont”, “Dupont”, “DuPont” e “DUPONT”.

Tag part-of-speech

Considera la parola affrontare, che può essere un verbo (“affrontare ilproblema”) o un sostantivo (“attrezzatura da pesca”). Puoi distinguere tra queste diverse forme aggiungendo _VERBor _NOUN:

L’elenco completo dei tag è il seguente:

_NOUN_		Questi tag possono in modalità stand alone (_PRON_) o può essere aggiunto a una parola (she_PRON)
_VERB_
_ADJ_	aggettivo
_ADV_	avverbio
_PRON_	pronome
_DET_	determinativo o articolo
_ADP_	un adposition: una preposizione o un nome di aquila della notte
_NUM_	numero
_CONJ_	insieme
_PRT_	particella
_ROOT_	radice dell’albero di analisi	Questi tag devono stare in piedi da solo (ad es., _START_)
_START_	inizio di una frase
_END_	alla fine di una frase

Dal momento che la parte del discorso tag non c’è bisogno di allegare particolari parole,è possibile utilizzare il DET tag di ricerca per leggere un libro,leggere un libro, leggere quel libro, la lettura di questo libro,e così via, come segue:

Se si voleva sapere che cosa i più comuni determinanti in questo contesto, si possono combinare i caratteri jolly e part-of-speech tag di lettura *_DET libro:

Per ottenere tutte le diverse inflessioni del libro di parole che sono state seguite da un SOSTANTIVO nel corpus puoi emettere la query book_INF _NOUN_:

I tag part-of-speech più frequenti per una parola possono essere recuperati con la funzionalità jolly. Si consideri la query cook_*:

La parola chiave inflessione può anche essere combinata con tag part-of-speech. Ad esempio, considera la query cook_INF, cook_VERB_INF di seguito, che separa le inflessioni del senso verbale di”cook”:

Il visualizzatore Ngram tag confini frase, che consente di identificare ngram all’inizio e alla fine delle frasi con i tag di inizio e FINE:

A volte aiuta a pensare a parole in termini di dipendenzapiuttosto che modelli. Diciamo che vuoi sapere comespesso gustoso modifica il dessert. Cioè, vuoi totalmente menzioni di gustosi dessert surgelati, croccanti, gustosidessert, gustosi ma costosi dessert e tutti gli altriistanze in cui la parola tasty viene applicata al dessert.Per questo, il visualizzatore Ngram fornisce relazioni di dipendenza conl’operatore => :

Ogni frase analizzata ha un _ROOT_. A differenza di othtags, _ROOT_ non sta per una particolare parola o positionin la frase. È la radice dell’albero di analisi costruito dall’analisi della sintassi; puoi pensarlo come un segnaposto per whatthe il verbo principale della frase sta modificando. Quindi ecco come identificarecome spesso will era il verbo principale di una frase:

Il grafico sopra includerebbe la frase Larry willdecide. ma non Larry ha detto che deciderà, dal momento che will non è il verbo principale di quella frase.

Le dipendenze possono essere combinate con caratteri jolly. Ad esempio, si consideri la query drink = >*_NOUN di seguito:

I tag part-of-speech”Puri” possono essere mescolati liberamente con le parole regolari. 1-, 2-, 3-, 4-, e 5 grammi (ad esempio, il toast _ADJ_ o il toast _DET__ADJ_).

Composizioni Ngram

Il visualizzatore Ngram fornisce cinque operatori che è possibile utilizzare per combinareingrammi:+, -,/, * e :.

+	Somma le espressioni su entrambi i lati, consentendo di combinare più serie temporali ngram in una sola.
–	Sottrae l’espressione a destra dall’espressione a sinistra, dandoti un modo per misurare un ngram rispetto a un altro. Poiché gli utenti spesso desiderano cercare frasi con trattino, inserire spazi su entrambi i lati del segno -.
/	Divide l’espressione a sinistra dall’espressione a destra, utile per isolare il comportamento di un ngram rispetto ad un altro.
*	Moltiplica l’espressione a sinistra per il numero a destra, rendendo più facile confrontare ngram di frequenze molto diverse. (Assicurati di racchiudere l’intera ngram tra parentesi in modo che * non venga interpretato come un carattere jolly.)
:	Applica la ngram a sinistra al corpus a destra, consentendo di confrontare ngram tra diversi corpora.

Il visualizzatore Ngram cercherà di indovinare se applicare questicomportamenti. È possibile utilizzare le parentesi per forzarle e squarebrackets per forzarle. Esempio: and / or willdivide and by or; per misurare l’utilizzo della frase e / o, utilizzare.E well-meaning cercherà thefrase well-meaning; se vuoi sottrarre il significato da well,usa (well – meaning).

Per dimostrare l’operatore+, ecco come potresti trovare la somma di gioco, sport e gioco:

Quando determini se le persone hanno scritto di più sulle scelte negli anni, potresti confrontare scelta, selezione, opzione e alternativa, specificando le forme del nome per evitare le forme oggettive (ad esempio, choice delicacy, alternativemusic):

Ngram sottrazione ti dà un modo semplice per confrontare un insieme di ngrams all’altro:

Ecco come si potrebbe combinare + e / a mostrare come la parola di mele è sbocciato a scapito di salsa di mele:

L’operatore * è utile quando si desidera confrontare ngrams svariate frequenze, come il violino e il più esoterico theremin:

L’ :corpus operatore di selezione consente di confrontare ngrams indifferente lingue, o Americana contro l’inglese Britannico (o fiction),o tra i 2009, 2012 e il 2019 versioni del nostro libro scansioni.Ecco la chat in inglese contro lo stesso unigram in francese:

Quando abbiamo generato l’originale Ngram Viewer corpora nel 2009, ourOCR non era buono come lo è oggi. Questo era particolarmente evidente inpre-19th secolo inglese, dove il allungata mediale-s (ſ) wasoften interpretato come una f, così meglio è stato spesso readas beft. Ecco le prove dei miglioramenti che abbiamo apportato da allora, utilizzando l’operatore corpus per confrontare le versioni 2009, 2012 e 2019:

Confrontando la narrativa con tutto l’inglese, possiamo vedere che gli usi di wizard in inglese generale stanno guadagnando recentemente rispetto agli usi nella narrativa:

Corpora

Di seguito sono riportate le descrizioni dei corpora che possono essere cercati con il visualizzatore Ngram di Google Books. Tutti i corpora sono stati generati nel July2009, luglio 2012 e febbraio 2020; aggiorneremo questi corpora come la nostra bookscanning continua, e le versioni aggiornate avranno persistentidentifiers distinti. I libri con bassa qualità OCR e periodici sono stati esclusi.

Informale corpus nome	Scorciatoia	identificatore Persistente	Descrizione
l’inglese Americano 2019	eng_us_2019	googlebooks-ita-noi-20200217	Libri prevalentemente in lingua inglese che sono stati pubblicati negli Stati Uniti.
l’inglese Americano 2012	eng_us_2012	googlebooks-ita-noi-tutti-20120701
l’inglese Americano 2009	eng_us_2009	googlebooks-ita-noi-tutti-20090715
Inglese britannico 2019	eng_gb_2019	googlebooks-ita-gb-20200217	Libri prevalentemente in lingua inglese, sono stati pubblicati in Gran Bretagna.
inglese Britannico 2012	eng_gb_2012	googlebooks-ita-gb-tutti-20120701
inglese Britannico 2009	eng_gb_2009	googlebooks-ita-gb-tutti-20090715
Inglese 2019	eng_2019	googlebooks-ita-20200217	Libri prevalentemente in lingua inglese pubblicati in qualsiasi paese.
inglese 2012	eng_2012	googlebooks-ita-tutti-20120701
inglese 2009	eng_2009	googlebooks-ita-tutti-20090715
Fiction inglese 2019	eng_fiction_2019	googlebooks-ita-fiction-20200217	Libri prevalentemente in lingua inglese, una biblioteca o un editore identificato come fiction.
inglese Fiction 2012	eng_fiction_2012	googlebooks-ita-fiction-tutti-20120701
inglese Fiction 2009	eng_fiction_2009	googlebooks-ita-fiction-tutti-20090715
Inglese Un Milione di	eng_1m_2009	googlebooks-ita-1M-20090715	“Google Milioni di euro”. Tutti sono in inglese con date che vanno dal 1500 al 2008. Non più di circa 6000 libri sono stati scelti da qualsiasi anno, il che significa che tutti i libri scansionati dai primi anni sono presenti e i libri degli anni successivi sono campionati in modo casuale. I randomsamplings riflettono le distribuzioni soggetto per l’anno (quindi ci aremore libri di computer nel 2000 rispetto al 1980).
Cinese 2019	chi_sim_2019	googlebooks-chi-sim-20200217	Libri prevalentemente in cinese semplificato.
Cinese 2012	chi_sim_2012	googlebooks-chi-sim-tutti-20120701
Cinese 2009	chi_sim_2009	googlebooks-chi-sim-tutti-20090715
Francese 2019	fre_2019	googlebooks-fre-20200217	Libri prevalentemente in lingua francese.
francese 2012	fre_2012	googlebooks-fre-tutti-20120701
francese 2009	fre_2009	googlebooks-fre-tutti-20090715
Tedesco 2019	ger_2019	googlebooks-ger-20200217	Libri prevalentemente in lingua tedesca.
tedesco 2012	ger_2012	googlebooks-ger-tutti-20120701
tedesco 2009	ger_2009	googlebooks-ger-tutti-20090715
Ebraico 2019	heb_2019	googlebooks-eb-20200217	Libri si è imposto nella lingua ebraica.
ebraico 2012	heb_2012	googlebooks-eb-tutti-20120701
ebraico 2009	heb_2009	googlebooks-eb-tutti-20090715
Spagnolo 2019	spa_2019	googlebooks-spa-20200217	Libri prevalentemente in lingua spagnola.
spagnolo 2012	spa_2012	googlebooks-spa-tutti-20120701
spagnolo 2009	spa_2009	googlebooks-spa-tutti-20090715
Russo 2019	rus_2019	googlebooks-rus-20200217	Libri prevalentemente in lingua russa.
russo 2012	rus_2012	googlebooks-rus-tutti-20120701
russo 2009	rus_2009	googlebooks-rus-tutti-20090715
Italiano 2019	ita_2019	googlebooks-ita-20200217	Libri prevalentemente in lingua italiana.
Italiano 2012	ita_2012	googlebooks-ita-all-20120701	Libri prevalentemente in lingua italiana.

Rispetto alle versioni 2009, le versioni 2012 e 2019 hanno più libri, OCR migliorato, libreria migliorata e publishermetadata. Anche le versioni 2012 e 2019 non formano ngram che attraversano sentenceboundaries e formano ngram oltre i confini della pagina, a differenza delle versioni 2009.

Con i corpora 2012 e 2019, anche la tokenizzazione è migliorata, utilizzandoun insieme di regole ideate manualmente (ad eccezione del cinese, dove il sistema astatistico viene utilizzato per la segmentazione). Nei corpora 2009, la tokenizzazione era basata semplicemente su spazi bianchi.

Ricerca all’interno di Google Books

Sotto il grafico, mostriamo intervalli di anni “interessanti” per i tuoi interrogatori. Cliccando su quelli invierà la query direttamente a GoogleBooks. Si noti che il visualizzatore Ngram è case-sensitive, ma i risultati di Google Bookssearch non lo sono.

Queste ricerche produrranno frasi nella lingua di whichevercorpus che hai selezionato, ma i risultati vengono restituiti dal corpus completo di GoogleBooks. Quindi, se si utilizza il visualizzatore Ngram per cercare una frase francese nel corpus francese e quindi fare clic su Google Books,tale ricerca sarà per la stessa frase francese-che potrebbe verificarsi in un libro prevalentemente in un’altra lingua.

FAQ

Perché non vedo i risultati che mi aspetto?

Forse per uno di questi motivi:

Il visualizzatore Ngram è case-sensitive. Prova a capitalizzare la query o seleziona la casella”case-insensitive” a destra della casella di ricerca.

Stai cercando in un corpus inaspettato. Ad esempio, Frankenstein non appare nei libri russi, quindi se cerchi nel corpus russo vedrai una linea piatta. È possibile scegliere il corpus tramite il menu a discesa sotto la casella di ricerca, o tramite l’operatore di selezione corpus, ad esempio, Frankenstein:eng_2019.

La tua frase ha una virgola, un segno più, un trattino, un asterisco, due punti o una barra in avanti. Questi hanno significati speciali per NgramViewer; vedi Uso avanzato. Prova a racchiudere la frase tra parentesi quadre (anche se questo non aiuterà con le virgole).

In che modo il visualizzatore Ngram gestisce la punteggiatura?

Applichiamo una serie di regole di tokenizzazione specifiche per il particularlanguage. In inglese, le contrazioni diventano due parole (they’diventa il bigram che sono, noi diventeremo noi, e così via). Anche il possessivo è diviso, ma R’n’B rimane un token. Le negazioni (non) sono normalizzate in modo che non diventino non farlo. In russo, la res diacritica è normalizzata in e, e così via. Le stesse regole sono applicate per analizzare sia gli ngrams digitati dagli utenti che gli ngramsextracted dai corpora, il che significa che se stai cercando di non farlo, non allarmarti dal fatto che il Viewerrescrive Ngram per non farlo; è accuratamente raffigurante usi di non farlo e non farlo nel corpus. Tuttavia, questo significa che non c’è modo di cercare esplicitamente le forme specifiche che non possono (o non possono): si ottiene can’t e non può e non può tutto in una volta.

Come posso vedere gli usi di esempio nel contesto?

Sotto il grafico Ngram Viewer, forniamo una tabella di ricerche predefinedGoogle Books, ciascuna ristretta a un intervallo di anni. Scegliamo gli intervalli in base all’interesse: se un ngram ha un picco enorme in un determinato anno, questo apparirà da solo come una ricerca, con altre ricerche che coprono durate più lunghe.

A differenza del 2019 Ngram Viewer corpus, il Google Books corpus isn’tpart-of-speech tagged. Non si può cercare, ad esempio, il verbo formof cheer in Google Books. Quindi qualsiasi ngram con parte di speechtags (ad esempio, cheer_VERB) sono esclusi dalla tabella di ricerche GoogleBooks.

Il visualizzatore Ngram ha corpora 2009, 2012 e 2019, ma Google Booksdoesn’t funziona in questo modo. Quando stai cercando in Google Books, stai cercando tutti i libri attualmente disponibili, quindi potrebbero esserci delle differenze tra ciò che vedi in Google Books e ciò che vorresti vedere dato il grafico del visualizzatore Ngram.

Perché vedo più picchi e altipiani nei primi anni?

La pubblicazione è stata un evento relativamente raro nel 16 ° e 17 ° secolo. (Ci sono solo circa 500.000 libri pubblicati in inglese prima del 19 ° secolo.) Quindi, se una frase si verifica in un libro in un anno, ma non negli anni precedenti o successivi, ciò crea un picco più alto di quello che sarebbe negli anni successivi.

Gli altipiani sono di solito semplicemente punte levigate. Cambiare il smoothingto 0.

Cosa significa “smoothing”?

Spesso le tendenze diventano più evidenti quando i dati sono visti come una media mobile. Un livellamento di 1 significa che i dati mostrati per 1950 saranno la media del conteggio grezzo per 1950 più 1 valore su entrambi i lati:(“conta per il 1949” + “conta per il 1950” + “conta per il 1951”), diviso per3. Quindi un livellamento di 10 significa che 21 valori saranno mediati: 10 un lato, più il valore target al centro di essi.

Ai bordi sinistro e destro del grafico, vengono salvati meno valori. Con un livellamento di 3, il valore più a sinistra (pretendit’s the year 1950) sarà calcolato come (“count for 1950” + “countfor 1951” + “count for 1952” + “count for 1953”), diviso per 4.

Un livellamento di 0 non significa affatto levigatura: solo dati grezzi.

Molti altri libri sono pubblicati negli anni moderni. Questo non spiazza i risultati?

Sarebbe se non normalizzassimo per il numero di libri pubblicati inogni anno.

Perché stai mostrando una flatline allo 0% quando so che la frase in myquery si è verificata in almeno un libro?

Sotto carico pesante, il visualizzatore Ngram a volte restituirà aflatline; ricarica per confermare che in realtà non ci sono hit per la frase. Inoltre, consideriamo solo ngram che si verificano in almeno 40books. Altrimenti il set di dati sarebbe di dimensioni ridotte e non saremmo in grado di offrirli tutti.

Quanto è accurato il tagging della parte del discorso?

I tag part-of-speech e le relazioni di dipendenza sono predictedautomatically. Valutare l’accuratezza di queste previsioni è difficile, ma per l’inglese moderno ci aspettiamo che l’accuratezza dei tag part-of-speech sia di circa il 95% e l’accuratezza delle relazioni di dipendenza di circa l ‘ 85%. Nel testo inglese più vecchio e per altre linguele precisioni sono inferiori, ma probabilmente superiori al 90% per i tag part-of-speech e superiori al 75% per le dipendenze. Ciò implica un numero significativo dierrori, che dovrebbero essere presi in considerazione al momento del disegnoconclusioni.

I tag part-of-speech sono costruiti da un piccolo set di formazione (un mero milione di parole per l’inglese). Questo a volte sottorappresenterà usi non comuni, come il libro verde o dogor come verbi, o chiedere come sostantivo.

Una nota aggiuntiva sul cinese: prima del 20 ° secolo, il cinese classico era tradizionalmente usato per tutte le comunicazioni scritte. Il cinese classico si basa sulla grammatica e sul vocabolario del cinese antico, e le annotazioni sintattiche saranno quindi sbagliate più spesso di quanto abbiano ragione.

Inoltre, si noti che i corpora 2009 non sono stati parte-of-speechtagged.

Sto scrivendo un documento basato sui tuoi risultati. Come posso citare il tuo lavoro?

Se si intende utilizzare questi dati per una pubblicazione accademica, si prega di citare il documento originale:

Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, Il team di Google Books, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant,Steven Pinker, Martin A. Nowak, e Erez Lieberman Aiden*.Analisi quantitativa della cultura utilizzando milioni di digitalizzatilibri. Scienza (Pubblicato online prima della stampa: 16/12/2010)

Abbiamo anche un documento sulla nostra parte del discorso tagging:

Yuri Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant,William Brockman, Slav Petrov.Annotazioni sintattiche per il Google Books Ngram Corpus. Procedimentidella 50a riunione annuale dell’Association for Computational LinguisticsVolume 2: Documenti dimostrativi (ACL ’12) (2012)

Posso scaricare i tuoi dati per eseguire i miei esperimenti?

Sì! I dati ngram sono disponibili fordownload qui. Per rendere gestibili le dimensioni del file, le abbiamo raggruppate in base alla loro lettera iniziale e quindi raggruppate le diverse dimensioni ngram in file separati. Il file ngrams withineach non è ordinato alfabeticamente.

Per generare nomi di file leggibili dalla macchina, abbiamo traslitterato thengrams per lingue che usano script non romani (cinese, ebraico,russo) e usato la lettera iniziale del ngram traslitterato per determinare il nome del file. Lo stesso approccio è stato adottato per i personaggicome ä in tedesco. Si noti che la traslitterazione è stata utilizzata solo per determinare il nome del file; gli ngram effettivi sono codificati inUTF-8 usando l’alfabeto specifico della lingua.