Google Ngram Viewer

BY admin

| juli 4, 2021

Hva gjør Ngram Viewer?

når du skriver inn setninger I Google Books Ngram Viewer, viser den en graf som viser hvordan disse setningene har skjedd i et korpus av bøker (f.eks.»Britisk engelsk», «engelsk Fiksjon», «fransk») over de valgte årene. La oss se på en eksempelgraf:

Dette viser trender i tre ngram fra 1960 til 2015: «nurseryschool» (en 2 gram eller bigram), «barnehage» (en 1 gram eller unigram) og «barnepass» (en annenbigram). Hva y-aksen viser er dette: av alle bigrams inneholdti vårt utvalg av bøker skrevet på engelsk og publisert I Unitedstater, hvilken prosentandel av dem er «barnehage» eller «barnepass»?Av alle unigrams, hvilken prosentandel av dem er «barnehage»?Her kan du se at bruken av uttrykket «barnepass» begynte å stigei slutten av 1960-tallet, forbikjøring «barnehage» rundt 1970 og deretter «barnehage» rundt 1973. Det toppet kort tid etter 1990 og har vært jevnt siden.

(Interessant, resultatene er merkbart forskjellige nårkorpus er byttet Til Britisk engelsk.)

du kan sveve over linjeplottet for et ngram, som fremhever det. Witha venstre-klikk på en linje plot, kan du fokusere på en bestemt ngram, gråning ut de andre ngrams i diagrammet, hvis noen. På påfølgende leftclicks på andre linjeplott i diagrammet, kan flere ngrams fokusere på. Du kan dobbeltklikke på et område av diagrammet for å gjenopprette alle ngrams i spørringen.

Du kan også angi jokertegn i spørringer, søke etter bøyninger, utføre små og store bokstaver søk, se etter bestemte deler av tale, eller legge til, trekke fra og dele ngrams.Mer om De Under Avansert Bruk.

Avansert Bruk

noen funksjoner I Ngram Viewer kan appellere til brukere som ønsker å grave litt dypere inn i uttrykket bruk: wildcard søk, bøyning søk, små bokstaver søk, del-of-tale koder og ngram komposisjoner.

Jokertegnsøk

når du setter en * i stedet for et ord, Vil Ngram Viewer vise de ti beste substitusjonene.For eksempel, for å finne de mest populære ordene etter «University of», søk etter «University of*».

du kan høyreklikke på noen av de nye ngrams å skjule dem alle inn i den opprinnelige wildcard spørringen, med resultatet blir årsvis summen av erstatninger. Et etterfølgende høyreklikk utvider jokertegnspørringen tilbake til alle erstatninger. Merk at Ngram Viewer bare støtter en * per ngram.

Merk at de ti beste erstatningene beregnes for det angitte tidsintervallet. Du kan derfor få forskjellige erstatninger for forskjellige årsområder. Vi har filtrert tegnsettingssymboler fra topp ti-listen, men for ord som ofte starter eller slutter setninger, kan du se et av setningsgrensesymbolene (_START_ ELLER _END_) som en av erstatningene.

Bøyning søk

en bøyning er modifisering av et ord for å representere ulike grammatiske kategorier som aspekt, case, kjønn, humør, nummer, person, anspent og stemme. Du kan søke ETTER DEM VED å legge _INF TIL en ngram. For eksempel, søker «book_INF et hotell» vil vise resultater for «book», «booket», «bøker», og «booking»:

Høyreklikke noen bøyning kollapser alle former i sin sum. Merk at Ngram Viewer bare støtter ETT _inf-søkeord per spørring.

Advarsel: du kan ikke fritt blande jokertegn søk, bøyninger og små bokstaver søk for en bestemt ngram.Du kan imidlertid søke med en av disse funksjonene for separate ngrams i en spørring: «book_INF et hotell, book * hotel» er greit, men «book_INF * hotel» er det ikke.

Små Og Store bokstaver søk

Som standard utfører Ngram Viewer store og små bokstaver søk: store og små bokstaver saker. Du kan utføre et saksfølsomt søk ved å merke av for «saksfølsomt» til høyre for spørringsboksen. Ngram Viewer vil da vise den årlige summen av de vanligste case-insensitive variantene av inndataspørringen. Her er to case-ufølsomme ngrams, «Fitzgerald» og «Dupont»:

Høyreklikk noen årsvis sum resulterer i en utvidelse til de vanligste case-ufølsomme varianter. For eksempel resulterer et høyreklikk på «Dupont (All)» i følgende fire varianter: «DuPont»,» Dupont»,» duPont «og»DUPONT».

Del-of-speech-Koder

Vurder ordet takle, som kan være et verb («takleproblem») eller et substantiv («fiskeutstyr»). Du kan skille mellomdisse forskjellige former ved å legge Til _VERBor _NOUN:

hele listen over koder er som følger:

_SUN_		disse kodene kan enten stå alene (_pron_) eller kan legges til et ord (she_PRON)
_VERB_
_adj_	adjektiv
_ADV_	adverb
_PRON_	pronomen
_DET_	determiner eller artikkel
_ADP_	en adposisjon: enten en preposisjon eller en postposisjon
_NUM_	tall
_CONJ_	konjunksjon
_PRT_	partikkel
_ROOT_	roten av analysetreet	disse kodene må stå alene (f. eks., _START_)
_START_	start av en setning
_END_	slutten av en setning

Siden del-av-tale-kodene ikke trenger å knytte til bestemte ord, kan du bruke det-koden til å søke etter les en bok, les boken, les den boken,les denne boken og så videre som følger:

hvis du vil vite hva de vanligste determinatorene i denne konteksten er, kan du kombinere jokertegn og del-av-tale-koder for å lese *_DET book:

for å få alle de forskjellige bøyninger av ordet bok som har blitt fulgt av ET SUBSTANTIV i corpus du kan utstede spørringen book_INF _NOUN_:

hyppigste del-of-tale koder for et ord kan hentes med jokertegn funksjonalitet. Vurder spørringen cook_*:

bøyningsordet kan også kombineres med del-av-tale-koder. For eksempel vurdere spørringen cook_INF,cook_VERB_INF nedenfor, som skiller ut bøyninger av verbal følelse av «cook»:

ngram Viewer tags setningsgrenser, slik at du kan identifisere ngram ved start og slutt på setninger med START-og sluttkodene:

noen ganger hjelper det å tenke på ord i form av avhengigheterheller enn mønstre. La oss si at du vil vite hvordanofte velsmakende endrer dessert. Det vil si at du vil ha helt nevner av velsmakende frossen dessert, knasket, velsmakendedessert, velsmakende, men dyr dessert, og alle de andreinstanser der ordet velsmakende brukes til dessert.For det gir Ngram Viewer avhengighetsforhold med = > operatør:

Hver analysert setning har EN _ROOT_. I motsetning til othertags står _ROOT_ ikke FOR et bestemt ord eller posisjon i setningen. Det er roten av parse treet konstruert byanalyzing syntaks; du kan tenke på det som en plassholder for whatthe viktigste verb i setningen er å endre. Så her er hvordan du identifisererhvor ofte vil var hovedverbet av en setning:

grafen ovenfor vil inkludere setningen Larry will decide. Men Ikke Larry sa at han vil bestemme, siden will ikke er hovedverbet i den setningen.

Avhengigheter kan kombineres med jokertegn. For eksempel, vurder spørringen drink=> * _NOUN nedenfor:

«Rene» del-av-tale-koder kan blandes fritt med vanlige ordi 1-, 2-, 3-, 4-, og 5 gram (f. EKS. _ADJ_ toast eller _DET__ADJ_ toast).

Ngram Komposisjoner

Ngram Viewer inneholder fem operatorer som du kan bruke til å combinengrams:+, -,/, * og:.

+	Summerer uttrykkene på hver side, slik at du kan kombinere flere ngram tidsserier til en.
–	Trekker uttrykket til høyre fra uttrykket til venstre, noe som gir deg en måte å måle en ngram i forhold til en annen. Fordi brukere ofte ønsker å søke etter ord med bindestrek, sette mellomrom på hver side av – tegnet.
/	Deler uttrykket til venstre med uttrykket til høyre, som er nyttig for å isolere oppførselen til et ngram med hensyn til en annen.
*	Multipliserer uttrykket til venstre med tallet til høyre, noe som gjør det lettere å sammenligne ngram med svært forskjellige frekvenser. (Pass på å legge hele ngram i parentes slik at * ikke tolkes som et jokertegn.)
:	Gjelder ngram til venstre på corpus til høyre, slik at du kan sammenligne ngram på tvers av ulike korpus.

Ngram-Seeren vil prøve å gjette om å bruke disseoppførsel. Du kan bruke parenteser for å tvinge dem på, og squarebrackets å tvinge dem av. Eksempel: og / eller willdivide og ved eller; å måle bruken av thefrase og / eller, bruk .Og velmenende vil søke etter frasen velmenende; hvis du vil trekke mening fra godt, bruk (velmenende).

for å demonstrere + – operatøren, kan du finne summen av spill, sport og spill:

når du bestemmer om folk skrev mer om valg over år, kunne du sammenligne valg, valg, alternativ og alternativ, angi substantivformene for å unngå adjektive former (f. eks. valgdelikatesse, alternativmusikk):

ngram subtraksjon gir deg en enkel måte å sammenligne ett sett med ngrams til en annen:

Slik kan du kombinere + og / for å vise hvordan ordet applesauce har blomstret på bekostning av eplesaus:

* operatøren er nyttig når du vil sammenligne ngrams av vidt varierende frekvenser, som fiolin og den mer esoteriske theremin:

den :corpus selection operator lar deg sammenligne ngrams likegyldige språk, Eller Amerikansk Versus britisk engelsk (eller fiksjon),eller mellom 2009, 2012 og 2019 versjoner av våre bokskanninger.Her er chat på engelsk versus samme unigram på fransk:

Da vi genererte den opprinnelige Ngram Viewer corpora i 2009, var ourOCR ikke så god som den er i dag. Dette var spesielt tydelig inpre-19th century engelsk, hvor den langstrakte medial-s (ſ) ble ofte tolket som en f, så best ble ofte readas beft. Her er bevis på forbedringene vi har gjort sidenså bruker corpus-operatøren til å sammenligne versjonene 2009, 2012 og 2019:

ved å sammenligne fiksjon mot all engelsk, kan vi se at usesof wizard i general English har fått nylig sammenlignet med bruk i fiksjon:

Korpus

Nedenfor er beskrivelser av korpusene som kan søkes med theGoogle Books Ngram Viewer. Alle korpusene ble generert I Juli 2009, juli 2012 og februar 2020; vi vil oppdatere disse korpusene etter hvert som vår bokskanning fortsetter, og de oppdaterte versjonene vil ha forskjellige persistentidentifiers. Bøker med LAV OCR-kvalitet og serier ble utelukket.

Uformelt korpusnavn	Stenografi	Vedvarende identifikator	Beskrivelse
American English 2019	eng_us_2019	googlebooks-eng-us-20200217	bøker hovedsakelig på engelsk som ble utgitt i Usa.
Amerikansk engelsk 2012	eng_us_2012	googlebooks-eng-us-all-20120701
Amerikansk engelsk 2009	eng_us_2009	googlebooks-eng-us-all-20090715
British English 2019	eng_gb_2019	googlebooks-eng-gb-20200217	bøker hovedsakelig på engelsk som ble utgitt I Storbritannia.
Britisk engelsk 2012	eng_gb_2012	googlebooks-eng-gb-alle-20120701
Britisk engelsk 2009	eng_gb_2009	googlebooks-eng-gb-alle-20090715
English 2019	eng_2019	googlebooks-eng-20200217	bøker hovedsakelig på engelsk utgitt i alle land.
norsk 2012	eng_2012	googlebøker-eng-alle-20120701
norsk 2009	eng_2009	googlebøker-eng-alle-20090715
English Fiction 2019	eng_fiction_2019	googlebooks-eng-fiction-20200217	bøker hovedsakelig på engelsk som et bibliotek eller utgiver identifiserte som fiksjon.
Engelsk Skjønnlitteratur 2012	eng_fiction_2012	googlebooks-eng-skjønnlitteratur-alle-20120701
Engelsk Skjønnlitteratur 2009	eng_fiction_2009	googlebooks-eng-skjønnlitteratur-alle-20090715
norsk En Million	eng_1m_2009	googlebooks-eng-1m-20090715	«Google Millioner». Alle er på engelsk med datoer som spenner fra1500 til 2008. Ikke mer enn ca 6000 bøker ble valgt fra noenår, noe som betyr at alle de skannede bøkene fra tidlige år er tilstede, og bøker fra senere år er tilfeldig samplet. Randomsamlingene gjenspeiler fagfordelingene for året (så det er flere databøker i 2000 enn 1980).
Kinesisk 2019	chi_sim_2019	googlebooks-chi-sim-20200217	bøker hovedsakelig i forenklet Kinesisk skript.
Kinesisk 2012	chi_sim_2012	googlebooks-chi-sim-alle-20120701
Kinesisk 2009	chi_sim_2009	googlebooks-chi-sim-alle-20090715
fransk 2019	fre_2019	googlebooks-fre-20200217	bøker hovedsakelig på fransk.
fransk 2012	fre_2012	googlebooks-fre-all-20120701
fransk 2009	fre_2009	googlebooks-fre-all-20090715
tysk 2019	ger_2019	googlebooks-ger-20200217	bøker hovedsakelig på tysk.
tysk 2012	ger_2012	googlebooks-ger-all-20120701
tysk 2009	ger_2009	googlebooks-ger-all-20090715
hebraisk 2019	heb_2019	googlebooks-heb-20200217	Bøker dominerte på hebraisk.
hebraisk 2012	heb_2012	googlebøker-hebr-alle-20120701
hebraisk 2009	heb_2009	googlebøker-hebr-alle-20090715
spansk 2019	spa_2019	googlebooks-spa-20200217	bøker hovedsakelig på spansk.
spansk 2012	spa_2012	googlebooks-spa-alle-20120701
spansk 2009	spa_2009	googlebooks-spa-alle-20090715
russisk 2019	rus_2019	googlebooks-rus-20200217	Bøker hovedsakelig i russisk språk.
russisk 2012	rus_2012	googlebøker-rus-alle-20120701
russisk 2009	rus_2009	googlebøker-rus-alle-20090715
italiensk 2019	ita_2019	googlebooks-ita-20200217	bøker hovedsakelig på italiensk.
italiensk 2012	ita_2012	googlebøker-ita-alle-20120701	bøker hovedsakelig på italiensk.

Sammenlignet med 2009-versjonene har 2012-og 2019-versjonene flere bøker, forbedret OCR, forbedret bibliotek og utgivermetadata. 2012-og 2019-versjonene danner heller ikke ngrams som krysser sentenceboundaries, og danner ngrams på tvers av sidegrensene, i motsetning til 2009-versjonene.

med 2012 og 2019 corpora har tokeniseringen også forbedret seg ved å brukeet sett med manuelt utformede regler (unntatt Kinesisk, hvor astatistisk system brukes til segmentering). I 2009-korpusene var tokenisering bare basert på mellomrom.

Søke I Google Bøker

Under grafen viser vi «interessante» årsområder for dine spørsmål. Ved å klikke på disse vil sende søket direkte Til GoogleBooks. Merk At Ngram Viewer er case-sensitive, Men Google Booksssøkeresultater er ikke.

disse søkene vil gi uttrykk i språket somevercorpus du valgte, men resultatene returneres fra Hele GoogleBooks corpus. Så hvis Du bruker Ngram Viewer til å søke Etter En Frenchphrase i det franske korpuset og deretter klikke deg videre Til Google Bøker, vil det søket være for det samme franske uttrykket-som kan forekomme i en bok hovedsakelig på et annet språk.

Vanlige Spørsmål

Hvorfor ser jeg ikke resultatene jeg forventer?

Kanskje av en av disse grunnene:

Ngram Viewer er case-sensitive. Prøv å utnytte spørringen din eller merk av for»case-insensitive» – boksen til høyre for søkeboksen.

du søker i et uventet korpus. For Eksempel Vises Frankenstein ikke i russiske bøker, så hvis du søker i det russiske korpuset, ser Du en flatlinje. Du kan velge corpus via rullegardinmenyen under søkeboksen, eller gjennom corpus selection operator, F. Eks Frankenstein: eng_2019.

uttrykket ditt har et komma, plusstegn, bindestrek, stjerne,kolon eller skråstrek. De har spesielle betydninger Til NgramViewer; se Avansert Bruk. Prøv å omslutte uttrykket i firkantede parenteser(selv om dette ikke hjelper med komma).

Hvordan håndterer Ngram Viewer tegnsetting?

vi bruker et sett med tokeniseringsregler som er spesifikke for particularlanguage. På engelsk blir sammentrekninger to ord (de blir bigram de er, vi blir vi, og så videre). Den possessive er også delt av, Men R ‘ n ‘ B forblir ett token. Negasjoner (ikke) arenormalized slik at ikke blir ikke. På russisk er den diakritiske ё normalisert til e, og så videre. De samme reglene brukes til å analysere både ngrams skrevet av brukere og ngramsextracted fra corpora, noe som betyr at hvis du searchingfor ikke, ikke bli skremt av det faktum At Ngram Viewerrewrites det å ikke; det er nøyaktig viser bruksområder avbåde ikke og ikke i corpus. Men thismeans det er ingen måte å søke eksplisitt for specificforms kan ikke (eller kan ikke): du får can ‘ tand kan ikke og kan ikke alt på en gang.

Hvordan kan jeg se eksempelbruk i kontekst?

Under ngram Viewer-diagrammet gir vi en tabell med forhåndsdefinerte google Books-søk, hver av dem redusert til en rekke år. Vi choosethe områder i henhold til interestingness: hvis en ngram har en stor toppi et bestemt år, som vil vises av seg selv som et søk, withother søk som dekker lengre varighet.

I Motsetning Til 2019 Ngram Viewer corpus, Er Google Books corpus ikke en del av tale merket. Man kan ikke søke etter, si, verbet formof cheer I Google Bøker. Så noen ngrams med del-av-taletagger (f. eks., cheer_VERB) er ekskludert fra Tabellen GoogleBooks søk.

Ngram Viewer har 2009, 2012 og 2019 corpora, Men Google Booksdoesn ‘ t fungerer på den måten. Når Du søker I Google Bøker, ser du på alle tilgjengelige bøker, så det kan være noen forskjeller mellom Det Du ser I Google Bøker og hva du ville forvente å se gitt ngram Viewer-diagrammet.

Hvorfor ser jeg flere pigger og platåer i de tidlige årene?

Publisering var en relativt sjelden hendelse i det 16. og 17. århundre. (Det er bare ca 500 000 bøker utgittpå engelsk før det 19. århundre.) Så hvis en setning forekommer i en bok i ett år, men ikke i de foregående eller følgende årene, skaper det ataller spike enn det ville i senere år.

Platåer er vanligvis bare glattet pigger. Endre smoothingtil 0.

hva betyr» utjevning»?

ofte trender blir mer tydelig når data blir sett på som en movingaverage. En utjevning av 1 betyr at dataene som vises for 1950, vil være gjennomsnittet av råtellingen for 1950 pluss 1-verdi på hver side:(«count for 1949» + «count for 1950» + «count for 1951»), delt på3. Så en utjevning på 10 betyr at 21 verdier vil bli gjennomsnittlig: 10 på en eller annen side, pluss målverdien i midten av dem.

på venstre og høyre kant av grafen, færre verdier areaveraged. Med en utjevning av 3, vil den venstre verdien (pretendit er året 1950) beregnes som («count for 1950» + «countfor 1951» + «count for 1952» + «count for 1953»), dividert med 4.

en utjevning av 0 betyr ingen utjevning i det hele tatt: bare rådata.

Mange flere bøker er utgitt i moderne år. Betyr ikke dette skewthe resultater?

Det ville det hvis vi ikke normaliserte med antall bøker utgitt i hvert år.

Hvorfor viser du en 0% flatline når jeg vet at uttrykket i myquery skjedde i minst en bok?

Under tung belastning vil Ngram Viewer noen ganger returnere aflatline; reload for å bekrefte at det faktisk ikke er noen treff for thefrase. Også, vi bare vurdere ngrams som forekommer i minst 40books. Ellers ville datasettet ballong i størrelse, og vi ville ikke kunne tilby dem alle.

Hvor nøyaktig er del-av-tale-tagging?

del-av-tale-koder og avhengighetsrelasjoner forutsettes automatisk. Å vurdere nøyaktigheten av disse spådommene er vanskelig, men for moderne engelsk forventer vi at nøyaktigheten av taletiketter skal være rundt 95% og nøyaktigheten av avhengighetsrelasjoner rundt 85%. På eldre engelsk tekst og for andre språk er nøyaktighetene lavere, men sannsynligvis over 90% for del-av-tale-taggerog over 75% for avhengigheter. Dette innebærer et betydelig antallfeil, som bør tas i betraktning ved tegningkonklusjoner.

del-of-tale-kodene er konstruert fra et lite treningssett (bare en million ord for engelsk). Dette vil noen ganger underrepresentere uvanlige bruksområder, for eksempel grønn eller dogor bok som verb, eller spør som et substantiv.

en ekstra notat På Kinesisk: før det 20. århundre, classicalkinesisk ble tradisjonelt brukt for alle skrevetkommunikasjon. Klassisk Kinesisk er basert på grammatikk ogordforråd av gammel Kinesisk, og de syntaktiske merknadene vilderfor være feil oftere enn de har rett.

legg også merke til at 2009-korpusene ikke har vært en del av taletagget.

jeg skriver et papir basert på resultatene dine. Hvordan kan jeg sitere arbeidet ditt?

hvis du skal bruke disse dataene til en vitenskapelig publikasjon, vennligst oppgi det opprinnelige papiret:

Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, Google Books-Teamet, Joseph P. Han er en av de mest kjente og mest kjente i verden.Kvantitativ Analyse Av Kultur Ved Hjelp Av Millioner Av Digitalisertebøker. Vitenskap (Publisert online før utskrift: 12/16/2010)

Vi har også et papir på vår del av tale tagging:

Yuri Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant,William Brockman, Slav Petrov.Syntaktiske Merknader Til Google Books Ngram Corpus. Det 50. Årsmøtet I Association For Computational Lingvisticsvolum 2: Demo Papers (ACL)’12) (2012)

Kan jeg laste ned dataene dine for å kjøre mine egne eksperimenter?

Ja! Ngram-dataene er tilgjengelig for nedlasting her. For å gjøre filstørrelsene håndterbare, har vi gruppert dem etter startbrevet og gruppert de forskjellige ngram-størrelsene i separate filer. Ngrams withineach-filen er ikke alfabetisk sortert.

for å generere maskinlesbare filnavn, translittererte vi thengram for språk som bruker ikke-romerske skript (Kinesisk, hebraisk,russisk) og brukte startbokstaven til det translittererte ngram til å bestemme filnavnet. Den samme tilnærmingen ble tatt for tegnslik som ä på tysk. Merk at transliterasjonen varbrukes bare til å bestemme filnavnet; de faktiske ngrams er kodet inUTF-8 ved hjelp av det språkspesifikke alfabetet.