Google Ngram-fremviser

Hvad gør Ngram-seeren?

når du indtaster sætninger i Google Books Ngram-fremviseren, vises denen graf, der viser, hvordan disse sætninger har fundet sted i et korpus af bøger (f.eks.”britisk engelsk”, “engelsk fiktion”, “fransk”) i løbet af de valgte år. Lad os se på en prøvegraf:

dette viser tendenser i tre ngrams fra 1960 til 2015:” nurseryschool “(en 2 gram eller bigram),”børnehave “(en 1 gram eller unigram) og” børnepasning ” (en andenbigram). Hvad Y-aksen viser er dette: af alle bigrams indeholdti vores stikprøve af bøger skrevet på engelsk og udgivet i UnitedStater, hvor stor en procentdel af dem er “børnehave” eller “børnepasning”?Af alle unigrammerne, hvilken procentdel af dem er “børnehave”?Her kan du se, at brugen af udtrykket “børnepasning” begyndte at stigei slutningen af 1960 ‘ erne, overhalede “børnehave” omkring 1970 og derefter”børnehave” omkring 1973. Det toppede kort efter 1990 og har været støt siden.

(interessant nok er resultaterne mærkbart forskellige, nårcorpus skiftes til Britisk engelsk.)

du kan holde musepekeren over linjen plot for en ngram, som fremhæver det. Med et venstre-klik på en linje plot, kan du fokusere på en bestemt ngram,grånende ud de andre ngrams i diagrammet, hvis nogen. På efterfølgende venstreklik på andre linjeplotter i diagrammet kan flere ngrammer fokuseres på. Du kan dobbeltklikke på et hvilket som helst område af diagrammet for at genindførealle ngrams i forespørgslen.

du kan også angive jokertegn i forespørgsler, søge efter bøjninger,udføre store og små bogstaver, søge efter bestemte dele af talen eller tilføje, trække fra og dele ngrams.Mere om dem under Avanceret brug.

avanceret brug

et par funktioner i Ngram-seeren kan appellere til brugere,der ønsker at grave lidt dybere ned i sætningsbrug: jokertegnsøgning, bøjningssøgning,sagsfølsom søgning, del-af-tale-tags og Ngram-kompositioner.

Jokertegnsøgning

når du sætter en * i stedet for et ord, viser Ngram-seeren de ti bedste udskiftninger.For eksempel for at finde de mest populære ord efter “University of”, Søg efter “University of *”.

du kan højreklikke på et af erstatnings-ngrammerne for at skjule dem alle sammen i den originale jokertegnforespørgsel, hvor resultatet er den årlige sum af udskiftningerne. Et efterfølgende højreklik udvider jokertegnforespørgslen tilbage til alle udskiftninger. Bemærk, at Ngram-fremviseren kun understøtter en * pr.

Bemærk, at de ti bedste udskiftninger beregnes for det angivne tidsinterval. Du kan derfor få forskellige udskiftninger til forskellige årsområder. Vi har filtreret tegnsætningssymboler fra top ti-listen, men for ord, der ofte starter eller slutter sætninger, kan du muligvis se et af sætningsgrænsesymbolerne (_START_ eller _END_) som en af udskiftningerne.

Bøjningssøgning

en bøjning er ændringen af et ord til at repræsentere forskellige grammatiske kategorier såsom aspekt, sag, køn, humør, Antal, person, anspændt og stemme. Du kan søge efter dem ved at tilføje _INF til en ngram. For eksempel, søgning “book_INF et hotel” vil vise resultater for “bog”, “booket”, “bøger”, og “booking”:

Højreklik på en bøjning kollapser alle former i deres sum. Bemærk, at Ngram-fremviseren kun understøtter et _inf-søgeord pr.forespørgsel.

Advarsel: Du kan ikke frit blande jokertegnssøgninger, bøjninger og store og små bogstaver efter en bestemt ngram.Du kan dog søge med en af disse funktioner efter separate ngrams i en forespørgsel: “book_INF et hotel, book * hotel” er fint, men “book_INF * hotel” er ikke.

Case ufølsom søgning

som standard udfører Ngram-seeren store og små bogstaver: store og små bogstaver. Du kan udføre en sag-ufølsom søgning ved at markere afkrydsningsfeltet “sag-ufølsom” til højre for forespørgselsfeltet. Ngram-fremviseren viser derefter den årlige sum af de mest almindelige tilfælde-ufølsomme varianteraf inputforespørgslen. Her er to case-ufølsomme ngrams, “Fitsgerald” og “Dupont”:

Højreklik på en årlig sum resulterer i en udvidelse til de mest almindelige case-ufølsomme varianter. For eksempel resulterer et højreklik på “Dupont (alle)” i følgende fire varianter: “DuPont”, “Dupont”, “duPont” og “DUPONT”.

del-af-tale Tags

overvej ordet tackle, som kan være et verb (“tackle theproblem”) eller et substantiv (“fiskegrej”). Du kan skelne mellem disse forskellige former ved at tilføje _VERBor _NOUN:

den fulde liste over tags er som følger:

_NOUN_ disse tags kan enten stå alene (_PRON_)
eller kan tilføjes til et ord (she_PRON)
_VERB_
_adj_ adjektiv
_adv_ adverb
_PRON_ pronomen
_DET_ determiner eller artikel
_ADP_ en adposition: enten en præposition eller en postposition
_num_ tal
_CONJ_ konjunktion
_prt_ partikel
_root_ roden af parse træet disse tags skal stå alene (f. eks., _START_)
_START_ start af en sætning
_END_ slutningen af en sætning

Da del-af-tale tags ikke behøver at knytte til bestemte ord, kan du bruge det tag til at søge efter læse en bog, læse bogen, læse den bog,læse denne bog, og så videre som følger:

hvis du ønskede at vide, hvad de mest almindelige determiners i denne sammenhæng er, kan du kombinere jokertegn og del-af-tale tags til at læse *_DET bog:

for at få alle de forskellige bøjninger af ordbogen, som er blevet fulgt af et navneord i corpus, kan du udstede forespørgslen book_INF _NOUN_:

de hyppigste del-af-tale-tags for et ord kan hentes med jokertegnfunktionaliteten. Overvej forespørgslen cook_*:

bøjningsnøgleordet kan også kombineres med del-af-tale-tags. Overvej for eksempel forespørgslen cook_INF, cook_VERB_INF nedenfor,der adskiller bøjningerne af den verbale følelse af “cook”:

Ngram-seeren mærker sætningsgrænser, så du kan identificere Ngram ved start og slutning af sætninger med START og slut tags:

nogle gange hjælper det med at tænke på ord i form af afhængighedersnarere end mønstre. Lad os sige, at du vil vide hvordanofte velsmagende ændrer dessert. Det vil sige, du vil helt nævne velsmagende frossen dessert, crunchy, velsmagendedessert, velsmagende, men alligevel dyr dessert og alle de andretilfælde, hvor ordet velsmagende anvendes til dessert.Til det giver Ngram-seeren afhængighedsrelationer med = > operatør:

hver parset sætning har en _ROOT_. I modsætning til othertags står _ROOT_ ikke for et bestemt ord eller positioni sætningen. Det er roden til parse-træet konstrueret afanalyse af syntaksen; du kan tænke på det som en pladsholder for hvaddet vigtigste verb i sætningen ændrer sig. Så her er hvordan man identificererhvor ofte vil var hovedværdien af en sætning:

ovenstående graf vil indeholde sætningen Larry vilbeslutte. men ikke Larry sagde,at han vil beslutte, da vilje ikke er det vigtigste verb i denne sætning.

afhængigheder kan kombineres med jokertegn. For eksempel overveje forespørgslen drink=> *_NOUN nedenfor:

“ren” del-af-tale tags kan blandes frit med regelmæssige ordi 1-, 2-, 3-, 4-, og 5 gram (f.eks. _adj_ toast eller _det__ADJ_ toast).

Ngram-kompositioner

Ngram-fremviseren giver fem operatører, som du kan bruge til at kombineregrammer:+, -,/, * og :.

+ opsummerer udtryk på begge sider, så du kan kombinere flere ngram tidsserier i en.
trækker udtrykket til højre fra udtrykket til venstre, hvilket giver dig en måde at måle en ngram i forhold til en anden. Fordi brugerne ofte ønsker at søge efter bindestreger sætninger, sætte mellemrum på hver side af – tegnet.
/ opdeler udtrykket til venstre med udtrykket til højre, hvilket er nyttigt til at isolere en ngrams opførsel i forhold til en anden.
* multiplicerer udtrykket til venstre med nummeret til højre, hvilket gør det lettere at sammenligne ngrams med meget forskellige frekvenser. (Sørg for at vedlægge hele ngram i parentes, så * ikke fortolkes som et jokertegn.)
: anvender ngram til venstre til corpus til højre, så du kan sammenligne Ngram på tværs af forskellige corpora.

Ngram-seeren vil forsøge at gætte om at anvende disseadfærd. Du kan bruge parenteser til at tvinge dem på, og firkantede bøjler til at tvinge dem ud. Eksempel: og/eller vil opdele og af eller; at måle brugen af sætningen og / eller brugen .Og velmenende vil søge eftersætning velmenende; hvis du vil trække mening fra godt,skal du bruge (velmenende).

for at demonstrere + – operatøren kan du her finde summen af spil, sport og leg:

når du bestemmer, om folk skrev mere om valg i løbet af årene, kan dusammenligne valg, valg, valg og alternativ, idet du specificerer substantivformularerne for at undgåadjektive former (f. eks. valgdelikatesse, alternativmusik):

Ngram subtraktion giver dig en nem måde at sammenligne et sæt Ngram til et andet:

sådan kan du kombinere + og / for at vise, hvordan ordet æbleauce har blomstret på bekostning af æblesauce:

* operatøren er nyttig, når du vil sammenligne Ngram med vidt forskellige frekvenser,som violin og den mere esoteriske theremin:

: corpus selection operatør kan du sammenligne ngrams ligegyldige sprog, eller amerikansk versus britisk engelsk (eller fiktion), eller mellem 2009, 2012 og 2019 versioner af vores bog scanninger.Her er chat på engelsk versus det samme unigram på fransk:

da vi genererede den originale Ngram-seer corpora i 2009, var ourOCR ikke så god som den er i dag. Dette var især tydeligt ifør det 19.århundrede engelsk, hvor den langstrakte medial-s (Kurt) varofte fortolket som en f, så bedst blev ofte læst som beft. Her er bevis for de forbedringer, vi har foretaget sidenså bruger corpus-operatøren til at sammenligne versionerne 2009, 2012 og 2019:

ved at sammenligne fiktion med alt engelsk kan vi se, at brug af guiden Generelt engelsk har fået for nyligsammenlignet med anvendelser i fiktion:

Corpora

nedenfor er beskrivelser af corpora, der kan søges medGoogle bøger Ngram fremviser. Alle corpora blev genereret i juli 2009, juli 2012 og februar 2020; vi opdaterer disse corpora, når vores bookscanning fortsætter, og de opdaterede versioner vil have forskellige persistentidentifier. Bøger med lav OCR-kvalitet og serier blev udelukket.

uformelt korpusnavn stenografi vedvarende identifikator beskrivelse
amerikansk engelsk 2019 eng_us_2019 googlebooks-eng-us-20200217 bøger overvejende på engelsk, der blev udgivet i USA.
amerikansk engelsk 2012 eng_us_2012 googlebooks-eng-us-alle-20120701
amerikansk engelsk 2009 eng_us_2009 googlebooks-eng-us-alle-20090715
britisk engelsk 2019 eng_gb_2019 googlebooks-eng-gb-20200217 bøger overvejende på engelsk, der blev udgivet i Storbritannien.
Britisk Dansk 2012 eng_gb_2012 googlebooks-eng-gb-all-20120701
Britisk Dansk 2009 eng_gb_2009 googlebooks-eng-gb-all-20090715
English 2019 eng_2019 googlebooks-eng-20200217 bøger overvejende på engelsk udgivet i ethvert land.
Dansk 2012 eng_2012 googlebooks-eng-all-20120701
Dansk 2009 eng_2009 googlebooks-eng-all-20090715
engelsk fiktion 2019 eng_fiction_2019 googlebooks-eng-fiction-20200217 bøger overvejende på engelsk, som et bibliotek eller udgiver identificerede som fiktion.
Dansk fiktion 2012 eng_fiction_2012 googlebooks-eng-fiktion-alle-20120701
Dansk fiktion 2009 eng_fiction_2009 googlebooks-eng-fiktion-alle-20090715
engelsk en Million eng_1m_2009 googlebooks-eng-1m-20090715 “Google Million”. Alle er på engelsk med datoer fra1500 til 2008. 6000 bøger blev valgt fra nogenår, hvilket betyder, at alle de scannede bøger fra de tidlige år repræsenterer, og bøger fra senere år er tilfældigt samplet. Randomsamplings afspejler årets emnefordelinger (så der er flere computerbøger i 2000 end 1980).
Kinesisk 2019 chi_sim_2019 googlebooks-chi-sim-20200217 bøger overvejende i forenklet kinesisk script.
Kinesisk 2012 chi_sim_2012 googlebooks-chi-sim-alle-20120701
Kinesisk 2009 chi_sim_2009 googlebooks-chi-sim-alle-20090715
fransk 2019 fre_2019 googlebooks-fre-20200217 bøger overvejende på det franske sprog.
fransk 2012 fre_2012 googlebooks-fre-all-20120701
fransk 2009 fre_2009 googlebooks-fre-all-20090715
tysk 2019 ger_2019 googlebooks-ger-20200217 bøger overvejende på det tyske sprog.
tysk 2012 ger_2012 googlebooks-ger-all-20120701
tysk 2009 ger_2009 googlebooks-ger-all-20090715
hebraisk 2019 heb_2019 googlebooks-heb-20200217 bøger dominerede på det hebraiske sprog.
hebraisk 2012 heb_2012 googlebooks-heb-alle-20120701
hebraisk 2009 heb_2009 googlebooks-heb-alle-20090715
spansk 2019 spa_2019 googlebooks-spa-20200217 bøger overvejende på det spanske sprog.
spansk 2012 spa_2012 googlebooks-spa-alle-20120701
spansk 2009 spa_2009 googlebooks-spa-alle-20090715
russisk 2019 rus_2019 googlebooks-rus-20200217 bøger overvejende på det russiske sprog.
russisk 2012 rus_2012 googlebooks-rus-alle-20120701
russisk 2009 rus_2009 googlebooks-rus-alle-20090715
italiensk 2019 ita_2019 googlebooks-ita-20200217 bøger overvejende på det italienske sprog.
italiensk 2012 ita_2012 googlebooks-ita-all-20120701

sammenlignet med versionerne fra 2009 har versionerne fra 2012 og 2019 flere bøger, forbedret OCR, forbedret bibliotek og publishermetadata. Versionerne fra 2012 og 2019 danner heller ikke ngrams, der krydser sentenceboundaries, og danner ngrams på tværs af sidegrænser, i modsætning til versionerne fra 2009.

med 2012 og 2019 corpora er tokeniseringen også forbedret ved hjælp afet sæt manuelt udtænkte regler (undtagen Kinesisk, hvor astatistisk system bruges til segmentering). I 2009 corpora,tokenisering var simpelthen baseret på mellemrum.

søgning inde i Google Bøger

under grafen viser vi “interessante” årsområder for din forespørgselsvilkår. Hvis du klikker på dem, sendes din forespørgsel direkte til GoogleBooks. Bemærk, at Ngram-fremviseren er store og små bogstaver, men Google Bookssearch-resultater er det ikke.

disse søgninger vil give sætninger på det sprog, somvercorpus du valgte, men resultaterne returneres fra den fulde GoogleBooks corpus. Så hvis du bruger Ngram-seeren til at søge efter en fransk sætning i det franske korpus og derefter klikke igennem til Google Bøger,vil denne søgning være efter den samme franske sætning-som kan forekomme i en bog overvejende på et andet sprog.

Ofte Stillede Spørgsmål

Hvorfor ser jeg ikke de resultater, jeg forventer?

måske af en af disse grunde:

  • Ngram-seeren er store og små bogstaver. Prøv at aktivere din forespørgsel, eller Marker afkrydsningsfeltet “sag-ufølsom”til højre for søgefeltet.
  • du søger i en uventet corpus. For eksempel vises Frankenstein ikke i russiske bøger, så hvis du søger i det russiske korpus, ser du en flatline. Du kan vælge corpus via rullemenuen under søgefeltet eller gennem Corpus selection-operatøren, f.eks.
  • din sætning har et komma, plustegn, bindestreg, stjerne,kolon eller skråstreg fremad i den. Disse har særlige betydninger for Ngramviseren; se avanceret brug. Prøv at omslutte sætningen i firkantede parenteser (selvom dette ikke hjælper med kommaer).

Hvordan håndterer Ngram-fremviseren tegnsætning?

vi anvender et sæt tokeniseringsregler, der er specifikke for det særligesprog. På engelsk bliver sammentrækninger to ord (de bliver bigram de er, vi bliver vi vil osv.). De besiddende er også opdelt, men R ‘ n ‘ B forbliver et token. Negationer (ikke) arenormaliseret, så det ikke bliver ikke. På russisk normaliseres den diakritiske Kurt til e og så videre. De samme regler anvendes til at analysere både de ngrammer, der er skrevet af brugere, og de ngramsekstraheret fra corpora, hvilket betyder, at hvis du søger for ikke, skal du ikke være foruroliget over det faktum, at Ngram-Seerenomskriver det til ikke; det viser nøjagtigt anvendelser afbåde ikke og ikke i corpus. Dette betyder dog, at der ikke er nogen måde at søge eksplicit efter de specifikke formularer kan ikke (eller kan ikke): Du får Kan ikke og kan ikke og kan ikke alle på en gang.

Hvordan kan jeg se eksempler på anvendelser i sammenhæng?

under Ngram-Visningsdiagrammet giver vi en tabel med foruddefinerede søgninger i Google-Bøger, der hver er indsnævret til en række år. Vi vælger de intervaller efter interestingness: hvis en ngram har en enorm peakin et bestemt år, der vil fremstå af sig selv som en søgning, med andre søgninger, der dækker længere varigheder.

i modsætning til 2019 Ngram Seerkorpus, Google Bøger corpus isn ‘ tdel-of-tale tagget. Man kan ikke søge efter, siger verbet formaf juble i Google Bøger. Så alle ngrams med del-af-speechtags (f. eks., cheer_VERB) er udelukket fra tabellen over GoogleBooks søgninger.

Ngram-seeren har 2009, 2012 og 2019 corpora, men Google Booksdoesn ‘ t arbejde på den måde. Når du søger i Google Bøger, undersøger du alle de aktuelt tilgængelige bøger, så der kan være nogle forskelle mellem det, du ser i Google Bøger, og det, du ville forvente at se i betragtning af Ngram-Visningsdiagrammet.

Hvorfor ser jeg flere pigge og plateauer i de tidlige år?

udgivelse var en relativt sjælden begivenhed i det 16.og 17. århundrede. (Der er kun omkring 500.000 bøger udgivet på engelsk før det 19.århundrede.) Så hvis en sætning forekommer i en bog i et år, men ikke i de foregående eller følgende år, skaber det ataller spike end det ville i senere år.

plateauer er normalt simpelthen glatte pigge. Skift udjævningtil 0.

hvad betyder “udjævning”?

ofte bliver tendenser mere tydelige, når data ses som et bevægeligt gennemsnit. En udjævning på 1 betyder, at de viste data for 1950 vil være gennemsnittet af råtællingen for 1950 plus 1 værdi på begge sider:(“count for 1949” + “count for 1950” + “count for 1951”), divideret med3. Så en udjævning på 10 betyder, at 21 værdier vil blive gennemsnitligt: 10 på hver side plus målværdien i midten af dem.

i venstre og højre kant af grafen er der færre værdier. Med en udjævning på 3 beregnes værdien længst til venstre (pretendit ‘ s year 1950) som (“count for 1950” + “count for 1951” + “count for 1952” + “count for 1953”) divideret med 4.

en udjævning af 0 betyder slet ingen udjævning: bare rådata.

mange flere bøger udgives i moderne år. Er det ikke skævtresultaterne?

det ville, hvis vi ikke normaliserede med antallet af bøger udgivet ihvert år.

Hvorfor viser du en 0% flatline, når jeg ved, at sætningen i minforespørgsel opstod i mindst en bog?

under tung belastning vil Ngram-seeren undertiden returnere aflatline; genindlæs for at bekræfte, at der faktisk ikke er nogen hits for sætningen. Vi overvejer også kun ngrams, der forekommer i mindst 40bøger. Ellers ville datasættet ballon i størrelse, og vi ville ikke være i stand til at tilbyde dem alle.

hvor præcis er den del-af-tale tagging?

del-af-tale-tags og afhængighedsrelationer forudsigesautomatisk. Det er vanskeligt at vurdere nøjagtigheden af disse forudsigelser, men for moderne engelsk forventer vi, at nøjagtigheden af part-of-speech tags er omkring 95% og nøjagtigheden af afhængighedsrelationer omkring 85%. På ældre engelsk tekst og for andre sprognøjagtighederne er lavere, men sandsynligvis over 90% for del-af-tale tagsog over 75% for afhængigheder. Dette indebærer et betydeligt antalfejl, som skal tages i betragtning ved tegningkonklusioner.

del-af-tale-tags er konstrueret af et lille træningssæt(kun en million ord til engelsk). Dette vil nogle gange underrepræsenterer usædvanlige anvendelser, såsom grøn eller dogor bog som verb, eller spørg som et substantiv.

en yderligere note om kinesisk: før det 20.århundrede blev klassiskkinesisk traditionelt brugt til al skriftligkommunikation. Klassisk kinesisk er baseret på grammatik ogordforråd fra gammel kinesisk, og de syntaktiske kommentarer vil derfor være forkerte oftere, end de har ret.

Bemærk også, at 2009 corpora ikke har været en del af speechtagged.

jeg skriver et papir baseret på dine resultater. Hvordan kan jeg citere dit arbejde?

hvis du vil bruge disse data til en akademisk publikation, bedes du citere det originale papir:

Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthæus K. Gray, Vilhelm Brockman,Google Books-teamet, Joseph P. Han er en af de mest kendte i verden, og han er en af de mest kendte i verden.Kvantitativ analyse af kultur ved hjælp af millioner af Digitaliseredebøger. Videnskab (udgivet online forud for print: 12/16/2010)

vi har også et papir om vores del-af-tale tagging:

Yuri Lin, Jean-Baptiste Michel, Lieberman Aiden, Jon Orvilant,Vilhelm Brockman, Slav Petrov.Syntaktiske kommentarer til Google Bøger Ngram Corpus. Forløbaf det 50. årlige møde i Association for Computational LinguisticsVolume 2: Demo papirer (ACL ’12) (2012)

kan jeg hente dine data til at køre mine egne eksperimenter?

Ja! Ngram-dataene er tilgængelige forindlæs her. For at gøre filstørrelserne administrerbare har vi grupperet dem efter deres startbogstav og derefter grupperet de forskellige Ngram-størrelser i separate filer. Ngrams medineach-filen sorteres ikke alfabetisk.

for at generere maskinlæsbare filnavne translittererede vi thengrammer til sprog, der bruger ikke-romerske scripts (kinesisk, hebraisk,russisk) og brugte startbogstavet for det translittererede ngram til at bestemme filnavnet. Den samme tilgang blev taget for tegnsådan som Kristian på tysk. Bemærk, at transliterationen varbruges kun til at bestemme filnavnet; de faktiske ngrams er kodet inUTF-8 ved hjælp af det Sprogspecifikke alfabet.

jeg vil gerne udgive en Ngram-graf i min bog/magasin/blog/præsentation. Hvad er dine licensbetingelser?