Google Ngram Viewer
Hva gjør Ngram Viewer?
når du skriver inn setninger I Google Books Ngram Viewer, viser den en graf som viser hvordan disse setningene har skjedd i et korpus av bøker (f.eks.»Britisk engelsk», «engelsk Fiksjon», «fransk») over de valgte årene. La oss se på en eksempelgraf:
Dette viser trender i tre ngram fra 1960 til 2015: «nurseryschool» (en 2 gram eller bigram), «barnehage» (en 1 gram eller unigram) og «barnepass» (en annenbigram). Hva y-aksen viser er dette: av alle bigrams inneholdti vårt utvalg av bøker skrevet på engelsk og publisert I Unitedstater, hvilken prosentandel av dem er «barnehage» eller «barnepass»?Av alle unigrams, hvilken prosentandel av dem er «barnehage»?Her kan du se at bruken av uttrykket «barnepass» begynte å stigei slutten av 1960-tallet, forbikjøring «barnehage» rundt 1970 og deretter «barnehage» rundt 1973. Det toppet kort tid etter 1990 og har vært jevnt siden.
(Interessant, resultatene er merkbart forskjellige nårkorpus er byttet Til Britisk engelsk.)
du kan sveve over linjeplottet for et ngram, som fremhever det. Witha venstre-klikk på en linje plot, kan du fokusere på en bestemt ngram, gråning ut de andre ngrams i diagrammet, hvis noen. På påfølgende leftclicks på andre linjeplott i diagrammet, kan flere ngrams fokusere på. Du kan dobbeltklikke på et område av diagrammet for å gjenopprette alle ngrams i spørringen.
Du kan også angi jokertegn i spørringer, søke etter bøyninger, utføre små og store bokstaver søk, se etter bestemte deler av tale, eller legge til, trekke fra og dele ngrams.Mer om De Under Avansert Bruk.
Avansert Bruk
noen funksjoner I Ngram Viewer kan appellere til brukere som ønsker å grave litt dypere inn i uttrykket bruk: wildcard søk, bøyning søk, små bokstaver søk, del-of-tale koder og ngram komposisjoner.
Jokertegnsøk
når du setter en * i stedet for et ord, Vil Ngram Viewer vise de ti beste substitusjonene.For eksempel, for å finne de mest populære ordene etter «University of», søk etter «University of*».
du kan høyreklikke på noen av de nye ngrams å skjule dem alle inn i den opprinnelige wildcard spørringen, med resultatet blir årsvis summen av erstatninger. Et etterfølgende høyreklikk utvider jokertegnspørringen tilbake til alle erstatninger. Merk at Ngram Viewer bare støtter en * per ngram.
Merk at de ti beste erstatningene beregnes for det angitte tidsintervallet. Du kan derfor få forskjellige erstatninger for forskjellige årsområder. Vi har filtrert tegnsettingssymboler fra topp ti-listen, men for ord som ofte starter eller slutter setninger, kan du se et av setningsgrensesymbolene (_START_ ELLER _END_) som en av erstatningene.
Bøyning søk
en bøyning er modifisering av et ord for å representere ulike grammatiske kategorier som aspekt, case, kjønn, humør, nummer, person, anspent og stemme. Du kan søke ETTER DEM VED å legge _INF TIL en ngram. For eksempel, søker «book_INF et hotell» vil vise resultater for «book», «booket», «bøker», og «booking»:
Høyreklikke noen bøyning kollapser alle former i sin sum. Merk at Ngram Viewer bare støtter ETT _inf-søkeord per spørring.
Advarsel: du kan ikke fritt blande jokertegn søk, bøyninger og små bokstaver søk for en bestemt ngram.Du kan imidlertid søke med en av disse funksjonene for separate ngrams i en spørring: «book_INF et hotell, book * hotel» er greit, men «book_INF * hotel» er det ikke.
Små Og Store bokstaver søk
Som standard utfører Ngram Viewer store og små bokstaver søk: store og små bokstaver saker. Du kan utføre et saksfølsomt søk ved å merke av for «saksfølsomt» til høyre for spørringsboksen. Ngram Viewer vil da vise den årlige summen av de vanligste case-insensitive variantene av inndataspørringen. Her er to case-ufølsomme ngrams, «Fitzgerald» og «Dupont»:
Høyreklikk noen årsvis sum resulterer i en utvidelse til de vanligste case-ufølsomme varianter. For eksempel resulterer et høyreklikk på «Dupont (All)» i følgende fire varianter: «DuPont»,» Dupont»,» duPont «og»DUPONT».
Del-of-speech-Koder
Vurder ordet takle, som kan være et verb («takleproblem») eller et substantiv («fiskeutstyr»). Du kan skille mellomdisse forskjellige former ved å legge Til _VERBor _NOUN:
hele listen over koder er som følger:
_SUN_ | disse kodene kan enten stå alene (_pron_) eller kan legges til et ord (she_PRON) |
|
_VERB_ | ||
_adj_ | adjektiv | |
_ADV_ | adverb | |
_PRON_ | pronomen | |
_DET_ | determiner eller artikkel | |
_ADP_ | en adposisjon: enten en preposisjon eller en postposisjon | |
_NUM_ | tall | |
_CONJ_ | konjunksjon | |
_PRT_ | partikkel | |
_ROOT_ | roten av analysetreet | disse kodene må stå alene (f. eks., _START_) |
_START_ | start av en setning | |
_END_ | slutten av en setning |
Siden del-av-tale-kodene ikke trenger å knytte til bestemte ord, kan du bruke det-koden til å søke etter les en bok, les boken, les den boken,les denne boken og så videre som følger:
hvis du vil vite hva de vanligste determinatorene i denne konteksten er, kan du kombinere jokertegn og del-av-tale-koder for å lese *_DET book:
for å få alle de forskjellige bøyninger av ordet bok som har blitt fulgt av ET SUBSTANTIV i corpus du kan utstede spørringen book_INF _NOUN_:
hyppigste del-of-tale koder for et ord kan hentes med jokertegn funksjonalitet. Vurder spørringen cook_*:
bøyningsordet kan også kombineres med del-av-tale-koder. For eksempel vurdere spørringen cook_INF,cook_VERB_INF nedenfor, som skiller ut bøyninger av verbal følelse av «cook»:
ngram Viewer tags setningsgrenser, slik at du kan identifisere ngram ved start og slutt på setninger med START-og sluttkodene:
noen ganger hjelper det å tenke på ord i form av avhengigheterheller enn mønstre. La oss si at du vil vite hvordanofte velsmakende endrer dessert. Det vil si at du vil ha helt nevner av velsmakende frossen dessert, knasket, velsmakendedessert, velsmakende, men dyr dessert, og alle de andreinstanser der ordet velsmakende brukes til dessert.For det gir Ngram Viewer avhengighetsforhold med = > operatør:
Hver analysert setning har EN _ROOT_. I motsetning til othertags står _ROOT_ ikke FOR et bestemt ord eller posisjon i setningen. Det er roten av parse treet konstruert byanalyzing syntaks; du kan tenke på det som en plassholder for whatthe viktigste verb i setningen er å endre. Så her er hvordan du identifisererhvor ofte vil var hovedverbet av en setning:
grafen ovenfor vil inkludere setningen Larry will decide. Men Ikke Larry sa at han vil bestemme, siden will ikke er hovedverbet i den setningen.
Avhengigheter kan kombineres med jokertegn. For eksempel, vurder spørringen drink=> * _NOUN nedenfor:
«Rene» del-av-tale-koder kan blandes fritt med vanlige ordi 1-, 2-, 3-, 4-, og 5 gram (f. EKS. _ADJ_ toast eller _DET__ADJ_ toast).
Ngram Komposisjoner
Ngram Viewer inneholder fem operatorer som du kan bruke til å combinengrams:+, -,/, * og:.
+ | Summerer uttrykkene på hver side, slik at du kan kombinere flere ngram tidsserier til en. |
– | Trekker uttrykket til høyre fra uttrykket til venstre, noe som gir deg en måte å måle en ngram i forhold til en annen. Fordi brukere ofte ønsker å søke etter ord med bindestrek, sette mellomrom på hver side av – tegnet. |
/ | Deler uttrykket til venstre med uttrykket til høyre, som er nyttig for å isolere oppførselen til et ngram med hensyn til en annen. |
* | Multipliserer uttrykket til venstre med tallet til høyre, noe som gjør det lettere å sammenligne ngram med svært forskjellige frekvenser. (Pass på å legge hele ngram i parentes slik at * ikke tolkes som et jokertegn.) |
: | Gjelder ngram til venstre på corpus til høyre, slik at du kan sammenligne ngram på tvers av ulike korpus. |
Ngram-Seeren vil prøve å gjette om å bruke disseoppførsel. Du kan bruke parenteser for å tvinge dem på, og squarebrackets å tvinge dem av. Eksempel: og / eller willdivide og ved eller; å måle bruken av thefrase og / eller, bruk .Og velmenende vil søke etter frasen velmenende; hvis du vil trekke mening fra godt, bruk (velmenende).
for å demonstrere + – operatøren, kan du finne summen av spill, sport og spill:
når du bestemmer om folk skrev mer om valg over år, kunne du sammenligne valg, valg, alternativ og alternativ, angi substantivformene for å unngå adjektive former (f. eks. valgdelikatesse, alternativmusikk):
ngram subtraksjon gir deg en enkel måte å sammenligne ett sett med ngrams til en annen:
Slik kan du kombinere + og / for å vise hvordan ordet applesauce har blomstret på bekostning av eplesaus:
* operatøren er nyttig når du vil sammenligne ngrams av vidt varierende frekvenser, som fiolin og den mer esoteriske theremin:
den :corpus selection operator lar deg sammenligne ngrams likegyldige språk, Eller Amerikansk Versus britisk engelsk (eller fiksjon),eller mellom 2009, 2012 og 2019 versjoner av våre bokskanninger.Her er chat på engelsk versus samme unigram på fransk:
Da vi genererte den opprinnelige Ngram Viewer corpora i 2009, var ourOCR ikke så god som den er i dag. Dette var spesielt tydelig inpre-19th century engelsk, hvor den langstrakte medial-s (ſ) ble ofte tolket som en f, så best ble ofte readas beft. Her er bevis på forbedringene vi har gjort sidenså bruker corpus-operatøren til å sammenligne versjonene 2009, 2012 og 2019:
ved å sammenligne fiksjon mot all engelsk, kan vi se at usesof wizard i general English har fått nylig sammenlignet med bruk i fiksjon:
Korpus
Nedenfor er beskrivelser av korpusene som kan søkes med theGoogle Books Ngram Viewer. Alle korpusene ble generert I Juli 2009, juli 2012 og februar 2020; vi vil oppdatere disse korpusene etter hvert som vår bokskanning fortsetter, og de oppdaterte versjonene vil ha forskjellige persistentidentifiers. Bøker med LAV OCR-kvalitet og serier ble utelukket.
Uformelt korpusnavn | Stenografi | Vedvarende identifikator | Beskrivelse |
American English 2019 | eng_us_2019 | googlebooks-eng-us-20200217 | bøker hovedsakelig på engelsk som ble utgitt i Usa. |
Amerikansk engelsk 2012 | eng_us_2012 | googlebooks-eng-us-all-20120701 | |
Amerikansk engelsk 2009 | eng_us_2009 | googlebooks-eng-us-all-20090715 | |
British English 2019 | eng_gb_2019 | googlebooks-eng-gb-20200217 | bøker hovedsakelig på engelsk som ble utgitt I Storbritannia. |
Britisk engelsk 2012 | eng_gb_2012 | googlebooks-eng-gb-alle-20120701 | |
Britisk engelsk 2009 | eng_gb_2009 | googlebooks-eng-gb-alle-20090715 | |
English 2019 | eng_2019 | googlebooks-eng-20200217 | bøker hovedsakelig på engelsk utgitt i alle land. |
norsk 2012 | eng_2012 | googlebøker-eng-alle-20120701 | |
norsk 2009 | eng_2009 | googlebøker-eng-alle-20090715 | |
English Fiction 2019 | eng_fiction_2019 | googlebooks-eng-fiction-20200217 | bøker hovedsakelig på engelsk som et bibliotek eller utgiver identifiserte som fiksjon. |
Engelsk Skjønnlitteratur 2012 | eng_fiction_2012 | googlebooks-eng-skjønnlitteratur-alle-20120701 | |
Engelsk Skjønnlitteratur 2009 | eng_fiction_2009 | googlebooks-eng-skjønnlitteratur-alle-20090715 | |
norsk En Million | eng_1m_2009 | googlebooks-eng-1m-20090715 | «Google Millioner». Alle er på engelsk med datoer som spenner fra1500 til 2008. Ikke mer enn ca 6000 bøker ble valgt fra noenår, noe som betyr at alle de skannede bøkene fra tidlige år er tilstede, og bøker fra senere år er tilfeldig samplet. Randomsamlingene gjenspeiler fagfordelingene for året (så det er flere databøker i 2000 enn 1980). |
Kinesisk 2019 | chi_sim_2019 | googlebooks-chi-sim-20200217 | bøker hovedsakelig i forenklet Kinesisk skript. |
Kinesisk 2012 | chi_sim_2012 | googlebooks-chi-sim-alle-20120701 | |
Kinesisk 2009 | chi_sim_2009 | googlebooks-chi-sim-alle-20090715 | |
fransk 2019 | fre_2019 | googlebooks-fre-20200217 | bøker hovedsakelig på fransk. |
fransk 2012 | fre_2012 | googlebooks-fre-all-20120701 | |
fransk 2009 | fre_2009 | googlebooks-fre-all-20090715 | |
tysk 2019 | ger_2019 | googlebooks-ger-20200217 | bøker hovedsakelig på tysk. |
tysk 2012 | ger_2012 | googlebooks-ger-all-20120701 | |
tysk 2009 | ger_2009 | googlebooks-ger-all-20090715 | |
hebraisk 2019 | heb_2019 | googlebooks-heb-20200217 | Bøker dominerte på hebraisk. |
hebraisk 2012 | heb_2012 | googlebøker-hebr-alle-20120701 | |
hebraisk 2009 | heb_2009 | googlebøker-hebr-alle-20090715 | |
spansk 2019 | spa_2019 | googlebooks-spa-20200217 | bøker hovedsakelig på spansk. |
spansk 2012 | spa_2012 | googlebooks-spa-alle-20120701 | |
spansk 2009 | spa_2009 | googlebooks-spa-alle-20090715 | |
russisk 2019 | rus_2019 | googlebooks-rus-20200217 | Bøker hovedsakelig i russisk språk. |
russisk 2012 | rus_2012 | googlebøker-rus-alle-20120701 | |
russisk 2009 | rus_2009 | googlebøker-rus-alle-20090715 | |
italiensk 2019 | ita_2019 | googlebooks-ita-20200217 | bøker hovedsakelig på italiensk. |
italiensk 2012 | ita_2012 | googlebøker-ita-alle-20120701 |
Sammenlignet med 2009-versjonene har 2012-og 2019-versjonene flere bøker, forbedret OCR, forbedret bibliotek og utgivermetadata. 2012-og 2019-versjonene danner heller ikke ngrams som krysser sentenceboundaries, og danner ngrams på tvers av sidegrensene, i motsetning til 2009-versjonene.
med 2012 og 2019 corpora har tokeniseringen også forbedret seg ved å brukeet sett med manuelt utformede regler (unntatt Kinesisk, hvor astatistisk system brukes til segmentering). I 2009-korpusene var tokenisering bare basert på mellomrom.
Søke I Google Bøker
Under grafen viser vi «interessante» årsområder for dine spørsmål. Ved å klikke på disse vil sende søket direkte Til GoogleBooks. Merk At Ngram Viewer er case-sensitive, Men Google Booksssøkeresultater er ikke.
disse søkene vil gi uttrykk i språket somevercorpus du valgte, men resultatene returneres fra Hele GoogleBooks corpus. Så hvis Du bruker Ngram Viewer til å søke Etter En Frenchphrase i det franske korpuset og deretter klikke deg videre Til Google Bøker, vil det søket være for det samme franske uttrykket-som kan forekomme i en bok hovedsakelig på et annet språk.
Vanlige Spørsmål
Hvorfor ser jeg ikke resultatene jeg forventer?
Kanskje av en av disse grunnene:
- Ngram Viewer er case-sensitive. Prøv å utnytte spørringen din eller merk av for»case-insensitive» – boksen til høyre for søkeboksen.
- du søker i et uventet korpus. For Eksempel Vises Frankenstein ikke i russiske bøker, så hvis du søker i det russiske korpuset, ser Du en flatlinje. Du kan velge corpus via rullegardinmenyen under søkeboksen, eller gjennom corpus selection operator, F. Eks Frankenstein: eng_2019.
- uttrykket ditt har et komma, plusstegn, bindestrek, stjerne,kolon eller skråstrek. De har spesielle betydninger Til NgramViewer; se Avansert Bruk. Prøv å omslutte uttrykket i firkantede parenteser(selv om dette ikke hjelper med komma).
Hvordan håndterer Ngram Viewer tegnsetting?
vi bruker et sett med tokeniseringsregler som er spesifikke for particularlanguage. På engelsk blir sammentrekninger to ord (de blir bigram de er, vi blir vi, og så videre). Den possessive er også delt av, Men R ‘ n ‘ B forblir ett token. Negasjoner (ikke) arenormalized slik at ikke blir ikke. På russisk er den diakritiske ё normalisert til e, og så videre. De samme reglene brukes til å analysere både ngrams skrevet av brukere og ngramsextracted fra corpora, noe som betyr at hvis du searchingfor ikke, ikke bli skremt av det faktum At Ngram Viewerrewrites det å ikke; det er nøyaktig viser bruksområder avbåde ikke og ikke i corpus. Men thismeans det er ingen måte å søke eksplisitt for specificforms kan ikke (eller kan ikke): du får can ‘ tand kan ikke og kan ikke alt på en gang.
Hvordan kan jeg se eksempelbruk i kontekst?
Under ngram Viewer-diagrammet gir vi en tabell med forhåndsdefinerte google Books-søk, hver av dem redusert til en rekke år. Vi choosethe områder i henhold til interestingness: hvis en ngram har en stor toppi et bestemt år, som vil vises av seg selv som et søk, withother søk som dekker lengre varighet.
I Motsetning Til 2019 Ngram Viewer corpus, Er Google Books corpus ikke en del av tale merket. Man kan ikke søke etter, si, verbet formof cheer I Google Bøker. Så noen ngrams med del-av-taletagger (f. eks., cheer_VERB) er ekskludert fra Tabellen GoogleBooks søk.
Ngram Viewer har 2009, 2012 og 2019 corpora, Men Google Booksdoesn ‘ t fungerer på den måten. Når Du søker I Google Bøker, ser du på alle tilgjengelige bøker, så det kan være noen forskjeller mellom Det Du ser I Google Bøker og hva du ville forvente å se gitt ngram Viewer-diagrammet.
Hvorfor ser jeg flere pigger og platåer i de tidlige årene?
Publisering var en relativt sjelden hendelse i det 16. og 17. århundre. (Det er bare ca 500 000 bøker utgittpå engelsk før det 19. århundre.) Så hvis en setning forekommer i en bok i ett år, men ikke i de foregående eller følgende årene, skaper det ataller spike enn det ville i senere år.
Platåer er vanligvis bare glattet pigger. Endre smoothingtil 0.
hva betyr» utjevning»?
ofte trender blir mer tydelig når data blir sett på som en movingaverage. En utjevning av 1 betyr at dataene som vises for 1950, vil være gjennomsnittet av råtellingen for 1950 pluss 1-verdi på hver side:(«count for 1949» + «count for 1950» + «count for 1951»), delt på3. Så en utjevning på 10 betyr at 21 verdier vil bli gjennomsnittlig: 10 på en eller annen side, pluss målverdien i midten av dem.
på venstre og høyre kant av grafen, færre verdier areaveraged. Med en utjevning av 3, vil den venstre verdien (pretendit er året 1950) beregnes som («count for 1950» + «countfor 1951» + «count for 1952» + «count for 1953»), dividert med 4.
en utjevning av 0 betyr ingen utjevning i det hele tatt: bare rådata.
Mange flere bøker er utgitt i moderne år. Betyr ikke dette skewthe resultater?
Det ville det hvis vi ikke normaliserte med antall bøker utgitt i hvert år.
Hvorfor viser du en 0% flatline når jeg vet at uttrykket i myquery skjedde i minst en bok?
Under tung belastning vil Ngram Viewer noen ganger returnere aflatline; reload for å bekrefte at det faktisk ikke er noen treff for thefrase. Også, vi bare vurdere ngrams som forekommer i minst 40books. Ellers ville datasettet ballong i størrelse, og vi ville ikke kunne tilby dem alle.
Hvor nøyaktig er del-av-tale-tagging?
del-av-tale-koder og avhengighetsrelasjoner forutsettes automatisk. Å vurdere nøyaktigheten av disse spådommene er vanskelig, men for moderne engelsk forventer vi at nøyaktigheten av taletiketter skal være rundt 95% og nøyaktigheten av avhengighetsrelasjoner rundt 85%. På eldre engelsk tekst og for andre språk er nøyaktighetene lavere, men sannsynligvis over 90% for del-av-tale-taggerog over 75% for avhengigheter. Dette innebærer et betydelig antallfeil, som bør tas i betraktning ved tegningkonklusjoner.
del-of-tale-kodene er konstruert fra et lite treningssett (bare en million ord for engelsk). Dette vil noen ganger underrepresentere uvanlige bruksområder, for eksempel grønn eller dogor bok som verb, eller spør som et substantiv.
en ekstra notat På Kinesisk: før det 20. århundre, classicalkinesisk ble tradisjonelt brukt for alle skrevetkommunikasjon. Klassisk Kinesisk er basert på grammatikk ogordforråd av gammel Kinesisk, og de syntaktiske merknadene vilderfor være feil oftere enn de har rett.
legg også merke til at 2009-korpusene ikke har vært en del av taletagget.
jeg skriver et papir basert på resultatene dine. Hvordan kan jeg sitere arbeidet ditt?
hvis du skal bruke disse dataene til en vitenskapelig publikasjon, vennligst oppgi det opprinnelige papiret:
Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, Google Books-Teamet, Joseph P. Han er en av de mest kjente og mest kjente i verden.Kvantitativ Analyse Av Kultur Ved Hjelp Av Millioner Av Digitalisertebøker. Vitenskap (Publisert online før utskrift: 12/16/2010)
Vi har også et papir på vår del av tale tagging:
Yuri Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant,William Brockman, Slav Petrov.Syntaktiske Merknader Til Google Books Ngram Corpus. Det 50. Årsmøtet I Association For Computational Lingvisticsvolum 2: Demo Papers (ACL)’12) (2012)
Kan jeg laste ned dataene dine for å kjøre mine egne eksperimenter?
Ja! Ngram-dataene er tilgjengelig for nedlasting her. For å gjøre filstørrelsene håndterbare, har vi gruppert dem etter startbrevet og gruppert de forskjellige ngram-størrelsene i separate filer. Ngrams withineach-filen er ikke alfabetisk sortert.
for å generere maskinlesbare filnavn, translittererte vi thengram for språk som bruker ikke-romerske skript (Kinesisk, hebraisk,russisk) og brukte startbokstaven til det translittererte ngram til å bestemme filnavnet. Den samme tilnærmingen ble tatt for tegnslik som ä på tysk. Merk at transliterasjonen varbrukes bare til å bestemme filnavnet; de faktiske ngrams er kodet inUTF-8 ved hjelp av det språkspesifikke alfabetet.