Google Ngram Viewer

Vad gör Ngram Viewer?

när du anger fraser i Google Books Ngram Viewer visas en graf som visar hur dessa fraser har inträffat i ett korpus av böcker (t.ex.”brittisk engelska”, ”engelsk Fiktion”, ”franska”) under de valdaåren. Låt oss titta på ett exempeldiagram:

detta visar trender i tre ngram från 1960 till 2015:” nurseryschool ”(en 2-gram eller bigram),”kindergarten ”(en 1-gram eller unigram), och” barnomsorg ” (anotherbigram). Vad y-axeln visar är detta: av alla bigram som ingåri vårt urval av böcker skrivna på engelska och publicerade i Unitedstaterna, vilken procentandel av dem är ”förskola” eller ”barnomsorg”?Av alla unigrams, vilken procentandel av dem är ”dagis”?Här kan du se att användningen av frasen ”barnomsorg” började stiga i slutet av 1960-talet, förbi ”förskola” runt 1970 och sedan”dagis” runt 1973. Det nådde en topp strax efter 1990 och har sedan dess sjunkit stadigt.

(intressant är resultaten märkbart olika närcorpus byts till brittisk engelska.)

du kan sväva över linjediagrammet för ett ngram, vilket belyser det. Witha vänsterklicka på en linje tomt, kan du fokusera på en viss ngram,grånande ut de andra ngram i diagrammet, om någon. På efterföljande vänsterklick på andra linjediagram i diagrammet kan flera ngram fokuseras på. Du kan dubbelklicka på något område i diagrammet för att återställa alla ngrams i frågan.

du kan också ange jokertecken i frågor, söka efter böjningar, utföra skiftlägeskänslig sökning, leta efter vissa delar av tal eller lägga till, subtrahera och dela ngrams.Mer om dem under Avancerad användning.

avancerad användning

några funktioner i Ngram Viewer kan tilltala användare som vill gräva alittle djupare i frasen användning: jokertecken sökning,böjningssökning, skiftlägeskänslig sökning,ordklass taggar och ngram kompositioner.

Wildcard search

när du sätter en * i stället för ett ord, Ngram Viewer kommer att visa de tio bästa substitutioner.Till exempel, för att hitta de mest populära orden efter ”University of”, Sök efter ”University of *”.

du kan högerklicka på någon av ersättnings ngrams att kollapsa dem alla i den ursprungliga jokertecken frågan, med resultatet att årvis summan av ersättningarna. Ett efterföljande högerklick expanderar jokerteckenfrågan tillbaka till alla ersättningar. Observera att Ngram Viewer endast stöder en * per ngram.

Observera att de tio bästa ersättningarna beräknas för det angivna tidsintervallet. Du kan därför få olika ersättare för olika årsintervall. Vi har filtrerat skiljetecken från listan topp tio, men för ord som ofta börjar eller slutar meningar kan du se en av meningsgränssymbolerna (_START_ eller _END_) som en av ersättningarna.

Böjningssökning

en böjning är modifieringen av ett ord för att representera olika grammatiska kategorier som aspekt, fall, kön, humör, antal, person, spänd och röst. Du kan söka efter dem genom att lägga till _INF till ett ngram. Om du till exempel söker ”book_INF a hotel” visas resultat för ”book”, ”booked”,” books ” och ”booking”:

högerklicka på någon böjning kollapsar alla former i summan. Observera att Ngram Viewer endast stöder ett _inf-nyckelord per fråga.

Varning: Du kan inte fritt blanda jokertecken sökningar, böjningar och skiftlägeskänsliga sökningar för en viss ngram.Du kan dock söka med någon av dessa funktioner för separata ngrams i en fråga: ”book_INF a hotel, book * hotel” är bra, men ”book_INF * hotel” är inte.

skiftlägeskänslig sökning

som standard utför Ngram Viewer skiftlägeskänsliga sökningar: versaler. Du kan utföra en skiftlägeskänslig sökning genom att markera kryssrutan ”skiftlägeskänslig” till höger om frågerutan. Ngram Viewer visar sedan den årliga summan av de vanligaste skiftlägeskänsliga varianterna av inmatningsfrågan. Här är två skiftlägeskänsliga ngrams, ”Fitzgerald” och ”Dupont”:

högerklicka på en årlig summa resulterar i en expansion till de vanligaste skiftlägeskänsliga varianterna. Till exempel resulterar ett högerklick på ”Dupont (All)” i följande fyra varianter: ”Dupont”, ”Dupont”, ”dupont” och ”Dupont”.

ordklass taggar

Tänk på ordet tackla, vilket kan vara ett verb (”tackla problemet”) eller ett substantiv (”fiskeredskap”). Du kan skilja mellandessa olika former genom att lägga till _VERBor _noun:

den fullständiga listan med Taggar är som följer:

_ NOUN_ dessa taggar kan antingen stå ensamma (_PRON_)
eller kan läggas till ett ord (she_PRON)
_VERB_
_adj_ adjektiv
_adv_ adverb
_pron_ pronomen
_det_ determiner eller artikel
_adp_ en adposition: antingen en preposition eller en postposition
_num_ siffra
_conj_ konjunktion
_prt_ partikel
_root_ roten av parse träd dessa taggar måste stå ensam (t. ex., _START_)
_START_ början av en mening
_end_ slutet på en mening

eftersom ordklass taggar behöver inte bifoga vissa ord, kan du använda DET taggen för att söka efter Läsa en bok, läsa boken, läsa den boken, läsa den här boken, och så vidare på följande sätt:

om du ville veta vad de vanligaste determiners i detta sammanhang är, kan du kombinera jokertecken och ordklass taggar för att läsa * _DET bok:

för att få alla de olika böjningarna av ordet bok som har följts avett substantiv i korpuset kan du utfärda frågan book_INF _noun_:

de vanligaste del-av-tal-taggarna för ett ord kan hämtas med jokerteckenfunktionen. Tänk på frågan cook_*:

böjningsnyckelordet kan också kombineras med ordklass-taggar. Tänk till exempel på frågan cook_INF, cook_VERB_INF nedan, som skiljer ut böjningarna av den verbala känslan av ”kock”:

Ngram Viewer taggar meningsgränser, så att du kan identifiera ngram i början och slutet av meningar med START-och SLUTTAGGARNA:

ibland hjälper det att tänka på ord när det gäller beroendesnarare än mönster. Låt oss säga att du vill veta hurofta läckra modifierar efterrätt. Det vill säga, du vill helt nämner välsmakande fryst dessert, krispigt, tastydessert, välsmakande men dyra dessert, och alla otherinstances där ordet tasty tillämpas på dessert.För det ger Ngram Viewer beroendeförhållanden med = > operatör:

varje tolkad mening har en _ROOT_. Till skillnad från andrataggar står _ROOT_ inte för ett visst ord eller PositionI meningen. Det är roten till parse-trädet konstruerat avanalysera syntaxen; du kan tänka på det som en platshållare för vadmenhetens huvudverb ändrar. Så här är hur man identifierarhur ofta will var huvudverbet i en mening:

ovanstående diagram skulle innehålla meningen Larry willdecide. men inte Larry sa att han kommer att bestämma,eftersom will inte är huvudverbet i den meningen.

beroenden kan kombineras med jokertecken. Tänk till exempel på frågan drink=> * _NOUN nedan:

” rena ” del-av-tal-taggar kan blandas fritt med vanliga ordin 1-, 2-, 3-, 4-, och 5-gram (t.ex. den _adj_ toast eller _det__ADJ_ toast).

Ngram Compositions

Ngram Viewer ger fem operatorer som du kan använda för att kombineragrams: +, -, /, *, och :.

+ summerar uttrycken på vardera sidan, så att du kan kombinera flera ngram-tidsserier till en.
subtraherar uttrycket till höger från uttrycket till vänster, vilket ger dig ett sätt att mäta ett ngram i förhållande till ett annat. Eftersom användare ofta vill söka efter bindestreck, sätt mellanslag på vardera sidan av – tecknet.
/ delar uttrycket till vänster med uttrycket till höger, vilket är användbart för att isolera beteendet hos ett ngram med avseende på ett annat.
* multiplicerar uttrycket till vänster med numret till höger, vilket gör det lättare att jämföra ngram med mycket olika frekvenser. (Var noga med att bifoga hela ngram inom parentes så att * inte tolkas som ett jokertecken.)
: tillämpar ngram till vänster till corpus till höger, så att du kan jämföra ngram mellan olika corpora.

Ngram Viewer kommer att försöka gissa om du ska tillämpa dessabeteenden. Du kan använda parenteser för att tvinga dem på och squarebrackets för att tvinga dem av. Exempel: och/eller willdivide och av eller; för att mäta användningen av thephrase och / eller, användning .Och välmenande kommer att söka efterfras välmenande; om du vill subtrahera mening från väl,använd (välmenande).

för att demonstrera + – operatören, så här kan du hitta summan av Spel, sport och spel:

när du bestämmer om folk skrev mer om val under åren kan dujämföra val, val, alternativ och alternativ, specificera substantivformerna för att undvikaadjektiva former (t. ex. val delikatess, alternativmusik):

ngram subtraktion ger dig ett enkelt sätt att jämföra en uppsättning ngram till en annan:

så här kan du kombinera + och / för att visa hur ordet äppelmos har blommat på bekostnad av äppelsås:

* operatören är användbar när du vill jämföra ngram med mycket varierande frekvenser, som fiol och den mer esoteriska theremin:

: Corpus selection operatör kan du jämföra ngrams likgiltiga språk, eller amerikansk kontra brittisk engelska (eller fiktion),eller mellan 2009, 2012 och 2019 versioner av våra bokskanningar.Här är chatt på engelska kontra samma unigram på franska:

när vi genererade den ursprungliga Ngram Viewer corpora 2009 var ourOCR inte lika bra som det är idag. Detta var särskilt uppenbart ipre-19th century engelska, där den långsträckta mediala-s (GHz) varofta tolkas som en f, så bäst var ofta läsas beft. Här är bevis på de förbättringar vi har gjort sedansedan använder Corpus-operatören för att jämföra versionerna 2009, 2012 och 2019:

genom att jämföra fiktion mot alla engelska, kan vi se att usesof guiden i allmänhet engelska har vunnit nyligenjämfört med användning i fiktion:

Corpora

nedan finns beskrivningar av corpora som kan sökas med theGoogle Books Ngram Viewer. Alla corpora genererades i juli 2009, juli 2012 och februari 2020; vi kommer att uppdatera dessa corpora när vår bokskanning fortsätter, och de uppdaterade versionerna kommer att ha distinkta persistentidentifiers. Böcker med låg OCR-kvalitet och serier utesluts.

informellt korpusnamn stenografi beständig identifierare beskrivning
Amerikansk Engelska 2019 eng_us_2019 googlebooks-eng-us-20200217 böcker främst på engelska som publicerades i USA.
Amerikansk Engelska 2012 eng_us_2012 googlebooks-eng-us-all-20120701
Amerikansk Engelska 2009 eng_us_2009 googlebooks-eng-us-all-20090715
brittisk engelska 2019 eng_gb_2019 googlebooks-eng-gb-20200217 böcker främst på engelska som publicerades i Storbritannien.
brittisk engelska 2012 eng_gb_2012 googlebooks-eng-gb-alla-20120701
brittisk engelska 2009 eng_gb_2009 googlebooks-eng-gb-alla-20090715
engelska 2019 eng_2019 googlebooks-eng-20200217 böcker främst på engelska som publiceras i något land.
svenska 2012 eng_2012 googlebooks-eng-all-20120701
svenska 2009 eng_2009 googlebooks-eng-all-20090715
engelsk Fiktion 2019 eng_fiction_2019 googlebooks-eng-fiction-20200217 böcker främst på engelska som ett bibliotek eller utgivare identifierade som fiktion.
engelska skönlitteratur 2012 eng_fiction_2012 googlebooks-eng-fiction-alla-20120701
engelska skönlitteratur 2009 eng_fiction_2009 googlebooks-eng-fiction-alla-20090715
engelska en miljon eng_1m_2009 googlebooks-eng-1m-20090715 den ”Google miljoner”. Alla är på engelska med datum från1500 till 2008. Inte mer än cirka 6000 böcker valdes från någonår, vilket innebär att alla skannade böcker från tidiga år är närvarande, och böcker från senare år slumpmässigt samplas. Randomsamplings återspeglar ämnesfördelningarna för året (så det finns fler datorböcker 2000 än 1980).
kinesiska 2019 chi_sim_2019 googlebooks-chi-sim-20200217 böcker främst i förenklat kinesiskt manus.
kinesiska 2012 chi_sim_2012 googlebooks-chi-sim-alla-20120701
kinesiska 2009 chi_sim_2009 googlebooks-chi-sim-alla-20090715
franska 2019 fre_2019 googlebooks-fre-20200217 böcker främst på franska språket.
franska 2012 fre_2012 googlebooks-fre-all-20120701
franska 2009 fre_2009 googlebooks-fre-all-20090715
tyska 2019 ger_2019 googlebooks-ger-20200217 böcker främst på tyska.
tyska 2012 ger_2012 googlebooks-ger-all-20120701
tyska 2009 ger_2009 googlebooks-ger-all-20090715
Hebreiska 2019 heb_2019 googlebooks-heb-20200217 böcker dominerade på hebreiska.
Hebreiska 2012 heb_2012 googlebooks-heb-alla-20120701
Hebreiska 2009 heb_2009 googlebooks-heb-all-20090715
spanska 2019 spa_2019 googlebooks-spa-20200217 böcker främst på spanska.
spanska 2012 spa_2012 googlebooks-spa-allt-20120701
spanska 2009 spa_2009 googlebooks-spa-allt-20090715
ryska 2019 rus_2019 googlebooks-rus-20200217 böcker främst i ryska språket.
ryska 2012 rus_2012 googlebooks-rus-alla-20120701
ryska 2009 rus_2009 googlebooks-rus-alla-20090715
italienska 2019 Ita_2019 googlebooks-ita-20200217 böcker främst på italienska.
italienska 2012 ita_2012 googlebooks-ita-alla-20120701

jämfört med 2009-versionerna har 2012-och 2019-versionerna fler böcker, förbättrad OCR, förbättrat bibliotek och publicermetadata. 2012-och 2019-versionerna bildar inte heller ngrams som korsar sentenceboundaries och bildar ngrams över sidgränser, till skillnad från 2009-versionerna.

med 2012 och 2019 corpora har tokeniseringen också förbättrats med en uppsättning manuellt utformade regler (förutom Kinesiska, där astatistiskt system används för segmentering). I 2009 corpora baserades tokenisering helt enkelt på whitespace.

söker inuti Google Böcker

under grafen visar vi ”intressanta” årsintervall för dina frågorvillkor. Om du klickar på dessa skickar du din fråga direkt till GoogleBooks. Observera att Ngram Viewer är skiftlägeskänslig, men Google Bookssearch-resultat är det inte.

dessa sökningar kommer att ge fraser på vilket språk du har valt, men resultaten returneras från hela GoogleBooks corpus. Så om du använder Ngram Viewer för att söka efter en Franskfras i den franska korpusen och sedan klicka vidare till Google Böcker,kommer den sökningen att vara för samma franska fras-som kan förekomma i en bok främst på ett annat språk.

Vanliga frågor

Varför ser jag inte de resultat jag förväntar mig?

kanske av en av dessa skäl:

  • Ngram Viewer är skiftlägeskänslig. Försök att kapitalisera din fråga eller markera rutan ”skiftlägeskänslig”till höger om sökrutan.
  • du söker i en oväntad corpus. Till exempel, Frankenstein visas inte i ryska böcker, så om du söker i den ryska corpus ser du en flatline. Du kan välja corpus via rullgardinsmenyn under sökrutan eller genom korpusvalsoperatören, t.ex. Frankenstein:eng_2019.
  • din fras har ett komma, plustecken, bindestreck, asterisk,kolon eller framåt snedstreck i den. De har speciella betydelser för NgramViewer; se Avancerad användning. Försök att bifoga frasen i fyrkantiga parenteser (även om detta inte hjälper till med kommatecken).

Hur hanterar Ngram Viewer skiljetecken?

vi tillämpar en uppsättning tokeniseringsregler som är specifika för det specifika språket. På engelska blir sammandragningar två ord (dereblir bigram de är, vi blir vi kommer, och så vidare). Den possessiva är också uppdelad, men R ’ n ’ B förblir en token. Negationer (inte) ärnormaliserade så att inte blir inte. På ryska normaliseras den diakritiska Kazaki till e, och så vidare. Samma regler tillämpas för att analysera både ngrams som skrivits av användare och ngramsextraheras från corpora, vilket innebär att om du söker inte, var inte orolig över det faktum att Ngram-visaren skriver om det för att inte göra det; det visar exakt användningar avbåde inte och inte i corpus. Detta betyder dock att det inte finns något sätt att uttryckligen söka efter de specifika formerna kan inte (eller kan inte): du får can ’ tand kan inte och kan inte allt på en gång.

Hur kan jag se exempelanvändningar i sammanhang?

under Ngram Viewer-diagrammet tillhandahåller vi en tabell med fördefinierade Google Books-sökningar, var och en begränsad till en rad år. Vi väljerintervallen efter intresse: om ett ngram har en enorm topp ett visst år, kommer det att visas av sig själv som en sökning, med andra sökningar som täcker längre varaktigheter.

till skillnad från 2019 Ngram Viewer corpus, Google Böcker corpus isn ’ tpart-of-speech taggade. Man kan inte söka efter, säg, verbet formof cheer i Google Böcker. Så alla ngram med del-av-taltaggar (t. ex., cheer_VERB) är undantagna från tabellen över GoogleBooks-sökningar.

Ngram Viewer har 2009, 2012 och 2019 corpora, men Google Booksfungerar inte så. När du söker i Google Böcker söker du efter alla tillgängliga böcker, så det kan finnas vissa skillnader mellan vad du ser i Google Böcker och vad du skulle förvänta dig att se med tanke på Ngram Viewer-diagrammet.

Varför ser jag fler spikar och platåer under de första åren?

publicering var en relativt sällsynt händelse under 16 och 17århundraden. (Det finns bara cirka 500 000 böcker publiceradepå engelska före 19th century.) Så om en fras förekommer i en bok i ettår men inte under föregående eller följande år, skapar det en mindre spik än det skulle göra under senare år.

platåer är vanligtvis helt enkelt släta spikar. Ändra smoothingto 0.

Vad betyder” utjämning”?

ofta trender blir tydligare när data ses som en movingaverage. En utjämning av 1 betyder att de data som visas för 1950 kommer att vara genomsnittet av råantalet för 1950 plus 1-värdet på vardera sidan:(”räkna för 1949” + ”räkna för 1950” + ”räkna för 1951”), dividerat med3. Så en utjämning av 10 betyder att 21 värden kommer att vara i genomsnitt: 10 envarken sida, plus målvärdet i mitten av dem.

vid vänster och höger kant av grafen är färre värden i genomsnitt. Med en utjämning av 3 kommer det vänstra värdet (pretendit år 1950) att beräknas som (”räkna för 1950” + ”räkna för 1951” + ”räkna för 1952” + ”räkna för 1953”), dividerat med 4.

en utjämning av 0 betyder ingen utjämning alls: bara rådata.

många fler böcker publiceras i moderna år. Gör inte detta skev resultaten?

det skulle om vi inte normaliserades med antalet böcker som publicerades ivarje år.

Varför visar du en 0% flatline när jag vet att frasen i myquery inträffade i minst en bok?

under tung belastning returnerar Ngram Viewer ibland aflatline; ladda om för att bekräfta att det faktiskt inte finns några träffar för thephrase. Vi betraktar också bara ngrams som förekommer i minst 40böcker. Annars skulle dataset ballong i storlek och vi skulle inte kunna erbjuda dem alla.

hur exakt är ordklass taggning?

del-av-tal-taggarna och beroendeförhållandena förutsägsautomatiskt. Att bedöma noggrannheten i dessa förutsägelser är svårt, men för modern engelska förväntar vi oss att noggrannheten idel-av-tal-taggarna är cirka 95% och noggrannheten i beroendet är cirka 85%. På äldre engelsk text och för andra språk är noggrannheten lägre, men sannolikt över 90% för del-av-tal-taggaroch över 75% för beroenden. Detta innebär ett betydande antalfel, som bör beaktas vid ritningslutsatser.

del-av-tal-taggarna är konstruerade från en liten träningsuppsättning (bara en miljon ord för engelska). Detta kommer iblandunderrepresentera ovanliga användningar, till exempel grön eller dogor bok som verb, eller Fråga som substantiv.

en ytterligare anteckning om Kinesiska: före 20-talet användes klassiskkinesiska traditionellt för alla skriftligakommunikation. Klassisk kinesisk är baserad på grammatik ochordförråd av forntida kineser, och de syntaktiska anteckningarna kommer därför att vara fel oftare än de har rätt.

Observera också att 2009 corpora inte har varit del av taltaggad.

jag skriver ett papper baserat på dina resultat. Hur kan jag citera ditt arbete?

om du ska använda dessa data för en akademisk publikation, vänligen citera originalpapperet:

Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, Google Books-teamet, Joseph P. Han är en av de mest kända och mest kända i världen.Kvantitativ analys av kultur med miljontals Digitaliseradeböcker. Vetenskap (publicerad online före tryck: 12/16/2010)

vi har också ett papper om vår del av tal taggning:

Yuri Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant,William Brockman, Slav Petrov.Syntaktiska anteckningar för Google Böcker Ngram Corpus. Proceedingsof den 50: e årsmöte Association for Computational Linguisticsvolym 2: Demo papper (ACL ’12) (2012)

kan jag ladda ner dina data för att köra mina egna experiment?

Ja! Ngram-data är tillgängliga förladda ner här. För att göra filstorlekarna hanterbara har vi grupperat dem efter deras startbokstav och sedan grupperat de olika ngram-storlekarna i separata filer. Ngrams withineach-filen sorteras inte alfabetiskt.

för att generera maskinläsbara filnamn translitererade vi thengram för språk som använder icke-romerska skript (kinesiska, hebreiska,ryska) och använde startbokstaven för det translitererade ngram för attbestämma filnamnet. Samma tillvägagångssätt togs för karaktärersom t.ex. Observera att transliterationen varanvänds endast för att bestämma filnamnet; de faktiska ngrammen kodas inUTF-8 med det Språkspecifika alfabetet.

jag skulle vilja publicera en ngram-graf i min bok/tidning/blogg/presentation. Vilka är dina licensvillkor?