Google Ngram Viewer

Wat doet de Ngram Viewer?

wanneer u zinnen invoert in de Google Books Ngram Viewer, wordt een grafiek weergegeven die laat zien hoe deze zinnen in de geselecteerde jaren in een corpus van boeken (bijvoorbeeld”British English”, “English Fiction”, “French”) zijn voorgekomen. Laten we eens kijken naar een voorbeeld grafiek:

dit toont trends in drie ngrams van 1960 tot 2015: “nurseryschool” (een 2-gram of bigram), “kleuterschool”(een 1-gram of unigram), en “kinderopvang” (een anderbigram). Wat de y-as laat zien is dit: van alle bigrammen in onze steekproef van boeken geschreven in het Engels en gepubliceerd in de Verenigde Staten, welk percentage van hen zijn “kleuterschool” of “kinderopvang”?Van alle unigrams, welk percentage is “kleuterschool”?Hier kunt u zien dat het gebruik van de uitdrukking “kinderopvang” begon te stijgen in de late jaren 1960, inhalen “kleuterschool” rond 1970 en vervolgens”kleuterschool” rond 1973. Het bereikte een hoogtepunt kort na 1990 en is sindsdien gestaag gedaald.

(interessant is dat de resultaten merkbaar verschillen wanneer de Corpus wordt overgeschakeld op Brits Engels.)

u kunt met de muisaanwijzer over de lijn plot gaan voor een ngram, die het accentueert. Met een klik met de linkermuisknop op een lijn plot, kunt u zich richten op een bepaald ngram,greying out de andere ngrams in de grafiek, indien van toepassing. Op volgende links klikken op andere lijn plots in de grafiek, meerdere ngrams kunnen worden gericht op. U kunt dubbelklikken op een gebied van de grafiek om de ngrams in de query opnieuw te installeren.

u kunt ook jokertekens opgeven in queries, naar verbuigingen zoeken, hoofdletterongevoelige zoekopdrachten uitvoeren, bepaalde spraakdelen zoeken of ngrams toevoegen, aftrekken en delen.Meer over degenen onder Geavanceerd gebruik.

geavanceerd gebruik

enkele functies van de Ngram-Viewer kunnen gebruikers aanspreken die wat dieper willen graven in het gebruik van uitdrukkingen: jokertekens zoeken,flexie zoeken, hoofdletterongevoelige zoekopdrachten,tags voor part-of-speech en Ngram-composities.

jokertekens zoeken

wanneer u een * in plaats van een woord plaatst, zal de Ngram-Viewer de top tien substituties weergeven.Bijvoorbeeld, om de meest populaire woorden na “Universiteit van” te vinden, zoeken naar “Universiteit van *”.

u kunt met de rechtermuisknop op een van de vervangende ngrams klikken om ze allemaal samen te voegen in de originele jokertekens, met als resultaat de jaarwaarde van de vervangingen. Een volgende klik met de rechtermuisknop breidt de jokertekens terug naar alle vervangingen. Merk op dat de Ngram Viewer slechts één * per ngram ondersteunt.

merk op dat de top tien vervangingen worden berekend voor het opgegeven tijdsbereik. U kunt daarom verschillende vervangingen krijgen voor verschillende jaarreeksen. We hebben interpunctie symbolen uit de top tien lijst gefilterd, maar voor woorden die vaak beginnen of eindigen zinnen, kunt u een van de zin grens symbolen (_START_ of _END_) als een van de vervangingen zien.

verbuiging zoeken

een verbuiging is de wijziging van een woord om verschillende grammaticale categorieën weer te geven, zoals aspect, geval, geslacht, stemming, aantal, persoon, tijd en stem. U kunt ze zoeken door _INF aan een ngram toe te voegen. Bijvoorbeeld, het zoeken “book_INF a hotel” zal Resultaten weergeven voor “book”, “booked”, “books”, en “booking”:

Als u met de rechtermuisknop op een buiging klikt, worden alle vormen samengeteld. Merk op dat de Ngram Viewer slechts één _inf trefwoord per query ondersteunt.

Waarschuwing: U kunt zoekopdrachten met jokertekens, verbuigingen en hoofdletterongevoelige zoekopdrachten niet vrij combineren voor een bepaald ngram.Echter, u kunt zoeken met een van deze functies voor afzonderlijke ngrams in een zoekopdracht: “book_INF a hotel, book * hotel” is prima, maar “book_INF * hotel” is niet.

Hoofdletterongevoelige zoekopdracht

standaard voert de Ngram-Viewer hoofdlettergevoelige zoekopdrachten uit: hoofdletters zijn belangrijk. U kunt een hoofdletterongevoelige zoekopdracht uitvoeren door het selectievakje “hoofdletterongevoelig” rechts van het zoekvak te selecteren. De Ngram-Viewer toont dan de som van de meest voorkomende hoofdletterongevoelige variantenvan de invoerquery. Hier zijn twee hoofdletterongevoelige ngrams, ” Fitzgerald “en”Dupont”:

met de rechtermuisknop klikken op een jaarwise Som resulteert in een uitbreiding naar de meest voorkomende hoofdletterongevoelige varianten. Bijvoorbeeld, een klik met de rechtermuisknop op “Dupont (All)” resulteert in de volgende vier varianten: “DuPont”, “Dupont”, “duPont” en “DUPONT”.

Part-of-speech Tags

beschouw het woord tackle, dat een werkwoord (“tackle theproblem”) of een zelfstandig naamwoord (“fishing tackle”) kan zijn. U kunt deze verschillende vormen onderscheiden door _VERBor _NOUN toe te voegen:

de volledige lijst van tags is als volgt:

_NOUN_ Deze tags kunnen zowel stand-alone (_PRON_)
of kan worden toegevoegd aan een word – (she_PRON)
_VERB_
_ADJ_ bijvoeglijk naamwoord
_ADV_ bijwoord
_PRON_ voornaamwoord
_DET_ bepalend of artikel
_ADP_ een adposition: een voorzetsel of een achterzetsel
_NUM_ cijfer
_CONJ_ samen
_PRT_ deeltje
_ROOT_ root van de parse tree Deze tags alleen moeten staan (bijv., _START_)
_START_ begin van een zin
_END_ einde van een zin

Sinds de part-of-speech tags hoeft zich niet te hechten aan bepaalde woorden,u kunt gebruik maken van de DET-tag te zoeken voor het lezen van een boek,lees het boek, dat boek lezen, lees dit boek,en dus als volgt:

Als je wilde weten wat de meest gebruikte determiners in deze context zijn, zou je kunnen combineren wildcards en part-of-speech tags te lezen *_DET boek:

om alle verschillende verbuigingen van het woordboek te krijgen die zijn gevolgd door een zelfstandig naamwoord in het corpus, kunt u de query book_INF _NOUN_:

de meest voorkomende part-of-speech tags voor een woord kunnen worden opgehaald met de jokerfunctie. Denk aan de query cook_*:

het flexie sleutelwoord kan ook worden gecombineerd met part-of-speech tags. Denk bijvoorbeeld aan de query cook_INF, cook_VERB_INF hieronder, die de verbuigingen van de verbale zin van “cook”scheidt:

de Ngram Viewer tags zin grenzen, zodat u kunt identificeren ngrams aan het begin en het einde van zinnen met de START en einde tags:

soms helpt het om te denken over woorden in termen van afhankelijkheden in plaats van patronen. Laten we zeggen dat je wilt weten hoevaak smakelijke modificeert dessert. Dat wil zeggen, je wilt volledig vermeldingen van smakelijke bevroren dessert, knapperig, smaakvolessert, lekker maar duur dessert, en alle andere omstandighedenwaarin het woord smakelijk wordt toegepast op dessert.Hiervoor biedt de Ngram-Viewer afhankelijkheidsrelaties met de = > – operator:

elke ingelezen zin heeft een _WORT_. In tegenstelling tot othertags staat _ROOT_ niet voor een bepaald woord of positie in de zin. Het is de wortel van de parse tree geconstrueerd door de syntaxis te analyseren; je kunt het zien als een plaatshouder voor wat het hoofdwerkwoord van de zin wijzigt. Dus hier is hoe je identificeert hoe vaak will het hoofdwerkwoord van een zin was:

de bovenstaande grafiek zou de zin bevatten die Larry zal beslissen. maar Larry zei niet dat hij zou beslissen, aangezien will niet het hoofdwerkwoord van die zin is.

afhankelijkheden kunnen worden gecombineerd met jokertekens. Neem bijvoorbeeld de query drink=>*_NOUN hieronder:

” Pure ” part-of-speech tags kunnen vrij worden gemengd met reguliere woordenin 1-, 2-, 3-, 4-, en 5 gram (bijvoorbeeld de _adj_ toast of _DET__ADJ_ toast).

Ngram-composities

de Ngram-Viewer biedt vijf operatoren die u kunt gebruiken om combinengrammen te combineren:+, -,/, * en :.

+ somt de expressies op Aan beide kanten, zodat u meerdere Ngram-tijdreeksen kunt combineren tot één.
trekt de expressie aan de rechterkant af van de expressie aan de linkerkant, waardoor je een manier hebt om het ene ngram ten opzichte van het andere te meten. Omdat gebruikers vaak willen zoeken naar afgebroken zinnen, plaatsen spaties aan weerszijden van het-teken.
/ verdeelt de uitdrukking links door de uitdrukking rechts, wat nuttig is voor het isoleren van het gedrag van een ngram ten opzichte van een ander.
* vermenigvuldigt de expressie aan de linkerkant met het getal aan de rechterkant, waardoor het gemakkelijker is om ngrams van zeer verschillende frequenties te vergelijken. (Zorg ervoor dat het hele ngram tussen haakjes staat, zodat * niet wordt geïnterpreteerd als een jokerteken.)
: past het Ngram aan de linkerkant toe op het corpus aan de rechterkant, zodat u ngrams kunt vergelijken tussen verschillende corpora.

de Ngram Viewer zal proberen te raden of deze gedragsregels moeten worden toegepast. U kunt haakjes gebruiken om ze te forceren, en squarebrackets om ze af te dwingen. Voorbeeld: en/of zal divide en door or; om het gebruik van de zin te meten en / of, gebruik .En well-meaning zal zoeken naar thephrase well – meaning; als je Betekenis van well wilt aftrekken,gebruik dan (well-meaning).

om de + – operator aan te tonen, kunt u als volgt de som van spel, sport en spel vinden:

bij het bepalen of mensen meer over keuzes hebben geschreven in de loop van de jaren, kunt u keuze, selectie,optie en alternatief combineren, waarbij u de zelfstandig naamwoordsvormen specificeert om de bijvoeglijke naamwoorden te vermijden (bijv. keuzedelativiteit, alternatieve muziek):

Ngram aftrekken geeft u een gemakkelijke manier te vergelijken met een set van ngrams naar de andere:

Hier is hoe je het zou kunnen combineren + en / om te laten zien hoe het woord appelmoes is uitgegroeid ten koste van apple saus:

De * operator is handig wanneer u wilt vergelijken ngrams van uiteenlopende frequenties, zoals de viool en de meer esoterische theremin:

De :corpus selectie-operator kun je vergelijken ngrams onverschillig talen of Amerikaanse versus Brits engels (fictie),of tussen het 2009, 2012 en 2019 versies van onze boek-scans.Hier is chat in het Engels versus hetzelfde unigram in het Frans:

toen we de originele Ngram Viewer corpora genereerden in 2009, was ourOCR niet zo goed als nu. Dit was vooral duidelijk in het pre-19e-eeuwse Engels, waar de langgerekte mediale-s (ſ) vaak werd geïnterpreteerd als een f, dus het beste werd vaak gelezen als beft. Hier is het bewijs van de verbeteringen die we hebben gemaakt sincethen, met behulp van de Corpus operator om de 2009, 2012 en 2019 versies te vergelijken:

door fictie met heel het Engels te vergelijken, kunnen we zien dat gebruik van de wizard in het algemeen in het Engels Recentelijk is toegenomen in vergelijking met gebruik in fictie:

Corpora

hieronder zijn beschrijvingen van de corpora die kunnen worden doorzocht met de Google Books Ngram Viewer. Alle corpora werden gegenereerd in juli 2009, juli 2012 en februari 2020; we zullen deze corpora updaten naarmate onze boekenscanning verder gaat, en de bijgewerkte versies zullen verschillende persistentidentifiers hebben. Boeken met een lage OCR-kwaliteit en series werden uitgesloten.

informele corpus naam Steno Persistent identifier beschrijving
American English 2019 eng_us_2019 googlebooks-eng-us-20200217 boeken voornamelijk in het Engels die in de Verenigde Staten werden gepubliceerd.
Amerikaans engels 2012 eng_us_2012 dwaasheid-dut-ons-allen-20120701
Amerikaans engels 2009 eng_us_2009 dwaasheid-dut-ons-allen-20090715
Het brits-engels 2019 eng_gb_2019 dwaasheid-dut-nl-20200217 Boeken voornamelijk in de engelse taal, die werden gepubliceerd in Groot-Brittannië.
Brits-engels, 2012 eng_gb_2012 dwaasheid-dut-nl-alle-20120701
het Brits-engels 2009 eng_gb_2009 dwaasheid-dut-nl-alle-20090715
Engels 2019 eng_2019 dwaasheid-dut-20200217 Boeken voornamelijk in de engelse taal gepubliceerd in elk land.
engelse 2012 eng_2012 dwaasheid-dut-alle-20120701
engels 2009 eng_2009 dwaasheid-dut-alle-20090715
Engels Fictie 2019 eng_fiction_2019 dwaasheid-dut-fictie-20200217 Boeken voornamelijk in de engelse taal, die een bibliotheek of uitgever geïdentificeerd als fictie.
engels Fictie 2012 eng_fiction_2012 dwaasheid-dut-fictie-alle-20120701
engels Fictie 2009 eng_fiction_2009 dwaasheid-dut-fictie-alle-20090715
Engelse Één Miljoen eng_1m_2009 dwaasheid-dut-1M-20090715 De “Google Miljoen”. Alle zijn in het Engels met data variërend van 1500 tot 2008. Uit geen enkel jaar werden meer dan ongeveer 6000 boeken gekozen, wat betekent dat alle gescande boeken uit de beginjaren aanwezig zijn en dat boeken uit latere jaren willekeurig worden bemonsterd. De willekeurige steekproeven geven de verdeling van het onderwerp voor het jaar weer (er zijn dus meer computerboeken in 2000 dan in 1980).
Chinees 2019 chi_sim_2019 googlebooks-chi-sim-20200217 boeken voornamelijk in Vereenvoudigd Chinees schrift.
Chinese 2012 chi_sim_2012 dwaasheid-chi-sim-alle-20120701
Chinese 2009 chi_sim_2009 dwaasheid-chi-sim-alle-20090715
Frans 2019 fre_2019 dwaasheid-fre-20200217 Boeken voornamelijk in de franse taal.
franse 2012 fre_2012 dwaasheid-fre-alle-20120701
franse 2009 fre_2009 dwaasheid-fre-alle-20090715
Duitse 2019 ger_2019 dwaasheid-ger-20200217 Boeken voornamelijk in de duitse taal.
duitse 2012 ger_2012 dwaasheid-ger-alle-20120701
duits 2009 ger_2009 dwaasheid-ger-alle-20090715
Hebreeuws 2019 heb_2019 dwaasheid-heb-20200217 Boeken overheerst in de hebreeuwse taal.
hebreeuws 2012 heb_2012 dwaasheid-heb-alle-20120701
hebreeuws 2009 heb_2009 dwaasheid-heb-alle-20090715
Spaanse 2019 spa_2019 dwaasheid-spa-20200217 Boeken voornamelijk in de spaanse taal.
spaanse 2012 spa_2012 dwaasheid-spa-all-20120701
spaanse 2009 spa_2009 dwaasheid-spa-all-20090715
Russische 2019 rus_2019 dwaasheid-rus-20200217 Boeken voornamelijk in de russische taal.
russische 2012 rus_2012 dwaasheid-rus-alle-20120701
russische 2009 rus_2009 dwaasheid-rus-alle-20090715
Italiaanse 2019 ita_2019 dwaasheid-ita-20200217 Boeken voornamelijk in de italiaanse taal.
Italiaans 2012 ita_2012 googlebooks-ita-all-20120701

in vergelijking met de versies van 2009 hebben de versies van 2012 en 2019 meer boeken, verbeterde OCR, verbeterde bibliotheek en uitgeversmetadata. De versies van 2012 en 2019 vormen ook geen ngrams die sentenceboundaries overschrijden, en vormen ngrams over paginagrenzen heen, in tegenstelling tot de versies van2009.

met de corpora van 2012 en 2019 is de tokenisatie ook verbeterd, met behulp van een reeks handmatig ontwikkelde regels (behalve voor Chinees, waar een statistisch systeem wordt gebruikt voor segmentatie). In de 2009 corpora,tokenization was gewoon gebaseerd op witruimte.

zoeken in Google Books

onder de grafiek tonen we” interessante ” jaarreeksen voor uw zoektermen. Als u hierop klikt, stuurt u uw zoekopdracht rechtstreeks naar GoogleBooks. Merk op dat de Ngram Viewer hoofdlettergevoelig is, maar de resultaten van Google Bookssearch zijn dat niet.

deze zoekopdrachten zullen zinnen opleveren in de taal waarvan u de Corpus hebt geselecteerd, maar de resultaten worden geretourneerd uit het volledige GoogleBooks corpus. Dus als je de Ngram-Viewer gebruikt om te zoeken naar een Franse zin in het Franse corpus en vervolgens doorklikt naar Google Books,dan zal die zoekopdracht naar dezelfde Franse zin zijn — die in een boek kan voorkomen, voornamelijk in een andere taal.

FAQs

Waarom zie ik niet de resultaten die ik verwacht?

wellicht om een van deze redenen:

  • de Ngram Viewer is hoofdlettergevoelig. Probeer uw zoekopdracht met hoofdletters te maken of vink het vakje “hoofdlettergevoelig”rechts van het zoekvak aan.
  • u zoekt in een onverwacht corpus. Bijvoorbeeld, Frankenstein verschijnt niet in Russische boeken, dus als je zoekt in het Russische corpus zie je een vlakke lijn. U kunt het corpus kiezen via het dropdown menu onder het zoekveld, of via de Corpus selectie operator, bijvoorbeeld Frankenstein: eng_2019.
  • uw zin heeft een komma, plusteken, koppelteken, sterretje,dubbele punt of schuine streep erin. Deze hebben speciale betekenissen voor de NgramViewer; zie geavanceerd gebruik. Probeer de zin tussen vierkante haakjes om te sluiten (hoewel dit niet zal helpen met komma ‘ s).

hoe gaat de Ngram Viewer om met interpunctie?

wij passen een reeks tokenisatieregels toe die specifiek zijn voor de specifieke taal. In het Engels worden weeën twee woorden (ze worden de bigram die ze zijn, we worden we ‘ll, enzovoort). De bezittelijke ’s worden ook afgesplitst, maar R’ n ‘ B blijft één token. Negaties (niet) zijn geformaliseerd zodat niet wordt niet. In het Russisch wordt de diakritische aldaar genormaliseerd tot e, enzovoort. Dezelfde regels worden toegepast om zowel de ngrams getypt door gebruikers en de ngramsextracted van de corpora te ontleden, wat betekent dat als je zoekt naar niet, wees niet gealarmeerd door het feit dat de Ngram Viewer Het schrijft om niet te doen; het is accuraat weergeven van gebruik van beide niet en niet in het corpus. Dit betekent echter dat er geen manier is om expliciet te zoeken naar de specifieke vormen die niet kunnen (of niet kunnen): je krijgt can ‘ t en kan niet en kan niet allemaal tegelijk.

Hoe kan ik voorbeeldgebruik in context zien?

onder de Ngram Viewer grafiek, bieden we een tabel van vooraf bepaalde Google Boeken zoekopdrachten, elk verkleind tot een bereik van jaren. We kiezen de bereiken op basis van interesses: als een ngram een enorme piek heeft in een bepaald jaar, zal dat op zichzelf verschijnen als een zoekopdracht, metandere zoekopdrachten die langere looptijden bestrijken.

in tegenstelling tot het 2019 Ngram Viewer corpus, is het Google Books corpus niet spraakgetagd. Men kan niet zoeken naar, Laten we zeggen, de werkwoordsvorm van juichen in Google Books. Dus elke ngrams met een deel-van-speechtags (bijv., cheer_VERB) zijn uitgesloten van de tabel van GoogleBooks zoekopdrachten.

de Ngram Viewer heeft 2009, 2012 en 2019 corpora, maar Google Books werkt niet op die manier. Wanneer u op zoek bent in Google Books, je zoekt alle momenteel beschikbare boeken, dus er kunnen een aantal verschillen tussen wat je ziet in Google Books en wat je zou verwachten te zien gegeven de Ngram Viewer grafiek.

Waarom zie ik meer spikes en plateaus in vroege jaren?

publiceren was een relatief zeldzame gebeurtenis in de 16e en 17e eeuw. (Er zijn slechts ongeveer 500.000 boeken gepubliceerd in het Engels voor de 19e eeuw.) Dus als een zin voorkomt in een boek in een jaar, maar niet in de voorgaande of volgende jaren, dat creëert ataller spike dan het zou in latere jaren.

Plateaus zijn meestal gewoon gladgestreken spikes. Verander de smoothing naar 0.

wat betekent “gladmaken”?

vaak worden trends duidelijker wanneer gegevens worden gezien als een bewegend gemiddelde. Een afvlakking van 1 betekent dat de getoonde gegevens voor 1950 gemiddeld zullen zijn van de ruwe telling voor 1950 plus 1 waarde aan weerszijden:(“tellen voor 1949” + “tellen voor 1950” + “tellen voor 1951”), gedeeld door3. Dus een afvlakking van 10 betekent dat 21 waarden worden gemiddeld: 10 aan één kant, plus de doelwaarde in het midden van hen.

aan de linker – en rechterrand van de grafiek worden minder waarden gemeten. Met een afvlakking van 3 wordt de meest linkse waarde (pretendit is het jaar 1950) berekend als (“count for 1950” + “count for 1951” + “count for 1952” + “count for 1953”), gedeeld door 4.

een afvlakking van 0 betekent helemaal geen afvlakking: alleen ruwe gegevens.

in de moderne tijd worden nog veel meer boeken gepubliceerd. Vertekent dit de resultaten niet?

het zou wel zo zijn als we niet zouden normaliseren naar het aantal boeken dat in elk jaar is gepubliceerd.

Waarom toont u een 0% flatline als ik weet dat de zin in myquery in ten minste één boek is voorgekomen?

bij zware belasting zal de Ngram-Viewer soms aflatline retourneren; herladen om te bevestigen dat er eigenlijk geen hits zijn voor dephrase. Ook beschouwen we alleen ngrams die voorkomen in ten minste 40books. Anders zou de dataset ballon in grootte en we zouden niet beable om ze allemaal te bieden.

hoe nauwkeurig is het labelen van delen van spraak?

de part-of-speech tags en afhankelijkheidsrelaties worden automatisch voorspeld. Het beoordelen van de nauwkeurigheid van deze voorspellingen is moeilijk, maar voor het moderne Engels verwachten we dat de nauwkeurigheid van de spraaktags rond 95% en de nauwkeurigheid van afhankelijkheids relaties rond 85% zal zijn. Op oudere Engelse tekst en voor andere talen is de nauwkeurigheid lager, maar waarschijnlijk meer dan 90% voor part-of-speech tags en meer dan 75% voor afhankelijkheden. Dit houdt een aanzienlijk aantal fouten in, waarmee bij het opstellen van conclusies rekening moet worden gehouden.

de part-of-speech tags zijn opgebouwd uit een kleine trainingsset (slechts een miljoen woorden voor het Engels). Dit zal somsonderstaan voor ongewoon gebruik, zoals groen of dog of boek als werkwoorden, of vragen als zelfstandig naamwoord.

een aanvullende opmerking over Chinees: voor de 20ste eeuw werd klassiek Chinees traditioneel gebruikt voor alle schriftelijke communicatie. Klassiek Chinees is gebaseerd op de grammatica en het vocabularium van het oude Chinees, en de syntactische annotaties zullen daarom vaker fout zijn dan dat ze gelijk hebben.

merk ook op dat de 2009 corpora geen deel uitmaken van een toespraak.

ik schrijf een paper op basis van uw resultaten. Hoe kan ik je werk citeren?

als u deze gegevens gaat gebruiken voor een academische publicatie, citeer dan het originele artikel:

Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, the Google Books Team, Joseph P. Pickett, Dale Hoiberg, dan Clancy, Peter Norvig,Jon Orwant, Steven Pinker, Martin A. Nowak, en Erez Lieberman Aiden*.Kwantitatieve analyse van cultuur met behulp van miljoenen gedigitaliseerde boeken. Science (gepubliceerd online voorafgaand aan de gedrukte versie: 12/16/2010)

we hebben ook een paper over onze deel-van-spraak tagging:

Yuri Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant,William Brockman, Slav Petrov.Syntactische annotaties voor de Google Books Ngram Corpus. Verloop van de 50e jaarvergadering van de Vereniging voor computationele taalkunde Volume 2: Demo Papers (ACL ’12) (2012)

kan ik uw gegevens downloaden om mijn eigen experimenten uit te voeren?

Ja! De Ngram data is hier beschikbaar voor downloaden. Om de bestandsgroottes beheersbaar te maken, hebben we ze gegroepeerd op basis van hun startletter en de verschillende ngram-groottes in aparte bestanden gegroepeerd. De ngrams met elk bestand zijn niet alfabetisch gesorteerd.

om machineleesbare bestandsnamen te genereren, translitereerden we thengrams voor talen die niet-romeinse scripts gebruiken (Chinees, Hebreeuws,Russisch) en gebruikten we de startletter van het getranslitereerde ngram om de bestandsnaam te bepalen. Hetzelfde geldt voor karakteristieken als in het Duits. Merk op dat de transliteratie alleen werd gebruikt om de bestandsnaam te bepalen; de werkelijke ngrams worden gecodeerd inUTF-8 met behulp van het taalspecifieke alfabet.

Ik wil graag een Ngram-grafiek publiceren in mijn boek/tijdschrift/blog/presentatie. Wat zijn uw licentievoorwaarden?