Google Ngram Viewer
co dělá prohlížeč Ngram?
když zadáte fráze do prohlížeče Google Books Ngram, zobrazí se graf ukazující, jak se tyto fráze vyskytly v korpusu knih (např. Pojďme se podívat na vzorek graf:
To ukazuje trendy ve tři ngrams od roku 1960 do roku 2015: „nurseryschool“ (2-gram nebo bigram), „mateřská škola“(1 gram nebo unigram), a „péče o dítě“ (anotherbigram). To, co osa y ukazuje, je toto: všechny bigrams obsažených naše ukázka z knihy psané v angličtině a publikoval v spojené státy, jaké procento z nich jsou „mateřská škola“ nebo „péče o dítě“?Ze všech unigramů, jaké procento z nich je „mateřská škola“?Zde můžete vidět, že použití výrazu „péče o dítě“ začal risein pozdní 1960, předjíždění „mateřské školy“, kolem roku 1970 a pak“mateřské školy“, kolem roku 1973. Vyvrcholila krátce po roce 1990 a od té doby se neustále mění.
(zajímavé je, že výsledky jsou znatelně odlišné, když je corpus přepnut na britskou angličtinu.)
můžete umístit kurzor myši na řádek pro ngram, který jej zvýrazní. Kliknutím levým tlačítkem myši na čárový graf se můžete zaměřit na konkrétní ngram,šedivění ostatních ngramů v grafu, pokud existuje. Na následujících leftclicks na jiných liniových grafů v grafu, více ngramy canbe zaměřena na. Můžete dvakrát kliknout na libovolnou oblast grafu a znovu nainstalovatvšechny ngramy v dotazu.
můžete také zadat zástupné znaky v dotazech, hledat skloňování,provádět malá a velká písmena, hledat konkrétní části řeči nebo sčítat, odečítat a dělit ngramy.Více o těch, kteří jsou v pokročilém použití.
Pokročilé Použití
několik funkcí ngrame Vieweru, může apelovat na uživatele, kteří chtějí kopat trochu hlouběji do fráze použití: hledání pomocí zástupných znaků,skloňování vyhledávání, malá a velká písmena vyhledávání,part-of-speech štítky a ngram skladby.
vyhledávání zástupných znaků
když místo slova vložíte*, prohlížeč Ngram zobrazí prvních deset substitucí.Chcete-li například najít nejoblíbenější slova následující po „University of“, vyhledejte „University of *“.
můžete kliknout pravým tlačítkem myši na některý z náhradních ngrams kolaps je všechny do původní zástupný dotaz, s tím výsledkem, že yearwise součet náhrady. Následné kliknutí pravým tlačítkem rozšíří zástupný dotaz zpět na všechny náhrady. Všimněte si, že prohlížeč Ngram podporuje pouze jeden * na ngram.
Všimněte si, že prvních deset náhrad se počítá pro zadaný časový rozsah. Můžete proto získat různé náhrady za různé roční rozsahy. Jsme filtrované interpunkční symboly ze seznamu deseti, ale pro slova, která často začátku nebo na konci věty, můžete vidět jeden z věty symboly hranice (_START_ nebo _END_) jako jeden z náhradníků.
Skloňování vyhledávání
inflexní je změna slova představují různé gramatické kategorie jako aspekt, případ, pohlaví, nálada, číslo, osoba, čas a hlas. Můžete je vyhledat připojením _INF k ngramu. Například vyhledávání „book_INF hotel“ zobrazí výsledky pro „book“, „booked“, „books“ a“booking“:
kliknutím pravým tlačítkem myši jakékoliv skloňování zhroutí všechny formy do jejich součtu. Všimněte si, že prohlížeč Ngram podporuje pouze jedno klíčové slovo _INF na dotaz.
varování: nelze volně kombinovat zástupné vyhledávání, skloňování a velká a malá písmena necitlivé vyhledávání pro jeden konkrétní ngram.Nicméně, můžete vyhledávat buď z těchto funkcí pro jednotlivé ngrams v dotazu: „book_INF hotel, knihy * hotel“ je v pořádku, ale „book_INF * hotel“ není.
malá a velká písmena vyhledávání
ve výchozím nastavení, Ngram Viewer provádí case-sensitive hledání: kapitalizace věcech. Vyhledávání necitlivá na velká a malá písmena můžete provést zaškrtnutím políčka „necitlivá na velká písmena“ napravo od pole dotazu. Prohlížeč Ngram pak zobrazí roční součet nejběžnějších variantů necitlivých na malá a velká písmena vstupního dotazu. Zde jsou dvě velká a malá písmena ngrams, „Fitzgerald“ a „Dupont“:
Pravým tlačítkem myši jakékoli yearwise součet výsledků v expanzi na nejčastější případ-necitlivý variant. Například kliknutí pravým tlačítkem na „Dupont (vše)“ má za následek následující čtyři varianty: „DuPont“, „Dupont“, „duPont“ a „DUPONT“.
části řeči značky
zvažte slovo řešit, což může být sloveso („řešit problém“) nebo podstatné jméno („rybářské náčiní“). Můžete rozlišovat mezi těmito různými formami připojením _VERBor _NOUN:
kompletní seznam tagů je následující:
_NOUN_ | Tyto značky mohou stát buď samostatně (_PRON_) nebo může být připojen na slovo (she_PRON) |
|
_VERB_ | ||
_ADJ_ | přídavné jméno | |
_ADV_ | příslovce | |
_PRON_ | zájmeno | |
_DET_ | determinant nebo čl. | |
_ADP_ | adposition: buď předložka nebo postposition | |
_NUM_ | číslice | |
_CONJ_ | spojení | |
_PRT_ | částice | |
_ROOT_ | kořen derivační strom | Tyto tagy se musí postavit sám (např., _START_) |
_START_ | začátku věty | |
_END_ | konec věty |
Od part-of-speech tags nemusí připojit na konkrétní slova,můžete použít DET tag hledat přečtěte si knihu,přečtěte si knihu, přečtěte si tu knihu, přečtěte si tuto knihu,a tak dále takto:
Pokud byste chtěli vědět, co je nejčastější determinanty v této souvislosti jsou, můžete kombinovat zástupné znaky a part-of-speech tags číst *_DET kniha:
všechny různé skloňování slova knihy, které byly dodržovány bya podstatné JMÉNO v korpusu můžete vydat na dotaz book_INF _NOUN_:
nejčastější part-of-speech štítky pro slova mohou být vyvolány zástupné funkce. Zvažte dotaz cook_*:
Klíčové slovo inflexe lze také kombinovat se značkami části řeči. Zvažte například dotaz cook_INF, cook_VERB_INF níže, který odděluje skloňování slovního smyslu „cook“:
Ngram Viewer kategorie větu hranice, což vám umožní identifikovat ngrams na začíná a končí vět s počáteční a KONCOVÉ tagy:
Někdy pomáhá přemýšlet o slova, pokud jde o dependenciesrather než vzory. Řekněme, že chcete vědět, jakčasto chutné modifikuje dezert. To znamená, že chcete úplně zmínky o chutné zmrazené dezert, křupavé, tastydessert, chutné, ale drahé dezert, a všechny otherinstances, ve kterém slovo chutné je aplikován na dezert.Za tímto účelem prohlížeč Ngram poskytuje vztahy závislostí s operátorem = > :
každá analyzovaná věta má _ROOT_. Na rozdíl od jiných značek, _ROOT_ neznamená konkrétní slovo nebo pozici ve větě. Je to kořen stromu parse vytvořeného analýzou syntaxe; můžete si to představit jako zástupný symbol pro to, co je hlavní sloveso věty modifikující. Takže zde je návod, jak identifikovatjak často bude hlavní sloveso věty:
výše uvedený graf by obsahoval větu Larry willdecide. ale ne Larry řekl, že se rozhodne, protože will není hlavní sloveso této věty.
závislosti lze kombinovat s zástupnými znaky. Zvažte například dotaz pít=>*_NOUN níže:
„Čisté“ part-of-speech tags může být smíchán s volně pravidelné wordsin 1-, 2-, 3-, 4-, a 5-gramů (např. _ADJ_ toast nebo _DET__ADJ_ toast).
Ngram Skladby
Ngram Viewer poskytuje pět operátorů, které můžete použít k combinengrams: +, -, /, *,:.
+ | shrnuje výrazy na obou stranách, což vám umožní kombinovat více časových řad ngram do jedné. |
– | odečte výraz vpravo od výrazu vlevo, což vám dává způsob, jak měřit jeden ngram vzhledem k druhému. Protože uživatelé často chtějí hledat spojovníky, vložte mezery na obě strany znaménka . |
/ | Dělení výrazu vlevo výrazem vpravo, což je užitečné pro určení příčiny chování ngram s ohledem na další. |
* | vynásobí výraz vlevo číslem vpravo, což usnadňuje porovnání ngramů velmi odlišných frekvencí. (Ujistěte se, že celý ngram uzavřete v závorkách, aby * nebyl interpretován jako zástupný znak.) |
: | použije ngram vlevo na korpus vpravo, což vám umožní porovnat ngramy napříč různými korpusy. |
prohlížeč Ngram se pokusí odhadnout, zda je použítchování. Můžete použít závorky, abyste je donutili, a čtverečeknáramky je vynutit. Příklad: a / nebo willdivideem a nebo; měřit použití thephrase a / nebo, použití .A well-meaning bude hledat thefrase well-meaning; pokud chcete odečíst význam od well, použijte (well-meaning).
prokázat operátor+, tady je, jak byste mohli najít součet hry, sport, a hrát si:
Při určování, zda lidé psali více o volbách v průběhu nadcházejících, couldcompare výběr, výběru, volba,a alternativní, určující jméno formuláře, aby se zabránilo theadjective formy (např. výběr pochoutka, alternativemusic):
Ngram odčítání vám dává snadný způsob, jak porovnat jednu sadu ngrams na další:
Zde je, jak byste mohli kombinovat + a / ukázat, jak slovo jablečnou rozkvetl na úkor apple omáčka:
operátor * je užitečné, když chcete porovnat ngrams široce různou frekvencí, jako housle a další esoterické theremin:
: corpus výběr operátora umožňuje porovnat ngrams lhostejný jazyků, nebo Americká versus Britská angličtina (nebo fikce),nebo mezi 2009, 2012 a 2019 verze naší knihy skenuje.Tady je chat v angličtině oproti stejnému unigram ve francouzštině:
Když jsme vytvořili původní Ngram Viewer korpusy v roce 2009, ourOCR nebyl tak dobrý jako je dnes. To bylo zvláště zřejmé v angličtině před 19. stoletím, kde protáhlý mediální-s (ſ) byl často interpretován jako f, takže nejlepší byl často čten jako beft. Zde jsou důkazy o vylepšeních, která jsme od té doby provedli, pomocí operátora korpusu pro porovnání verzí 2009, 2012 a 2019:
porovnáním fikce proti všem anglicky, můžeme vidět, že usesof průvodce v obecné angličtině byly získávají recentlycompared se používá v beletrii:
Korpusy
Níže jsou uvedeny popisy korpusy, které mohou být vyhledávány s theGoogle Books Ngram Viewer. Všechny korpusy byly vygenerovány v červenci 2009, červenci 2012 a únoru 2020; tyto korpusy budeme aktualizovat, jak bude naše bookscanning pokračovat, a aktualizované verze budou mít zřetelné persistentidentifiers. Knihy s nízkou kvalitou OCR a seriály byly vyloučeny.
Neformální corpus jméno | Zkratka | trvalý identifikátor | Popis |
Americká angličtina 2019 | eng_us_2019 | googlebooks-eng-us-20200217 | Knih převážně v anglickém jazyce, které byly publikovány ve Spojených Státech. |
Americká angličtina 2012 | eng_us_2012 | googlebooks-eng-us-všechny-20120701 | |
Americká angličtina 2009 | eng_us_2009 | googlebooks-eng-us-všechny-20090715 | |
Britská angličtina 2019 | eng_gb_2019 | googlebooks-eng-gb-20200217 | Knih převážně v anglickém jazyce, které byly publikovány ve Velké Británii. |
Britské angličtině 2012 | eng_gb_2012 | googlebooks-eng-gb-všechny-20120701 | |
Britská angličtina 2009 | eng_gb_2009 | googlebooks-eng-gb-všechny-20090715 | |
Angličtina 2019 | eng_2019 | googlebooks-eng-20200217 | Knih převážně v anglickém jazyce zveřejněny v kterékoliv zemi. |
anglický 2012 | eng_2012 | googlebooks-eng-všechny-20120701 | |
angličtina 2009 | eng_2009 | googlebooks-eng-všechny-20090715 | |
Anglické Beletrie 2019 | eng_fiction_2019 | googlebooks-eng-sci-20200217 | Knih převážně v anglickém jazyce, které knihovna nebo vydavatele identifikován jako fikce. |
anglické Beletrie 2012 | eng_fiction_2012 | googlebooks-eng-sci-všechny-20120701 | |
anglické Beletrie 2009 | eng_fiction_2009 | googlebooks-eng-sci-všechny-20090715 | |
Angličtina Jeden Milion | eng_1m_2009 | googlebooks-eng-1M-20090715 | „Google Milionů“. Všechny jsou v angličtině s daty od1500 do 2008. Ne více než o 6000 knihy byly vybrány z jakéhokoliv jednoho roku, což znamená, že všechny naskenované knihy z počátku let arepresent, a knihy z pozdějších let jsou náhodně zařazených do vzorku. Náhodné vzorky odrážejí rozdělení předmětu za rok (takže existuje více počítačových knih v roce 2000 než 1980). |
Čínské 2019 | chi_sim_2019 | googlebooks-chi-sim-20200217 | Knihy převážně ve zjednodušené Čínštině scénář. |
Čínské 2012 | chi_sim_2012 | googlebooks-chi-sim-všechny-20120701 | |
Čínské 2009 | chi_sim_2009 | googlebooks-chi-sim-všechny-20090715 | |
Francouzský 2019 | fre_2019 | googlebooks-fre-20200217 | Knihy převážně ve francouzském jazyce. |
francouzský 2012 | fre_2012 | googlebooks-fre-všechny-20120701 | |
francouzský 2009 | fre_2009 | googlebooks-fre-všechny-20090715 | |
Německý 2019 | ger_2019 | googlebooks-ger-20200217 | Knihy převážně v německém jazyce. |
německý 2012 | ger_2012 | googlebooks-ger-všechny-20120701 | |
německé 2009 | ger_2009 | googlebooks-ger-všechny-20090715 | |
Hebrejské 2019 | heb_2019 | googlebooks-heb-20200217 | převažovaly Knihy v hebrejštině. |
hebrejské 2012 | heb_2012 | googlebooks-heb-všechny-20120701 | |
hebrejské 2009 | heb_2009 | googlebooks-heb-všechny-20090715 | |
Španělské 2019 | spa_2019 | googlebooks-spa-20200217 | Knihy převážně ve španělském jazyce. |
španělské 2012 | spa_2012 | googlebooks-spa-all-20120701 | |
španělské 2009 | spa_2009 | googlebooks-spa-all-20090715 | |
Ruské 2019 | rus_2019 | googlebooks-rus-20200217 | Knihy převážně v ruském jazyce. |
ruský 2012 | rus_2012 | googlebooks-rus-všechny-20120701 | |
ruské 2009 | rus_2009 | googlebooks-rus-všechny-20090715 | |
Italské 2019 | ita_2019 | googlebooks-ita-20200217 | Knihy převážně v italském jazyce. |
italské 2012 | ita_2012 | googlebooks-ita-všechny-20120701 |
ve Srovnání s rokem 2009 verze z roku 2012 a 2019 verze havemore knihy, vylepšené OCR, lepší knihovny a publishermetadata. Verze 2012 a 2019 také netvoří ngramy, které překračují hranice sentenceboundaries, a vytvářejí ngramy přes hranice stránek, na rozdíl od verzí 2009u.
s korpusy z let 2012 a 2019 se tokenizace zlepšila také pomocí sady ručně navržených pravidel (s výjimkou čínštiny, kde se pro segmentaci používá astatistický systém). V korpusech 2009 byla tokenizace založena jednoduše na prázdném prostoru.
vyhledávání v Knihách Google
pod grafem zobrazujeme“ zajímavé “ roční období pro vaše dotazy. Kliknutím na ně odešlete svůj dotaz přímo do GoogleBooks. Všimněte si, že prohlížeč Ngram rozlišuje velká a malá písmena, ale výsledky vyhledávání Google Bookssearch nejsou.
Tato vyhledávání přinesou fráze v jazyce, který jste vybrali, ale výsledky jsou vráceny z celého korpusu GoogleBooks. Takže pokud používáte Ngram Viewer vyhledávání pro Frenchphrase ve francouzském korpusu a potom klepněte na tlačítko prostřednictvím Google Books,které budou hledat stejné francouzský výraz -, které by mohly nastat ina knihy převážně v jiném jazyce.
Časté dotazy
Proč nevidím výsledky, které očekávám?
možná z jednoho z těchto důvodů:
- prohlížeč Ngram je citlivý na velká a malá písmena. Zkuste svůj dotaz velkými písmeny nebo zaškrtněte políčko „malá a velká písmena“ napravo od vyhledávacího pole.
- hledáte v neočekávaném korpusu. Například Frankenstein se neobjevuje v ruských knihách, takže pokud hledáte v ruském korpusu, uvidíte rovnou čáru. Korpus si můžete vybrat z rozbalovací nabídky pod vyhledávacím polem, nebo pomocí operátora výběru korpusu, např. Frankenstein: eng_2019.
- vaše fráze má čárku, znaménko plus, spojovník, hvězdičku, dvojtečku nebo lomítko. Ty mají pro NgramViewer zvláštní význam; viz Pokročilé použití. Zkuste frázi uzavřít do hranatých závorek(i když to nepomůže čárkami).
jak prohlížeč Ngram zvládne interpunkci?
používáme sadu pravidel tokenizace specifických pro konkrétní jazyk. V angličtině se kontrakce stávají dvěma slovy (onistává se bigramem, který jsou, my se staneme, a tak dále). Přivlastňovací ‚s je také oddělena, ale R‘ n ‚ B zůstává jeden token. Negace (ne) jsou normalizovány tak, aby se nestaly. V ruštině se diakritika normalizuje na e a tak dále. Stejná pravidla ve finsku byl k analýze obou ngrams zadané uživatelem a ngramsextracted z korpusů, což znamená, že pokud jste hledáte ne, nelekejte se tím, skutečnost, že Ngram Viewerrewrites to není; to je přesně zachycující zvyklosti obou ne a ne v korpusu. To však znamená, že neexistuje žádný způsob, jak explicitně hledat konkrétní formuláře nemůže (nebo nemůže): dostanete can ‚ tand nemůže a nemůže najednou.
Jak mohu vidět ukázkové použití v kontextu?
pod grafem prohlížeče Ngram poskytujeme tabulku předdefinovaných Vyhledávání knih Google, z nichž každá se zúžila na řadu let. Vybíráme rozsahy podle zajímavosti: pokud má ngram v určitém roce obrovský vrchol, to se objeví samo o sobě jako hledání, s dalšími vyhledáváními pokrývajícími delší dobu trvání.
na rozdíl od korpusu prohlížeče Ngram z roku 2019 není korpus knih Google označen jako součást řeči. V Knihách Google nelze hledat třeba sloveso formof cheer. Takže všechny ngramy s částmi řečí (např., cheer_VERB) jsou vyloučeny z tabulky vyhledávání GoogleBooks.
prohlížeč Ngram má korpusy 2009, 2012 a 2019, ale Knihy Google takto nefungují. Když hledáte v Knihách Google, hledáte všechny aktuálně dostupné knihy, takže mohou existovat nějaké rozdíly mezi tím, co vidíte v Knihách Google, a tím,co byste očekávali vzhledem k grafu prohlížeče Ngram.
proč vidím více hrotů a plošin v raných letech?
publikování bylo relativně vzácnou událostí v 16.a 17. století. (Existuje jen asi 500 000 knih vydaných v angličtině před 19. stoletím.) Takže pokud se fráze vyskytuje v jedné knize V jednom roce, ale ne v předchozích nebo následujících letech, vytváří to menší bodec než v pozdějších letech.
plošiny jsou obvykle jednoduše vyhlazené hroty. Změňte vyhlazovánído 0.
co znamená „vyhlazení“?
trendy se často projevují, když jsou data vnímána jako pohyblivý průměr. Vyhlazování 1 znamená, že údaje zobrazené pro rok 1950 budouprůměr surového počtu pro rok 1950 plus 1 hodnota na obou stranách:(„count for 1949“ + „count for 1950“ + „count for 1951“), děleno 3. Takže vyhlazování 10 znamená, že 21 hodnot bude zprůměrováno: 10 na obou stranách plus cílová hodnota ve středu.
na levém a pravém okraji grafu je v průměru méně hodnot. Při vyhlazení 3 se hodnota vlevo (pretendje to rok 1950) se vypočítá jako („počet pro 1950“ + „počet pro 1951“ + „počet pro 1952“ + „počet pro 1953“), děleno 4.
vyhlazení 0 znamená žádné vyhlazení: pouze surová data.
mnoho dalších knih je publikováno v moderních letech. Nesnižuje to výsledky?
bylo by, kdybychom normalizovali podle počtu knih vydaných vkaždý rok.
proč ukazujete 0% rovnou čáru, když vím, že fráze v myquery se vyskytla alespoň v jedné knize?
při velkém zatížení, Ngram Viewer se někdy vrátit aflatline; znovu potvrdit, že tam jsou vlastně žádné hity pro thephrase. Také zvažujeme pouze ngramy, které se vyskytují v nejméně 40knihy. Jinak by se dataset zvětšil a my bychom je nemohli nabídnout všechny.
jak přesné je označení části řeči?
proměnné části řeči a vztahy závislostí jsou předpověděnyautomaticky. Posuzování přesnost těchto předpovědí isdifficult, ale pro moderní angličtině bychom očekávat, že přesnost roli-of-speech štítky musí být kolem 95% a přesnost dependencyrelations kolem 85%. Na starším anglickém textu a v jiných jazycích je přesnost nižší, ale pravděpodobně nad 90% u značek s částí řeči a nad 75% u závislostí. To znamená značný početchyby, které je třeba vzít v úvahu při kreslenízávěry.
značky části řeči jsou konstruovány z malé tréninkové sady (pouhý milion slov pro angličtinu). To bude někdy podreprezentovat neobvyklé zvyklosti, jako je zelená nebo dogor kniha jako slovesa, nebo se zeptat jako podstatné jméno.
dodatečná poznámka k čínštině: před 20. stoletím, classicalChinese byl tradičně používán pro všechny writtencommunication. Klasická čínština je založena na gramatice aslovní zásobě starověké čínštiny a syntaktické anotace budouproto se mýlí častěji, než mají pravdu.
všimněte si také, že korpusy z roku 2009 nebyly součástí speechtaged.
píšu článek na základě vašich výsledků. Jak mohu citovat vaši práci?
Pokud budete používat tato data pro akademické publikace, prosím, citovat originální papír:
Jean-Baptiste Michel*, Yuan Shen Kui, Aviva Přítlačné Aiden, AdrianVeres, Matouš K. Gray, William Brockman, Google Books Týmu,Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin a. Nowak a Erez Lieberman Aiden*.Kvantitativní analýza kultury pomocí milionů Digitalizovanýchknihy. Věda (Publikováno online před tiskem: 12/16/2010)
a také Máme papír na našich part-of-speech tagging:
Jurij Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon nechtěla slyšet,Williama Brockmana, Slav Petrov.Syntaktické anotace pro korpus Google Books Ngram. Postupy50. výročního zasedání Asociace pro výpočetní Lingvistikuvolume 2: Demo Papers (ACL ’12) (2012)
Mohu si stáhnout vaše data a spustit vlastní experimenty?
Ano! Data ngram jsou k dispozici pro stažení zde. Aby se soubor sizesmanageable, jsme seskupeny podle jejich počáteční písmeno a thengrouped různých ngram velikosti do samostatných souborů. Ngramy s každým souborem nejsou řazeny abecedně.
generovat strojově čitelné názvy souborů, jsme přepsal thengrams pro jazyky, které používají non-římské skripty (Čínština, hebrejština,ruština) a používá výchozí písmeno přepsal ngram s dotazem na název souboru. Stejný přístup byl přijat pro charakteryjako je ä v němčině. Všimněte si, že přepis bylpoužívá se pouze k určení názvu souboru; skutečné ngramy jsou kódovány inUTF-8 pomocí abecedy specifické pro jazyk.