Google Ngram Viewer
mit csinál az Ngram Viewer?
amikor beírja kifejezéseket a Google Books Ngram Viewer, Ez displaysa grafikon mutatja, hogy ezek a kifejezések történtek a korpusz könyvek (pl”Brit angol”, “angol Fiction”, “francia”) a kiválasztott év. Nézzünk meg egy minta grafikont:
ez három Ngram trendjét mutatja 1960-tól 2015-ig: “nurseryschool” (2 grammos vagy bigram), “óvoda”(1 grammos vagy unigramm) és “gyermekgondozás” (anotherbigram). Az y tengely ezt mutatja: az angol nyelven írt és az Egyesült Államokban megjelent könyvek mintájában található összes bigram közül hány százalékuk “óvoda”vagy ” gyermekgondozás”?Az összes unigramma közül hány százaléka “óvoda”?Itt láthatja, hogy a “gyermekgondozás” kifejezés használata az 1960-as évek végén kezdett emelkedni, megelőzve az “óvodát” 1970 körül, majd az”óvodát” 1973 körül. Nem sokkal 1990 után tetőzött, és azóta is folyamatosan csökken.
(érdekes módon az eredmények észrevehetően különböznek, amikor a corpus Brit angolra vált.)
az Ngram vonaldiagramja fölé húzhatja az egérmutatót, amely kiemeli azt. Witha bal egérgombbal egy vonal telek, akkor elsősorban egy adott ngram, szürkülő ki a többi ngrams a diagram, ha van ilyen. A diagram többi vonaldiagramjának későbbi bal kattintásain több ngramra lehet összpontosítani. A diagram bármely területére duplán kattintva visszaállíthatja a lekérdezés összes ngramját.
helyettesítő karaktereket is megadhat a lekérdezésekben, inflexiókat kereshet,kis-és nagybetűérzékeny keresést végezhet, megkeresheti a beszéd bizonyos részeit, vagy hozzáadhat, kivonhat és megoszthat ngramokat.Bővebben a fejlett használat alatt állókról.
speciális használat
az Ngram Viewer néhány funkciója vonzó lehet azoknak a felhasználóknak,akik mélyebbre akarnak ásni a kifejezéshasználatban: helyettesítő karakterek keresése, inflexiós keresés,nagybetűérzékeny keresés, beszédrész-címkék és ngram kompozíciók.
helyettesítő keresés
amikor egy * szót helyez el egy szó helyett, az Ngram megjelenítő megjeleníti az első tíz helyettesítést.Például, hogy megtalálja a legnépszerűbb szavak következő “University of”, keressen ” University of*”.
akkor kattintson a jobb gombbal bármelyik csere ngrams, hogy összeomlik őket az eredeti helyettesítő lekérdezés, az eredmény, hogy az évenkénti összege a cserék. Az ezt követő jobb klikk kiterjeszti a helyettesítő lekérdezés vissza az összes csere. Ne feledje, hogy az Ngram Viewer csak egy * – ot támogat ngram-onként.
vegye figyelembe, hogy az első tíz cserét a megadott időtartományra számítják ki. Ezért lehet, hogy különböző helyettesítéseket kap a különböző évtartományokhoz. Szűrtük az írásjeleket az első tíz listából, de azoknál a szavaknál, amelyek gyakran mondatokat indítanak vagy fejeznek be, előfordulhat, hogy az egyik mondathatár-szimbólum (_START_ vagy _END_) jelenik meg az egyik helyettesítőként.
inflexiós keresés
az inflexió egy szó olyan módosítása, amely különböző nyelvtani kategóriákat képvisel, mint például szempont, eset, nem, hangulat, szám, személy, feszültség és hang. Megkeresheti őket úgy, hogy az _INF-et egy ngram-hoz fűzi. Például a “book_inf a hotel” Keresés a “book”, “booked”, “books” és “booking”találatokat jeleníti meg:
jobb klikk minden inflexiós összeomlik minden formában a saját összegét. Vegye figyelembe, hogy az Ngram Viewer lekérdezésenként csak egy _INF kulcsszót támogat.
figyelem: nem keverheti szabadon a helyettesítő karakteres kereséseket, az inflexiókat és a kis-és nagybetűérzékeny kereséseket egy adott ngram-ra.Azonban a következő funkciók bármelyikével kereshet külön NGR-eket egy lekérdezésben:” book_INF a hotel, book * hotel “rendben van, de a” book_INF * hotel ” nem.
Kisbetűérzékeny keresés
alapértelmezés szerint az Ngram megjelenítő nagybetűérzékeny kereséseket hajt végre: a nagybetűk számítanak. Kisbetűérzékeny keresést hajthat végre, ha bejelöli a lekérdezési mező jobb oldalán található “kisbetűérzékeny” jelölőnégyzetet. Az Ngram Viewer ezután megjeleníti a bemeneti lekérdezés Leggyakoribb kis-érzéketlen variánsainak éves összegét. Itt van két kis-és nagybetűérzékeny Ngram, a “Fitzgerald” és a”Dupont”:
a jobb egérgombbal kattintva bármelyik évenkénti összeg kibővül a leggyakoribb kis-és nagybetűérzékeny változatokká. Például a ” Dupont (All) “jobb egérgombbal történő kattintása a következő négy változatot eredményezi:” DuPont”,” Dupont”,” duPont “és” DUPONT”.
beszédrész címkék
Tekintsük a szót kezelni, amely lehet ige (“kezelni a problémát”) vagy főnév (“horgászfelszerelés”). Megkülönböztethetőkezek a különböző formák a _verbor _NOUN hozzáadásával:
a címkék teljes listája a következő:
_NOUN_ | ezek a címkék önállóan (_pron_) vagy hozzá lehet fűzni egy szóhoz (she_PRON) |
|
_VERB_ | ||
_ADJ_ | melléknév | |
_ADV_ | határozószó | |
_pron_ | névmás | |
_DET_ | meghatározó vagy árucikk | |
_ADP_ | egy adpozíció: vagy elöljárószó, vagy posztpozíció | |
_SZÁM_ | szám | |
_CONJ_ | kötőszó | |
_prt_ | részecske | |
_ROOT_ | az elemzési fa gyökere | ezeknek a címkéknek egyedül kell állniuk (pl., _START_) |
_START_ | mondat kezdete | |
_END_ | mondat vége |
mivel a beszédrész-címkéknek nem kell egyes szavakhoz kapcsolódniuk,a DET címkével kereshet egy könyvet olvasni, olvassa el a könyvet, olvassa el azt a könyvet,olvassa el ezt a könyvet stb. az alábbiak szerint:
ha tudni szeretné, hogy melyek a leggyakoribb meghatározók ebben az összefüggésben, kombinálhatja a helyettesítő karaktereket és a beszédrész-címkéket az olvasáshoz * _DET könyv:
ahhoz, hogy az összes különböző inflexiók a szó könyv, amelyet követett a főnév a corpus akkor kiadja a lekérdezés book_INF _NOUN_:
leggyakoribb része-of-speech címkék egy szót lehet letölteni a helyettesítő funkciót. Tekintsük a cook_ * lekérdezést:
az inflexiós kulcsszó kombinálható a beszédrész címkékkel is. Vegyük például az alábbi cook_INF, cook_VERB_INF lekérdezést, amely elválasztja a “szakács”verbális érzésének ragozásait:
az Ngram Viewer címkéket mondathatárokat, amely lehetővé teszi, hogy azonosítsa ngrams elején és végén mondatok A kezdő és a záró tag:
néha segít gondolkodni szavak szempontjából függőségeknem minták. Tegyük fel, hogy szeretné tudni, hogyangyakran ízletes módosítja a desszertet. Ez azt jelenti, hogy teljesen megemlíti az ízletes fagyasztott desszertet, ropogós, ízesdesszert, ízletes, mégis drága desszertés minden másolyan esetekben, amikor az ízletes szót alkalmazzák a desszertre.Ehhez az Ngram Viewer függőségi kapcsolatokat biztosít => operátor:
minden elemzett mondatnak van egy _ROOT_. Eltérően othertags, _ROOT_ nem áll egy adott szót vagy pozíciót a mondatban. Ez az elemzési fa gyökere, amelyet a szintaxis elemzése; úgy gondolhat rá, mint egy helyőrzőre, amely a mondat fő Igéjét módosítja. Tehát itt van, hogyan lehet azonosítanimilyen gyakran will volt a mondat fő Igéje:
a fenti grafikon tartalmazná a Larry willdecide mondatot. de nem Larry azt mondta,hogy ő dönt, mivel will nem a mondat fő Igéje.
a függőségek kombinálhatók helyettesítő karakterekkel. Vegyük például az alábbi drink=>*_NOUN lekérdezést:
a “tiszta” beszédrész címkék szabadon keverhetők a szokásos szavakkal 1-, 2-, 3-, 4-, 5 gramm (például a _adj_ pirítós vagy _DET__ADJ_ pirítós).
Ngram kompozíciók
az Ngram Viewer öt operátort biztosít, amelyek segítségével kombinálhatókgramm:+, -,/,*, és :.
+ | összegzi a kifejezéseket mindkét oldalon, lehetővé téve, hogy több Ngram idősort egyesítsen egybe. |
– | kivonja a jobb oldali kifejezést a bal oldali kifejezésből, így meg tudja mérni az egyik ngram-ot a másikhoz képest. Mivel a felhasználók gyakran kötőjeles kifejezéseket akarnak keresni, tegyen szóközöket a – jel mindkét oldalára. |
/ | osztja a bal oldali kifejezést a jobb oldali kifejezéssel, ami hasznos az ngram viselkedésének elkülönítéséhez a másikhoz képest. |
* | megsokszorozza a bal oldali kifejezést a jobb oldali számmal, megkönnyítve ezzel a nagyon különböző frekvenciájú ngramok összehasonlítását. (Ügyeljen arra, hogy a teljes Ngram zárójelben legyen, így a * nem értelmezhető helyettesítő karakterként.) |
: | a bal oldali Ngram-ot a jobb oldali korpuszra alkalmazza, lehetővé téve az Ngram-ok összehasonlítását a különböző korpuszok között. |
az Ngram néző megpróbálja kitalálni, hogy alkalmazza-e ezeketviselet. Használhatja zárójelben kényszeríteni őket, és squarebrackets kényszeríteni őket. Példa: and / or will divide and by or; a kifejezés és/vagy a használat használatának mérésére .A jó szándékú pedig a jó szándékú kifejezést fogja keresni; ha ki akarja vonni a jelentést a jól, használja a (jó szándékú) kifejezést.
a + operátor bemutatásához itt találhatja meg a játék, a sport és a játék összegét:
annak meghatározásakor, hogy az emberek többet írtak-e a választásokról az évek során, összehasonlíthatja a választást, a kiválasztást, az opciót és az alternatívát, megadva a főnévi formákat, hogy elkerülje a mellékneveket (pl. choice delicacy, alternativemusic):
Ngram kivonás ad egy egyszerű módja annak, hogy hasonlítsa össze egy sor Ngram egy másik:
itt van, hogyan lehet kombinálni + és / megmutatni,hogy a szó almaszósz virágzott rovására almaszósz:
a * operátor akkor hasznos, ha szeretné összehasonlítani Ngram széles körben változó frekvenciájú, mint a hegedű és a több ezoterikus theremin:
a :corpus selection Operator segítségével összehasonlíthatja ngrams különböző nyelveken, vagy amerikai versus Brit angol (vagy fikció), vagy a 2009-es, 2012-es és 2019-es változat a könyv vizsgál.Itt chat angol versus azonos unigram francia:
amikor létrehoztuk az eredeti Ngram Viewer corpora 2009-ben, ourOCR nem volt olyan jó, mint ma. Ez különösen nyilvánvaló volt a 19. század előtti angol nyelvben, ahol a hosszúkás mediális-s-T (Ft) gyakran F-ként értelmezték, így a best-et gyakran olvasták beft. Itt van bizonyíték az azóta elvégzett fejlesztésekről, a corpus operátor segítségével a 2009-es, 2012-es és 2019-es verziók összehasonlításához:
ha összehasonlítjuk a fikciót az összes angol nyelvvel, láthatjuk, hogy a varázsló Általános angol nyelvhasználata a közelmúltban egyre növekszik a fikcióban való felhasználáshoz képest:
Corpora
az alábbiakban leírjuk azokat a korpuszokat, amelyek a Google Books Ngram Viewer segítségével kereshetők. Az összes korpusz 2009 júliusában, 2012 júliusában és 2020 februárjában jött létre; ezeket a korpuszokat a könyvvizsgálat folytatásával frissítjük, és a frissített verziók különálló persistentidentifierekkel rendelkeznek. Az alacsony OCR minőségű könyveket és sorozatokat kizárták.
informális korpusznév | Gyorsírás | állandó azonosító | leírás |
Amerikai Angol 2019 | eng_us_2019 | googlebooks-eng-us-20200217 | túlnyomórészt angol nyelvű könyvek, amelyek az Egyesült Államokban jelentek meg. |
Amerikai Angol 2012 | angol_us_2012 | googlebooks-eng-us-all-20120701 | |
Amerikai Angol 2009 | angol_us_2009 | googlebooks-eng-us-all-20090715 | |
British English 2019 | eng_gb_2019 | googlebooks-eng-gb-20200217 | túlnyomórészt angol nyelvű könyvek, amelyek Nagy-Britanniában jelentek meg. |
Brit angol 2012 | eng_gb_2012 | googlebooks-eng-gb-all-20120701 | |
Brit angol 2009 | eng_gb_2009 | googlebooks-eng-gb-all-20090715 | |
angol 2019 | eng_2019 | googlebooks-eng-20200217 | túlnyomórészt angol nyelvű, bármely országban megjelent könyvek. |
angol 2012 | angol_2012 | googlebooks-eng-all-20120701 | |
angol 2009 | angol_2009 | googlebooks-eng-all-20090715 | |
English Fiction 2019 | eng_fiction_2019 | googlebooks-eng-fiction-20200217 | túlnyomórészt angol nyelvű könyvek, amelyeket egy könyvtár vagy kiadó fikcióként azonosított. |
angol szépirodalom 2012 | eng_fiction_2012 | googlebooks-eng-fiction-all-20120701 | |
angol szépirodalom 2009 | eng_fiction_2009 | googlebooks-eng-fiction-all-20090715 | |
angol egymillió | eng_1m_2009 | googlebooks-eng-1M-20090715 | a “Google millió”. Minden angol nyelven van, a dátumok 1500-tól 2008-ig terjednek. Évente legfeljebb 6000 könyvet választottak ki, ami azt jelenti, hogy a korai évek összes beolvasott könyve jelen van, a későbbi évek könyvei pedig véletlenszerűen kerülnek mintavételre. A véletlenszerű mintavételek az év tárgyi eloszlását tükrözik (tehát több számítógépes könyv van 2000-ben, mint 1980-ban). |
Kínai 2019 | chi_sim_2019 | googlebooks-chi-sim-20200217 | könyvek túlnyomórészt egyszerűsített kínai írásmóddal. |
Kínai 2012 | chi_sim_2012 | googlebooks-chi-sim-all-20120701 | |
Kínai 2009 | chi_sim_2009 | googlebooks-chi-sim-all-20090715 | |
francia 2019 | fre_2019 | googlebooks-fre-20200217 | könyvek túlnyomórészt francia nyelven. |
francia 2012 | fre_2012 | googlebooks-fre-all-20120701 | |
francia 2009 | fre_2009 | googlebooks-fre-all-20090715 | |
német 2019 | ger_2019 | googlebooks-ger-20200217 | túlnyomórészt német nyelvű könyvek. |
német 2012 | ger_2012 | googlebooks-ger-all-20120701 | |
német 2009 | ger_2009 | googlebooks-ger-all-20090715 | |
Héber 2019 | heb_2019 | googlebooks-heb-20200217 | a könyvek túlsúlyban voltak a héber nyelven. |
Héber 2012 | heb_2012 | googlebooks-heb-all-20120701 | |
Héber 2009 | heb_2009 | googlebooks-heb-all-20090715 | |
spanyol 2019 | spa_2019 | googlebooks-spa-20200217 | Könyvek túlnyomórészt spanyol nyelven. |
spanyol 2012 | spa_2012 | googlebooks-spa-all-20120701 | |
spanyol 2009 | spa_2009 | googlebooks-spa-all-20090715 | |
orosz 2019 | rus_2019 | googlebooks-rus-20200217 | túlnyomórészt orosz nyelvű könyvek. |
orosz 2012 | rus_2012 | googlebooks-rus-all-20120701 | |
orosz 2009 | rus_2009 | googlebooks-rus-all-20090715 | |
olasz 2019 | ita_2019 | googlebooks-ita-20200217 | könyvek túlnyomórészt olasz nyelven. |
olasz 2012 | ita_2012 | googlebooks-ita-all-20120701 |
a 2009-es verziókhoz képest a 2012-es és 2019-es verziók több könyvet, továbbfejlesztett OCR-t, továbbfejlesztett könyvtárat és publishermetadata-t tartalmaznak. A 2012-es és 2019-es verziók szintén nem alkotnak olyan ngramokat, amelyek keresztezik a sentenceboundaries-t, és nem alkotnak ngramokat az oldalhatárokon keresztül, ellentétben a 2009-es verziókkal.
a 2012-es és 2019-es korpuszokkal a tokenizálás is javult, kézzel kidolgozott szabályok alkalmazásával (kivéve a kínait, ahol astatisztikai rendszert használnak a szegmentáláshoz). A 2009-es korpuszokban a tokenizálás egyszerűen a szóközökön alapult.
Keresés a Google Könyvekben
a grafikon alatt “érdekes” évtartományokat mutatunk be a lekérdezésekhez. Ha ezekre kattint, a lekérdezést közvetlenül a GoogleBooks-ba küldi. Vegye figyelembe, hogy az Ngram Viewer nagybetűérzékeny, de a Google Bookssearch eredményei nem.
ezek a keresések olyan kifejezéseket eredményeznek, amelyek nyelvénevercorpus kiválasztotta, de az eredményeket a teljes GoogleBooks korpusz adja vissza. Tehát, ha az Ngram Viewer segítségével keres egy francia kifejezést a francia korpuszban,majd átkattint a Google könyvekre, akkor a keresés ugyanarra a francia kifejezésre vonatkozik-ami előfordulhat egy könyvben, főleg egy másik nyelven.
GYIK
miért nem látom a várt eredményeket?
talán az alábbi okok valamelyike miatt:
- az Ngram Viewer nagybetűérzékeny. Próbálja meg nagybetűvel írni a lekérdezést, vagy jelölje be a keresőmező jobb oldalán található “kisbetűérzékeny”négyzetet.
- váratlan korpuszban keres. Például, Frankenstein nem jelenik meg az orosz könyvekben, tehát ha az orosz korpuszban keres, síkvonalat fog látni. Kiválaszthatja a korpuszt a keresőmező alatti legördülő menüből, vagy a korpuszválasztó operátoron keresztül, például Frankenstein:eng_2019.
- a kifejezésben vessző, pluszjel, kötőjel, csillag, kettőspont vagy előre mutató perjel van. Ezeknek különleges jelentése van az NgramViewer számára; lásd: speciális használat. Próbálja meg szögletes zárójelbe tenni a kifejezést (bár ez nem segít vesszővel).
hogyan kezeli az Ngram Viewer az írásjeleket?
az adott nyelvre jellemző tokenizációs szabályokat alkalmazunk. Angolul az összehúzódások két szóvá válnak (őklesz a bigram ők, mi lesz mi lesz, stb.). A birtokos ‘s is szét van választva, de az R’ n ‘ B továbbra is egy token. A negációkat (nem) úgy formalizálják, hogy ne váljon ne. Az orosz nyelvben a diakritikus 6-ot E-re normalizálják, és így tovább. Ugyanezek a szabályok vonatkoznak mind a felhasználók által beírt, mind a korpuszokból kivont Ngram-ok elemzésére, ami azt jelenti, hogy ha keresd ne, ne ijedjen meg attól a ténytől, hogy az Ngram-Nézőújraírja, hogy ne; pontosan ábrázolja mind a nem, mind a nem a korpuszban. Ez azonban azt jelenti, hogy nincs mód arra, hogy kifejezetten megkeressük a specificforms can ‘ t (vagy cannot) – t: kapsz nemés nem tud és nem tud egyszerre.
hogyan tekinthetem meg a mintahasználatokat a kontextusban?
az Ngram Viewer chart alatt egy előre definiált táblázatot adunk a Google Könyvek kereséseiről, amelyek mindegyike évekre szűkült. A tartományokat az érdekesség szerint választjuk: ha egy ngram-nak egy adott évben hatalmas csúcsa van, akkor ez önmagában keresésként jelenik meg, más, hosszabb időtartamú keresésekkel.
a 2019-es Ngram Viewer corpustól eltérően a Google Books corpus nincs címkézve. Nem lehet keresni, mondjuk, az igefordítás a Google Könyvekben. Tehát minden olyan Ngram, amelynek része a beszédcímke (pl., cheer_VERB) ki vannak zárva a GoogleBooks keresések táblázatából.
az Ngram Viewer rendelkezik 2009-es, 2012-es és 2019-es korpuszokkal, de a Google Booksdoesn nem így működik. Amikor a Google Könyvekben keres, az összes jelenleg elérhető könyvet megkeresi, így lehet némi különbség a Google Könyvekben látottak és az Ngram megjelenítő diagramja alapján várhatóan látottak között.
miért látok több tüskét és fennsíkot az első években?
a kiadás viszonylag ritka esemény volt a 16.és 17. században. (Csak körülbelül 500 000 könyv jelent megangolul a 19.század előtt.) Tehát, ha egy kifejezés egy könyvben fordul elő egy év alatt, de nem az előző vagy a következő években, akkor az ataller tüskét hoz létre, mint a későbbi években.
a fennsíkok általában egyszerűen simított tüskék. Változtassa meg a simítást0-ra.
mit jelent a “simítás”?
a trendek gyakran nyilvánvalóbbá válnak, ha az adatokat mozgó átlagnak tekintik. Az 1-es simítás azt jelenti, hogy az 1950-re bemutatott adatok az 1950-es nyers szám átlaga plusz 1 érték mindkét oldalon:(“count for 1949” + “count for 1950” + “count for 1951”), osztva 3. Tehát a 10-es simítás azt jelenti, hogy 21 értéket átlagolunk: 10 egyoldalúan, plusz a célérték a közepén.
a grafikon bal és jobb szélén kevesebb érték látható. A 3-as simítással a bal szélső érték (pretendit az 1950-es év) a következőképpen kerül kiszámításra (“count for 1950” + “count for 1951” + “count for 1952” + “count for 1953”), osztva 4-gyel.
a 0 simítás azt jelenti, hogy egyáltalán nincs simítás: csak nyers adatok.
sokkal több könyv jelenik meg a modern években. Ez nem torzítja az eredményeket?
lenne, ha nem normalizálnánk a kiadott könyvek számátminden évben.
miért mutat 0% síkvonalat, amikor tudom, hogy a myquery kifejezés legalább egy könyvben történt?
nagy terhelés alatt az Ngram Viewer néha visszatér aflatline; reload annak megerősítésére, hogy valójában nincs találat a kifejezéshez. Ezenkívül csak azokat az Ngram-okat vesszük figyelembe, amelyek legalább 40-ben fordulnak előkönyveket. Ellenkező esetben az adatkészlet léggömb méretű lenne, és nem tudnánk mindet felajánlani.
mennyire pontos a beszédrészek címkézése?
a beszédrész-címkék és a függőségi kapcsolatok automatikusan előre vannak jelezve. Ezen előrejelzések pontosságának értékelése nehéz, de a modern angol nyelv esetében arra számítunk, hogy a beszédrész címkék pontossága körülbelül 95%, a függőségi kapcsolatok pontossága pedig 85% körül lesz. A régebbi angol szövegeknél és más nyelveknéla pontosság alacsonyabb, de valószínűleg 90% felett van a beszédrészcímkéknél, és 75% felett a függőségeknél. Ez jelentős számot jelenthibák, amelyeket figyelembe kell venni a rajzolás soránkövetkeztetéseket.
a beszédrész címkék egy kis oktatókészletből készülnek(csupán millió szó az angolra). Ez néha nem gyakori szokásokat jelent, például zöld vagy dogor könyv igékként, vagy kérdezzen főnévként.
kiegészítő megjegyzés a kínaiakról: a 20.század előtt a klasszikus kínai nyelvet hagyományosan minden írásbeli kommunikációhoz használták. A klasszikus kínai nyelv az ősi kínai nyelvtan és szókincsén alapul, ezért a szintaktikai megjegyzések gyakrabban tévednek, mint igazak.
ezenkívül vegye figyelembe, hogy a 2009-es korpuszok nem voltak a beszéd részének címkézve.
az eredmények alapján írok egy tanulmányt. Hogyan idézhetem a munkádat?
ha ezeket az adatokat tudományos publikációhoz kívánja felhasználni, kérjük, idézze az eredeti cikket:
Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, a Google Könyvek csapata,Joseph P. A második világháború után a német-római birodalom része lett, a második világháború után pedig a német-római birodalom része lett.A kultúra kvantitatív elemzése digitalizált milliók Segítségévelkönyveket. Tudomány (megjelent online előtt print: 12/16/2010)
mi is van egy papír a rész-of-beszéd címkézés:
Jurij Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant,William Brockman, Slav Petrov.Szintaktikai megjegyzések A Google Books Ngram Corpus-hoz. A számítástechnikai nyelvi Szövetség 50. éves ülésének folyamatai2. kötet: Demo Papers (ACL ’12) (2012)
letölthetem az adatait a saját kísérleteim futtatásához?
Igen! Az ngram adatok elérhetőkletöltés itt. Annak érdekében, hogy a fájlméretek kezelhetők legyenek, a kezdőbetűjük szerint csoportosítottuk őket, majd a különböző ngram méreteket külön fájlokba csoportosítottuk. Az ngrams withineach fájl nincs betűrendben rendezve.
géppel olvasható fájlnevek létrehozásához átírtuk a nem római (kínai, héber, orosz) szkripteket használó nyelvek thengram-ját,és a transzliterált ngram kezdőbetűjét használtuk a fájlnév meghatározásához. Ugyanezt a megközelítést alkalmazták a karaktereknélmint például a német nyelvben a 6. Ne feledje, hogy a transzliteráció voltcsak a fájlnév meghatározására használják; a tényleges Ngram-okat inutf-8 kódolják a nyelvspecifikus ábécé segítségével.