Google Ngram Viewer

BY admin

| július 4, 2021

mit csinál az Ngram Viewer?

amikor beírja kifejezéseket a Google Books Ngram Viewer, Ez displaysa grafikon mutatja, hogy ezek a kifejezések történtek a korpusz könyvek (pl”Brit angol”, “angol Fiction”, “francia”) a kiválasztott év. Nézzünk meg egy minta grafikont:

ez három Ngram trendjét mutatja 1960-tól 2015-ig: “nurseryschool” (2 grammos vagy bigram), “óvoda”(1 grammos vagy unigramm) és “gyermekgondozás” (anotherbigram). Az y tengely ezt mutatja: az angol nyelven írt és az Egyesült Államokban megjelent könyvek mintájában található összes bigram közül hány százalékuk “óvoda”vagy ” gyermekgondozás”?Az összes unigramma közül hány százaléka “óvoda”?Itt láthatja, hogy a “gyermekgondozás” kifejezés használata az 1960-as évek végén kezdett emelkedni, megelőzve az “óvodát” 1970 körül, majd az”óvodát” 1973 körül. Nem sokkal 1990 után tetőzött, és azóta is folyamatosan csökken.

(érdekes módon az eredmények észrevehetően különböznek, amikor a corpus Brit angolra vált.)

az Ngram vonaldiagramja fölé húzhatja az egérmutatót, amely kiemeli azt. Witha bal egérgombbal egy vonal telek, akkor elsősorban egy adott ngram, szürkülő ki a többi ngrams a diagram, ha van ilyen. A diagram többi vonaldiagramjának későbbi bal kattintásain több ngramra lehet összpontosítani. A diagram bármely területére duplán kattintva visszaállíthatja a lekérdezés összes ngramját.

helyettesítő karaktereket is megadhat a lekérdezésekben, inflexiókat kereshet,kis-és nagybetűérzékeny keresést végezhet, megkeresheti a beszéd bizonyos részeit, vagy hozzáadhat, kivonhat és megoszthat ngramokat.Bővebben a fejlett használat alatt állókról.

speciális használat

az Ngram Viewer néhány funkciója vonzó lehet azoknak a felhasználóknak,akik mélyebbre akarnak ásni a kifejezéshasználatban: helyettesítő karakterek keresése, inflexiós keresés,nagybetűérzékeny keresés, beszédrész-címkék és ngram kompozíciók.

helyettesítő keresés

amikor egy * szót helyez el egy szó helyett, az Ngram megjelenítő megjeleníti az első tíz helyettesítést.Például, hogy megtalálja a legnépszerűbb szavak következő “University of”, keressen ” University of*”.

akkor kattintson a jobb gombbal bármelyik csere ngrams, hogy összeomlik őket az eredeti helyettesítő lekérdezés, az eredmény, hogy az évenkénti összege a cserék. Az ezt követő jobb klikk kiterjeszti a helyettesítő lekérdezés vissza az összes csere. Ne feledje, hogy az Ngram Viewer csak egy * – ot támogat ngram-onként.

vegye figyelembe, hogy az első tíz cserét a megadott időtartományra számítják ki. Ezért lehet, hogy különböző helyettesítéseket kap a különböző évtartományokhoz. Szűrtük az írásjeleket az első tíz listából, de azoknál a szavaknál, amelyek gyakran mondatokat indítanak vagy fejeznek be, előfordulhat, hogy az egyik mondathatár-szimbólum (_START_ vagy _END_) jelenik meg az egyik helyettesítőként.

inflexiós keresés

az inflexió egy szó olyan módosítása, amely különböző nyelvtani kategóriákat képvisel, mint például szempont, eset, nem, hangulat, szám, személy, feszültség és hang. Megkeresheti őket úgy, hogy az _INF-et egy ngram-hoz fűzi. Például a “book_inf a hotel” Keresés a “book”, “booked”, “books” és “booking”találatokat jeleníti meg:

jobb klikk minden inflexiós összeomlik minden formában a saját összegét. Vegye figyelembe, hogy az Ngram Viewer lekérdezésenként csak egy _INF kulcsszót támogat.

figyelem: nem keverheti szabadon a helyettesítő karakteres kereséseket, az inflexiókat és a kis-és nagybetűérzékeny kereséseket egy adott ngram-ra.Azonban a következő funkciók bármelyikével kereshet külön NGR-eket egy lekérdezésben:” book_INF a hotel, book * hotel “rendben van, de a” book_INF * hotel ” nem.

Kisbetűérzékeny keresés

alapértelmezés szerint az Ngram megjelenítő nagybetűérzékeny kereséseket hajt végre: a nagybetűk számítanak. Kisbetűérzékeny keresést hajthat végre, ha bejelöli a lekérdezési mező jobb oldalán található “kisbetűérzékeny” jelölőnégyzetet. Az Ngram Viewer ezután megjeleníti a bemeneti lekérdezés Leggyakoribb kis-érzéketlen variánsainak éves összegét. Itt van két kis-és nagybetűérzékeny Ngram, a “Fitzgerald” és a”Dupont”:

a jobb egérgombbal kattintva bármelyik évenkénti összeg kibővül a leggyakoribb kis-és nagybetűérzékeny változatokká. Például a ” Dupont (All) “jobb egérgombbal történő kattintása a következő négy változatot eredményezi:” DuPont”,” Dupont”,” duPont “és” DUPONT”.

beszédrész címkék

Tekintsük a szót kezelni, amely lehet ige (“kezelni a problémát”) vagy főnév (“horgászfelszerelés”). Megkülönböztethetőkezek a különböző formák a _verbor _NOUN hozzáadásával:

a címkék teljes listája a következő:

_NOUN_		ezek a címkék önállóan (_pron_) vagy hozzá lehet fűzni egy szóhoz (she_PRON)
_VERB_
_ADJ_	melléknév
_ADV_	határozószó
_pron_	névmás
_DET_	meghatározó vagy árucikk
_ADP_	egy adpozíció: vagy elöljárószó, vagy posztpozíció
_SZÁM_	szám
_CONJ_	kötőszó
_prt_	részecske
_ROOT_	az elemzési fa gyökere	ezeknek a címkéknek egyedül kell állniuk (pl., _START_)
_START_	mondat kezdete
_END_	mondat vége

mivel a beszédrész-címkéknek nem kell egyes szavakhoz kapcsolódniuk,a DET címkével kereshet egy könyvet olvasni, olvassa el a könyvet, olvassa el azt a könyvet,olvassa el ezt a könyvet stb. az alábbiak szerint:

ha tudni szeretné, hogy melyek a leggyakoribb meghatározók ebben az összefüggésben, kombinálhatja a helyettesítő karaktereket és a beszédrész-címkéket az olvasáshoz * _DET könyv:

ahhoz, hogy az összes különböző inflexiók a szó könyv, amelyet követett a főnév a corpus akkor kiadja a lekérdezés book_INF _NOUN_:

leggyakoribb része-of-speech címkék egy szót lehet letölteni a helyettesítő funkciót. Tekintsük a cook_ * lekérdezést:

az inflexiós kulcsszó kombinálható a beszédrész címkékkel is. Vegyük például az alábbi cook_INF, cook_VERB_INF lekérdezést, amely elválasztja a “szakács”verbális érzésének ragozásait:

az Ngram Viewer címkéket mondathatárokat, amely lehetővé teszi, hogy azonosítsa ngrams elején és végén mondatok A kezdő és a záró tag:

néha segít gondolkodni szavak szempontjából függőségeknem minták. Tegyük fel, hogy szeretné tudni, hogyangyakran ízletes módosítja a desszertet. Ez azt jelenti, hogy teljesen megemlíti az ízletes fagyasztott desszertet, ropogós, ízesdesszert, ízletes, mégis drága desszertés minden másolyan esetekben, amikor az ízletes szót alkalmazzák a desszertre.Ehhez az Ngram Viewer függőségi kapcsolatokat biztosít => operátor:

minden elemzett mondatnak van egy _ROOT_. Eltérően othertags, _ROOT_ nem áll egy adott szót vagy pozíciót a mondatban. Ez az elemzési fa gyökere, amelyet a szintaxis elemzése; úgy gondolhat rá, mint egy helyőrzőre, amely a mondat fő Igéjét módosítja. Tehát itt van, hogyan lehet azonosítanimilyen gyakran will volt a mondat fő Igéje:

a fenti grafikon tartalmazná a Larry willdecide mondatot. de nem Larry azt mondta,hogy ő dönt, mivel will nem a mondat fő Igéje.

a függőségek kombinálhatók helyettesítő karakterekkel. Vegyük például az alábbi drink=>*_NOUN lekérdezést:

a “tiszta” beszédrész címkék szabadon keverhetők a szokásos szavakkal 1-, 2-, 3-, 4-, 5 gramm (például a _adj_ pirítós vagy _DET__ADJ_ pirítós).

Ngram kompozíciók

az Ngram Viewer öt operátort biztosít, amelyek segítségével kombinálhatókgramm:+, -,/,*, és :.

+	összegzi a kifejezéseket mindkét oldalon, lehetővé téve, hogy több Ngram idősort egyesítsen egybe.
–	kivonja a jobb oldali kifejezést a bal oldali kifejezésből, így meg tudja mérni az egyik ngram-ot a másikhoz képest. Mivel a felhasználók gyakran kötőjeles kifejezéseket akarnak keresni, tegyen szóközöket a – jel mindkét oldalára.
/	osztja a bal oldali kifejezést a jobb oldali kifejezéssel, ami hasznos az ngram viselkedésének elkülönítéséhez a másikhoz képest.
*	megsokszorozza a bal oldali kifejezést a jobb oldali számmal, megkönnyítve ezzel a nagyon különböző frekvenciájú ngramok összehasonlítását. (Ügyeljen arra, hogy a teljes Ngram zárójelben legyen, így a * nem értelmezhető helyettesítő karakterként.)
:	a bal oldali Ngram-ot a jobb oldali korpuszra alkalmazza, lehetővé téve az Ngram-ok összehasonlítását a különböző korpuszok között.

az Ngram néző megpróbálja kitalálni, hogy alkalmazza-e ezeketviselet. Használhatja zárójelben kényszeríteni őket, és squarebrackets kényszeríteni őket. Példa: and / or will divide and by or; a kifejezés és/vagy a használat használatának mérésére .A jó szándékú pedig a jó szándékú kifejezést fogja keresni; ha ki akarja vonni a jelentést a jól, használja a (jó szándékú) kifejezést.

a + operátor bemutatásához itt találhatja meg a játék, a sport és a játék összegét:

annak meghatározásakor, hogy az emberek többet írtak-e a választásokról az évek során, összehasonlíthatja a választást, a kiválasztást, az opciót és az alternatívát, megadva a főnévi formákat, hogy elkerülje a mellékneveket (pl. choice delicacy, alternativemusic):

Ngram kivonás ad egy egyszerű módja annak, hogy hasonlítsa össze egy sor Ngram egy másik:

itt van, hogyan lehet kombinálni + és / megmutatni,hogy a szó almaszósz virágzott rovására almaszósz:

a * operátor akkor hasznos, ha szeretné összehasonlítani Ngram széles körben változó frekvenciájú, mint a hegedű és a több ezoterikus theremin:

a :corpus selection Operator segítségével összehasonlíthatja ngrams különböző nyelveken, vagy amerikai versus Brit angol (vagy fikció), vagy a 2009-es, 2012-es és 2019-es változat a könyv vizsgál.Itt chat angol versus azonos unigram francia:

amikor létrehoztuk az eredeti Ngram Viewer corpora 2009-ben, ourOCR nem volt olyan jó, mint ma. Ez különösen nyilvánvaló volt a 19. század előtti angol nyelvben, ahol a hosszúkás mediális-s-T (Ft) gyakran F-ként értelmezték, így a best-et gyakran olvasták beft. Itt van bizonyíték az azóta elvégzett fejlesztésekről, a corpus operátor segítségével a 2009-es, 2012-es és 2019-es verziók összehasonlításához:

ha összehasonlítjuk a fikciót az összes angol nyelvvel, láthatjuk, hogy a varázsló Általános angol nyelvhasználata a közelmúltban egyre növekszik a fikcióban való felhasználáshoz képest:

Corpora

az alábbiakban leírjuk azokat a korpuszokat, amelyek a Google Books Ngram Viewer segítségével kereshetők. Az összes korpusz 2009 júliusában, 2012 júliusában és 2020 februárjában jött létre; ezeket a korpuszokat a könyvvizsgálat folytatásával frissítjük, és a frissített verziók különálló persistentidentifierekkel rendelkeznek. Az alacsony OCR minőségű könyveket és sorozatokat kizárták.

informális korpusznév	Gyorsírás	állandó azonosító	leírás
Amerikai Angol 2019	eng_us_2019	googlebooks-eng-us-20200217	túlnyomórészt angol nyelvű könyvek, amelyek az Egyesült Államokban jelentek meg.
Amerikai Angol 2012	angol_us_2012	googlebooks-eng-us-all-20120701
Amerikai Angol 2009	angol_us_2009	googlebooks-eng-us-all-20090715
British English 2019	eng_gb_2019	googlebooks-eng-gb-20200217	túlnyomórészt angol nyelvű könyvek, amelyek Nagy-Britanniában jelentek meg.
Brit angol 2012	eng_gb_2012	googlebooks-eng-gb-all-20120701
Brit angol 2009	eng_gb_2009	googlebooks-eng-gb-all-20090715
angol 2019	eng_2019	googlebooks-eng-20200217	túlnyomórészt angol nyelvű, bármely országban megjelent könyvek.
angol 2012	angol_2012	googlebooks-eng-all-20120701
angol 2009	angol_2009	googlebooks-eng-all-20090715
English Fiction 2019	eng_fiction_2019	googlebooks-eng-fiction-20200217	túlnyomórészt angol nyelvű könyvek, amelyeket egy könyvtár vagy kiadó fikcióként azonosított.
angol szépirodalom 2012	eng_fiction_2012	googlebooks-eng-fiction-all-20120701
angol szépirodalom 2009	eng_fiction_2009	googlebooks-eng-fiction-all-20090715
angol egymillió	eng_1m_2009	googlebooks-eng-1M-20090715	a “Google millió”. Minden angol nyelven van, a dátumok 1500-tól 2008-ig terjednek. Évente legfeljebb 6000 könyvet választottak ki, ami azt jelenti, hogy a korai évek összes beolvasott könyve jelen van, a későbbi évek könyvei pedig véletlenszerűen kerülnek mintavételre. A véletlenszerű mintavételek az év tárgyi eloszlását tükrözik (tehát több számítógépes könyv van 2000-ben, mint 1980-ban).
Kínai 2019	chi_sim_2019	googlebooks-chi-sim-20200217	könyvek túlnyomórészt egyszerűsített kínai írásmóddal.
Kínai 2012	chi_sim_2012	googlebooks-chi-sim-all-20120701
Kínai 2009	chi_sim_2009	googlebooks-chi-sim-all-20090715
francia 2019	fre_2019	googlebooks-fre-20200217	könyvek túlnyomórészt francia nyelven.
francia 2012	fre_2012	googlebooks-fre-all-20120701
francia 2009	fre_2009	googlebooks-fre-all-20090715
német 2019	ger_2019	googlebooks-ger-20200217	túlnyomórészt német nyelvű könyvek.
német 2012	ger_2012	googlebooks-ger-all-20120701
német 2009	ger_2009	googlebooks-ger-all-20090715
Héber 2019	heb_2019	googlebooks-heb-20200217	a könyvek túlsúlyban voltak a héber nyelven.
Héber 2012	heb_2012	googlebooks-heb-all-20120701
Héber 2009	heb_2009	googlebooks-heb-all-20090715
spanyol 2019	spa_2019	googlebooks-spa-20200217	Könyvek túlnyomórészt spanyol nyelven.
spanyol 2012	spa_2012	googlebooks-spa-all-20120701
spanyol 2009	spa_2009	googlebooks-spa-all-20090715
orosz 2019	rus_2019	googlebooks-rus-20200217	túlnyomórészt orosz nyelvű könyvek.
orosz 2012	rus_2012	googlebooks-rus-all-20120701
orosz 2009	rus_2009	googlebooks-rus-all-20090715
olasz 2019	ita_2019	googlebooks-ita-20200217	könyvek túlnyomórészt olasz nyelven.
olasz 2012	ita_2012	googlebooks-ita-all-20120701	könyvek túlnyomórészt olasz nyelven.

a 2009-es verziókhoz képest a 2012-es és 2019-es verziók több könyvet, továbbfejlesztett OCR-t, továbbfejlesztett könyvtárat és publishermetadata-t tartalmaznak. A 2012-es és 2019-es verziók szintén nem alkotnak olyan ngramokat, amelyek keresztezik a sentenceboundaries-t, és nem alkotnak ngramokat az oldalhatárokon keresztül, ellentétben a 2009-es verziókkal.

a 2012-es és 2019-es korpuszokkal a tokenizálás is javult, kézzel kidolgozott szabályok alkalmazásával (kivéve a kínait, ahol astatisztikai rendszert használnak a szegmentáláshoz). A 2009-es korpuszokban a tokenizálás egyszerűen a szóközökön alapult.

Keresés a Google Könyvekben

a grafikon alatt “érdekes” évtartományokat mutatunk be a lekérdezésekhez. Ha ezekre kattint, a lekérdezést közvetlenül a GoogleBooks-ba küldi. Vegye figyelembe, hogy az Ngram Viewer nagybetűérzékeny, de a Google Bookssearch eredményei nem.

ezek a keresések olyan kifejezéseket eredményeznek, amelyek nyelvénevercorpus kiválasztotta, de az eredményeket a teljes GoogleBooks korpusz adja vissza. Tehát, ha az Ngram Viewer segítségével keres egy francia kifejezést a francia korpuszban,majd átkattint a Google könyvekre, akkor a keresés ugyanarra a francia kifejezésre vonatkozik-ami előfordulhat egy könyvben, főleg egy másik nyelven.

GYIK

miért nem látom a várt eredményeket?

talán az alábbi okok valamelyike miatt:

az Ngram Viewer nagybetűérzékeny. Próbálja meg nagybetűvel írni a lekérdezést, vagy jelölje be a keresőmező jobb oldalán található “kisbetűérzékeny”négyzetet.

váratlan korpuszban keres. Például, Frankenstein nem jelenik meg az orosz könyvekben, tehát ha az orosz korpuszban keres, síkvonalat fog látni. Kiválaszthatja a korpuszt a keresőmező alatti legördülő menüből, vagy a korpuszválasztó operátoron keresztül, például Frankenstein:eng_2019.

a kifejezésben vessző, pluszjel, kötőjel, csillag, kettőspont vagy előre mutató perjel van. Ezeknek különleges jelentése van az NgramViewer számára; lásd: speciális használat. Próbálja meg szögletes zárójelbe tenni a kifejezést (bár ez nem segít vesszővel).

hogyan kezeli az Ngram Viewer az írásjeleket?

az adott nyelvre jellemző tokenizációs szabályokat alkalmazunk. Angolul az összehúzódások két szóvá válnak (őklesz a bigram ők, mi lesz mi lesz, stb.). A birtokos ‘s is szét van választva, de az R’ n ‘ B továbbra is egy token. A negációkat (nem) úgy formalizálják, hogy ne váljon ne. Az orosz nyelvben a diakritikus 6-ot E-re normalizálják, és így tovább. Ugyanezek a szabályok vonatkoznak mind a felhasználók által beírt, mind a korpuszokból kivont Ngram-ok elemzésére, ami azt jelenti, hogy ha keresd ne, ne ijedjen meg attól a ténytől, hogy az Ngram-Nézőújraírja, hogy ne; pontosan ábrázolja mind a nem, mind a nem a korpuszban. Ez azonban azt jelenti, hogy nincs mód arra, hogy kifejezetten megkeressük a specificforms can ‘ t (vagy cannot) – t: kapsz nemés nem tud és nem tud egyszerre.

hogyan tekinthetem meg a mintahasználatokat a kontextusban?

az Ngram Viewer chart alatt egy előre definiált táblázatot adunk a Google Könyvek kereséseiről, amelyek mindegyike évekre szűkült. A tartományokat az érdekesség szerint választjuk: ha egy ngram-nak egy adott évben hatalmas csúcsa van, akkor ez önmagában keresésként jelenik meg, más, hosszabb időtartamú keresésekkel.

a 2019-es Ngram Viewer corpustól eltérően a Google Books corpus nincs címkézve. Nem lehet keresni, mondjuk, az igefordítás a Google Könyvekben. Tehát minden olyan Ngram, amelynek része a beszédcímke (pl., cheer_VERB) ki vannak zárva a GoogleBooks keresések táblázatából.

az Ngram Viewer rendelkezik 2009-es, 2012-es és 2019-es korpuszokkal, de a Google Booksdoesn nem így működik. Amikor a Google Könyvekben keres, az összes jelenleg elérhető könyvet megkeresi, így lehet némi különbség a Google Könyvekben látottak és az Ngram megjelenítő diagramja alapján várhatóan látottak között.

miért látok több tüskét és fennsíkot az első években?

a kiadás viszonylag ritka esemény volt a 16.és 17. században. (Csak körülbelül 500 000 könyv jelent megangolul a 19.század előtt.) Tehát, ha egy kifejezés egy könyvben fordul elő egy év alatt, de nem az előző vagy a következő években, akkor az ataller tüskét hoz létre, mint a későbbi években.

a fennsíkok általában egyszerűen simított tüskék. Változtassa meg a simítást0-ra.

mit jelent a “simítás”?

a trendek gyakran nyilvánvalóbbá válnak, ha az adatokat mozgó átlagnak tekintik. Az 1-es simítás azt jelenti, hogy az 1950-re bemutatott adatok az 1950-es nyers szám átlaga plusz 1 érték mindkét oldalon:(“count for 1949” + “count for 1950” + “count for 1951”), osztva 3. Tehát a 10-es simítás azt jelenti, hogy 21 értéket átlagolunk: 10 egyoldalúan, plusz a célérték a közepén.

a grafikon bal és jobb szélén kevesebb érték látható. A 3-as simítással a bal szélső érték (pretendit az 1950-es év) a következőképpen kerül kiszámításra (“count for 1950” + “count for 1951” + “count for 1952” + “count for 1953”), osztva 4-gyel.

a 0 simítás azt jelenti, hogy egyáltalán nincs simítás: csak nyers adatok.

sokkal több könyv jelenik meg a modern években. Ez nem torzítja az eredményeket?

lenne, ha nem normalizálnánk a kiadott könyvek számátminden évben.

miért mutat 0% síkvonalat, amikor tudom, hogy a myquery kifejezés legalább egy könyvben történt?

nagy terhelés alatt az Ngram Viewer néha visszatér aflatline; reload annak megerősítésére, hogy valójában nincs találat a kifejezéshez. Ezenkívül csak azokat az Ngram-okat vesszük figyelembe, amelyek legalább 40-ben fordulnak előkönyveket. Ellenkező esetben az adatkészlet léggömb méretű lenne, és nem tudnánk mindet felajánlani.

mennyire pontos a beszédrészek címkézése?

a beszédrész-címkék és a függőségi kapcsolatok automatikusan előre vannak jelezve. Ezen előrejelzések pontosságának értékelése nehéz, de a modern angol nyelv esetében arra számítunk, hogy a beszédrész címkék pontossága körülbelül 95%, a függőségi kapcsolatok pontossága pedig 85% körül lesz. A régebbi angol szövegeknél és más nyelveknéla pontosság alacsonyabb, de valószínűleg 90% felett van a beszédrészcímkéknél, és 75% felett a függőségeknél. Ez jelentős számot jelenthibák, amelyeket figyelembe kell venni a rajzolás soránkövetkeztetéseket.

a beszédrész címkék egy kis oktatókészletből készülnek(csupán millió szó az angolra). Ez néha nem gyakori szokásokat jelent, például zöld vagy dogor könyv igékként, vagy kérdezzen főnévként.

kiegészítő megjegyzés a kínaiakról: a 20.század előtt a klasszikus kínai nyelvet hagyományosan minden írásbeli kommunikációhoz használták. A klasszikus kínai nyelv az ősi kínai nyelvtan és szókincsén alapul, ezért a szintaktikai megjegyzések gyakrabban tévednek, mint igazak.

ezenkívül vegye figyelembe, hogy a 2009-es korpuszok nem voltak a beszéd részének címkézve.

az eredmények alapján írok egy tanulmányt. Hogyan idézhetem a munkádat?

ha ezeket az adatokat tudományos publikációhoz kívánja felhasználni, kérjük, idézze az eredeti cikket:

Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, a Google Könyvek csapata,Joseph P. A második világháború után a német-római birodalom része lett, a második világháború után pedig a német-római birodalom része lett.A kultúra kvantitatív elemzése digitalizált milliók Segítségévelkönyveket. Tudomány (megjelent online előtt print: 12/16/2010)

mi is van egy papír a rész-of-beszéd címkézés:

Jurij Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant,William Brockman, Slav Petrov.Szintaktikai megjegyzések A Google Books Ngram Corpus-hoz. A számítástechnikai nyelvi Szövetség 50. éves ülésének folyamatai2. kötet: Demo Papers (ACL ’12) (2012)

letölthetem az adatait a saját kísérleteim futtatásához?

Igen! Az ngram adatok elérhetőkletöltés itt. Annak érdekében, hogy a fájlméretek kezelhetők legyenek, a kezdőbetűjük szerint csoportosítottuk őket, majd a különböző ngram méreteket külön fájlokba csoportosítottuk. Az ngrams withineach fájl nincs betűrendben rendezve.

géppel olvasható fájlnevek létrehozásához átírtuk a nem római (kínai, héber, orosz) szkripteket használó nyelvek thengram-ját,és a transzliterált ngram kezdőbetűjét használtuk a fájlnév meghatározásához. Ugyanezt a megközelítést alkalmazták a karaktereknélmint például a német nyelvben a 6. Ne feledje, hogy a transzliteráció voltcsak a fájlnév meghatározására használják; a tényleges Ngram-okat inutf-8 kódolják a nyelvspecifikus ábécé segítségével.