Google Ngram Viewer

mitä Ngram-katsoja tekee?

kun syötät lauseita Google Books Ngram Vieweriin, se näyttää graafin, joka näyttää, miten nämä lauseet ovat esiintyneet kirjoina (esim.”British English”, ”English Fiction”, ”French”) valittujen vuosien aikana. Katsotaanpa näyte kaavio:

tämä osoittaa suuntaukset kolmessa ngrams vuodesta 1960 vuoteen 2015: ”nurseryschool” (2 gramma tai bigram), ”kindergarten”(1 gramma tai unigram), ja ”lastenhoito” (anotherbigram). Mitä y-akseli osoittaa on tämä: kaikista bigrams sisältämästämme otos kirjoja kirjoitettu Englanti ja julkaistu Yhdistyneissä valtioissa, mikä prosenttiosuus niistä on ”lastentarha” tai ”lastenhoito”?Kaikista unigrameista, mikä prosenttiosuus niistä on ”lastentarha”?Tässä, voit nähdä, että sanan ”lastenhoito” käyttö alkoi nousu1960-luvun lopulla, ohittaen ”lastentarha” noin 1970 ja sitten”lastentarha” noin 1973. Se saavutti huippunsa pian vuoden 1990 jälkeen, ja se on laskenut tasaisesti siitä lähtien.

(mielenkiintoista on, että tulokset eroavat huomattavasti, kun thecorpus vaihdetaan Brittienglantiin.)

voit leijua viivan tontin yli ngramille, joka korostaa sitä. Witha vasemmalle-klikkaa rivin juoni, voit keskittyä tiettyyn ngram, harmaantuvat muut ngrams kaaviossa, jos mitään. Myöhemmissä leftclicks muilla line tontteja kaaviossa, useita ngrams canbe keskittynyt. Voit kaksoisnapsauttaa mitä tahansa kaavion aluetta palauttaaksesi kaikki ngrams-ohjelmat kyselyssä.

voit myös määrittää yleismerkkejä kyselyissä, etsiä taivutuksia, tehdä merkkiäänetöntä hakua, etsiä tiettyjä puheen osia tai lisätä, vähentää ja jakaa ngrameja.Lisätietoja kehittyneen käytön alaisista.

Advanced Usage

muutamat ngram-katseluohjelman ominaisuudet voivat vedota käyttäjiin,jotka haluavat kaivaa hieman syvemmälle fraasien käyttöön: jokerikorttien haku, taivutushaku,kirjainhaku, puhetunnisteiden osa ja ngram-sommitelmat.

Jokerihaku

kun sanan tilalle laitetaan*, ngram-katsoja näyttää kymmenen parasta sijamuotoa.Esimerkiksi, löytää suosituimmat sanat seuraavat ”University of”, etsi ” University of*”.

voit napsauttaa mitä tahansa korvaavaa ngramia hiiren kakkospainikkeella ja romahduttaa ne kaikki alkuperäiseen yleismerkkikyselyyn, jolloin tuloksena on korvausten vuosittainen summa. Seuraava hiiren kakkospainikkeella laajentaa yleismerkin kyselyn takaisin kaikki korvaavat. Huomaa, että Ngram Viewer tukee vain yhtä * per ngram.

huomaa, että kymmenen parasta korvaajaa lasketaan määrätylle aikajänteelle. Eri vuosiluokkiin voi siis saada erilaisia korvaajia. Olemme suodattaneet välimerkit top ten-luettelosta, mutta sanoissa, jotka usein alkavat tai päättyvät lauseet, saatat nähdä yhden lauseen rajasymbolin (_START_ tai _END_) yhtenä korvaajana.

Taivutushaku

taivutushaku on sanan muunnos, joka edustaa erilaisia kieliopillisia kategorioita, kuten aspektia, tapausta, sukupuolta, mielialaa, lukua, henkilöä, aikamuotoa ja ääntä. Voit etsiä niitä liittämällä _INF: n ngramiin. Esimerkiksi Haku ”book_INF a hotel” näyttää tulokset ”book”, ”booked”, ”books ” ja”booking”:

oikealla naksautuksella mikä tahansa taivutus romahtaa kaikki muodot yhteen. Huomaa, että Ngram-katseluohjelma tukee vain yhtä _INF-avainsanaa kyselyä kohden.

Varoitus: Et voi vapaasti sekoittaa jokerimerkkien hakuja, taivutuksia ja asiattomia hakuja yhteen tiettyyn ngramiin.Voit kuitenkin hakea jommallakummalla näistä ominaisuuksista erillisiä ngramia kyselyssä: ”book_INF a hotel, book * hotel” on hieno, mutta ”book_INF * hotel” ei.

asiaton haku

oletusarvoisesti ngram-katsoja suorittaa kirjainherkät haut: Capitalisation matters. Voit tehdä kirjainherkän haun valitsemalla” kirjainherkän ” valintaruudun oikealla puolella. Ngram-katsoja näyttää sitten syöttökyselyn yleisimpien kirjainherkkien varianttien vuosittaisen summan. Tässä on kaksi kirjainherkkää ngramia, ”Fitzgerald”ja ” Dupont”:

oikealla klikkauksella mikä tahansa vuosittainen summa johtaa laajenemiseen yleisimmiksi kirjainherkiksi muunnoksiksi. Esimerkiksi oikealla klikkauksella ” Dupont (All) ”saadaan seuraavat neljä vaihtoehtoa:” DuPont”,” Dupont”,” duPont ”ja”DUPONT”.

osapuhetunnisteet

käsittävät sanan taklaus, joka voi olla verbi (”taklata”) tai substantiivi (”kalastustaklaus”). Voit erottaa nämä eri muodot liittämällä _VERBor _NOUN:

tägien täydellinen luettelo on seuraava:

_NOUN_ nämä tagit voivat olla joko yksin (_PRON_)
tai ne voidaan liittää sanaan (she_PRON)
_VERSI
_ADJ_ adjektiivi
_ADV_ adverbi
_PRON_ pronomini
_DET_ determiner tai article
_LISÄÄ_ adpositio: joko prepositio tai postpositio
_NUM_ numero
_KONJ_ Konjunktio
_PRT_ hiukkanen
_ROOT_ jäsenpuun juuri näiden tägien on pysyttävä yksinään (esim., _KÄYNNISTÄ)
_ALKU_ lauseen alku
_LOPPU_ lauseen loppu

koska part-of-speech-tageja ei tarvitse liittää tiettyihin sanoihin, voit käyttää DET-tagia etsiäksesi lukea kirjaa, lukea kirjaa, lukea kirjaa, lukea kirjaa,lukea tätä kirjaa ja niin edelleen seuraavasti:

jos haluat tietää, mitkä ovat yleisimmät määrittäjät tässä yhteydessä, voit yhdistää jokerimerkkejä ja part-of-speech-tageja lukeaksesi *_DET-kirjaa:

saadaksesi kaikki sanakirjan eri taivutusmuodot, joita on seurannut substantiivi korpuksessa, voit antaa kyselykirjan_inf _NOUN_:

useimmin puhekielen tagit sanalle voidaan hakea yleismerkkitoiminnolla. Harkitse kyselyä cook_*:

taivutussanalla voidaan yhdistää myös osapuheen tunnisteita. Harkitse esimerkiksi alla olevaa kyselyä cook_INF, cook_VERB_INF, joka erottaa ”cook” – sanan verbaalisen merkityksen taivutukset:

Ngram-katseluohjelma tägää lauserajat, jolloin ngrams voidaan tunnistaa lauseiden alussa ja lopussa alku-ja lopputunnisteilla:

joskus se auttaa ajattelemaan sanoja riippuvuuden kannalta kuvioiden sijaan. Oletetaan, että haluat tietää, mitenusein maukas muuttaa jälkiruoka. Eli haluat täysin mainintoja maukas jäädytetty jälkiruoka, rapea, maistuva, maukas mutta kallis jälkiruoka, ja kaikki muutinstanssit, joissa sana maukas sovelletaan jälkiruoka.Sille Ngram-katsoja tarjoaa riippuvuussuhteita the => – operaattorin kanssa:

jokaisella jäsennetyllä lauseella on _ROOT_. Toisin kuin muut tagit, _ROOT_ ei tarkoita tiettyä sanaa tai paikkaa lauseessa. Se on jäsenpuun juuri, joka on rakennettu analysoimalla syntaksia; voit ajatella sitä paikkamerkkinä sille, mitä lauseen pääverbi muokkaa. Näin tunnistat kuinka usein tahto oli lauseen pääverbi:

yllä olevassa kaaviossa olisi lause Larry willdecide. mutta Larry ei sanonut,että hän päättää, koska will ei ole tuon lauseen pääverbi.

riippuvuudet voidaan yhdistää yleismerkkeihin. Harkitse esimerkiksi kyselyjuomaa=>*_NOUN alla:

”puhtaita” osapuhemerkkejä voi sekoittaa vapaasti tavallisiin sanoihin 1-, 2-, 3-, 4-, ja 5 grammaa (esim._ADJ_ toast tai _DET__ADJ_ toast).

Ngram-sävellykset

Ngram-katseluohjelma tarjoaa viisi operaattoria, joita voit käyttää yhdistelläksesiengrameja:+, -,/,*, ja :.

+ summaa ilmaisut molemmin puolin, joten voit yhdistää useita ngram aikasarjoja yhdeksi.
vähentää oikealla olevan lausekkeen vasemmalla olevasta lausekkeesta, antaen sinulle tavan mitata yksi ngram suhteessa toiseen. Koska käyttäjät haluavat usein etsiä yhdyslauseita, laita välilyöntejä merkin kummallekin puolelle.
/ jakaa vasemmalla olevan lausekkeen oikealla olevalla lausekkeella, joka on hyödyllinen eristettäessä ngramin käyttäytymistä suhteessa toiseen.
* moninkertaistaa vasemmalla olevan lausekkeen oikealla olevalla numerolla, jolloin on helpompi vertailla hyvin erilaisten taajuuksien ngramia. (Muista sulkea koko ngram sulkuihin niin, että * ei tulkita yleismerkiksi.)
: soveltaa vasemmalla olevaa ngramia oikealla olevaan korpukseen, jolloin voit vertailla eri korpusten ngramia.

Ngram katsoja yrittää arvata, onko soveltaa thesebehaviors. Voit käyttää sulkuja pakottaa ne, ja squarebrackets pakottaa ne pois. Esimerkki: ja/tai willdivide ja BY tai; mitata käyttö thefrase ja / tai, käyttää .Ja hyvämerkitys etsii hyvämerkitystä; jos haluat vähentää merkityksen hyvämerkityksestä, käytä (hyvämerkitys).

osoittaaksesi + – operaattorin, näin voit löytää pelin, urheilun ja leikin summan:

määritettäessä, kirjoittivatko ihmiset enemmän valinnoista vuosien mittaan, voit verrata valintaa, valintaa, vaihtoehtoa ja vaihtoehtoa ja määritellä substantiivimuodot adjektiivisten muotojen välttämiseksi (esim. choice Delicious,alternativemusic):

ngram-vähennyslasku antaa helpon tavan verrata yhtä ngram-sarjaa toiseen:

Näin voit yhdistää + ja / osoittaa, miten sana applesauce on puhjennut kukkaan omenakastikkeen kustannuksella:

* operaattori on hyödyllinen, kun haluat verrata ngramia,joiden taajuus vaihtelee suuresti, kuten viulu ja esoteerisempi theremin:

corpus valinta operaattori voit verrata ngrams välinpitämättömiä kieliä, tai amerikkalainen vs. brittiläinen Englanti (tai fiktio), tai välillä 2009, 2012 ja 2019 versiot kirjamme skannaa.Tässä on chat englanniksi vs. sama unigram ranskaksi:

kun loimme alkuperäisen Ngram Viewer corporan vuonna 2009, ourOCR ei ollut yhtä hyvä kuin nykyään. Tämä oli erityisen selvää inpre-19th century Englanti, jossa pitkänomainen medial – S (ſ) oli usein tulkittu f, joten best oli usein lukea beft. Tässä on todisteita parannuksista, joita olemme tehneet sen jälkeen, käyttämällä corpus-operaattoria vertailemaan vuosien 2009, 2012 ja 2019 versioita:

vertaamalla kaunokirjallisuutta kaikkeen Englantiin voimme havaita, että velhon käyttö yleisenglannissa on viime aikoina yleistynyt kaunokirjallisuuden käyttötarkoituksiin verrattuna:

korporaatio

alla on kuvauksia korporaatiosta, joita voi etsiä theGoogle Books Ngram Viewer-ohjelmalla. Kaikki korporat on luotu heinäkuussa 2009, heinäkuussa 2012 ja helmikuussa 2020; päivitämme nämä korporat sitä mukaa kuin kirjansaneeraus jatkuu, ja päivitetyillä versioilla on erilliset persistentidentifierit. Ulkopuolelle jätettiin kirjat, joiden OCR-laatu ja sarja olivat heikot.

epävirallinen corpus-nimi Pikakirjoitus pysyvä tunniste kuvaus
Amerikanenglanti 2019 eng_us_2019 googlebooks-Eng-us-20200217 pääasiassa englanninkielisiä kirjoja, jotka julkaistiin Yhdysvalloissa.
Amerikanenglanti 2012 eng_us_2012 googlebooks-eng-us-all-20120701
Amerikanenglanti 2009 eng_us_2009 googlebooks-eng-us-all-20090715
British English 2019 eng_gb_2019 googlebooks-Eng-gb-20200217 pääasiassa englanninkielisiä kirjoja, jotka julkaistiin Isossa-Britanniassa.
brittienglanti 2012 eng_gb_2012 googlebooks-eng-gb-all-20120701
brittienglanti 2009 eng_gb_2009 googlebooks-eng-gb-all-20090715
Englanti 2019 eng_2019 googlebooks-eng-20200217 pääasiassa englanninkielisiä kirjoja, jotka on julkaistu missä tahansa maassa.
Englanti 2012 eng_2012 googlebooks-eng-all-20120701
Englanti 2009 eng_2009 googlebooks-eng-all-20090715
English Fiction 2019 eng_fiction_2019 googlebooks-Eng-fiction-20200217 Kirjat pääasiassa englanninkielisinä, jotka kirjasto tai kustantaja on todennut fiktioksi.
Finnish Fiction 2012 eng_fiction_2012 googlebooks-eng-fiction-all-20120701
Finnish Fiction 2009 eng_fiction_2009 googlebooks-eng-fiction-all-20090715
English One Million eng_1m_2009 googlebooks-eng-1m-20090715 the ”Google Million”. Kaikki ovat englanninkielisiä ja päivämäärät vaihtelevat 1500: sta vuoteen 2008. Yhdeltävuodelta valittiin enintään noin 6000 kirjaa, mikä tarkoittaa, että kaikki varhaisvuosilta skannatut kirjat ovat esillä, ja myöhempinä vuosina otettuja kirjoja satunnaisesti. Satunnaisotokset kuvastavat vuoden aihejakaumia (vuonna 2000 on enemmän tietokonekirjoja kuin vuonna 1980).
Kiina 2019 chi_sim_2019 googlebooks-chi-sim-20200217 Kirjat pääasiassa yksinkertaistetulla kiinalaisella kirjaimistolla.
Kiina 2012 chi_sim_2012 googlebooks-chi-sim-all-20120701
Kiina 2009 chi_sim_2009 googlebooks-chi-sim-all-20090715
Ranska 2019 fre_2019 googlebooks-fre-20200217 Kirjat pääasiassa ranskan kielellä.
Ranska 2012 fre_2012 googlebooks-fre-all-20120701
Ranska 2009 fre_2009 googlebooks-fre-all-20090715
Saksa 2019 ger_2019 googlebooks-ger-20200217 Kirjat pääasiassa saksan kielellä.
Saksa 2012 ger_2012 googlebooks-ger-all-20120701
Saksa 2009 ger_2009 googlebooks-ger-all-20090715
heprea 2019 heb_2019 googlebooks-heb-20200217 Kirjat hallitsevat heprean kieltä.
heprea 2012 heb_2012 googlebooks-heb-all-20120701
heprea 2009 heb_2009 googlebooks-heb-all-20090715
Espanja 2019 spa_2019 googlebooks-spa-20200217 Kirjat pääasiassa Espanjan kielellä.
Espanja 2012 spa_2012 googlebooks-spa-all-20120701
Espanja 2009 spa_2009 googlebooks-spa-all-20090715
Venäjä 2019 rus_2019 googlebooks-rus-20200217 Kirjat pääasiassa venäjän kielellä.
Venäjä 2012 rus_2012 googlebooks-rus-kaikki-20120701
Venäjä 2009 rus_2009 googlebooks-rus-kaikki-20090715
Italia 2019 ita_2019 googlebooks-ita-20200217 Kirjat pääasiassa Italian kielellä.
Italia 2012 ita_2012 googlebooks-ita-all-20120701

vuoden 2009 versioihin verrattuna vuosien 2012 ja 2019 versioihin havemore books, improved OCR, improved library and publishermetadata. Vuoden 2012 ja 2019 versiot eivät myöskään muodosta sentenceboundaries-rajoja ylittäviä ngrams-ohjelmia, vaan ne muodostavat ngrams-ohjelmia yli sivurajojen, toisin kuin vuoden 2009 versiot.

vuosien 2012 ja 2019 Korporaation myötä tokenisaatio on myös parantunut, käyttäen käsin laadittuja sääntöjä (lukuun ottamatta Kiinaa, jossa käytetään astatistista järjestelmää segmentointiin). Vuoden 2009 Korporaatiossa tokenisaatio perustui yksinkertaisesti tyhjämerkkeihin.

hakeminen Google Booksin sisältä

kaavion alapuolella näkyy” mielenkiintoisia ” vuosivälejä kyselyillesi. Klikkaamalla näitä lähettää kyselyn suoraan GoogleBooks. Huomaa, että Ngram Viewer on kirjainkoko, mutta Google Bookssearch tulokset eivät ole.

näissä hauissa esitetään lauseita valitsemallasi whichevercorpus-kielellä, mutta tulokset palautetaan kokonaisuudessaan GoogleBooks corpus-tietokannasta. Joten jos käytät Ngram Viewer etsiä ranskankielinen lause Ranskan corpus ja sitten klikkaa läpi Google Books, että haku on sama ranskalainen lause – joka saattaa esiintyä ina book pääasiassa toisella kielellä.

Usein kysyttyä

Miksi en näe odottamiani tuloksia?

ehkä jostain näistä syistä:

  • Ngram-katsoja on kirjainherkkä. Yritä isolla alkukirjaimella tai valitse hakukentän oikealla puolella oleva”tapaus-tunteeton” – ruutu.
  • etsit odottamatonta korpusta. Esimerkiksi Frankenstein ei esiinny venäläisissä kirjoissa, joten jos etsit venäläisestä korpuksesta, näet litteän viivan. Voit valita Corpuksen hakukentän alla olevasta pudotusvalikosta tai corpus selection-operaattorin kautta, esim.Frankenstein:eng_2019.
  • lauseessa on pilkku, plusmerkki, väliviiva, tähti, kaksoispiste tai etuviiva. Näillä on ngramviewerille erityisiä merkityksiä; katso Advanced Usage. Yritä liittää lause hakasulkeisiin (vaikka tämä ei auta pilkuissa).

miten Ngram-katsoja käsittelee välimerkkejä?

sovellamme tiettyä kieltä koskevia sanoitussääntöjä. Englanniksi supistuksista tulee kaksi sanaa (ne ’rebecomes the bigram they’ re, we ’ll becomes We”, ja niin edelleen). Possessiivi ’s On myös jaettu pois, mutta R’ n ’ b jää yhdeksi tokeniksi. Negaatiot (n ’t) arenormalisoidaan niin, että don’ t tulee do not. Venäjän kielessä diakriittinen ё normalisoituu E: ksi ja niin edelleen. Samoja sääntöjä sovelletaan jäsentämään sekä käyttäjien kirjoittamia ngrameja että korporaatiosta erotettuja ngrameja, mikä tarkoittaa, että jos etsit älä, älä hätäänny siitä, että Ngram-katselija kirjoittaa sen olevan ei; se kuvaa tarkasti Bothe don ’ t and do not in the corpus. Tämä tarkoittaa kuitenkin, että ei ole mitään keinoa etsiä nimenomaisesti tiettyjä lomakkeita ei voi (tai ei voi): saat can ’ Tand ei voi ja ei voi kaikki kerralla.

Miten voin nähdä otosten käytön kontekstissa?

Ngram-Katselijakaavion alapuolella on taulukko ennalta määritetyistä gogle-kirjojen hauista, joista jokainen on rajattu vuosien vaihteluväliin. Valitsemme vaihteluvälit kiinnostavuuden mukaan: jos ngramilla on valtava huippu tiettynä vuonna, se näkyy itsestään Hakuna, jonka muut haut kattavat pidempiä ajanjaksoja.

toisin kuin vuoden 2019 Ngram Viewer corpus, Google Books corpus isn ’ tpart-of-speech tagged. Google-kirjoista ei voi etsiä vaikkapa hurraamisen verbimuotoa. Joten kaikki ngrams kanssa osa-Of-speechtags (esim., cheer_VERB) eivät kuulu Googlelooksien hakujen taulukkoon.

Ngram-katselijalla on 2009, 2012 ja 2019 korporaatio, mutta Google-kirjat eivät toimi niin. Kun etsit Google Booksista, etsit Kaikki tällä hetkellä saatavilla olevat kirjat, joten saattaa olla joitakin eroja sen välillä, mitä näet Google Booksissa ja mitä odottaisit näkeväsi, kun otetaan huomioon Ngram-Katselukaavio.

Miksi näen alkuvuosina enemmän piikkejä ja tasankoja?

julkaiseminen oli suhteellisen harvinainen tapahtuma 16. ja 17. (Englanninkielisiä kirjoja on julkaistu vain noin 500 000 kappaletta ennen 1800-lukua.) Joten jos lause esiintyy yhdessä kirjassa yhtenä vuonna, mutta ei edeltävinä tai seuraavina vuosina, se luo pienemmän piikin kuin se olisi myöhempinä vuosina.

tasanteet ovat yleensä yksinkertaisesti siloiteltuja piikkejä. Vaihda tasaus 0.

mitä ”silottaminen” tarkoittaa?

usein trendit korostuvat, kun aineistoa pidetään liikkuvana keskiarvona. Tasoitus 1 tarkoittaa, että vuoden 1950 osalta esitetyt tiedot ovat vuoden 1950 raakamäärän keskiarvo lisättynä 1 arvolla kummallakin puolella.:(”count for 1949” + ”count for 1950” + ”count for 1951”), jaettuna 3: lla. Joten tasoitus 10 tarkoittaa, että 21 arvot on keskiarvo: 10 oneither puolella, plus tavoitearvo keskellä niitä.

kaavion vasemmassa ja oikeassa reunassa on vähemmän arvoja. Kun tasoitus on 3, vasemmanpuoleisin arvo (pretendit ’ s the year 1950) lasketaan seuraavasti (”count for 1950” + ”count for 1951” + ”count for 1952” + ”count for 1953”), jaettuna 4: llä.

tasoitus 0 tarkoittaa, että tasoitusta ei ole lainkaan: vain raakadataa.

nykyaikana julkaistaan vielä paljon kirjoja. Eikö tämä vääristä tuloksia?

olisi, jos emme normalisoituisi kunkin vuoden aikana julkaistujen kirjojen määrän mukaan.

miksi näytät 0%: n tasaviivan, kun tiedän, että myqueryn lause on esiintynyt ainakin yhdessä kirjassa?

raskaassa kuormituksessa ngram-katsoja palaa joskus aflatlinelle; lataa uudelleen vahvistaakseen, ettei itse asiassa ole osumia thefraselle. Lisäksi otamme huomioon vain ngrams, jotka esiintyvät vähintään 40books. Muuten aineisto olisi ilmapallo kooltaan ja emme olisi mahdollista tarjota niitä kaikkia.

kuinka tarkka puheen osamerkintä on?

puheen osalaput ja riippuvuussuhteet ennustetaan automaattisesti. Ennusteiden paikkansapitävyyden arvioiminen on vaikeaa, mutta nyky-englannin kielessä odotamme puhetunnisteiden tarkkuuden olevan noin 95% ja riippuvuussuhteiden tarkkuuden olevan noin 85%. Vanhemmalla englanninkielisellä tekstillä ja muilla kielillätarkkuudet ovat alhaisemmat, mutta todennäköisesti yli 90% osapuhetunnisteilla ja yli 75% riippuvuuksilla. Tähän liittyy huomattava määrä virheitä, jotka olisi otettava huomioon päätelmiä laadittaessa.

osapuhelaput on rakennettu pienestä harjoitussarjasta (vaivaiset miljoona sanaa englanniksi). Tämä edustaa joskus epätavallisia käyttötapoja, kuten vihreää tai dogoria tai kirjaa verbeinä tai Kysy substantiivina.

lisähuomautus kiinan kielestä: ennen 1900-lukua klassikkokiinaa käytettiin perinteisesti kaikessa kirjallisessa viestinnässä. Klassinen Kiina perustuu muinaiskiinan kielioppiin ja sanastoon, ja syntaktiset merkinnät ovat siksi useammin väärässä kuin oikeassa.

huomaa myös, että vuoden 2009 korporaatio ei ole ollut osapuheenvuorossa.

kirjoitan tutkielmaa tuloksesi perusteella. Miten voin siteerata työtäsi?

jos aiot käyttää näitä tietoja akateemisessa julkaisussa, siteeraa alkuperäistä paperia:

Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, the Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig,Jon Orwant, Steven Pinker, Martin A. Nowak ja Erez Lieberman Aiden*.Kulttuurin kvantitatiivinen analyysi käyttäen miljoonia digitoituja kirjoja. Tiede (julkaistu verkossa ennen printtiä: 12/16/2010)

meillä on myös paperi puheosastolla:

Juri Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant,William Brockman, Slav Petrov.Syntaktisia huomautuksia Google Books Ngram Corpus. Laskennallisen lingvistiikan yhdistyksen 50. vuosikokouksen tulokset 2: Demopaperit (ACL ’12) (2012)

Voinko ladata tietosi suorittaakseni omia kokeilujani?

Kyllä! Ngram-tiedot ovat ladattavissa täältä. Jotta tiedostokoot olisivat hallittavissa, olemme ryhmitelleet ne niiden alkukirjaimen mukaan ja ryhmitelleet eri ngram-koot erillisiin tiedostoihin. Ngrams withineach-tiedostoa ei ole järjestetty aakkosjärjestyksessä.

koneellisesti luettavien tiedostonimien luomiseksi translitteroimme thengrameja kielille, jotka käyttävät ei-roomalaisia skriptejä (kiina,heprea, venäjä) ja käytimme translitteroidun ngramin alkukirjainta määrittääksemme tiedostonimen. Samaa lähestymistapaa käytettiin hahmoihin, kuten saksaksi ä. Huomaa, että translitterointia käytettiin vain tiedostonimen määrittämiseen; varsinaiset ngramit koodataan inutf-8 käyttäen kielikohtaista aakkostoa.

haluaisin julkaista Ngram-graafin kirjassani / lehdessäni/blogissani / esityksessäni. Mitkä ovat lisenssiehdot?