Google Ngram Viewer
mitä Ngram-katsoja tekee?
kun syötät lauseita Google Books Ngram Vieweriin, se näyttää graafin, joka näyttää, miten nämä lauseet ovat esiintyneet kirjoina (esim.”British English”, ”English Fiction”, ”French”) valittujen vuosien aikana. Katsotaanpa näyte kaavio:
tämä osoittaa suuntaukset kolmessa ngrams vuodesta 1960 vuoteen 2015: ”nurseryschool” (2 gramma tai bigram), ”kindergarten”(1 gramma tai unigram), ja ”lastenhoito” (anotherbigram). Mitä y-akseli osoittaa on tämä: kaikista bigrams sisältämästämme otos kirjoja kirjoitettu Englanti ja julkaistu Yhdistyneissä valtioissa, mikä prosenttiosuus niistä on ”lastentarha” tai ”lastenhoito”?Kaikista unigrameista, mikä prosenttiosuus niistä on ”lastentarha”?Tässä, voit nähdä, että sanan ”lastenhoito” käyttö alkoi nousu1960-luvun lopulla, ohittaen ”lastentarha” noin 1970 ja sitten”lastentarha” noin 1973. Se saavutti huippunsa pian vuoden 1990 jälkeen, ja se on laskenut tasaisesti siitä lähtien.
(mielenkiintoista on, että tulokset eroavat huomattavasti, kun thecorpus vaihdetaan Brittienglantiin.)
voit leijua viivan tontin yli ngramille, joka korostaa sitä. Witha vasemmalle-klikkaa rivin juoni, voit keskittyä tiettyyn ngram, harmaantuvat muut ngrams kaaviossa, jos mitään. Myöhemmissä leftclicks muilla line tontteja kaaviossa, useita ngrams canbe keskittynyt. Voit kaksoisnapsauttaa mitä tahansa kaavion aluetta palauttaaksesi kaikki ngrams-ohjelmat kyselyssä.
voit myös määrittää yleismerkkejä kyselyissä, etsiä taivutuksia, tehdä merkkiäänetöntä hakua, etsiä tiettyjä puheen osia tai lisätä, vähentää ja jakaa ngrameja.Lisätietoja kehittyneen käytön alaisista.
Advanced Usage
muutamat ngram-katseluohjelman ominaisuudet voivat vedota käyttäjiin,jotka haluavat kaivaa hieman syvemmälle fraasien käyttöön: jokerikorttien haku, taivutushaku,kirjainhaku, puhetunnisteiden osa ja ngram-sommitelmat.
Jokerihaku
kun sanan tilalle laitetaan*, ngram-katsoja näyttää kymmenen parasta sijamuotoa.Esimerkiksi, löytää suosituimmat sanat seuraavat ”University of”, etsi ” University of*”.
voit napsauttaa mitä tahansa korvaavaa ngramia hiiren kakkospainikkeella ja romahduttaa ne kaikki alkuperäiseen yleismerkkikyselyyn, jolloin tuloksena on korvausten vuosittainen summa. Seuraava hiiren kakkospainikkeella laajentaa yleismerkin kyselyn takaisin kaikki korvaavat. Huomaa, että Ngram Viewer tukee vain yhtä * per ngram.
huomaa, että kymmenen parasta korvaajaa lasketaan määrätylle aikajänteelle. Eri vuosiluokkiin voi siis saada erilaisia korvaajia. Olemme suodattaneet välimerkit top ten-luettelosta, mutta sanoissa, jotka usein alkavat tai päättyvät lauseet, saatat nähdä yhden lauseen rajasymbolin (_START_ tai _END_) yhtenä korvaajana.
Taivutushaku
taivutushaku on sanan muunnos, joka edustaa erilaisia kieliopillisia kategorioita, kuten aspektia, tapausta, sukupuolta, mielialaa, lukua, henkilöä, aikamuotoa ja ääntä. Voit etsiä niitä liittämällä _INF: n ngramiin. Esimerkiksi Haku ”book_INF a hotel” näyttää tulokset ”book”, ”booked”, ”books ” ja”booking”:
oikealla naksautuksella mikä tahansa taivutus romahtaa kaikki muodot yhteen. Huomaa, että Ngram-katseluohjelma tukee vain yhtä _INF-avainsanaa kyselyä kohden.
Varoitus: Et voi vapaasti sekoittaa jokerimerkkien hakuja, taivutuksia ja asiattomia hakuja yhteen tiettyyn ngramiin.Voit kuitenkin hakea jommallakummalla näistä ominaisuuksista erillisiä ngramia kyselyssä: ”book_INF a hotel, book * hotel” on hieno, mutta ”book_INF * hotel” ei.
asiaton haku
oletusarvoisesti ngram-katsoja suorittaa kirjainherkät haut: Capitalisation matters. Voit tehdä kirjainherkän haun valitsemalla” kirjainherkän ” valintaruudun oikealla puolella. Ngram-katsoja näyttää sitten syöttökyselyn yleisimpien kirjainherkkien varianttien vuosittaisen summan. Tässä on kaksi kirjainherkkää ngramia, ”Fitzgerald”ja ” Dupont”:
oikealla klikkauksella mikä tahansa vuosittainen summa johtaa laajenemiseen yleisimmiksi kirjainherkiksi muunnoksiksi. Esimerkiksi oikealla klikkauksella ” Dupont (All) ”saadaan seuraavat neljä vaihtoehtoa:” DuPont”,” Dupont”,” duPont ”ja”DUPONT”.
osapuhetunnisteet
käsittävät sanan taklaus, joka voi olla verbi (”taklata”) tai substantiivi (”kalastustaklaus”). Voit erottaa nämä eri muodot liittämällä _VERBor _NOUN:
tägien täydellinen luettelo on seuraava:
_NOUN_ | nämä tagit voivat olla joko yksin (_PRON_) tai ne voidaan liittää sanaan (she_PRON) |
|
_VERSI | ||
_ADJ_ | adjektiivi | |
_ADV_ | adverbi | |
_PRON_ | pronomini | |
_DET_ | determiner tai article | |
_LISÄÄ_ | adpositio: joko prepositio tai postpositio | |
_NUM_ | numero | |
_KONJ_ | Konjunktio | |
_PRT_ | hiukkanen | |
_ROOT_ | jäsenpuun juuri | näiden tägien on pysyttävä yksinään (esim., _KÄYNNISTÄ) |
_ALKU_ | lauseen alku | |
_LOPPU_ | lauseen loppu |
koska part-of-speech-tageja ei tarvitse liittää tiettyihin sanoihin, voit käyttää DET-tagia etsiäksesi lukea kirjaa, lukea kirjaa, lukea kirjaa, lukea kirjaa,lukea tätä kirjaa ja niin edelleen seuraavasti:
jos haluat tietää, mitkä ovat yleisimmät määrittäjät tässä yhteydessä, voit yhdistää jokerimerkkejä ja part-of-speech-tageja lukeaksesi *_DET-kirjaa:
saadaksesi kaikki sanakirjan eri taivutusmuodot, joita on seurannut substantiivi korpuksessa, voit antaa kyselykirjan_inf _NOUN_:
useimmin puhekielen tagit sanalle voidaan hakea yleismerkkitoiminnolla. Harkitse kyselyä cook_*:
taivutussanalla voidaan yhdistää myös osapuheen tunnisteita. Harkitse esimerkiksi alla olevaa kyselyä cook_INF, cook_VERB_INF, joka erottaa ”cook” – sanan verbaalisen merkityksen taivutukset:
Ngram-katseluohjelma tägää lauserajat, jolloin ngrams voidaan tunnistaa lauseiden alussa ja lopussa alku-ja lopputunnisteilla:
joskus se auttaa ajattelemaan sanoja riippuvuuden kannalta kuvioiden sijaan. Oletetaan, että haluat tietää, mitenusein maukas muuttaa jälkiruoka. Eli haluat täysin mainintoja maukas jäädytetty jälkiruoka, rapea, maistuva, maukas mutta kallis jälkiruoka, ja kaikki muutinstanssit, joissa sana maukas sovelletaan jälkiruoka.Sille Ngram-katsoja tarjoaa riippuvuussuhteita the => – operaattorin kanssa:
jokaisella jäsennetyllä lauseella on _ROOT_. Toisin kuin muut tagit, _ROOT_ ei tarkoita tiettyä sanaa tai paikkaa lauseessa. Se on jäsenpuun juuri, joka on rakennettu analysoimalla syntaksia; voit ajatella sitä paikkamerkkinä sille, mitä lauseen pääverbi muokkaa. Näin tunnistat kuinka usein tahto oli lauseen pääverbi:
yllä olevassa kaaviossa olisi lause Larry willdecide. mutta Larry ei sanonut,että hän päättää, koska will ei ole tuon lauseen pääverbi.
riippuvuudet voidaan yhdistää yleismerkkeihin. Harkitse esimerkiksi kyselyjuomaa=>*_NOUN alla:
”puhtaita” osapuhemerkkejä voi sekoittaa vapaasti tavallisiin sanoihin 1-, 2-, 3-, 4-, ja 5 grammaa (esim._ADJ_ toast tai _DET__ADJ_ toast).
Ngram-sävellykset
Ngram-katseluohjelma tarjoaa viisi operaattoria, joita voit käyttää yhdistelläksesiengrameja:+, -,/,*, ja :.
+ | summaa ilmaisut molemmin puolin, joten voit yhdistää useita ngram aikasarjoja yhdeksi. |
– | vähentää oikealla olevan lausekkeen vasemmalla olevasta lausekkeesta, antaen sinulle tavan mitata yksi ngram suhteessa toiseen. Koska käyttäjät haluavat usein etsiä yhdyslauseita, laita välilyöntejä merkin kummallekin puolelle. |
/ | jakaa vasemmalla olevan lausekkeen oikealla olevalla lausekkeella, joka on hyödyllinen eristettäessä ngramin käyttäytymistä suhteessa toiseen. |
* | moninkertaistaa vasemmalla olevan lausekkeen oikealla olevalla numerolla, jolloin on helpompi vertailla hyvin erilaisten taajuuksien ngramia. (Muista sulkea koko ngram sulkuihin niin, että * ei tulkita yleismerkiksi.) |
: | soveltaa vasemmalla olevaa ngramia oikealla olevaan korpukseen, jolloin voit vertailla eri korpusten ngramia. |
Ngram katsoja yrittää arvata, onko soveltaa thesebehaviors. Voit käyttää sulkuja pakottaa ne, ja squarebrackets pakottaa ne pois. Esimerkki: ja/tai willdivide ja BY tai; mitata käyttö thefrase ja / tai, käyttää .Ja hyvämerkitys etsii hyvämerkitystä; jos haluat vähentää merkityksen hyvämerkityksestä, käytä (hyvämerkitys).
osoittaaksesi + – operaattorin, näin voit löytää pelin, urheilun ja leikin summan:
määritettäessä, kirjoittivatko ihmiset enemmän valinnoista vuosien mittaan, voit verrata valintaa, valintaa, vaihtoehtoa ja vaihtoehtoa ja määritellä substantiivimuodot adjektiivisten muotojen välttämiseksi (esim. choice Delicious,alternativemusic):
ngram-vähennyslasku antaa helpon tavan verrata yhtä ngram-sarjaa toiseen:
Näin voit yhdistää + ja / osoittaa, miten sana applesauce on puhjennut kukkaan omenakastikkeen kustannuksella:
* operaattori on hyödyllinen, kun haluat verrata ngramia,joiden taajuus vaihtelee suuresti, kuten viulu ja esoteerisempi theremin:
corpus valinta operaattori voit verrata ngrams välinpitämättömiä kieliä, tai amerikkalainen vs. brittiläinen Englanti (tai fiktio), tai välillä 2009, 2012 ja 2019 versiot kirjamme skannaa.Tässä on chat englanniksi vs. sama unigram ranskaksi:
kun loimme alkuperäisen Ngram Viewer corporan vuonna 2009, ourOCR ei ollut yhtä hyvä kuin nykyään. Tämä oli erityisen selvää inpre-19th century Englanti, jossa pitkänomainen medial – S (ſ) oli usein tulkittu f, joten best oli usein lukea beft. Tässä on todisteita parannuksista, joita olemme tehneet sen jälkeen, käyttämällä corpus-operaattoria vertailemaan vuosien 2009, 2012 ja 2019 versioita:
vertaamalla kaunokirjallisuutta kaikkeen Englantiin voimme havaita, että velhon käyttö yleisenglannissa on viime aikoina yleistynyt kaunokirjallisuuden käyttötarkoituksiin verrattuna:
korporaatio
alla on kuvauksia korporaatiosta, joita voi etsiä theGoogle Books Ngram Viewer-ohjelmalla. Kaikki korporat on luotu heinäkuussa 2009, heinäkuussa 2012 ja helmikuussa 2020; päivitämme nämä korporat sitä mukaa kuin kirjansaneeraus jatkuu, ja päivitetyillä versioilla on erilliset persistentidentifierit. Ulkopuolelle jätettiin kirjat, joiden OCR-laatu ja sarja olivat heikot.
epävirallinen corpus-nimi | Pikakirjoitus | pysyvä tunniste | kuvaus |
Amerikanenglanti 2019 | eng_us_2019 | googlebooks-Eng-us-20200217 | pääasiassa englanninkielisiä kirjoja, jotka julkaistiin Yhdysvalloissa. |
Amerikanenglanti 2012 | eng_us_2012 | googlebooks-eng-us-all-20120701 | |
Amerikanenglanti 2009 | eng_us_2009 | googlebooks-eng-us-all-20090715 | |
British English 2019 | eng_gb_2019 | googlebooks-Eng-gb-20200217 | pääasiassa englanninkielisiä kirjoja, jotka julkaistiin Isossa-Britanniassa. |
brittienglanti 2012 | eng_gb_2012 | googlebooks-eng-gb-all-20120701 | |
brittienglanti 2009 | eng_gb_2009 | googlebooks-eng-gb-all-20090715 | |
Englanti 2019 | eng_2019 | googlebooks-eng-20200217 | pääasiassa englanninkielisiä kirjoja, jotka on julkaistu missä tahansa maassa. |
Englanti 2012 | eng_2012 | googlebooks-eng-all-20120701 | |
Englanti 2009 | eng_2009 | googlebooks-eng-all-20090715 | |
English Fiction 2019 | eng_fiction_2019 | googlebooks-Eng-fiction-20200217 | Kirjat pääasiassa englanninkielisinä, jotka kirjasto tai kustantaja on todennut fiktioksi. |
Finnish Fiction 2012 | eng_fiction_2012 | googlebooks-eng-fiction-all-20120701 | |
Finnish Fiction 2009 | eng_fiction_2009 | googlebooks-eng-fiction-all-20090715 | |
English One Million | eng_1m_2009 | googlebooks-eng-1m-20090715 | the ”Google Million”. Kaikki ovat englanninkielisiä ja päivämäärät vaihtelevat 1500: sta vuoteen 2008. Yhdeltävuodelta valittiin enintään noin 6000 kirjaa, mikä tarkoittaa, että kaikki varhaisvuosilta skannatut kirjat ovat esillä, ja myöhempinä vuosina otettuja kirjoja satunnaisesti. Satunnaisotokset kuvastavat vuoden aihejakaumia (vuonna 2000 on enemmän tietokonekirjoja kuin vuonna 1980). |
Kiina 2019 | chi_sim_2019 | googlebooks-chi-sim-20200217 | Kirjat pääasiassa yksinkertaistetulla kiinalaisella kirjaimistolla. |
Kiina 2012 | chi_sim_2012 | googlebooks-chi-sim-all-20120701 | |
Kiina 2009 | chi_sim_2009 | googlebooks-chi-sim-all-20090715 | |
Ranska 2019 | fre_2019 | googlebooks-fre-20200217 | Kirjat pääasiassa ranskan kielellä. |
Ranska 2012 | fre_2012 | googlebooks-fre-all-20120701 | |
Ranska 2009 | fre_2009 | googlebooks-fre-all-20090715 | |
Saksa 2019 | ger_2019 | googlebooks-ger-20200217 | Kirjat pääasiassa saksan kielellä. |
Saksa 2012 | ger_2012 | googlebooks-ger-all-20120701 | |
Saksa 2009 | ger_2009 | googlebooks-ger-all-20090715 | |
heprea 2019 | heb_2019 | googlebooks-heb-20200217 | Kirjat hallitsevat heprean kieltä. |
heprea 2012 | heb_2012 | googlebooks-heb-all-20120701 | |
heprea 2009 | heb_2009 | googlebooks-heb-all-20090715 | |
Espanja 2019 | spa_2019 | googlebooks-spa-20200217 | Kirjat pääasiassa Espanjan kielellä. |
Espanja 2012 | spa_2012 | googlebooks-spa-all-20120701 | |
Espanja 2009 | spa_2009 | googlebooks-spa-all-20090715 | |
Venäjä 2019 | rus_2019 | googlebooks-rus-20200217 | Kirjat pääasiassa venäjän kielellä. |
Venäjä 2012 | rus_2012 | googlebooks-rus-kaikki-20120701 | |
Venäjä 2009 | rus_2009 | googlebooks-rus-kaikki-20090715 | |
Italia 2019 | ita_2019 | googlebooks-ita-20200217 | Kirjat pääasiassa Italian kielellä. |
Italia 2012 | ita_2012 | googlebooks-ita-all-20120701 |
vuoden 2009 versioihin verrattuna vuosien 2012 ja 2019 versioihin havemore books, improved OCR, improved library and publishermetadata. Vuoden 2012 ja 2019 versiot eivät myöskään muodosta sentenceboundaries-rajoja ylittäviä ngrams-ohjelmia, vaan ne muodostavat ngrams-ohjelmia yli sivurajojen, toisin kuin vuoden 2009 versiot.
vuosien 2012 ja 2019 Korporaation myötä tokenisaatio on myös parantunut, käyttäen käsin laadittuja sääntöjä (lukuun ottamatta Kiinaa, jossa käytetään astatistista järjestelmää segmentointiin). Vuoden 2009 Korporaatiossa tokenisaatio perustui yksinkertaisesti tyhjämerkkeihin.
hakeminen Google Booksin sisältä
kaavion alapuolella näkyy” mielenkiintoisia ” vuosivälejä kyselyillesi. Klikkaamalla näitä lähettää kyselyn suoraan GoogleBooks. Huomaa, että Ngram Viewer on kirjainkoko, mutta Google Bookssearch tulokset eivät ole.
näissä hauissa esitetään lauseita valitsemallasi whichevercorpus-kielellä, mutta tulokset palautetaan kokonaisuudessaan GoogleBooks corpus-tietokannasta. Joten jos käytät Ngram Viewer etsiä ranskankielinen lause Ranskan corpus ja sitten klikkaa läpi Google Books, että haku on sama ranskalainen lause – joka saattaa esiintyä ina book pääasiassa toisella kielellä.
Usein kysyttyä
Miksi en näe odottamiani tuloksia?
ehkä jostain näistä syistä:
- Ngram-katsoja on kirjainherkkä. Yritä isolla alkukirjaimella tai valitse hakukentän oikealla puolella oleva”tapaus-tunteeton” – ruutu.
- etsit odottamatonta korpusta. Esimerkiksi Frankenstein ei esiinny venäläisissä kirjoissa, joten jos etsit venäläisestä korpuksesta, näet litteän viivan. Voit valita Corpuksen hakukentän alla olevasta pudotusvalikosta tai corpus selection-operaattorin kautta, esim.Frankenstein:eng_2019.
- lauseessa on pilkku, plusmerkki, väliviiva, tähti, kaksoispiste tai etuviiva. Näillä on ngramviewerille erityisiä merkityksiä; katso Advanced Usage. Yritä liittää lause hakasulkeisiin (vaikka tämä ei auta pilkuissa).
miten Ngram-katsoja käsittelee välimerkkejä?
sovellamme tiettyä kieltä koskevia sanoitussääntöjä. Englanniksi supistuksista tulee kaksi sanaa (ne ’rebecomes the bigram they’ re, we ’ll becomes We”, ja niin edelleen). Possessiivi ’s On myös jaettu pois, mutta R’ n ’ b jää yhdeksi tokeniksi. Negaatiot (n ’t) arenormalisoidaan niin, että don’ t tulee do not. Venäjän kielessä diakriittinen ё normalisoituu E: ksi ja niin edelleen. Samoja sääntöjä sovelletaan jäsentämään sekä käyttäjien kirjoittamia ngrameja että korporaatiosta erotettuja ngrameja, mikä tarkoittaa, että jos etsit älä, älä hätäänny siitä, että Ngram-katselija kirjoittaa sen olevan ei; se kuvaa tarkasti Bothe don ’ t and do not in the corpus. Tämä tarkoittaa kuitenkin, että ei ole mitään keinoa etsiä nimenomaisesti tiettyjä lomakkeita ei voi (tai ei voi): saat can ’ Tand ei voi ja ei voi kaikki kerralla.
Miten voin nähdä otosten käytön kontekstissa?
Ngram-Katselijakaavion alapuolella on taulukko ennalta määritetyistä gogle-kirjojen hauista, joista jokainen on rajattu vuosien vaihteluväliin. Valitsemme vaihteluvälit kiinnostavuuden mukaan: jos ngramilla on valtava huippu tiettynä vuonna, se näkyy itsestään Hakuna, jonka muut haut kattavat pidempiä ajanjaksoja.
toisin kuin vuoden 2019 Ngram Viewer corpus, Google Books corpus isn ’ tpart-of-speech tagged. Google-kirjoista ei voi etsiä vaikkapa hurraamisen verbimuotoa. Joten kaikki ngrams kanssa osa-Of-speechtags (esim., cheer_VERB) eivät kuulu Googlelooksien hakujen taulukkoon.
Ngram-katselijalla on 2009, 2012 ja 2019 korporaatio, mutta Google-kirjat eivät toimi niin. Kun etsit Google Booksista, etsit Kaikki tällä hetkellä saatavilla olevat kirjat, joten saattaa olla joitakin eroja sen välillä, mitä näet Google Booksissa ja mitä odottaisit näkeväsi, kun otetaan huomioon Ngram-Katselukaavio.
Miksi näen alkuvuosina enemmän piikkejä ja tasankoja?
julkaiseminen oli suhteellisen harvinainen tapahtuma 16. ja 17. (Englanninkielisiä kirjoja on julkaistu vain noin 500 000 kappaletta ennen 1800-lukua.) Joten jos lause esiintyy yhdessä kirjassa yhtenä vuonna, mutta ei edeltävinä tai seuraavina vuosina, se luo pienemmän piikin kuin se olisi myöhempinä vuosina.
tasanteet ovat yleensä yksinkertaisesti siloiteltuja piikkejä. Vaihda tasaus 0.
mitä ”silottaminen” tarkoittaa?
usein trendit korostuvat, kun aineistoa pidetään liikkuvana keskiarvona. Tasoitus 1 tarkoittaa, että vuoden 1950 osalta esitetyt tiedot ovat vuoden 1950 raakamäärän keskiarvo lisättynä 1 arvolla kummallakin puolella.:(”count for 1949” + ”count for 1950” + ”count for 1951”), jaettuna 3: lla. Joten tasoitus 10 tarkoittaa, että 21 arvot on keskiarvo: 10 oneither puolella, plus tavoitearvo keskellä niitä.
kaavion vasemmassa ja oikeassa reunassa on vähemmän arvoja. Kun tasoitus on 3, vasemmanpuoleisin arvo (pretendit ’ s the year 1950) lasketaan seuraavasti (”count for 1950” + ”count for 1951” + ”count for 1952” + ”count for 1953”), jaettuna 4: llä.
tasoitus 0 tarkoittaa, että tasoitusta ei ole lainkaan: vain raakadataa.
nykyaikana julkaistaan vielä paljon kirjoja. Eikö tämä vääristä tuloksia?
olisi, jos emme normalisoituisi kunkin vuoden aikana julkaistujen kirjojen määrän mukaan.
miksi näytät 0%: n tasaviivan, kun tiedän, että myqueryn lause on esiintynyt ainakin yhdessä kirjassa?
raskaassa kuormituksessa ngram-katsoja palaa joskus aflatlinelle; lataa uudelleen vahvistaakseen, ettei itse asiassa ole osumia thefraselle. Lisäksi otamme huomioon vain ngrams, jotka esiintyvät vähintään 40books. Muuten aineisto olisi ilmapallo kooltaan ja emme olisi mahdollista tarjota niitä kaikkia.
kuinka tarkka puheen osamerkintä on?
puheen osalaput ja riippuvuussuhteet ennustetaan automaattisesti. Ennusteiden paikkansapitävyyden arvioiminen on vaikeaa, mutta nyky-englannin kielessä odotamme puhetunnisteiden tarkkuuden olevan noin 95% ja riippuvuussuhteiden tarkkuuden olevan noin 85%. Vanhemmalla englanninkielisellä tekstillä ja muilla kielillätarkkuudet ovat alhaisemmat, mutta todennäköisesti yli 90% osapuhetunnisteilla ja yli 75% riippuvuuksilla. Tähän liittyy huomattava määrä virheitä, jotka olisi otettava huomioon päätelmiä laadittaessa.
osapuhelaput on rakennettu pienestä harjoitussarjasta (vaivaiset miljoona sanaa englanniksi). Tämä edustaa joskus epätavallisia käyttötapoja, kuten vihreää tai dogoria tai kirjaa verbeinä tai Kysy substantiivina.
lisähuomautus kiinan kielestä: ennen 1900-lukua klassikkokiinaa käytettiin perinteisesti kaikessa kirjallisessa viestinnässä. Klassinen Kiina perustuu muinaiskiinan kielioppiin ja sanastoon, ja syntaktiset merkinnät ovat siksi useammin väärässä kuin oikeassa.
huomaa myös, että vuoden 2009 korporaatio ei ole ollut osapuheenvuorossa.
kirjoitan tutkielmaa tuloksesi perusteella. Miten voin siteerata työtäsi?
jos aiot käyttää näitä tietoja akateemisessa julkaisussa, siteeraa alkuperäistä paperia:
Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, the Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig,Jon Orwant, Steven Pinker, Martin A. Nowak ja Erez Lieberman Aiden*.Kulttuurin kvantitatiivinen analyysi käyttäen miljoonia digitoituja kirjoja. Tiede (julkaistu verkossa ennen printtiä: 12/16/2010)
meillä on myös paperi puheosastolla:
Juri Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant,William Brockman, Slav Petrov.Syntaktisia huomautuksia Google Books Ngram Corpus. Laskennallisen lingvistiikan yhdistyksen 50. vuosikokouksen tulokset 2: Demopaperit (ACL ’12) (2012)
Voinko ladata tietosi suorittaakseni omia kokeilujani?
Kyllä! Ngram-tiedot ovat ladattavissa täältä. Jotta tiedostokoot olisivat hallittavissa, olemme ryhmitelleet ne niiden alkukirjaimen mukaan ja ryhmitelleet eri ngram-koot erillisiin tiedostoihin. Ngrams withineach-tiedostoa ei ole järjestetty aakkosjärjestyksessä.
koneellisesti luettavien tiedostonimien luomiseksi translitteroimme thengrameja kielille, jotka käyttävät ei-roomalaisia skriptejä (kiina,heprea, venäjä) ja käytimme translitteroidun ngramin alkukirjainta määrittääksemme tiedostonimen. Samaa lähestymistapaa käytettiin hahmoihin, kuten saksaksi ä. Huomaa, että translitterointia käytettiin vain tiedostonimen määrittämiseen; varsinaiset ngramit koodataan inutf-8 käyttäen kielikohtaista aakkostoa.