Google Ngram Viewer
ce face Ngram Viewer?
când introduceți fraze în vizualizatorul Ngram Google Books, acesta afișeazăun grafic care arată modul în care aceste fraze au apărut într-un corpus de cărți (de exemplu,”Engleză Britanică”, „Ficțiune engleză”, „franceză”) de-a lungul anilor selectați. Să ne uităm la un grafic de probă:
acest lucru arată tendințele în trei ngrame din 1960 până în 2015:” nurseryschool „(un 2-gram sau bigram),”gradinita „(un 1-gram sau unigram), și” îngrijirea copilului ” (un altgram). Ceea ce arată axa y este aceasta: dintre toate bigramele conținuteîn eșantionul nostru de cărți scrise în limba engleză și publicate în Statele Unite, ce procent din ele sunt „grădiniță” sau „îngrijire a copilului”?Dintre toate unigramele, ce procent dintre ele sunt „grădiniță”?Aici, puteți vedea că utilizarea expresiei ” îngrijirea copilului „a început să crească la sfârșitul anilor 1960, depășind” grădinița”în jurul anului 1970 și apoi” grădinița ” în jurul anului 1973. A atins apogeul la scurt timp după 1990 și a scăzut constant de atunci.
(interesant, rezultatele sunt vizibil diferite atunci când thecorpus este trecut la engleza britanică.)
puteți trece cu mouse-ul peste linia pentru un ngram, care îl evidențiază. Cuun clic stânga pe un complot linie,vă puteți concentra pe un anumit ngram, gri afară celelalte ngrams în diagramă, dacă este cazul. În stânga ulterioarăclick-uri pe alte parcele de linie din diagramă, pot fi concentrate mai multe ngrame. Puteți face dublu clic pe orice zonă a graficului pentru a restabilitoate ngramele din interogare.
de asemenea, puteți specifica metacaractere în interogări,căutați inflexiuni, Efectuați căutare insensibilă la majuscule, căutați anumite părți de vorbire sau adăugați, scădeți și împărțiți ngrame.Mai multe despre cele aflate sub utilizare avansată.
utilizare avansată
câteva caracteristici ale vizualizatorului Ngram pot atrage utilizatorii care doresc să sape puțin mai adânc în utilizarea expresiei: Căutare wildcard,căutare inflexiune, căutare insensibilă la majuscule,etichete parte din vorbire și compoziții Ngram.
Căutare Wildcard
când puneți un * în locul unui cuvânt, vizualizatorul Ngram va afișa primele zece substituții.De exemplu, pentru a găsi cele mai populare cuvinte după „Universitatea din”, căutați „Universitatea din *”.
puteți face clic dreapta pe oricare dintre ngramele de înlocuire pentru a le restrânge pe toate în interogarea wildcard originală, rezultatul fiind suma anuală a înlocuirilor. Un clic dreapta ulterior extinde interogarea wildcard înapoi la toate înlocuirile. Rețineți că vizualizatorul Ngram acceptă doar un * pe ngram.
rețineți că primele zece înlocuiri sunt calculate pentru intervalul de timp specificat. Prin urmare, s-ar putea obține înlocuiri diferite pentru diferite intervale de ani. Am filtrat simbolurile de punctuație din lista top ten, dar pentru cuvintele care încep sau termină adesea propoziții, este posibil să vedeți unul dintre simbolurile limită ale propoziției (_START_ sau _end_) ca unul dintre înlocuitori.
căutare inflexiune
o inflexiune este modificarea unui cuvânt pentru a reprezenta diferite categorii gramaticale, cum ar fi aspect, caz, sex, starea de spirit, număr, persoană, timp și voce. Le puteți căuta prin adăugarea _INF la un ngram. De exemplu, căutarea „book_INF un hotel” va afișa rezultatele pentru „carte”, „rezervat”, „Cărți”, și „rezervare”:
făcând clic dreapta pe orice inflexiune se prăbușește toate formele în suma lor. Rețineți că Ngram Viewer acceptă doar un cuvânt cheie _inf pentru fiecare interogare.
avertisment: nu puteți amesteca în mod liber căutări wildcard, inflexiuni și căutări case-insensibile pentru un anumit ngram.Cu toate acestea, puteți căuta cu oricare dintre aceste caracteristici pentru ngrams separate într-o interogare: „book_INF a hotel, book * hotel” este bine, dar „book_INF * hotel” nu este.
căutare insensibilă la majuscule
în mod implicit, Ngram Viewer efectuează căutări sensibile la majuscule: capitalizarea contează. Puteți efectua o căutare insensibilă la majuscule selectând caseta de selectare” insensibilă la majuscule ” din dreapta casetei de interogare. Vizualizatorul Ngram va afișa apoi suma pe an a celor mai frecvente variante insensibile la majuscule și minuscule ale interogării de intrare. Iată două ngrame insensibile la majuscule, „Fitzgerald”și ” Dupont”:
făcând clic dreapta pe orice sumă anuală, rezultă o extindere în cele mai frecvente variante insensibile la majuscule. De exemplu, un clic dreapta pe „Dupont (Toate)” are ca rezultat următoarele patru variante: „DuPont”, „Dupont”, „duPont” și „DUPONT”.
etichete Part-of-speech
luați în considerare cuvântul aborda, care poate fi un verb („aborda problema”) sau un substantiv („pescuit aborda”). Puteți distinge între aceste forme diferite prin adăugarea _VERBor _NOUN:
lista completă a etichetelor este după cum urmează:
_NUN_ | aceste tag-uri pot sta fie singur(_PRON_) sau pot fi anexate la un cuvânt (she_PRON) |
|
_VERB_ | ||
_adj_ | adjectiv | |
_adv_ | adverb | |
_PRON_ | pronume | |
_DET_ | determinant sau articol | |
_ADP_ | o adpoziție: fie o prepoziție, fie o postpoziție | |
_NUM_ | număr | |
_conj_ | conjuncție | |
_PRT_ | particulă | |
_root_ | rădăcina arborelui de analiză | aceste etichete trebuie să stea singure (de ex., _START_) |
_START_ | începutul unei propoziții | |
_END_ | sfârșitul unei propoziții |
deoarece etichetele parte-de-vorbire nu trebuie să se atașeze la anumite cuvinte, puteți utiliza eticheta DET pentru a căuta citiți o carte, citiți cartea, citiți acea carte, citiți această carte și așa mai departe după cum urmează:
dacă doriți să știți care sunt cei mai comuni determinanți în acest context, puteți combina metacaractere și etichete parte-de-vorbire pentru a citi * _det:
pentru a obține toate diferitele inflexiuni ale cărții de cuvinte care au fost urmate deun substantiv în corpus puteți emite interogarea book_INF _NOUN_:
cele mai frecvente etichete part-of-speech pentru un cuvânt pot fi preluate cu funcționalitatea wildcard. Luați în considerare interogarea cook_*:
cuvântul cheie de inflexiune poate fi, de asemenea, combinat cu etichete part-of-speech. De exemplu, luați în considerare interogarea cook_INF,cook_VERB_INF de mai jos, care separă inflexiunile sensului verbal al „cook”:
Ngram Viewer etichetează limitele propoziției, permițându-vă să identificați ngrams la începutul și sfârșitul propozițiilor cu etichetele de început și sfârșit:
uneori vă ajută să vă gândiți la cuvinte în termeni de dependențemai degrabă decât modele. Să presupunem că vrei să știi cumadesea gustoase modifică desertul. Asta este, vrei menționează în totalitate de desert congelate gustoase, crocante, tastydesert, desert gustos dar scump, și toate celelalteinstanțe în care cuvântul gustos este aplicat la desert.Pentru aceasta, vizualizatorul Ngram oferă relații de dependență cu operatorul = > :
fiecare propoziție analizată are o _ROOT_. Spre deosebire de othertags, _ROOT_ nu reprezintă un anumit cuvânt sau poziție în propoziție. Este rădăcina arborelui de analiză construit deanalizând sintaxa; vă puteți gândi la el ca la un substituent pentru ceea ce modifică verbul principal al propoziției. Deci, iată cum să identificațicât de des will a fost verbul principal al unei propoziții:
graficul de mai sus ar include propoziția Larry willdecide. dar nu Larry a spus că va decide,deoarece will nu este verbul principal al acelei propoziții.
dependențele pot fi combinate cu metacaractere. De exemplu, luați în considerare interogarea drink= > * _NOUN de mai jos:
etichetele” Pure ” part-of-speech pot fi amestecate liber cu cuvinte regulateîn 1-, 2-, 3-, 4-, și 5 grame (de exemplu, toastul _adj_ sau _det__ADJ_ toast).
compoziții Ngram
vizualizatorul Ngram oferă cinci operatori pe care le puteți utiliza pentru a combinagrame: +, -, /, *, și :.
+ | însumează expresiile de pe fiecare parte, permițându-vă să combinați mai multe serii de timp ngram într-o singură. |
– | scade expresia din dreapta din expresia din stânga, oferindu-vă o modalitate de a măsura un ngram în raport cu altul. Deoarece utilizatorii doresc adesea să caute fraze cratimate, puneți spații pe ambele părți ale semnului. |
/ | împarte expresia din stânga cu expresia din dreapta, care este utilă pentru izolarea comportamentului unui ngram față de altul. |
* | înmulțește expresia din stânga cu numărul din dreapta, facilitând Compararea ngramelor cu frecvențe foarte diferite. (Asigurați-vă că includeți întregul ngram între paranteze, astfel încât * să nu fie interpretat ca un wildcard.) |
: | aplică ngramul din stânga corpusului din dreapta, permițându-vă să comparați ngramele pe diferite corpuri. |
vizualizatorul Ngram va încerca să ghicească dacă să aplice acesteacomportamente. Puteți utiliza paranteze pentru a le forța și squarebrackets pentru a le forța. Exemplu: și / sau willdivide și de sau; pentru a măsura utilizarea thephrase și / sau, utilizați .Și bine-înțeles va căuta pentrufraza bine-înțeles; dacă doriți să scăpați sensul Din bine,utilizați (bine – înțeles).
pentru a demonstra operatorul+, iată cum puteți găsi suma jocului, sportului și Jocului:
atunci când stabiliți dacă oamenii au scris mai multe despre alegeri de-a lungul anilor, ați putea compara alegerea, selecția, opțiunea și alternativa, specificând formele substantive pentru a evita formele adjective (de exemplu, delicatețea alegerii, muzica alternativă):
Ngram scădere vă oferă o modalitate ușoară de a compara un set de ngrams la altul:
Iată cum s-ar putea combina + și / pentru a arăta modul în care cuvântul sos de mere a înflorit în detrimentul sos de mere:
operatorul * este util atunci când doriți să comparați ngrams de frecvențe foarte diferite, cum ar fi vioara și theremin mai ezoterice:
operatorul vă permite să comparați ngrams îndiferite limbi, sau american versus engleză britanică (sau ficțiune),sau între versiunile 2009, 2012 și 2019 ale scanărilor noastre de carte.Iată chat-ul în engleză față de același unigram în franceză:
când am generat corpul original Ngram Viewer în 2009, ourOCR nu a fost la fel de bun ca astăzi. Acest lucru a fost deosebit de evident în limba engleză din secolul 19, unde medial-s alungit (XV) a fost adesea interpretat ca un f, deci cel mai bun a fost adesea citit ca beft. Iată dovezi ale îmbunătățirilor pe care le-am făcut de atunciatunci, folosind operatorul corpus pentru a compara versiunile 2009, 2012 și 2019:
comparând ficțiunea cu toată engleza, putem vedea că utilizările vrăjitorului în engleza generală au câștigat recent în comparație cu utilizările din ficțiune:
Corpora
mai jos sunt descrieri ale corpora care pot fi căutate cugoogle Books Ngram Viewer. Toate corpurile au fost generate în iulie 2009, iulie 2012 și februarie 2020; vom actualiza aceste corpuri pe măsură ce scanarea cărților noastre continuă, iar versiunile actualizate vor avea identificatori persistenți distincți. Cărțile cu o calitate OCR scăzută și serialele au fost excluse.
numele corpusului Informal | stenografie | identificator Persistent | descriere |
Engleză Americană 2019 | eng_us_2019 | googlebooks-eng-us-20200217 | Cărți predominant în limba engleză care au fost publicate în Statele Unite. |
engleză americană 2012 | eng_us_2012 | googlebooks-eng-us-all-20120701 | |
engleză americană 2009 | eng_us_2009 | googlebooks-eng-us-all-20090715 | |
Engleză Britanică 2019 | eng_gb_2019 | googlebooks-eng-gb-20200217 | Cărți predominant în limba engleză care au fost publicate în Marea Britanie. |
Engleză Britanică 2012 | eng_gb_2012 | googlebooks-eng-gb-toate-20120701 | |
Engleză Britanică 2009 | eng_gb_2009 | googlebooks-eng-gb-toate-20090715 | |
engleză 2019 | eng_2019 | googlebooks-eng-20200217 | cărți publicate predominant în limba engleză în orice țară. |
română 2012 | eng_2012 | googlebooks-ing-toate-20120701 | |
română 2009 | eng_2009 | googlebooks-ing-toate-20090715 | |
English Fiction 2019 | eng_fiction_2019 | googlebooks-eng-fiction-20200217 | Cărți predominant în limba engleză pe care o bibliotecă sau un editor le-a identificat ca ficțiune. |
Engleză Ficțiune 2012 | eng_fiction_2012 | googlebooks-eng-ficțiune-toate-20120701 | |
Engleză Ficțiune 2009 | eng_fiction_2009 | googlebooks-eng-ficțiune-toate-20090715 | |
engleză Un milion | eng_1m_2009 | googlebooks-eng-1m-20090715 | „Google Million”. Toate sunt în limba engleză, cu date cuprinse între 1500 și 2008. Nu mai mult de aproximativ 6000 de cărți au fost alese din oricare an, ceea ce înseamnă că toate cărțile scanate din primii ani sunt prezente, iar cărțile din anii următori sunt eșantionate aleatoriu. Eșantionările aleatorii reflectă distribuțiile subiectului pentru anul (deci existămai multe cărți de calculator în 2000 decât în 1980). |
Chineză 2019 | chi_sim_2019 | googlebooks-chi-sim-20200217 | Cărți predominant în script Chinezesc simplificat. |
Chineză 2012 | chi_sim_2012 | googlebooks-chi-sim-toate-20120701 | |
Chineză 2009 | chi_sim_2009 | googlebooks-chi-sim-toate-20090715 | |
Franceză 2019 | fre_2019 | googlebooks-fre-20200217 | Cărți predominant în limba franceză. |
Franceză 2012 | fre_2012 | googlebooks-fre-toate-20120701 | |
Franceză 2009 | fre_2009 | googlebooks-fre-toate-20090715 | |
germană 2019 | ger_2019 | googlebooks-ger-20200217 | Cărți predominant în limba germană. |
germană 2012 | ger_2012 | googlebooks-ger-toate-20120701 | |
germană 2009 | ger_2009 | googlebooks-ger-toate-20090715 | |
Ebraică 2019 | heb_2019 | googlebooks-heb-20200217 | cărțile au predominat în limba ebraică. |
Ebraică 2012 | heb_2012 | googlebooks-heb-toate-20120701 | |
Ebraică 2009 | heb_2009 | googlebooks-heb-toate-20090715 | |
spaniolă 2019 | spa_2019 | googlebooks-spa-20200217 | Cărți predominant în limba spaniolă. |
spaniolă 2012 | spa_2012 | googlebooks-spa-toate-20120701 | |
spaniolă 2009 | spa_2009 | googlebooks-spa-toate-20090715 | |
rusă 2019 | rus_2019 | googlebooks-rus-20200217 | Cărți predominant în limba rusă. |
rusă 2012 | rus_2012 | googlebooks-rus-toate-20120701 | |
rusă 2009 | rus_2009 | googlebooks-rus-toate-20090715 | |
italiană 2019 | ita_2019 | googlebooks-ita-20200217 | Cărți predominant în limba italiană. |
italiană 2012 | ita_2012 | googlebooks-ita-toate-20120701 |
comparativ cu versiunile din 2009, versiunile din 2012 și 2019 aumai multe cărți, OCR îmbunătățit, bibliotecă îmbunătățită și publishermetadata. Versiunile 2012 și 2019 nu formează, de asemenea, ngrams care traversează limitele sentenceboundaries și formează ngrams peste limitele paginii, spre deosebire de versiunile din 2009.
cu corpusurile din 2012 și 2019, tokenizarea s-a îmbunătățit, de asemenea, folosind un set de reguli concepute manual (cu excepția chinezilor, unde sistemul astatistic este utilizat pentru segmentare). În corpusurile din 2009,tokenizarea s-a bazat pur și simplu pe spațiu alb.
căutarea în Google Books
sub grafic, vă prezentăm intervale de ani „interesante” pentru interogatorii dvs. Dacă faceți clic pe acestea, veți trimite interogarea dvs. direct la GoogleBooks. Rețineți că vizualizatorul Ngram este sensibil la majuscule, dar rezultatele căutării Google Bookssearch nu sunt.
aceste căutări vor genera fraze în limba în care vercorpus ați selectat, dar rezultatele sunt returnate din corpusul complet GoogleBooks. Deci, dacă utilizați vizualizatorul Ngram pentru a căuta o frază franceză în corpusul francez și apoi faceți clic pe Google Cărți,căutarea va fi pentru aceeași frază franceză-care ar putea apărea într-o carte predominant în altă limbă.
Întrebări frecvente
de ce nu văd rezultatele pe care le aștept?
poate pentru unul dintre aceste motive:
- vizualizatorul Ngram este sensibil la majuscule. Încercați să valorificați interogarea sau bifați caseta „insensibilă la majuscule”din dreapta casetei de căutare.
- căutați într-un corpus neașteptat. De exemplu, Frankenstein nu apare în cărțile rusești, așa că dacă căutați în corpusul rusesc veți vedea o linie plată. Puteți alege corpusul prin meniul derulant de sub caseta de căutare sau prin operatorul de selecție a corpusului, de exemplu, Frankenstein:eng_2019.
- fraza dvs. are o virgulă, plus semn, cratimă, asterisc, două puncte sau slash înainte în ea. Acestea au semnificații speciale pentru NgramViewer; a se vedea utilizarea avansată. Încercați să încadrați fraza între paranteze pătrate (deși acest lucru nu va ajuta cu virgulele).
cum se ocupă vizualizatorul Ngram de punctuație?
aplicăm un set de reguli de tokenizare specifice limbii specifice. În engleză, contracțiile devin două cuvinte (eidevine bigramul pe care îl Sunt, vom deveni vom, și așa mai departe). Posesivul este,de asemenea, separat, dar R ‘ N ‘ B rămâne un simbol. Negații (n ‘ t) arenormalized astfel încât nu devine nu. În limba rusă,diacriticul inkst este normalizat la e și așa mai departe. Aceleași reguli sunt aplicate pentru a analiza atât ngramele tastate de utilizatori, cât și ngramele extrase din corpusuri, ceea ce înseamnă că, dacă căutați pentru nu, nu vă alarmați de faptul că vizualizatorul Ngram îl scrie pentru a nu; descrie cu exactitate utilizările de ambele nu și nu în corpus. Cu toate acestea, acest lucru înseamnă că nu există nicio modalitate de a căuta în mod explicit formele specifice nu pot (sau nu pot): nu puteți și nu puteți și nu puteți dintr-o dată.
Cum pot vedea exemple de utilizări în context?
sub graficul Ngram Viewer, oferim un tabel de căutări predefinite ale cărților Google, fiecare redus la o serie de ani. Alegem intervalele în funcție de interes: dacă un ngram are un vârf uriaș într-un anumit an, acesta va apărea de la sine ca o căutare, cu alte căutări care acoperă durate mai lungi.
spre deosebire de corpusul Ngram Viewer din 2019, corpusul Google Books nu este etichetat. Nu se poate căuta, să zicem, verbul formade majorete în cărți Google. Deci, orice ngrams cu o parte-de-speechtags (de ex., cheer_VERB) sunt excluse din tabelul căutărilor GoogleBooks.
vizualizatorul Ngram are corpusuri din 2009, 2012 și 2019, dar Google Booksnu funcționează așa. Când căutați în Google Cărți, căutați toate cărțile disponibile în prezent, astfel încât pot exista unele diferențe între ceea ce vedeți în Google Cărți și ceea ce v-ați aștepta să vedeți având în vedere graficul Ngram Viewer.
de ce văd mai multe vârfuri și platouri în primii ani?
publicarea a fost un eveniment relativ rar în secolele 16 și 17. (Există doar aproximativ 500.000 de cărți publicateîn limba engleză înainte de secolul al 19-lea.) Deci, dacă o frază apare într-o singură carte într-un an, dar nu în anii precedenți sau următori, aceasta creează un vârf mai mare decât în anii următori.
platourile sunt de obicei vârfuri netezite. Schimbați netezireala 0.
ce înseamnă „netezire”?
adesea tendințele devin mai evidente atunci când datele sunt privite ca o medie în mișcare. O netezire de 1 înseamnă că datele afișate pentru 1950 vor fi medii ale numărului brut pentru 1950 plus 1 valoare pe ambele părți:(„număr pentru 1949” + „număr pentru 1950” + „număr pentru 1951”), împărțit la3. Deci, o netezire de 10 înseamnă că 21 de valori vor fi medii: 10 peo parte, plus valoarea țintă în centrul lor.
la marginile din stânga și din dreapta ale graficului, sunt mai puține valori. Cu o netezire de 3, valoarea din stânga (pretendeste anul 1950) va fi calculată ca („count for 1950” + „countfor 1951” + „count for 1952” + „count for 1953”), împărțită la 4.
o netezire de 0 înseamnă deloc netezire: doar date brute.
multe alte cărți sunt publicate în anii moderni. Asta nu arată rezultatele?
ar fi dacă nu ne-am normaliza prin numărul de cărți publicate în fiecare an.
de ce arăți o linie plată de 0% când știu că fraza din myquery a apărut în cel puțin o carte?
sub sarcină grea, vizualizatorul Ngram va reveni uneori aflatline; reîncărcați pentru a confirma că de fapt nu există accesări pentru frază. De asemenea, considerăm doar ngrame care apar în cel puțin 40cărți. În caz contrar, setul de date s-ar balona în dimensiune și nu am putea să le oferim pe toate.
cât de precisă este etichetarea părții de vorbire?
etichetele part-of-speech și relațiile de dependență sunt preziseîn mod automat. Evaluarea exactității acestor predicții este dificilă, dar pentru engleza modernă ne așteptăm ca exactitatea etichetelor part-of-speech să fie în jur de 95%, iar acuratețea relațiilor de dependență în jur de 85%. Pe textul în limba engleză mai vechi și pentru alte limbicuraticile sunt mai mici, dar probabil peste 90% pentru etichetele part-of-speechși peste 75% pentru dependențe. Aceasta implică un număr semnificativ deerori, care ar trebui luate în considerare la desenconcluzii.
etichetele part-of-speech sunt construite dintr-un mic set de instruire(doar un milion de cuvinte pentru engleză). Acest lucru va uneori subreprezintă utilizări neobișnuite, cum ar fi verde sau dogsau carte ca verbe, sau cere ca substantiv.
o notă suplimentară despre Chineză: înainte de secolul 20, clasicchineza era folosită în mod tradițional pentru toate comunicările scrise. Chineza clasică se bazează pe gramatică șivocabularul chinezilor antici, iar adnotările sintactice vor fi, prin urmare, greșite mai des decât au dreptate.
de asemenea, rețineți că corpusurile din 2009 nu au făcut parte din discurs.
scriu o lucrare pe baza rezultatelor tale. Cum pot cita munca ta?
dacă veți folosi aceste date pentru o publicație academică, vă rugăm să citați lucrarea originală:
Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, echipa Google Books,Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig,Jon Orwant, Steven Pinker, Martin A. Nowak și Erez Lieberman Aiden*.Analiza cantitativă a culturii folosind milioane de Digitalizatecărți. Știință (publicat online înainte de imprimare: 12/16/2010)
avem, de asemenea, o lucrare pe partea noastră de vorbire tagging:
Yuri Lin, Jean-Baptiste Michel,Erez Lieberman Aiden, Jon Orwant, William Brockman, Slav Petrov.Adnotări sintactice pentru Google Books Ngram Corpus. Cea de-a 50-a reuniune anuală a Asociației pentru lingvistica computationala Volumul 2: Documente Demo (ACL ’12) (2012)
pot descărca datele dvs. pentru a rula propriile mele experimente?
Da! Datele ngram sunt disponibile pentrudescărcați aici. Pentru a face Dimensiunea fișierului gestionabilă, le-am grupat după litera lor de început și apoi am grupat diferitele dimensiuni ngram în fișiere separate. Ngrams withineach fișier nu sunt sortate în ordine alfabetică.
pentru a genera nume de fișiere care pot fi citite de mașină, am transliterat thengrams pentru limbi care folosesc scripturi non-romane (chineză, ebraică,rusă) și am folosit litera de început a ngramului transliterat pentru a determina numele fișierului. Aceeași abordare a fost luată și pentru caracterecum ar fi xixt în limba germană. Rețineți că transliterația a fostutilizate numai pentru a determina numele fișierului; ngramele reale sunt codificate înutf-8 folosind alfabetul specific limbii.