Visionneuse Google Ngram
Que fait la visionneuse Ngram?
Lorsque vous entrez des phrases dans le visualiseur de programmes Google Books, il affiche un graphique montrant comment ces phrases se sont produites dans un corpus de livres (par exemple, « Anglais britannique », « Fiction anglaise », « Français ») au cours des années sélectionnées. Regardons un exemple de graphique:
Cela montre les tendances dans trois ngrams de 1960 à 2015: « nurseryschool » (un 2 grammes ou bigram), « kindergarten » (un 1 gramme ou unigramme) et « child care » (un autregramme). Ce que l’axe des ordonnées montre, c’est ceci: de tous les bigrams contenusdans notre échantillon de livres écrits en anglais et publiés aux États-Unis, quel pourcentage d’entre eux sont « école maternelle » ou « garderie »?De tous les unigrammes, quel pourcentage d’entre eux sont « maternelle »?Ici, vous pouvez voir que l’utilisation de l’expression « garde d’enfants » a commencé à se développer à la fin des années 1960, dépassant « école maternelle » vers 1970, puis « maternelle » vers 1973. Il a atteint un sommet peu après 1990 et n’a cessé de décroître depuis.
(Fait intéressant, les résultats sont sensiblement différents lorsque le corpus est passé à l’anglais britannique.)
Vous pouvez survoler le tracé de ligne d’un ngram, ce qui le met en évidence. Avec un clic gauche sur un tracé linéaire, vous pouvez vous concentrer sur un ngramme particulier, en grisant les autres ngrammes du graphique, le cas échéant. Sur les clics à gauche suivants sur d’autres graphiques linéaires du graphique, plusieurs ngrams peuvent être concentrés. Vous pouvez double-cliquer sur n’importe quelle zone du graphique pour réinstaller tous les ngrams dans la requête.
Vous pouvez également spécifier des caractères génériques dans les requêtes, rechercher des inflexions, effectuer une recherche insensible à la casse, rechercher des parties particulières du discours ou ajouter, soustraire et diviser des ngrammes.Plus sur ceux sous Utilisation avancée.
Utilisation avancée
Quelques fonctionnalités de la visionneuse Ngram peuvent intéresser les utilisateurs qui souhaitent approfondir l’utilisation des phrases: recherche par caractères génériques, recherche par inflexion, recherche insensible à la casse, balises de partie de discours et compositions ngram.
Recherche par caractères génériques
Lorsque vous mettez un * à la place d’un mot, la visionneuse Ngram affiche les dix premières substitutions.Par exemple, pour trouver les mots les plus populaires après « Université de », recherchez « Université de * ».
Vous pouvez cliquer avec le bouton droit sur l’un des ngrammes de remplacement pour les réduire tous dans la requête générique d’origine, le résultat étant la somme annuelle des remplacements. Un clic droit ultérieur étend la requête générique à tous les remplacements. Notez que la visionneuse Ngram ne prend en charge qu’un * par ngram.
Notez que les dix premiers remplacements sont calculés pour la plage de temps spécifiée. Vous pouvez donc obtenir différents remplacements pour différentes gammes d’années. Nous avons filtré les symboles de ponctuation de la liste des dix premiers, mais pour les mots qui commencent ou terminent souvent des phrases, vous pouvez voir l’un des symboles de limite de phrase (_START_ ou _END_) comme l’un des remplacements.
Recherche d’inflexion
Une inflexion est la modification d’un mot pour représenter diverses catégories grammaticales telles que l’aspect, le cas, le sexe, l’humeur, le nombre, la personne, le temps et la voix. Vous pouvez les rechercher en ajoutant _INF à un ngram. Par exemple, la recherche dans « book_INF un hôtel » affichera les résultats pour « réserver », « réservé », « livres » et « réservation »:
Un clic droit sur toute inflexion réduit toutes les formes dans leur somme. Notez que la visionneuse Ngram ne prend en charge qu’un seul mot-clé _INF par requête.
Avertissement: Vous ne pouvez pas mélanger librement les recherches génériques, les inflexions et les recherches insensibles à la casse pour un ngramme particulier.Cependant, vous pouvez rechercher avec l’une de ces fonctionnalités des ngrammes distincts dans une requête: « book_INF un hôtel, book * hotel » est bien, mais « book_INF * hotel » ne l’est pas.
Recherche insensible à la casse
Par défaut, la visionneuse Ngram effectue des recherches sensibles à la casse : la majuscule compte. Vous pouvez effectuer une recherche insensible à la casse en cochant la case » insensible à la casse » à droite de la boîte de requête. Le visualiseur Ngram affichera alors la somme par année des variantes les plus courantes insensibles à la casse de la requête d’entrée. Voici deux ngrammes insensibles à la casse, « Fitzgerald » et « Dupont »:
Un clic droit sur n’importe quelle somme annuelle entraîne une expansion dans les variantes les plus courantes insensibles à la casse. Par exemple, un clic droit sur « Dupont (Tous) » donne les quatre variantes suivantes: « DuPont », « Dupont », « duPont » et « DUPONT ».
Balises de partie de discours
Considérez le mot tacle, qui peut être un verbe (« s’attaquer au problème ») ou un nom (« matériel de pêche »). Vous pouvez distinguer ces différentes formes en ajoutant _VERBor _NOUN:
La liste complète des balises est la suivante:
_NOUN_ | Ces balises peuvent être autonomes (_PRON_) ou peuvent être ajoutées à un mot (she_PRON) |
|
_VERBE_ | ||
_ADJ_ | adjectif | |
Adverbe _ADV_ | ||
_PRON_ | pronom | |
_DET_ | déterminateur ou article | |
_ADP_ | une adposition: soit une préposition, soit une postposition | |
_NUM_ | chiffre | |
_CONJ_ | conjonction | |
_PRT_ | particule | |
_ROOT_ | racine de l’arbre d’analyse | Ces balises doivent être autonomes (par ex., _COMMENCER _) |
_START_ | début d’une phrase | |
_END_ | fin d’une phrase |
Étant donné que les balises de partie de discours n’ont pas besoin de s’attacher à des mots particuliers, vous pouvez utiliser la balise DET pour rechercher lire un livre, lire le livre, lire ce livre, lire ce livre, etc. comme suit:
Si vous vouliez savoir quels sont les déterminants les plus courants dans ce contexte, vous pouvez combiner des caractères génériques et des balises de partie de discours pour lire * _DET book:
Pour obtenir toutes les différentes inflexions du livre de mots qui ont été suivies par un NOM dans le corpus, vous pouvez émettre la requête book_INF _NOUN_:
Les balises de partie de discours les plus fréquentes pour un mot peuvent être récupérées avec la fonctionnalité générique. Considérons la requête cook_ *:
Le mot-clé inflexion peut également être combiné avec des balises de partie de la parole. Par exemple, considérons la requête cook_INF, cook_VERB_INF ci-dessous, qui sépare les inflexions du sens verbal de « cuisinier »:
Le visualiseur Ngram balise les limites des phrases, vous permettant d’identifier les ngrams au début et à la fin des phrases avec les balises de DÉBUT et de FIN:
Parfois, il est utile de penser aux mots en termes de dépendances plutôt que de modèles. Disons que vous voulez savoir commentsouvent savoureux modifie le dessert. C’est-à-dire que vous voulez des mentions complètes de dessert glacé savoureux, croquant, savoureux, dessert savoureux mais cher, et de tous les autres exemples dans lesquels le mot savoureux est appliqué au dessert.Pour cela, la visionneuse Ngram fournit des relations de dépendance avec l’opérateur =>:
Chaque phrase analysée a un _ROOT_. Contrairement à d’autres balises, _ROOT_ ne représente pas un mot ou une position particulière dans la phrase. C’est la racine de l’arbre d’analyse construit en analysant la syntaxe; vous pouvez le considérer comme un espace réservé pour ce que le verbe principal de la phrase modifie. Voici donc comment identifiercomment souvent will était le verbe principal d’une phrase:
Le graphique ci-dessus inclurait la phrase Larry willdecide. mais Larry n’a pas dit qu’il déciderait, car will n’est pas le verbe principal de cette phrase.Les dépendances
peuvent être combinées avec des caractères génériques. Par exemple, considérons la requête drink => *_NOUN ci-dessous:
Les balises de partie de discours « pures » peuvent être mélangées librement avec des mots réguliers 1-, 2-, 3-, 4-, et 5 grammes (par exemple, le toast _ADJ_ ou _DET__ADJ_toast).
Compositions de Ngram
La visionneuse de Ngram fournit cinq opérateurs que vous pouvez utiliser pour combinergrams : +, -, /, * et :.
+ | Additionne les expressions de chaque côté, vous permettant de combiner plusieurs séries chronologiques ngram en une seule. |
– | Soustrait l’expression à droite de l’expression à gauche, vous donnant un moyen de mesurer un ngramme par rapport à un autre. Parce que les utilisateurs veulent souvent rechercher des phrases avec un trait d’union, mettez des espaces de chaque côté du signe -. |
/ | Divise l’expression à gauche par l’expression à droite, ce qui est utile pour isoler le comportement d’un ngram par rapport à un autre. |
* | Multiplie l’expression à gauche par le nombre à droite, ce qui facilite la comparaison des ngrammes de fréquences très différentes. (Assurez-vous de mettre le ngram entier entre parenthèses afin que * ne soit pas interprété comme un caractère générique.) |
: | Applique le ngram de gauche au corpus de droite, ce qui vous permet de comparer les ngrams entre différents corpus. |
Le visualiseur Ngram essaiera de deviner s’il faut appliquer ces comportements. Vous pouvez utiliser des parenthèses pour les forcer, et squarebrackets pour les forcer. Exemple: et / ou divisera et par ou; pour mesurer l’utilisation de la phrase et / ou, utilisez.Et bien intentionné recherchera la phrase bien intentionnée; si vous voulez soustraire le sens du bien, utilisez (bien intentionné).
Pour démontrer l’opérateur +, voici comment vous pourriez trouver la somme du jeu, du sport et du jeu:
Lorsque vous déterminez si les gens ont écrit plus sur les choix au cours des années, vous pouvezcomparer le choix, la sélection, l’option et l’alternative, en spécifiant les formes nominales pour éviter les formes adjectives (par exemple, délicatesse de choix, musique alternative).:
La soustraction de ngrammes vous donne un moyen facile de comparer un ensemble de ngrammes à un autre:
Voici comment vous pouvez combiner + et / pour montrer comment le mot compote de pommes s’est épanoui au détriment de la compote de pommes:
L’opérateur * est utile lorsque vous souhaitez comparer des ngrammes de fréquences très variables, comme le violon et le thérémine plus ésotérique:
L’opérateur : sélection de corpus vous permet de comparer ngrams dans différentes langues, ou l’anglais américain par rapport à l’anglais britannique (ou fiction), ou entre les versions 2009, 2012 et 2019 de nos scans de livres.Voici le chat en anglais par rapport au même unigram en français:
Lorsque nous avons généré le corpus original de visionneuse de Ngram en 2009, ourOCR n’était pas aussi bon qu’aujourd’hui. Cela était particulièrement évident dans l’anglais du XIXe siècle, où le s médian allongé (ſ) était souvent interprété comme un f, de sorte que le meilleur était souvent lu. Voici la preuve des améliorations que nous avons apportées depuis lors, en utilisant l’opérateur corpus pour comparer les versions 2009, 2012 et 2019:
En comparant la fiction à l’ensemble de l’anglais, nous pouvons voir que l’utilisation de l’assistant en anglais général a récemment gagné en popularité par rapport aux utilisations dans la fiction:
Corpus
Voici les descriptions des corpus pouvant être recherchés avec le visualiseur de grams de Google Books. Tous les corpus ont été générés en juillet 2009, juillet 2012 et février 2020 ; nous mettrons à jour ces corpus au fur et à mesure que notre analyse de livres se poursuivra, et les versions mises à jour auront des identificateurs persistants distincts. Les livres de faible qualité OCR et les publications en série ont été exclus.
Nom de corpus informel | Raccourci | Identificateur persistant | Description |
Anglais américain 2019 | eng_us_2019 | googlebooks-eng-us-20200217 | Livres principalement en langue anglaise publiés aux États-Unis. |
Anglais américain 2012 | eng_us_2012 | googlebooks – eng-us-all-20120701 | |
Anglais américain 2009 | eng_us_2009 | googlebooks – eng-us-all-20090715 | |
Anglais britannique 2019 | eng_gb_2019 | googlebooks-eng-gb-20200217 | Livres principalement en langue anglaise publiés en Grande-Bretagne. |
Anglais britannique 2012 | eng_gb_2012 | googlebooks -eng-gb-all-20120701 | |
Anglais britannique 2009 | eng_gb_2009 | googlebooks -eng-gb-all-20090715 | |
Anglais 2019 | eng_2019 | googlebooks-eng-20200217 | Livres principalement en langue anglaise publiés dans n’importe quel pays. |
Français 2012 | eng_2012 | googlebooks-eng-all-20120701 | |
Français 2009 | eng_2009 | googlebooks-eng-all-20090715 | |
English Fiction 2019 | eng_fiction_2019 | googlebooks-eng-fiction-20200217 | Livres principalement en langue anglaise qu’une bibliothèque ou un éditeur a identifiés comme de la fiction. |
Fiction anglaise 2012 | eng_fiction_2012 | googlebooks-eng-fiction-all-20120701 | |
Fiction anglaise 2009 | eng_fiction_2009 | googlebooks-eng-fiction-all-20090715 | |
Anglais Un million | eng_1m_2009 | googlebooks-eng-1M-20090715 | Le « Google Million ». Tous sont en anglais avec des dates allant de1500 à 2008. Pas plus d’environ 6000 livres ont été choisis parmi unannée, ce qui signifie que tous les livres numérisés des premières années sont présents et que les livres des dernières années sont échantillonnés au hasard. Les échantillons aléatoires reflètent les distributions des sujets pour l’année (il y a donc plus de livres informatiques en 2000 qu’en 1980). |
Chinois 2019 | chi_sim_2019 | googlebooks-chi-sim-20200217 | Livres principalement en écriture chinoise simplifiée. |
Chinois 2012 | chi_sim_2012 | googlebooks-chi-sim-all-20120701 | |
Chinois 2009 | chi_sim_2009 | googlebooks-chi-sim-all-20090715 | |
Français 2019 | fre_2019 | googlebooks-fre-20200217 | Livres principalement en langue française. |
Français 2012 | fre_2012 | googlebooks – fre-all-20120701 | |
Français 2009 | fre_2009 | googlebooks – fre-all-20090715 | |
Allemand 2019 | ger_2019 | googlebooks-ger-20200217 | Livres principalement en langue allemande. |
Allemand 2012 | ger_2012 | googlebooks- ger-all-20120701 | |
Allemand 2009 | ger_2009 | googlebooks- ger-all-20090715 | |
Hebrew 2019 | heb_2019 | googlebooks-heb-20200217 | Les livres prédominaient en langue hébraïque. |
Hébreu 2012 | heb_2012 | googlebooks- heb-all-20120701 | |
Hébreu 2009 | heb_2009 | googlebooks- heb-all-20090715 | |
Espagnol 2019 | spa_2019 | googlebooks-spa-20200217 | Livres principalement en langue espagnole. |
Espagnol 2012 | spa_2012 | googlebooks – spa-tous-20120701 | |
Espagnol 2009 | spa_2009 | googlebooks – spa-tous-20090715 | |
Russe 2019 | rus_2019 | googlebooks-rus-20200217 | Livres principalement en langue russe. |
Russe 2012 | rus_2012 | googlebooks -rus-all-20120701 | |
Russe 2009 | rus_2009 | googlebooks-rus-all-20090715 | |
Italien 2019 | ita_2019 | googlebooks-ita-20200217 | Livres principalement en langue italienne. |
Italien 2012 | ita_2012 | googlebooks – ita-all-20120701 |
Par rapport aux versions 2009, les versions 2012 et 2019 ontplus de livres, une OCR améliorée, une bibliothèque améliorée et des données d’édition. Les versions 2012 et 2019 ne forment pas non plus de ngrams qui traversent les limites de sentenceboundaries et forment des ngrams au-delà des limites de page, contrairement aux versions 2009.
Avec les corpus 2012 et 2019, la segmentation en jetons s’est également améliorée, utilisant un ensemble de règles conçues manuellement (sauf pour le chinois, où un système astatistique est utilisé pour la segmentation). Dans les corpus de 2009, la segmentation en jetons était simplement basée sur des espaces.
Recherche dans Google Books
Sous le graphique, nous montrons des plages d’années « intéressantes » pour vos termes de requête. En cliquant sur ceux-ci, votre requête sera envoyée directement à GoogleBooks. Notez que la visionneuse Ngram est sensible à la casse, mais les résultats de Google Bookssearch ne le sont pas.
Ces recherches donneront des phrases dans la langue de whichevercorpus que vous avez sélectionnée, mais les résultats sont renvoyés à partir du corpus complet de GoogleBooks. Donc, si vous utilisez le visualiseur Ngram pour rechercher une phrase française dans le corpus français, puis cliquez sur Google Books, cette recherche portera sur la même phrase française which ce qui pourrait se produire dans un livre principalement dans une autre langue.
FAQ
Pourquoi ne vois-je pas les résultats que j’attends?
Peut-être pour l’une de ces raisons:
- La visionneuse Ngram est sensible à la casse. Essayez de capitaliser votre requête ou cochez la case « insensible à la casse » à droite de la boîte de recherche.
- Vous recherchez dans un corpus inattendu. Par exemple, Frankenstein n’apparaît pas dans les livres russes, donc si vous recherchez dans le corpus russe, vous verrez une ligne plate. Vous pouvez choisir le corpus via le menu déroulant sous la zone de recherche, ou via l’opérateur de sélection de corpus, par exemple Frankenstein: eng_2019.
- Votre phrase comporte une virgule, un signe plus, un trait d’union, un astérisque, deux points ou une barre oblique. Ceux-ci ont des significations spéciales pour le NgramViewer; voir Utilisation avancée. Essayez de placer la phrase entre crochets (bien que cela n’aide pas les virgules).
Comment le visualiseur Ngram gère-t-il la ponctuation ?
Nous appliquons un ensemble de règles de tokenisation spécifiques à la langue particulière. En anglais, les contractions deviennent deux mots (elles deviennent le bigram qu’elles sont, nous deviendrons nous deviendrons, et ainsi de suite). Le possessif est également séparé, mais le R’n’B reste un jeton. Les négations (non) sont normalisées de sorte que ne pas devient ne pas. En russe, le diacritique est normalisé en e, etc. Les mêmes règles sont appliquées pour analyser à la fois les ngrams tapés par les utilisateurs et les ngrams extraits des corpus, ce qui signifie que si vous effectuez une recherche pour ne pas le faire, ne vous inquiétez pas du fait que le visualiseur de Ngrams l’écrit pour ne pas le faire; il décrit avec précision les utilisations des deux ne le font pas et ne le font pas dans le corpus. Cependant, cela signifie qu’il n’y a aucun moyen de rechercher explicitement les formulaires spécifiques ne peuvent pas (ou ne peuvent pas): vous obtenez can’tand ne peut pas et ne peut pas tout à la fois.
Comment puis-je voir des exemples d’utilisations en contexte?
Sous le graphique de visionneuse Ngram, nous fournissons un tableau des recherches de livres Google prédéfinies, chacune réduite à une plage d’années. Nous choisissons les plages en fonction de l’intérêt: si un ngramme a un pic énorme au cours d’une année donnée, cela apparaîtra en soi comme une recherche, d’autres recherches couvrant des durées plus longues.
Contrairement au corpus Ngram Viewer 2019, le corpus Google Books n’est pas étiqueté en partie de discours. On ne peut pas rechercher, par exemple, le verbe formof cheer dans Google Books. Donc, tous les ngrams avec des étiquettes de partie de discours (par ex., cheer_VERB) sont exclus de la table des recherches GoogleBooks.
La visionneuse Ngram a des corpus de 2009, 2012 et 2019, mais Google Books ne fonctionne pas de cette façon. Lorsque vous effectuez une recherche dans Google Books, vous recherchez tous les livres actuellement disponibles, il peut donc y avoir des différences entre ce que vous voyez dans Google Books et ce que vous attendiez de voir compte tenu du graphique de visionneuse Ngram.
Pourquoi vois-je plus de pointes et de plateaux dans les premières années?
L’édition était un événement relativement rare aux XVIe et XVIIe siècles. (Il n’y a qu’environ 500 000 livres publiés en anglais avant le 19ème siècle.) Donc, si une phrase apparaît dans un livre au cours d’une année, mais pas les années précédentes ou suivantes, cela crée un pic plus grand que les années suivantes.
Les plateaux sont généralement simplement des pointes lissées. Changez le lissage à 0.
Que signifie « lissage »?
Souvent, les tendances deviennent plus apparentes lorsque les données sont considérées comme une moyenne mobile. Un lissage de 1 signifie que les données affichées pour 1950 seront moyennes du nombre brut pour 1950 plus 1 valeur de chaque côté:(« compter pour 1949 » + « compter pour 1950 » + « compter pour 1951 »), divisé par3. Ainsi, un lissage de 10 signifie que 21 valeurs seront moyennées: 10 d’un côté, plus la valeur cible au centre d’entre elles.
Sur les bords gauche et droit du graphique, moins de valeurs sont enregistrées. Avec un lissage de 3, la valeur la plus à gauche (prétendue l’année 1950) sera calculée comme (« compter pour 1950 » + « compter pour 1951″ + »compter pour 1952″ + »compter pour 1953 »), divisée par 4.
Un lissage de 0 signifie pas de lissage du tout : juste des données brutes.
De nombreux autres livres sont publiés dans les années modernes. Cela ne fausse-t-il pas les résultats?
Ce serait le cas si nous ne normalisions pas le nombre de livres publiés chaque année.
Pourquoi affichez-vous une ligne plate à 0% alors que je sais que la phrase de myquery s’est produite dans au moins un livre?
Sous une charge importante, le visualiseur Ngram renvoie parfois aflatline; rechargez pour confirmer qu’il n’y a réellement aucun accès pour la phrase. En outre, nous ne considérons que les ngrams qui se produisent dans au moins 40livres. Sinon, la taille de l’ensemble de données augmenterait et nous ne serions pas en mesure de les offrir tous.
Quelle est la précision du marquage d’une partie du discours?
Les balises de partie de discours et les relations de dépendance sont prédictives automatiquement. Évaluer la précision de ces prédictions est difficile, mais pour l’anglais moderne, nous nous attendons à ce que la précision des balises de la partie de la parole soit d’environ 95% et la précision des relations de dépendance d’environ 85%. Sur un texte anglais plus ancien et pour d’autres languesles précisions sont inférieures, mais probablement supérieures à 90% pour les balises de partie de discours et supérieures à 75% pour les dépendances. Cela implique un nombre important d’erreurs, qui doivent être prises en compte lors du dessinconclusions.
Les balises de partie de discours sont construites à partir d’un petit ensemble d’entraînement (un million de mots pour l’anglais). Cela va parfois sous-représenter des usages inhabituels, tels que green ou dogor book en tant que verbes, ou ask en tant que nom.
Une note supplémentaire sur le chinois: Avant le 20ème siècle, le chinois classique était traditionnellement utilisé pour toutes les communications écrites. Le chinois classique est basé sur la grammaire et la grammaire du chinois ancien, et les annotations syntaxiques seront donc erronées plus souvent qu’elles n’ont raison.
Notez également que les corpus de 2009 n’ont pas fait partie du discours.
J’écris un article en fonction de vos résultats. Comment puis-je citer votre travail?
Si vous souhaitez utiliser ces données pour une publication académique, veuillez citer l’article original :
Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, L’équipe de Google Books, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak et Erez Lieberman Aiden*.Analyse quantitative de la Culture À l’aide de Millions de livres numérisés. Science (Publié en ligne avant impression: 16/12/2010)
Nous avons également un article sur notre marquage de la partie du discours:
Yuri Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant, William Brockman, Slav Petrov.Annotations syntaxiques pour le corpus Ngram de Google Books. Procéduresde la 50e Réunion annuelle de l’Association pour la Linguistique Computationnelle Volume 2: Documents de démonstration (ACL ’12) (2012)
Puis-je télécharger vos données pour mener mes propres expériences ?
Oui! Les données ngram sont disponibles pourtélécharger ici. Pour rendre les tailles de fichiers gérables, nous les avons regroupées par lettre de départ et avons ensuite regroupé les différentes tailles de grammes dans des fichiers séparés. Les fichiers ngrams withineach ne sont pas triés par ordre alphabétique.
Pour générer des noms de fichiers lisibles par machine, nous avons translittéré les thengrams pour les langues qui utilisent des scripts non romains (chinois, hébreu, russe) et utilisé la lettre de départ du ngram translittéré pour déterminer le nom de fichier. La même approche a été adoptée pour les caractères tels que ä en allemand. Notez que la translittération n’a été utilisée que pour déterminer le nom du fichier; les ngrammes réels sont codés inUTF-8 en utilisant l’alphabet spécifique à la langue.