Google Ngram Viewer

Was macht der Ngram Viewer?

Wenn Sie Phrasen in den Google Books Ngram Viewer eingeben, wird eine Grafik angezeigt, die zeigt, wie diese Phrasen in einem Korpus von Büchern (z. B. „Britisches Englisch“, „Englische Belletristik“, „Französisch“) über die ausgewählten Jahre aufgetreten sind. Schauen wir uns ein Beispieldiagramm an:

Dies zeigt Trends in drei ngrams von 1960 bis 2015: „nurseryschool“ (ein 2-Gramm oder Bigram), „Kindergarten“(ein 1-Gramm oder unigram) und „child care“ (anotherbigram). Was die y-Achse zeigt, ist dies: von allen Bigrams enthaltenin unserer Stichprobe von Büchern in englischer Sprache geschrieben und in den Vereinigten Staaten veröffentlicht, wie viel Prozent von ihnen sind „Kindergarten“ oder „Kinderbetreuung“?Wie viel Prozent aller Unigramme sind „Kindergarten“?Hier können Sie sehen, dass die Verwendung des Ausdrucks „Kinderbetreuung“ in den späten 1960er Jahren zu steigen begann und „Kindergarten“ um 1970 und dann „Kindergarten“ um 1973 überholte. Es erreichte kurz nach 1990 seinen Höhepunkt und ist seitdem stetig gesunken.

(Interessanterweise unterscheiden sich die Ergebnisse merklich, wenn thecorpus auf britisches Englisch umgestellt wird.)

Sie können den Mauszeiger über das Liniendiagramm eines Ngrams bewegen, wodurch es hervorgehoben wird. Mit einem Linksklick auf ein Liniendiagramm können Sie sich auf ein bestimmtes Ngram konzentrieren und die anderen Ngrams im Diagramm, falls vorhanden, ausgrauen. Bei nachfolgenden Linksklicks auf andere Liniendiagramme im Diagramm können mehrere Programme fokussiert werden. Sie können auf einen beliebigen Bereich des Diagramms doppelklicken, um alle Ngramme in der Abfrage wiederherzustellen.

Sie können auch Platzhalter in Abfragen angeben, nach Beugungen suchen, Groß- und Kleinschreibung nicht berücksichtigen, nach bestimmten Wortarten suchen oder Ngramme addieren, subtrahieren und dividieren.Mehr dazu unter Advanced Usage.

Erweiterte Verwendung

Einige Funktionen des Ngram-Viewers können Benutzer ansprechen, die etwas tiefer in die Verwendung von Phrasen einsteigen möchten: Platzhaltersuche, Flexionssuche, Suche ohne Berücksichtigung von Groß- und Kleinschreibung, Part-of-Speech-Tags und Ngram-Kompositionen.

Platzhaltersuche

Wenn Sie ein * anstelle eines Wortes eingeben, zeigt der Ngram-Viewer die zehn wichtigsten Ersetzungen an.Um beispielsweise die beliebtesten Wörter nach „University of“ zu finden, suchen Sie nach „University of *“.

Sie können mit der rechten Maustaste auf eines der Ersetzungs-Ngramme klicken, um sie alle in die ursprüngliche Platzhalterabfrage zu reduzieren, wobei das Ergebnis die jahresweise Summe der Ersetzungen ist. Ein anschließender Rechtsklick erweitert die Platzhalterabfrage wieder auf alle Ersetzungen. Beachten Sie, dass der Ngram-Viewer nur ein * pro ngram unterstützt.

Beachten Sie, dass die zehn wichtigsten Ersetzungen für den angegebenen Zeitraum berechnet werden. Sie können daher für verschiedene Jahresbereiche unterschiedliche Ersetzungen erhalten. Wir haben Interpunktionssymbole aus der Top-Ten-Liste gefiltert, aber bei Wörtern, die häufig Sätze beginnen oder beenden, wird möglicherweise eines der Satzgrenzensymbole (_START_ oder _END_) als Ersatz angezeigt.

Flexionssuche

Eine Flexion ist die Modifikation eines Wortes, um verschiedene grammatische Kategorien wie Aspekt, Fall, Geschlecht, Stimmung, Zahl, Person, Zeitform und Stimme darzustellen. Sie können nach ihnen suchen, indem Sie _INF an ein ngram anhängen. Wenn Sie beispielsweise nach „book_INF a hotel“ suchen, werden Ergebnisse für „book“, „booked“, „books“ und „booking“ angezeigt:

Wenn Sie mit der rechten Maustaste auf eine Beugung klicken, werden alle Formen in ihre Summe reduziert. Beachten Sie, dass der Ngram Viewer nur ein _INF Schlüsselwort pro Abfrage unterstützt.

Warnung: Sie können Platzhaltersuchen, Beugungen und Groß- / Kleinschreibung für ein bestimmtes Ngram nicht frei mischen.Sie können jedoch mit einer dieser Funktionen nach separaten Programmen in einer Abfrage suchen: „book_INF a hotel, book * hotel“ ist in Ordnung, „book_INF * hotel“ jedoch nicht.

Suche ohne Berücksichtigung der Groß-/Kleinschreibung

Standardmäßig führt der Ngram Viewer eine Suche mit Berücksichtigung der Groß-/Kleinschreibung durch. Sie können eine Suche ohne Berücksichtigung der Groß-/Kleinschreibung durchführen, indem Sie das Kontrollkästchen „Groß-/Kleinschreibung“ rechts neben dem Abfragefeld aktivieren. Der Ngram-Viewer zeigt dann die jahresweise Summe der häufigsten Groß- / Kleinschreibung der Eingabeabfrage an. Hier sind zwei Groß- / Kleinschreibung ngrams, „Fitzgerald“ und „Dupont“:

Rechtsklick auf eine beliebige Jahressumme führt zu einer Erweiterung in die häufigsten Groß- / Kleinschreibung Varianten. Ein Rechtsklick auf „Dupont (Alle)“ ergibt beispielsweise die folgenden vier Varianten: „DuPont“, „Dupont“, „duPont“ und „DUPONT“.

Part-of-Speech-Tags

Betrachten Sie das Wort Tackle, das ein Verb („tackle theproblem“) oder ein Substantiv („fishing tackle“) sein kann. Sie können zwischen diesen verschiedenen Formen unterscheiden, indem Sie _VERBor _NOUN anhängen:

Die vollständige Liste der Tags lautet wie folgt:

_NEIN_ Diese Tags können entweder alleine stehen (_PRON_)
oder an ein Wort angehängt werden (she_PRON)
_VERB_
_ADJ_ Adjektiv
_ADV_ adverb
_PRON_ Pronomen
_DET_ determiner oder Artikel
_ADP_ eine Anzeigenposition: entweder eine Präposition oder eine Postposition
_NUM_ Ziffer
_CONJ_ Konjunktion
_PRT_ Partikel
_ROOT_ Wurzel des Analysebaums Diese Tags müssen eigenständig sein (z., _START_)
_START_ Satzanfang
_END_ Ende eines Satzes

Da die Part-of-Speech-Tags nicht an bestimmte Wörter angehängt werden müssen, können Sie mit dem DET-Tag wie folgt nach read a book ,read the book, read that book, read this book usw. suchen:

Wenn Sie wissen möchten, welche Determinanten in diesem Zusammenhang am häufigsten vorkommen, können Sie Platzhalter und Part-of-Speech-Tags kombinieren, um *_DET book zu lesen:

Um alle verschiedenen Beugungen des Wortes book zu erhalten, denen ein SUBSTANTIV im Korpus gefolgt ist, können Sie die Abfrage book_INF _NOUN_:

Die häufigsten Part-of-Speech-Tags für ein Wort können mit der Platzhalterfunktion abgerufen werden. Betrachten Sie die Abfrage cook_*:

Das Schlüsselwort flexion kann auch mit Part-of-Speech-Tags kombiniert werden. Betrachten Sie zum Beispiel die Abfrage cook_INF, cook_VERB_INF unten, die die Beugungen des verbalen Sinns von „cook“ trennt:

Der Ngram-Viewer markiert Satzgrenzen, sodass Sie Ngramme am Anfang und Ende von Sätzen mit den START- und END-Tags identifizieren können:

Manchmal hilft es, Wörter in Bezug auf Abhängigkeiten zu betrachteneher als Muster. Angenommen, Sie möchten wissen, wieoft lecker ändert Dessert. Das heißt, Sie möchten die Erwähnungen von leckerem gefrorenem Dessert, knusprigem, leckerem Dessert, leckerem und dennoch teurem Dessert und all den andereninstanzen, in denen das Wort lecker auf Dessert angewendet wird.Dazu stellt der Ngram-Viewer Abhängigkeitsbeziehungen mit dem Operator => bereit:

Jeder analysierte Satz hat ein _ROOT_ . Im Gegensatz zu anderen Tags steht _ROOT_ nicht für ein bestimmtes Wort oder eine bestimmte Position im Satz. Es ist die Wurzel des Analysebaums, der durch Analyse der Syntax erstellt wurde; Sie können es sich als Platzhalter für das vorstellen, was das Hauptverb des Satzes ändert. So identifizieren Sie, wie oft Wille das Hauptverb eines Satzes war:

Die obige Grafik würde den Satz Larry willdecide . aber nicht Larry hat gesagt, dass er entscheiden wird,da Wille nicht das Hauptverb dieses Satzes ist.

Abhängigkeiten können mit Platzhaltern kombiniert werden. Betrachten Sie beispielsweise die Abfrage drink=>*_NOMEN unten:

„Reine“ Wortart-Tags können frei mit regulären Wörtern gemischt werden. 1-, 2-, 3-, 4-, und 5 Gramm (z. B. der _ADJ_ Toast oder _DET__ADJ_ Toast).

Ngram-Zusammensetzungen

Der Ngram-Viewer bietet fünf Operatoren, mit denen Sie Programme kombinieren können: +, -, /, * und :.

+ Summiert die Ausdrücke auf beiden Seiten, sodass Sie mehrere ngram-Zeitreihen zu einer kombinieren können.
Subtrahiert den Ausdruck rechts vom Ausdruck links, sodass Sie ein Ngram relativ zu einem anderen messen können. Da Benutzer häufig nach Phrasen mit Bindestrich suchen möchten, setzen Sie Leerzeichen auf beiden Seiten des – Zeichens.
/ Teilt den Ausdruck links durch den Ausdruck rechts, was nützlich ist, um das Verhalten eines Ngrams in Bezug auf ein anderes zu isolieren.
* Multipliziert den Ausdruck links mit der Zahl rechts, wodurch das Vergleichen von Ngrammen mit sehr unterschiedlichen Frequenzen erleichtert wird. (Stellen Sie sicher, dass Sie das gesamte ngram in Klammern setzen, damit * nicht als Platzhalter interpretiert wird.)
: Wendet das Ngram links auf das Korpus rechts an, sodass Sie Ngrams in verschiedenen Korpora vergleichen können.

Der Ngram-Viewer wird versuchen zu erraten, ob diese angewendet werden sollenverhalten. Sie können Klammern verwenden, um sie zu erzwingen, und Squarebrackets, um sie zu erzwingen. Und / oder wird geteilt und durch oder; um die Verwendung Derphrase zu messen und / oder zu verwenden .Und well-meaning sucht nach derphrase well-meaning; Wenn Sie die Bedeutung von well subtrahieren möchten,verwenden Sie (well – meaning).

Um den Operator + zu demonstrieren, können Sie die Summe aus Spiel, Sport und Spiel folgendermaßen ermitteln:

Wenn Sie feststellen, ob Personen im Laufe der Jahre mehr über Entscheidungen geschrieben haben, können Sie Wahl, Auswahl, Option und Alternative vergleichen und die Substantivformen angeben, um die objektiven Formen zu vermeiden (z. B. Wahlform, Alternativemusik):

Ngram Subtraktion gibt Ihnen eine einfache Möglichkeit, einen Satz von ngrams mit einem anderen zu vergleichen:

Hier ist, wie Sie + und / kombinieren können, um zu zeigen, wie das Wort Apfelmus auf Kosten von Apfelmus geblüht hat:

Der Operator * ist nützlich, wenn Sie Ngrams mit sehr unterschiedlichen Frequenzen vergleichen möchten, wie Violine und das esoterischere Theremin:

Mit dem :corpus selection Operator können Sie Ngramme verschiedener Sprachen oder amerikanisches versus britisches Englisch (oder Belletristik) oder zwischen den Versionen 2009, 2012 und 2019 unserer Buchscans vergleichen.Hier ist Chat in Englisch im Vergleich zum gleichen Unigramm in Französisch:

Als wir 2009 die ursprünglichen Ngram Viewer-Korpora generierten, war ourOCR nicht so gut wie heute. Dies war besonders offensichtlich inpre-19th Jahrhundert Englisch, wo die längliche medial-s (ſ) oft als f interpretiert wurde, so dass es oft als beft gelesen wurde. Hier ist ein Beweis für die Verbesserungen, die wir seitdem vorgenommen haben, indem wir den Korpus-Operator verwenden, um die Versionen 2009, 2012 und 2019 zu vergleichen:

Durch den Vergleich der Fiktion mit dem gesamten Englischen können wir feststellen, dass die Verwendung von Wizard in General English in letzter Zeit zugenommen hatverglichen mit der Verwendung in der Fiktion:

Korpora

Nachfolgend finden Sie Beschreibungen der Korpora, die mit dem Google Books Ngram Viewer durchsucht werden können. Alle Korpora wurden im Juli 2009, Juli 2012 und Februar 2020 generiert; Wir werden diese Korpora aktualisieren, wenn unser Bookscanning fortgesetzt wird, und die aktualisierten Versionen werden unterschiedliche persistentidentifier haben. Bücher mit niedriger OCR-Qualität und Serien wurden ausgeschlossen.

Informeller Korpusname Kurzform Persistent Identifier Beschreibung
Amerikanisches Englisch 2019 eng_us_2019 googlebooks-eng-us-20200217 Bücher überwiegend in englischer Sprache, die in den USA veröffentlicht wurden.
Amerikanisches Englisch 2012 eng_us_2012 googlebooks-eng-us-all-20120701
Amerikanisches Englisch 2009 eng_us_2009 googlebooks-eng-us-all-20090715
Britisches Englisch 2019 eng_gb_2019 googlebooks-eng-gb-20200217 Bücher überwiegend in englischer Sprache, die in Großbritannien veröffentlicht wurden.
Britisches Englisch 2012 eng_gb_2012 googlebooks-eng-gb-all-20120701
Britisches Englisch 2009 eng_gb_2009 googlebooks-eng-gb-all-20090715
Englisch 2019 eng_2019 googlebooks-eng-20200217 Bücher überwiegend in englischer Sprache in jedem Land veröffentlicht.
Deutsch 2012 eng_2012 googlebooks-eng-alle-20120701
Deutsch 2009 eng_2009 googlebooks-eng-alle-20090715
English Fiction 2019 eng_fiction_2019 googlebooks-eng-fiction-20200217 Bücher überwiegend in englischer Sprache, die eine Bibliothek oder ein Verlag als Fiktion identifiziert hat.
Englische Belletristik 2012 eng_fiction_2012 googlebooks-eng-Belletristik-alle-20120701
Englische Belletristik 2009 eng_fiction_2009 googlebooks-eng-Belletristik-alle-20090715
Englisch Eine Million eng_1m_2009 googlebooks-eng-1M-20090715 Die „Google Million“. Alle sind in englischer Sprache mit Daten von 1500 bis 2008. Es wurden nicht mehr als etwa 6000 Bücher aus einem Jahr ausgewählt, was bedeutet, dass alle gescannten Bücher aus frühen Jahren vorhanden sind und Bücher aus späteren Jahren nach dem Zufallsprinzip beprobt werden. Die Zufallsstichproben spiegeln die Themenverteilungen für das Jahr wider (es gibt also mehr Computerbücher im Jahr 2000 als 1980).
Chinesisch 2019 chi_sim_2019 googlebooks-chi-sim-20200217 Bücher überwiegend in vereinfachter chinesischer Schrift.
Chinesisch 2012 chi_sim_2012 googlebooks-chi-sim-all-20120701
Chinesisch 2009 chi_sim_2009 googlebooks-chi-sim-all-20090715
Französisch 2019 fre_2019 googlebooks-fre-20200217 Bücher überwiegend in französischer Sprache.
Französisch 2012 fre_2012 googlebooks-fre-alle-20120701
Französisch 2009 fre_2009 googlebooks-fre-alle-20090715
Deutsch 2019 ger_2019 googlebooks-ger-20200217 Bücher überwiegend in deutscher Sprache.
Deutsch 2012 ger_2012 googlebooks-de-alle-20120701
Deutsch 2009 ger_2009 googlebooks-de-alle-20090715
Hebräisch 2019 heb_2019 googlebooks-heb-20200217 Bücher dominierten in hebräischer Sprache.
Hebräisch 2012 heb_2012 googlebooks-heb-alle-20120701
Hebräisch 2009 heb_2009 googlebooks-heb-alle-20090715
Spanisch 2019 spa_2019 googlebooks-spa-20200217 Bücher überwiegend in spanischer Sprache.
Spanisch 2012 spa_2012 googlebooks-spa-alle-20120701
Spanisch 2009 spa_2009 googlebooks-spa-alle-20090715
Russisch 2019 rus_2019 googlebooks-rus-20200217 Bücher überwiegend in russischer Sprache.
Russisch 2012 rus_2012 googlebooks-rus-alle-20120701
Russisch 2009 rus_2009 googlebooks-rus-alle-20090715
Italienisch 2019 ita_2019 googlebooks-ita-20200217 Bücher überwiegend in italienischer Sprache.
Italienisch 2012 ita_2012 googlebooks-ita-alle-20120701

Im vergleich zu den 2009 versionen, die 2012 und 2019 versionen habenmehr bücher, verbesserte OCR, verbesserte bibliothek und publishermetadata. Die Versionen 2012 und 2019 bilden im Gegensatz zu den Versionen 2009 auch keine Ngramme, die Satzgrenzen überschreiten, und bilden Ngramme über Seitengrenzen hinweg.

Mit den Korpora 2012 und 2019 hat sich auch die Tokenisierung verbessert, indem eine Reihe von manuell entwickelten Regeln verwendet wurde (mit Ausnahme von Chinesisch, wo ein statistisches System zur Segmentierung verwendet wird). In den Korpora von 2009 basierte die Tokenisierung einfach auf Leerzeichen.

Suche in Google Books

Unterhalb der Grafik zeigen wir „interessante“ Jahresbereiche für Ihre queryterms. Wenn Sie darauf klicken, wird Ihre Anfrage direkt an GoogleBooks gesendet. Beachten Sie, dass beim Ngram-Viewer die Groß- und Kleinschreibung berücksichtigt wird, bei den Google Bookssearch-Ergebnissen jedoch nicht.

Diese Suchvorgänge ergeben Phrasen in der Sprache des von Ihnen ausgewählten Vercorpus, die Ergebnisse werden jedoch aus dem vollständigen GoogleBooks-Korpus zurückgegeben. Wenn Sie also den Ngram-Viewer verwenden, um nach einer französischen Phrase im französischen Korpus zu suchen und dann zu Google Books durchzuklicken, wird nach derselben französischen Phrase gesucht – die in einem Buch oder in einer anderen Sprache vorkommen kann.

FAQs

Warum erhalte ich nicht die erwarteten Ergebnisse?

Vielleicht aus einem dieser Gründe:

  • Der Ngram-Viewer ist case-sensitive. Versuchen Sie, Ihre Abfrage groß zu schreiben, oder aktivieren Sie das Kontrollkästchen „Groß- und Kleinschreibung beachten“ rechts neben dem Suchfeld.
  • Sie suchen in einem unerwarteten Korpus. Zum Beispiel erscheint Frankenstein nicht in russischen Büchern, wenn Sie also im russischen Korpus suchen, sehen Sie eine flache Linie. Sie können den Korpus über das Dropdown-Menü unter dem Suchfeld oder über den Korpusauswahloperator auswählen, z. B. Frankenstein: eng_2019.
  • Ihre Phrase enthält ein Komma, ein Pluszeichen, einen Bindestrich, ein Sternchen, einen Doppelpunkt oder einen Schrägstrich. Diese haben eine besondere Bedeutung für den NgramViewer; siehe Erweiterte Verwendung. Versuchen Sie, die Phrase in eckige Klammern zu setzen (obwohl dies bei Kommas nicht hilft).

Wie geht der Ngram Viewer mit Interpunktion um?

Wir wenden eine Reihe von Tokenisierungsregeln an, die für die jeweilige Sprache spezifisch sind. Im Englischen werden Kontraktionen zu zwei Wörtern (sie werden das Große, sie sind, wir werden wir und so weiter). Das possessive ’s wird ebenfalls abgespalten,aber R’n’B bleibt ein Token. Negationen (n’t) arenormalized, so dass nicht wird nicht. Im Russischen wird das diakritische ё auf e normalisiert und so weiter. Die gleichen Regeln werden angewendet, um sowohl die von Benutzern eingegebenen Ngramme als auch die aus den Korpora extrahierten Ngramme zu analysieren. Dies bedeutet jedoch, dass es keine Möglichkeit gibt, explizit nach den spezifischen Formularen can’t (oder cannot ) zu suchen: Sie erhalten can’t und can’t und cannot alle auf einmal.

Wie kann ich Beispielverwendungen im Kontext sehen?

Unterhalb des Ngram-Viewer-Diagramms finden Sie eine Tabelle mit vordefinierten Google Books-Suchen, die jeweils auf einen Bereich von Jahren eingegrenzt sind. Wir wählen die Bereiche nach Interesse: Wenn ein Ngram in einem bestimmten Jahr einen großen Höchststand hat, wird dies von selbst als Suche angezeigt, wobei andere Suchen längere Zeiträume abdecken.

Im Gegensatz zum Ngram Viewer-Korpus 2019 ist der Google Books-Korpus nicht mit Wortarten gekennzeichnet. Man kann nicht suchen, sagen wir, das Verb formof cheer in Google Books. Also alle Ngramme mit Part-of-speechtags (z., cheer_VERB) werden aus der Tabelle der GoogleBooks-Suchen ausgeschlossen.

Der Ngram-Viewer enthält Korpora für 2009, 2012 und 2019, aber Google Books funktioniert nicht so. Wenn Sie in Google Books suchen, durchsuchen Sie alle derzeit verfügbaren Bücher, sodass es möglicherweise Unterschiede zwischen dem gibt, was Sie in Google Books sehen, und dem, was Sie angesichts des Ngram-Viewer-Diagramms erwarten würden.

Warum sehe ich in den ersten Jahren mehr Spikes und Plateaus?

Publizieren war im 16. und 17.Jahrhundert ein relativ seltenes Ereignis. (Es gibt nur etwa 500.000 Bücher, die vor dem 19.Jahrhundert in englischer Sprache veröffentlicht wurden.) Wenn also eine Phrase in einem Buch in einem Jahr, aber nicht in den vorhergehenden oder folgenden Jahren vorkommt, erzeugt dies eine höhere Spitze als in späteren Jahren.

Plateaus sind in der Regel einfach geglättete Spikes. Ändern Sie die Glättung auf 0.

Was bedeutet „Glätten“?

Oft werden Trends deutlicher, wenn Daten als gleitender Durchschnitt betrachtet werden. Eine Glättung von 1 bedeutet, dass die für 1950 angezeigten Daten der Durchschnitt der Rohzählung für 1950 plus 1 Wert auf beiden Seiten sind:(„Zählung für 1949“ + „Zählung für 1950“ + „Zählung für 1951“), geteilt durch3. Eine Glättung von 10 bedeutet also, dass 21 Werte gemittelt werden: 10 auf der einen Seite plus der Zielwert in der Mitte.

Am linken und rechten Rand des Diagramms werden weniger Werte gemittelt. Mit einer Glättung von 3 wird der Wert ganz links (so tun, als wäre es das Jahr 1950) berechnet als („count for 1950“ + „countfor 1951“ + „count for 1952“ + „count for 1953“), geteilt durch 4.

Eine Glättung von 0 bedeutet überhaupt keine Glättung: nur Rohdaten.

Viele weitere Bücher werden in modernen Jahren veröffentlicht. Verzerrt das nicht die Ergebnisse?

Es wäre, wenn wir uns nicht nach der Anzahl der in jedem Jahr veröffentlichten Bücher normalisieren würden.

Warum zeigen Sie eine 0% -Flatline an, wenn ich weiß, dass der Satz in meinem Buch in mindestens einem Buch vorkommt?

Unter starker Last gibt der Ngram-Viewer manchmal aflatline; reload um zu bestätigen, dass es tatsächlich keine Treffer für die Phrase gibt. Außerdem berücksichtigen wir nur Ngramme, die in mindestens 40 % vorkommen. Andernfalls würde sich der Datensatz vergrößern und wir könnten sie nicht alle anbieten.

Wie genau ist das Part-of-Speech-Tagging?

Die Part-of-Speech-Tags und Abhängigkeitsbeziehungen werden automatisch vorhergesagt. Die Beurteilung der Genauigkeit dieser Vorhersagen istschwierig, aber für das moderne Englisch erwarten wir eine Genauigkeit von etwa 95% bei den Part-of-Speech-Tags und von etwa 85% bei den Abhängigkeitsbeziehungen. Bei älteren englischen Texten und anderen Sprachen sind die Genauigkeiten niedriger, aber wahrscheinlich über 90% für Part-of-Speech-Tags und über 75% für Abhängigkeiten. Dies impliziert eine erhebliche Anzahl vonFehler, die beim Zeichnen berücksichtigt werden solltenschlussfolgerungen.

Die Part-of-Speech-Tags bestehen aus einem kleinen Trainingssatz (eine Million Wörter für Englisch). Dies wird sometimesunderrepresent ungewöhnliche Verwendungen, wie grün oder dogor Buch als Verben, oder fragen Sie als Substantiv.

Ein zusätzlicher Hinweis auf Chinesisch: Vor dem 20.Jahrhundert wurde Klassischchinesisch traditionell für die gesamte schriftliche Kommunikation verwendet. Klassisches Chinesisch basiert auf der Grammatik und dem Vokabular des alten Chinesisch, und die syntaktischen Anmerkungen werden daher häufiger falsch als richtig sein.

Beachten Sie auch, dass die Korpora von 2009 nicht als Teil der Rede gekennzeichnet wurden.

Ich schreibe ein Papier basierend auf Ihren Ergebnissen. Wie kann ich Ihre Arbeit zitieren?

Wenn Sie diese Daten für eine wissenschaftliche Publikation verwenden möchten, zitieren Sie bitte das Originalpapier:

Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman, Das Google Books-Team,Joseph P. Produziert von Dale Hoiberg, Dan Clancy,Peter Norvig, Jon Orwant,Steven Pinker, Martin A. Nowak und Erez Lieberman Aiden*.Quantitative Analyse der Kultur mit Millionen digitalisierter Bücher. Wissenschaft (Online veröffentlicht vor dem Druck: 16.12.2010)

Wir haben auch ein Papier über unser Part-of-Speech-Tagging:

Yuri Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant,William Brockman, Slav Petrov.Syntaktische Anmerkungen für das Google Books Ngram Corpus. Ablauf der 50. Jahrestagung der Gesellschaft für Computerlinguistikband 2: Demopapiere (ACL ’12) (2012)

Kann ich Ihre Daten herunterladen, um meine eigenen Experimente durchzuführen?

Ja! Die ngram-Daten können hier heruntergeladen werden. Um die Dateigrößen überschaubar zu machen, haben wir sie nach ihrem Anfangsbuchstaben gruppiert und dann die verschiedenen Ngram-Größen in separaten Dateien gruppiert. Die Programme in jeder Datei sind nicht alphabetisch sortiert.

Um maschinenlesbare Dateinamen zu generieren, haben wir Ngramme für Sprachen transliteriert, die nicht-römische Skripte verwenden (Chinesisch, Hebräisch, Russisch), und den Anfangsbuchstaben des transliterierten Ngrams verwendet, um den Dateinamen zu bestimmen. Der gleiche Ansatz wurde für Charaktere verfolgtwie ä auf Deutsch. Beachten Sie, dass die Transliteration nur zur Bestimmung des Dateinamens verwendet wurde; Die tatsächlichen Programme werden in UTF-8 mit dem sprachspezifischen Alphabet codiert.

Ich möchte ein Ngram-Diagramm in meinem Buch / Magazin / Blog / meiner Präsentation veröffentlichen. Was sind Ihre Lizenzbedingungen?