Google Ngram Viewer

Ngram Viewerは何をしていますか?

google Books Ngram Viewerにフレーズを入力すると、選択された年にわたってそれらのフレーズが書籍のコーパス(”British English”、”English Fiction”、”French”など)でどのように発生したかを示すグラフが表示されます。 サンプルグラフを見てみましょう:

これは、1960年から2015年までの”nurseryschool”(2グラムまたはbigram)、”kindergarten”(1グラムまたはunigram)、”child care”(anotherbigram)の三つのngramの傾向を示しています。 Y軸が示すのはこれです: 含まれているすべてのビッグラムのうち、英語で書かれ、米国で出版された本のサンプル州では、そのうちの何パーセントが”保育園”または”育児”ですか?すべてのユニグラムのうち、それらの何パーセントが”幼稚園”ですか?ここでは、1960年代後半に”育児”という言葉の使用が増え始め、1970年頃に”保育園”、1973年頃に”幼稚園”を追い越したことがわかります。 それは1990年の直後にピークに達し、それ以来着実に落ちています。

()

ngramの折れ線グラフの上にカーソルを置くと、強調表示されます。 折れ線グラフを左クリックすると、特定のngramに焦点を当て、チャート内の他のngramがある場合は灰色にすることができます。 チャート内の他の折れ線グラフの後続のleftclicksでは、複数のngramsに焦点を当てることができます。 グラフの任意の領域をダブルクリックすると、クエリ内のすべてのngramを元に戻すことができます。

クエリでワイルドカードを指定したり、語形変化を検索したり、大文字と小文字を区別しない検索を実行したり、特定の品詞を検索したり、ngramを加算、減算、除算したりすることもできます。高度の使用法の下のそれらの多く。

高度な使用法

ngramビューアのいくつかの機能は、ワイルドカード検索、変曲検索、大文字と小文字を区別しない検索、品詞タグ、ngram構成など、フレーズの使用法

ワイルドカード検索

単語の代わりに*を入れると、Ngramビューアに上位10個の置換が表示されます。たとえば、”University of”に続く最も人気のある単語を見つけるには、”University of*”を検索します。

置換ngramのいずれかを右クリックして、それらをすべて元のワイルドカードクエリに折りたたむことができ、結果は置換のyearwise合計になります。 その後右クリックすると、ワイルドカードクエリがすべての置換に展開されます。 Ngramビューアは、ngramごとに*をサポートしていることに注意してください。

指定された時間範囲で上位10個の置換が計算されることに注意してください。 したがって、異なる年の範囲で異なる代替品が得られる可能性があります。 上位10のリストから句読点記号をフィルタリングしましたが、文の開始または終了が多い単語の場合、文の境界記号(_START_または_END_)の1つが置換の1つと

変曲検索

変曲は、アスペクト、ケース、性別、気分、数、人、時制、声などの様々な文法カテゴリを表すための単語の修正です。 それらを検索するには、ngramに_INFを追加します。 たとえば、”book_inf a hotel”を検索すると、”book”、”booking”、”books”、および”booking”の結果が表示されます:

任意の変曲を右クリックすると、すべてのフォームが合計に折りたたまれます。 Ngram Viewerでは、クエリごとに_INFキーワードのみがサポートされています。

警告:ある特定のngramに対して、ワイルドカード検索、語形変化、大文字と小文字を区別しない検索を自由に混在させることはできません。ただし、これらの機能のいずれかで、クエリ内の個別のngramを検索できます。”book_inf a hotel,book*hotel”は問題ありませんが、”book_inf*hotel”はそうではありません。

大文字と小文字を区別しない検索

デフォルトでは、ngram Viewerは大文字と小文字を区別しない検索を実行します。 クエリボックスの右側にある”大文字と小文字を区別しない”チェックボックスを選択すると、大文字と小文字を区別しない検索を実行できます。 次に、Ngramビューアは、入力クエリの最も一般的な大文字と小文字を区別しない変数の年ごとの合計を表示します。

任意のyearwise sumを右クリックすると、最も一般的な大文字と小文字を区別しないバリアントに拡張されます。 たとえば、「Dupont(すべて)」を右クリックすると、「DuPont」、「Dupont」、「duPont」、および「DUPONT」の4つのバリアントが表示されます。

品詞タグ

動詞(”tackle theproblem”)または名詞(”fishing tackle”)であることができる単語tackleを考えてみましょう。 これらの異なる形式を区別するには、_Verbor_NOUNを追加します。

タグの完全なリストは次のとおりです:

_NOUN_ これらのタグは、単独で立つことができます(_PRON_)
または単語に追加することができます(she_pron)
_VERB_
_ADJ_ 形容詞
_ADV_ 副詞
_PRON_ 代名詞
_DET_ 決定子または記事
_ADP_ adposition: 前置詞または後置詞のいずれか
_NUM_ 数字
_CONJ_ 接続詞
_PRT_ パーティクル
_ROOT_ 解析ツリーのルート これらのタグは単独で立っている必要があります(例:,_START_)
_START_ 文の開始
_END_ 文の終わり

品詞タグは特定の単語に添付する必要がないため、detタグを使用して、read a book、read the book、read that book、read this bookなどを次のように検索できます。

このコンテキストで最も一般的な決定子が何であるかを知りたい場合は、ワイルドカードと品詞タグを組み合わせて*_DET bookを読むことができます:

コーパス内の名詞に続いている単語帳のすべての異なる語形変化を取得するには、クエリbook_inf_NOUN_を発行することができます。

単語の最も頻繁な品詞タグは、ワイルドカード機能を使用して取得することができます。 クエリcook_*を考えてみましょう:

変曲キーワードは品詞タグと組み合わせることもできます。 たとえば、以下のクエリcook_inf、cook_verb_infを考えてみましょう。:

Ngram Viewerは文の境界にタグを付け、開始タグと終了タグで文の開始と終了でngramを識別できます。

時にはパターンよりも依存性の観点から単語を考えるのに役立 おいしいデザートの作り方を知りたいとしましょう。 つまり、あなたは完全においしい冷凍デザート、カリカリ、tastydessert、おいしいまだ高価なデザート、およびおいしいという言葉がデザートに適用されるすべてのotherinstancesの言及そのために、Ngramビューアは=>演算子との依存関係を提供します:

すべての解析された文には_ROOT_があります。 他のタグとは異なり、_ROOT_は文の特定の単語や位置を表しません。 これは構文を解析することによって構築された解析ツリーのルートです。 では、どのように頻繁にwillが文の主動詞であったかを識別する方法は次のとおりです。

上のグラフには、larry willdecideという文が含まれます。 しかし、ラリーはウィルがその文の主な動詞ではないので、彼が決めると言ったわけではありません。

依存関係はワイルドカードと組み合わせることができます。 たとえば、以下のクエリdrink=>*_NOUNを考えてみましょう。

“純粋な”品詞タグは、通常のwordsinと自由に混在させることができます1-, 2-, 3-, 4-, そして5グラム(例えば、_ADJ_toastまたは_DET__ADJ_toast)。

Ngram Composition

Ngram Viewerには、+、-、/、*、および:の組み合わせに使用できる五つの演算子が用意されています。

+ どちらの側の式を合計して、複数のngram時系列を1つに結合できます。
左側の式から右側の式を減算すると、あるngramを別のngramに対して相対的に測定する方法が得られます。 ユーザーはハイフネーションされたフレーズを検索することが多いので、-記号の両側にスペースを入れます。
/ 左側の式を右側の式で除算すると、ngramの動作を別のngramに対する動作を分離するのに役立ちます。
* 左側の式に右側の数値を乗算すると、非常に異なる周波数のngramを簡単に比較できます。 (*がワイルドカードとして解釈されないように、ngram全体を括弧で囲むようにしてください。)
: 左側のngramを右側のコーパスに適用し、異なるコーパス間でngramを比較することができます。

Ngramビューアは、これらを適用するかどうかを推測しようとします動作。 かっこを使用して強制的にオンにし、squarebracketsを使用して強制的にオフにすることができます。 例:および/またはwilldivideおよびによってまたは;thephraseおよび/またはの使用法を測定するには、使用します。あなたが井戸から意味を減算したい場合は、(well-meaning)を使用してください。

+演算子を示すために、game、sport、playの合計を見つける方法があります。

人々が選択肢についてもっと書いたかどうかを判断するとき、choice、selection、option、alternativeを比較して、形容詞形を避けるために名詞形を指定することができます(例:choice delicity、alternativemusic)。:

Ngram減算は、あるngramのセットを別のngramと比較する簡単な方法を提供します。

+と/を組み合わせて、リンゴソースを犠牲にしてapplesauceという言葉がどのように花開いたかを示す方法があります。

*演算子は、violinやより難解なthereminのような広く変化する周波数のngramを比較したいときに便利です。

2009年、2012年、2019年の各バージョンのコーパス選択演算子を使用すると、アメリカとイギリスの英語(またはフィクション)、または私たちの本のスキャンの間でngrams無関心な言語を比較することができます。

2009年にオリジナルのNgram Viewer corporaを生成したとき、ourOCRは今日ほど良くありませんでした。 これは特に明白なinpre-19世紀の英語であり、細長い内側の-s(λ)はしばしばfとして解釈されたので、bestはしばしばbeftとして読まれた。 コーパス演算子を使用して2009年、2012年、2019年のバージョンを比較して、その後に行われた改善の証拠を次に示します:

フィクションをすべての英語と比較すると、最近、一般英語でのウィザードの使用がフィクションでの使用と比較して増えていることがわかります。

コーパス

以下は、google Books Ngram Viewerで検索できるコーパスの説明です。 すべてのコーパスはJuly2009、July2012、およびFebruary2020で生成されました。bookscanningが継続するにつれてこれらのコーパスを更新し、更新されたバージョンには個別のpersistentidentifiersがあります。 OCRの品質が低く、連載が少ない書籍は除外されました。

非公式コーパス名 短縮形 永続識別子 説明
アメリカ英語2019 eng_us_2019 googlebooks-eng-us-20200217 米国で出版された主に英語で書かれた書籍。
アメリカ英語2012 eng_us_2012 googlebooks-eng-us-all-20120701
アメリカ英語2009 eng_us_2009 googlebooks-eng-us-all-20090715
英国英語2019 eng_gb_2019 googlebooks-eng-gb-20200217 イギリスで出版された主に英語の書籍。
イギリス英語2012 eng_gb_2012 googlebooks-eng-gb-all-20120701
イギリス英語2009 eng_gb_2009 googlebooks-eng-gb-all-20090715
英語2019 eng_2019 googlebooks-eng-20200217 主に英語で出版されている書籍。
英語2012 eng_2012 googlebooks-eng-all-20120701
英語2009 eng_2009 googlebooks-eng-all-20090715
英語のフィクション2019 eng_fiction_2019 googlebooks-eng-fiction-20200217 主に図書館や出版社がフィクションとして識別した英語の本。
英語のフィクション2012 eng_fiction_2012 googlebooks-eng-fiction-all-20120701
英語のフィクション2009 eng_fiction_2009 googlebooks-eng-fiction-all-20090715
英語百万 eng_1m_2009 googlebooks-eng-1M-20090715 “Google Million”。 すべて英語で、日付は1500年から2008年までの範囲です。 これ以上の約6000冊以下の本は、初期の年からスキャンされた本のすべてが存在し、後期からの本がランダムにサンプリングされていることを意味し、任意の年から選択されませんでした。 ランダムサンプルは、その年の主題分布を反映しています(したがって、2000年には1980年よりも多くのコンピュータの本があります)。
中国語2019 chi_sim_2019 googlebooks-chi-sim-20200217 主に簡体字中国語の書籍。
中国語2012 chi_sim_2012 googlebooks-chi-sim-all-20120701
中国語2009 chi_sim_2009 googlebooks-chi-sim-all-20090715
フランス語2019 fre_2019 googlebooks-fre-20200217 主にフランス語の書籍。
フランス語2012 fre_2012 googlebooks-fre-all-20120701
フランス語2009 fre_2009 googlebooks-fre-all-20090715
ドイツ語2019 ger_2019 googlebooks-ger-20200217 主にドイツ語の書籍。
ドイツ語2012 ger_2012 googlebooks-ger-all-20120701
ドイツ語2009 ger_2009 googlebooks-ger-all-20090715
ヘブライ語2019 heb_2019 googlebooks-heb-20200217 ヘブライ語で優勢な本。
ヘブライ語2012 heb_2012 googlebooks-heb-all-20120701
ヘブライ語2009 heb_2009 googlebooks-heb-all-20090715
スペイン語2019 spa_2019 googlebooks-spa-20200217 主にスペイン語の書籍。
スペイン語2012 spa_2012 googlebooks-spa-all-20120701
スペイン語2009 spa_2009 googlebooks-spa-all-20090715
ロシア語2019 rus_2019 googlebooks-rus-20200217 主にロシア語の書籍。
ロシア語2012 rus_2012 googlebooks-rus-all-20120701
ロシア語2009 rus_2009 googlebooks-rus-all-20090715
Italian2019 ita_2019 googlebooks-ita-20200217 主にイタリア語の書籍。
イタリア語2012 ita_2012 googlebooks-ita-all-20120701

2009年版と比較して、2012年版と2019年版は、より多くの書籍、改善されたOCR、改善されたライブラリとpublishermetadataを持っています。 2012年と2019年のバージョンでは、2009年のバージョンとは異なり、sentenceboundariesを横断するngramを形成せず、ページの境界を越えてngramを形成しています。

2012年と2019年のコーパスでは、トークン化も改善されており、手動で考案されたルールのセットを使用しています(セグメンテーションにastatistical systemが使用されている中国語を除く)。 2009年のコーパスでは、トークン化は単に空白に基づいていました。

Google Books内で検索する

グラフの下に、クエリの”興味深い”年の範囲が表示されます。 それらをクリックすると、クエリがGoogleBooksに直接送信されます。 Ngramビューアでは大文字と小文字が区別されますが、Google Bookssearchの結果は区別されません。

これらの検索では、選択した言語のフレーズが生成されますが、結果は完全なGoogleBooksコーパスから返されます。 したがって、Ngramビューアを使用してフランス語コーパス内のFrenchphraseを検索し、Googleブックスにクリックスルーすると、その検索は同じフランス語のフレーズになります。

よくある質問

期待した結果が表示されないのはなぜですか?

おそらくこれらの理由の一つのために:

  • Ngram Viewerでは、大文字と小文字が区別されます。 クエリを大文字にするか、検索ボックスの右側にある”大文字と小文字を区別しない”ボックスをオンにします。
  • 予期しないコーパスで検索しています。 たとえば、Frankensteinはロシア語の本には表示されないため、ロシア語のコーパスで検索するとフラットラインが表示されます。 検索ボックスの下のドロップダウンメニューからコーパスを選択するか、コーパス選択演算子(Frankenstein:eng_2019など)を使用してコーパスを選択できます。
  • フレーズには、カンマ、プラス記号、ハイフン、アスタリスク、コロン、またはスラッシュが含まれています。 これらはNgramViewerに特別な意味を持っています。 フレーズを角括弧で囲んでみてください(ただし、これはカンマでは役に立ちません)。

Ngramビューアは句読点をどのように処理しますか?

特定の言語に固有のトークン化ルールのセットを適用します。 英語では、収縮は二つの単語になります(彼らはbigram they’re、we’ll becomes we’llというようになります)。 所有格の’sも分割されますが、R’n’Bは1つのトークンのままです。 否定(n’t)は正規化されていないので、don’tはdo notになります。 ロシア語では、発音区別符号ηはeに正規化されています。 同じルールは、ユーザーが入力したngramとコーパスから抽出されたngramsextractedの両方を解析するために適用されます。 ただし、これは、特定のフォームを明示的に検索する方法がないことを意味しますcan’t(またはcannot):can’tおよびcan’tおよびcannotすべてを一度に取得できます。

コンテキストでサンプルの使用法を確認するにはどうすればよいですか?

Ngram Viewerチャートの下には、事前定義されたgoogleブックスの検索の表があり、それぞれが年の範囲に縮小されています。 私たちは興味に応じて範囲を選択します:ngramが特定の年に巨大なピークを持っている場合、それは検索として単独で表示され、他の検索はより長い期間を

2019年のNgram Viewerコーパスとは異なり、Google Booksコーパスは品詞タグ付けされていません。 たとえば、google Booksの動詞formof cheerを検索することはできません。 したがって、part-of-speechtagsを持つ任意のngram(例えば、cheer_verb)は、GoogleBooks検索のテーブルから除外されます。

Ngram Viewerには2009、2012、および2019コーパスがありますが、Google Booksdoesn’tそのように動作します。 Googleブックスで検索しているときは、現在利用可能なすべての書籍を検索するので、Googleブックスで表示されるものと、Ngram Viewerチャートで表示されるものとの間に

なぜ私は初期の年に多くのスパイクや高原を見るのですか?

出版は16世紀と17世紀には比較的まれな出来事でした。 (約500,000冊の本が19世紀以前に英語で出版されています。)だから、一年で一冊の本にフレーズが発生したが、前または次の年には発生しなかった場合、それは後の年よりも高いスパイクを作成します。

プラトーは通常、単純に平滑化されたスパイクです。 Smoothingを0に変更します。

“平滑化”とはどういう意味ですか?

多くの場合、データが移動平均と見なされると傾向がより明らかになります。 1の平滑化は、1950年に表示されるデータが、1950年の生のカウントの平均に1の値を加えたものであることを意味します:(”1949年のカウント”+”1950年のカウント”+”1951年のカウント”)、3で割った。 したがって、10の平滑化は、21の値が平均化されることを意味します:一方の側に10を加え、それらの中心に目標値を加えます。

グラフの左端と右端では、より少ない値が表示されます。 平滑化が3の場合、左端の値(1950年のふり)は、(”1950年のカウント”+”1951年のカウント”+”1952年のカウント”+”1953年のカウント”)を4で割ったものとして計算されます。

0を平滑化すると、平滑化はまったく行われず、生データのみが平滑化されます。

現代ではさらに多くの本が出版されています。 これは結果を歪ませませんか?

それぞれの年に出版された本の数で正規化しなければなりません。

myqueryのフレーズが少なくとも一つの本で発生したことを知っているときに、なぜ0%のフラットラインを表示していますか?

重い負荷の下で、Ngramビューアは時々aflatlineを返します。 また、少なくとも40本で発生するngramのみを考慮しています。 そうでなければ、データセットのサイズがバルーンになり、それらすべてを提供することはできません。

品詞タグ付けはどのくらい正確ですか?

品詞タグと依存関係は自動的に予測されます。 これらの予測の精度を評価することは困難ですが、現代英語では、品詞タグの精度は約95%、dependencyrelationsの精度は約85%であることが期待されています。 古い英語のテキストや他の言語では精度は低くなりますが、品詞タグでは90%を超え、依存関係では75%を超えている可能性があります。 これはかなりの数を意味します結論を描くときに考慮する必要があります。

品詞タグは、小さなトレーニングセット(英語のための単なる百万語)から構築されています。 これは時々動詞として緑またはdogorの本のような珍しい使用法を、underrepresent、または名詞として尋ねます。

中国語に関する追加メモ:20世紀以前は、古典的な中国語は伝統的にすべての書き込み通信に使用されていました。 古典中国語は、古代中国語の文法と語彙に基づいており、構文上の注釈は正しいよりも頻繁に間違っています。

また、2009年のコーパスは一部のスピーチタグが付けられていないことに注意してください。

私はあなたの結果に基づいて論文を書いています。 どのように私はあなたの仕事を引用することができますか?

このデータを学術出版物に使用する場合は、元の論文を引用してください:

Jean-Baptiste Michel*、Yuan Kui Shen、Aviva Presser Aiden、AdrianVeres、Matthew K.Gray、William Brockman、Google Books Team、Joseph P。 ピケット、デール-ホイバーグ、ダン-クランシー、ピーター-ノーヴィグ、ジョン-オーワント、スティーブン-ピンカー、マーティン-A-ノワック、エレズ-リーバーマン-エイデン*。何百万ものデジタル化された本を使用して文化を定量的に分析する。 科学(印刷前にオンラインで公開:12/16/2010)

私たちはまた、私たちの品詞タグ付けに関する論文を持っています:

Yuri Lin、Jean-Baptiste Michel、Erez Lieberman Aiden、Jon Orwant、William Brockman、Slav Petrov。Google Books Ngramコーパスの構文注釈。 第50回計算言語学会年次大会の進捗状況第2回計算言語学会年次大会の進捗状況: デモ-ペーパー(’12) (2012)

私は自分の実験を実行するためにあなたのデータをダウンロードすることはできますか?

はい! Ngramデータはこちらからダウンロードできます。 ファイルサイズを管理可能にするために、それらを開始文字でグループ化し、異なるngramサイズを別々のファイルにグループ化しました。 Ngrams withineachファイルはアルファベット順に並べ替えられていません。

機械可読なファイル名を生成するために、非ローマ字(中国語、ヘブライ語、ロシア語)を使用する言語のthengramを音訳し、音訳されたngramの開始文字を使用してフ ドイツ語のäのような文字に対しても同じアプローチが取られました。 実際のngramは、言語固有のアルファベットを使用してinUTF-8でエンコードされます。

私は私の本/雑誌/ブログ/プレゼンテーションでNgramグラフを公開したいと思います。 あなたのライセンス条件は何ですか?