Google Ngram Viewer

BY admin

| 4 lipca, 2021

co robi Ngram Viewer?

po wprowadzeniu fraz do przeglądarki Google Books Ngram wyświetla się wykres pokazujący, jak te frazy wystąpiły w korpusie książek (np.”British English”, „English Fiction”, „French”) w wybranych latach. Spójrzmy na przykładowy wykres:

pokazuje to tendencje w trzech ngramach z lat 1960-2015:” przedszkole „(2-gram lub bigram),”przedszkole „(1-gram lub unigram) i” opieka nad dziećmi ” (inny BIGRAM). To co pokazuje oś y to: spośród wszystkich bigramów zawartych w naszej próbce książek napisanych w języku angielskim i wydanych w Stanach Zjednoczonych, jaki procent z nich stanowią „przedszkola” lub „opieka nad dziećmi”?Ze wszystkich unigramów, jaki procent z nich to „przedszkole”?Tutaj widać, że użycie wyrażenia ” opieka nad dziećmi „zaczęło rosnąć pod koniec lat 60., wyprzedzając” przedszkole”około 1970 r., a następnie” przedszkole ” około 1973 r. Szczyt ten osiągnął wkrótce po 1990 roku i od tego czasu stale rośnie.

(co ciekawe, wyniki są zauważalnie różne po przełączeniu na angielski brytyjski.)

możesz najechać kursorem na wykres linii dla ngram, który go podświetla. Klikając lewym przyciskiem myszy na wykresie linii, możesz skupić się na konkretnym ngramie,zaznaczając Pozostałe ngramy na wykresie, jeśli takie istnieją. Na kolejnych lewych kliknięciach na innych wykresach linii na wykresie można skupić się na wielu ngramach. Możesz dwukrotnie kliknąć dowolny obszar wykresu, aby ponownie zainstalować ngramy w zapytaniu.

możesz także określać symbole wieloznaczne w zapytaniach, wyszukiwać fleksje,wyszukiwać wielkość liter, wyszukiwać poszczególne części mowy lub dodawać, odejmować i dzielić ngramy.Więcej o tych w zaawansowanym użyciu.

zaawansowane użycie

kilka funkcji przeglądarki Ngram może spodobać się użytkownikom,którzy chcą zagłębić się w użycie fraz: wyszukiwanie wieloznaczne, wyszukiwanie przegięć,wyszukiwanie bez rozróżniania wielkości liter, znaczniki części mowy i kompozycje ngram.

Wyszukiwanie wieloznaczne

po umieszczeniu * w miejsce słowa, przeglądarka Ngram wyświetli dziesięć pierwszych podstawień.Na przykład, aby znaleźć najbardziej popularne słowa po „University of”, wyszukaj „University of *”.

możesz kliknąć prawym przyciskiem myszy dowolny z zastępczych ngramów, aby zwinąć je wszystkie w oryginalne zapytanie wieloznaczne, a wynikiem będzie roczna suma zastępczych. Kolejne kliknięcie prawym przyciskiem myszy rozszerza zapytanie wieloznaczne z powrotem do wszystkich zamienników. Zauważ, że przeglądarka Ngram obsługuje tylko jedną * na ngram.

zauważ, że dziesięć najlepszych zamienników jest obliczanych dla określonego zakresu czasowego. W związku z tym można uzyskać różne zamienniki dla różnych zakresów lat. Odfiltrowaliśmy symbole interpunkcyjne z pierwszej dziesiątki, ale dla słów, które często rozpoczynają lub kończą zdania, możesz zobaczyć jeden z symboli granicy zdania (_START_ lub _END_) jako jeden z zamienników.

Wyszukiwanie fleksji

fleksja jest modyfikacją słowa w celu reprezentowania różnych kategorii gramatycznych, takich jak aspekt, przypadek, płeć, nastrój, liczba, osoba, czas i głos. Możesz je wyszukać, dodając _INF do ngram. Na przykład wyszukiwanie „book_INF a hotel” spowoduje wyświetlenie wyników dla „book”, „booked”,” books „i”booking”:

kliknięcie prawym przyciskiem myszy dowolnego przegięcia powoduje zwinięcie wszystkich form w ich sumę. Zauważ, że przeglądarka Ngram obsługuje tylko jedno słowo kluczowe _inf na zapytanie.

Ostrzeżenie: nie można dowolnie mieszać wyszukiwań wieloznacznych, fleksyjnych i bez znaczenia wielkości liter dla jednego konkretnego ngram.Możesz jednak wyszukać za pomocą jednej z tych funkcji oddzielne ngramy w zapytaniu: „book_INF a hotel, book * hotel „jest w porządku, ale” book_INF * hotel ” nie jest.

Wyszukiwanie niewrażliwe na wielkość liter

domyślnie przeglądarka Ngram wykonuje wyszukiwanie z uwzględnieniem wielkości liter: Wielkie Litery mają znaczenie. Wyszukiwanie nie uwzględnia wielkości liter, zaznaczając pole wyboru „nie uwzględnia wielkości liter” po prawej stronie pola zapytania. Przeglądarka Ngram wyświetli wtedy sumę w skali roku najczęstszych wariantów niewrażliwych na wielkość liter w zapytaniu wejściowym. Poniżej znajdują się dwa niewrażliwe na wielkość liter ngramy, „Fitzgerald” i „Dupont”:

kliknięcie prawym przyciskiem myszy dowolnej sumy rocznej powoduje rozszerzenie do najczęstszych wariantów niewrażliwych na wielkość liter. Na przykład kliknięcie prawym przyciskiem myszy na „Dupont (All)” powoduje następujące cztery warianty: „DuPont”, „Dupont”, „duPont” i „DUPONT”.

znaczniki części mowy

rozważają słowo tackle, które może być czasownikiem („tackle theproblem”) lub rzeczownikiem („fishing tackle”). Możesz rozróżnić te różne formy, dodając _VERBor _NOUN:

pełna lista tagów wygląda następująco:

_NOUN_		znaczniki te mogą być samodzielne (_pron_) lub mogą być dołączone do słowa (she_PRON)
_VERB_
_adj_	przymiotnik
_adv_	przysłówek
_pron_
_det_
_adp_	ogłoszenie: albo przyimek albo postpozycja
_num_	liczba
_konj_
_prt_
_root_	korzeń drzewa parse	te znaczniki muszą być niezależne (np., _START_)
_START_	początek zdania
_END_	koniec zdania

ponieważ znaczniki części mowy nie muszą być dołączane do konkretnych słów, możesz użyć znacznika DET do wyszukiwania przeczytaj książkę, przeczytaj książkę, przeczytaj tę książkę,przeczytaj tę książkę i tak dalej w następujący sposób:

jeśli chcesz wiedzieć, jakie są najczęstsze determinatory w tym kontekście, możesz połączyć symbole wieloznaczne i znaczniki części mowy, aby przeczytać książkę *_DET:

aby uzyskać wszystkie różne odmiany Słowa book, po których następował rzeczownik w korpusie, możesz wysłać zapytanie book_INF _NOUN_:

najczęstsze znaczniki części mowy dla słowa mogą być pobierane za pomocą funkcji wieloznacznej. Rozważ zapytanie cook_*:

słowo kluczowe inflection można również łączyć ze znacznikami części mowy. Na przykład rozważ zapytanie cook_INF, cook_VERB_INF poniżej, które oddziela fleksje słownego sensu”cook”:

przeglądarka Ngram taguje granice zdań, umożliwiając identyfikację ngramów na początku i końcu zdań za pomocą znaczników początku i końca:

czasami pomaga myśleć o słowach w kategoriach zależności niż wzorców. Powiedzmy, że chcesz wiedzieć, jakczęsto smaczne modyfikuje deser. Oznacza to, że chcesz całkowicie wspomnieć o smacznym mrożonym deserze, chrupiącym, smakowitym, smacznym, ale drogim deserze i wszystkich innychinstancjach, w których słowo smaczne jest stosowane do deseru.W tym celu przeglądarka Ngram zapewnia relacje zależności z operatorem => :

każde analizowane zdanie ma _root_. W przeciwieństwie do innych tagów, _ROOT_ nie oznacza konkretnego słowa lub pozycji w zdaniu. Jest to korzeń drzewa parse skonstruowane przezanalizing składni; można myśleć o nim jako o zastępczym dla whatthe główny czasownik zdania jest modyfikowanie. Oto jak określić, jak często will był głównym czasownikiem zdania:

powyższy wykres zawiera zdanie Larry willdecide. ale nie Larry powiedział, że zdecyduje,ponieważ will nie jest głównym czasownikiem tego zdania.

zależności można łączyć za pomocą symboli wieloznacznych. Na przykład rozważ zapytanie drink = >*_noun poniżej:

„czyste” znaczniki części mowy można dowolnie mieszać ze zwykłymi słowami 1-, 2-, 3-, 4-, i 5-gramów (np. _adj_ toast lub _ DET _ _ ADJ _ toast).

Ngram Compositions

przeglądarka Ngram udostępnia pięć operatorów, których można użyć do łączenia:+, -,/, * i :.

+	sumuje wyrażenia po obu stronach, umożliwiając łączenie wielu szeregów czasowych ngram w jeden.
–	odejmuje wyrażenie po prawej stronie od wyrażenia po lewej stronie, dając sposób na zmierzenie jednego ngrama względem drugiego. Ponieważ użytkownicy często chcą wyszukiwać wyrażenia dzielone wyrazami, po obu stronach znaku – umieść spacje.
/	dzieli wyrażenie po lewej stronie przez wyrażenie po prawej, co jest przydatne do izolowania zachowania ngram w stosunku do innego.
*	mnoży wyrażenie po lewej stronie przez liczbę po prawej, co ułatwia porównywanie ngramów o bardzo różnych częstotliwościach. (Należy umieścić cały ngram w nawiasach, aby * nie było interpretowane jako symbol wieloznaczny.)
:	stosuje ngram po lewej stronie do korpusu po prawej stronie, co pozwala na porównanie ngramów w różnych korpusach.

przeglądarka Ngram spróbuje odgadnąć, czy zastosować te elementy. Możesz użyć nawiasów, aby je wymusić, i squarebrackets, aby je wymusić. Przykład: i / lub willdivide i przez lub; aby zmierzyć użycie frazy i / lub, użyj .Well-meaning wyszukuje frazę well-meaning; jeśli chcesz odjąć znaczenie od well, użyj (well-meaning).

aby zademonstrować operator+, oto jak możesz znaleźć sumę gier, sportu i zabawy:

określając, czy ludzie pisali więcej o wyborach w ciągu lat, można porównać wybór, wybór,opcję i alternatywę, określając formy rzeczownika, aby uniknąć formjektywnych (np.:

odejmowanie Ngram daje łatwy sposób na porównanie jednego zestawu ngramów do drugiego:

oto jak możesz połączyć + i/, aby pokazać, jak słowo sos jabłkowy rozkwitło kosztem sosu jabłkowego:

operator * jest przydatny,gdy chcesz porównać ngramy o bardzo różnych częstotliwościach, takich jak skrzypce i bardziej ezoteryczny theremin:

operator * jest przydatny, gdy chcesz porównać ngramy o bardzo różnych częstotliwościach, takich jak skrzypce i bardziej ezoteryczny theremin:

: operator selekcji korpusów pozwala porównać ngramy w różnych językach, czyli amerykańskim i brytyjskim angielskim (lub fikcyjnym), lub między wersjami z 2009, 2012 i 2019 naszych skanów książek.Oto czat w języku angielskim kontra ten sam unigram w języku francuskim:

kiedy wygenerowaliśmy oryginalne korpusy przeglądarki Ngram w 2009 roku, naszrocr nie był tak dobry, jak dziś. Było to szczególnie oczywiste w XIX-wiecznym języku angielskim, gdzie wydłużone przyśrodkowe-s (ſ) było często interpretowane jako f, więc najczęściej czytano je beft. Oto dowód na ulepszenia, które wprowadziliśmy od tego czasu, używając operatora corpus do porównania wersji 2009, 2012 i 2019:

porównując fikcję z całym angielskim, możemy zauważyć, że użycie kreatora w ogólnym języku angielskim zyskało ostatnio na popularności w porównaniu do użycia w fikcji:

korpusy

poniżej znajdują się opisy korpusów, które można przeszukiwać za pomocą przeglądarki Google Books Ngram. Wszystkie korpusy zostały wygenerowane w lipcu 2009 r., lipcu 2012 r. i lutym 2020 r.; będziemy je aktualizować w miarę dalszego skanowania książek, a zaktualizowane wersje będą miały różne persistentidentiers. Książki o niskiej jakości OCR i seriale zostały wyłączone.

nieformalna nazwa korpusu	Skrót	stały identyfikator	opis
American English 2019	eng_us_2019	googlebooks-eng-us-20200217	książki głównie w języku angielskim, które zostały wydane w Stanach Zjednoczonych.
American English 2012	eng_us_2012	googlebooks-PL-us-all-20120701
American English 2009	eng_us_2009	googlebooks-eng-us-all-20090715
British English 2019	eng_gb_2019	googlebooks-eng-gb-20200217	książki głównie w języku angielskim, które zostały wydane w Wielkiej Brytanii.
British English 2012	eng_gb_2012	googlebooks-eng-GB-all-20120701
British English 2009	eng_gb_2009	googlebooks-eng-GB-all-20090715
English 2019	eng_2019	googlebooks-ENG-20200217	Książki w języku angielskim wydane w dowolnym kraju.
English 2012	eng_2012	googlebooks-ENG-all-20120701
English 2009	eng_2009	googlebooks-ENG-all-20090715
English Fiction 2019	eng_fiction_2019	googlebooks-ENG-fiction-20200217	Książki głównie w języku angielskim, które Biblioteka lub wydawca określił jako fikcję.
English Fiction 2012	eng_fiction_2012	googlebooks-ENG-fiction-all-20120701
English Fiction 2009	eng_fiction_2009	googlebooks-ENG-fiction-all-20090715
Polski milion	eng_1m_2009	googlebooks-eng-1m-20090715	„Google Million”. Wszystkie są w języku angielskim z datami od 1500 do 2008. Nie więcej niż około 6000 książek zostało wybranych z jednego roku, co oznacza, że wszystkie zeskanowane książki z wczesnych lat są obecne, a książki z późniejszych lat są losowo próbkowane. Losowe próbki odzwierciedlają rozkład tematyczny na dany rok (tak więc jest więcej książek komputerowych w 2000 niż 1980).
Chiński 2019	chi_sim_2019	googlebooks-chi-sim-20200217	Książki głównie w uproszczonym chińskim skrypcie.
Chiński 2012	chi_sim_2012	googlebooks-chi-sim-all-20120701
Chinese 2009	chi_sim_2009	googlebooks-chi-sim-all-20090715
Francuski 2019	fre_2019	googlebooks-FRE-20200217	Książki głównie w języku francuskim.
Francuski 2012	fre_2012	googlebooks-FRE-all-20120701
Francuski 2009	fre_2009	googlebooks-FRE-all-20090715
Niemiecki 2019	ger_2019	googlebooks-ger-20200217	Książki głównie w języku niemieckim.
Niemiecki 2012	ger_2012	książki w Google-Niemcy-wszystkie-20120701
Niemiecki 2009	ger_2009	googlebooks-niemcy-wszystkie-20090715
Hebrajski 2019	heb_2019	googlebooks-hbr-20200217	Przeważały książki w języku hebrajskim.
Hebrew 2012	heb_2012	googlebooks-heb-all-20120701
Hebrew 2009	heb_2009	googlebooks-heb-all-20090715
Hiszpański 2019	spa_2019	googlebooks-spa-20200217	Książki głównie w języku hiszpańskim.
Hiszpański 2012	spa_2012	googlebooks-spa-wszystkie-20120701
Spanish 2009	spa_2009	googlebooks-spa-all-20090715
rosyjski 2019	rus_2019	googlebooks-RUS-20200217	Książki głównie w języku rosyjskim.
rosyjski 2012	rus_2012	googlebooks-rus-all-20120701
rosyjski 2009	rus_2009	googlebooks-rus-all-20090715
włoski 2019	Ita_2019	googlebooks-ITA-20200217	Książki głównie w języku włoskim.
włoski 2012	ita_2012	googlebooks-ITA-all-20120701	Książki głównie w języku włoskim.

w porównaniu z wersjami 2009, wersje 2012 i 2019 mają więcej książek, ulepszony OCR, ulepszoną bibliotekę i metadatę wydawniczą. Wersje 2012 i 2019 również nie tworzą ngramów, które przekraczają granice sentencji, i tworzą ngramy ponad granicami stron, w przeciwieństwie do wersji z 2009.

wraz z korpusami 2012 i 2019 tokenizacja również uległa poprawie, wykorzystując zestaw ręcznie opracowanych reguł (z wyjątkiem chińskiego, gdzie system astatystyczny jest używany do segmentacji). W korpusach 2009 tokenizacja opierała się po prostu na białych znakach.

szukając w Google Books

poniżej wykresu pokazujemy „interesujące” zakresy lat dla Twoich zapytań. Kliknięcie na nie spowoduje wysłanie zapytania bezpośrednio do GoogleBooks. Zauważ, że przeglądarka Ngram uwzględnia wielkość liter, ale wyniki wyszukiwania Google Bookssearch nie są.

te wyszukiwania dadzą frazy w wybranym przez Ciebie języku, ale wyniki są zwracane z pełnego korpusu GoogleBooks. Więc jeśli użyjesz przeglądarki Ngram do wyszukania frazy Francuskiej w korpusie francuskim, a następnie klikniesz w Google Books, to wyszukiwanie będzie dla tej samej frazy francuskiej , która może wystąpić w książce głównie w innym języku.

FAQs

dlaczego nie widzę wyników, których oczekuję?

być może z jednego z tych powodów:

przeglądarka Ngram uwzględnia wielkość liter. Spróbuj zrobić wielką literę zapytania lub zaznacz pole „wielkość liter bez znaczenia”po prawej stronie pola wyszukiwania.

szukasz w nieoczekiwanym korpusie. Na przykład Frankenstein nie pojawia się w rosyjskich książkach, więc jeśli przeszukasz rosyjski korpus, zobaczysz płaską linię. Możesz wybrać korpus za pomocą rozwijanego menu pod polem wyszukiwania lub za pomocą operatora wyboru korpusu, np. Frankenstein:eng_2019.

twoja fraza ma przecinek, znak plus, myślnik, gwiazdkę,dwukropek lub ukośnik do przodu. Mają one specjalne znaczenie dla NgramViewer; zobacz zaawansowane użycie. Spróbuj zamknąć frazę w nawiasach kwadratowych (chociaż to nie pomoże z przecinkami).

jak przeglądarka Ngram radzi sobie z interpunkcją?

stosujemy zestaw reguł tokenizacji specyficznych dla danego języka. W języku angielskim skurcze stają się dwoma wyrazami (they ’ re, we 'll becomes the bigram they’ re, we 'll becomes we’ ll, I tak dalej). „S” dzierżawcze również są rozdzielone, ale R ’ n ’ B pozostaje jednym tokenem. Negacje (nie) są znormalizowane tak, że nie staje się nie. W języku rosyjskim znak diakrytyczny ё jest znormalizowany do e, i tak dalej. Te same zasady są stosowane do analizowania zarówno ngramów wpisywanych przez użytkowników, jak i ngramów wyekstrahowanych z korpusów, co oznacza, że jeśli szukasz do don 't, nie przejmuj się faktem, że oglądający Ngram zapisuje go tak, aby nie; jest on dokładnie odwzorowujący zwyczaje nie don’ t i nie do w korpusie. Oznacza to jednak, że nie ma możliwości jawnego wyszukiwania konkretnych formularzy can 't (lub nie może): dostajesz can’ t I can 't I Can’ t I Can ’ t all at once.

Jak mogę zobaczyć przykładowe zastosowania w kontekście?

poniżej wykresu Ngram Viewer, udostępniamy tabelę przeszukiwań predefiniowanych książek, z których każde zawężone jest do zakresu lat. Wybieramy zakresy według ciekawości: jeśli ngram ma ogromny szczyt w danym roku, pojawi się on sam jako wyszukiwanie, z innymi wyszukiwaniami obejmującymi dłuższy czas trwania.

w przeciwieństwie do 2019 Ngram Viewer corpus, korpus Google Books nie jest oznaczony tagami części mowy. Nie można szukać np. czasownika formof cheer w Google Books. Tak więc dowolne ngramy z częścią speechtags (np., cheer_VERB) są wykluczone z tabeli wyszukiwań GoogleBooks.

przeglądarka Ngram ma korpusy 2009, 2012 i 2019, ale Google Books nie działa w ten sposób. Podczas wyszukiwania w Google Books, szukasz wszystkich aktualnie dostępnych książek, więc mogą istnieć pewne różnice między tym, co widzisz w Google Books, a tym, co chciałbyś zobaczyć, biorąc pod uwagę wykres przeglądarki Ngram.

dlaczego we wczesnych latach widzę więcej kolców i płaskolistków?

publikowanie było stosunkowo rzadkim wydarzeniem w XVI i XVII wieku. (Istnieje tylko około 500 000 książek opublikowanych w języku angielskim przed XIX wiekiem.) Więc jeśli fraza występuje w jednej książce w jednym roku, ale nie w latach poprzednich lub następnych, tworzy to większy skok niż w latach późniejszych.

Płaskowniki są zwykle po prostu wygładzonymi kolcami. Zmień wygładzanie na 0.

co oznacza „wygładzanie”?

często trendy stają się bardziej widoczne, gdy dane są postrzegane jako ruch. Wygładzanie 1 oznacza, że dane pokazane dla 1950 będą średnią z surowej liczby dla 1950 plus 1 wartość po obu stronach:(„count for 1949” + „count for 1950” + „count for 1951”), podzielone przez 3. Wygładzanie 10 oznacza uśrednianie 21 wartości: 10 po jednej stronie plus wartość docelowa w środku.

na lewej i prawej krawędzi wykresu jest mniej wartości. Przy wygładzaniu 3, lewa wartość (Rok 1950) zostanie obliczona jako („count for 1950” + „count for 1951” + „count for 1952” + „count for 1953”), podzielona przez 4.

wygładzanie 0 oznacza brak wygładzania: tylko surowe dane.

Czy to nie przekrzywia wyników?

byłoby, gdybyśmy nie znormalizowali liczby książek wydanych w każdym roku.

dlaczego pokazujesz 0% flatline skoro wiem, że fraza w myquery pojawiła się w co najmniej jednej książce?

przy dużym obciążeniu przeglądarka Ngram czasami zwraca aflatline; przeładuj, aby potwierdzić, że w rzeczywistości nie ma trafień dla frazy. Ponadto rozważamy tylko ngramy, które występują w co najmniej 40 książkach. W przeciwnym razie zbiór danych byłby balonem i nie moglibyśmy zaoferować ich wszystkich.

jak dokładne jest oznaczanie części mowy?

znaczniki części mowy i relacje zależności są przewidywane automatycznie. Ocena dokładności tych prognoz jest trudna, ale we współczesnym języku angielskim spodziewamy się, że dokładność tagów części mowy wyniesie około 95%, a dokładność zależności około 85%. W starszych tekstach angielskich i innych językach dokładności są niższe, ale prawdopodobnie powyżej 90% dla znaczników części mowy i powyżej 75% Dla zależności. Oznacza to znaczną liczbę zakłóceń, które należy wziąć pod uwagę przy rysowaniu.

znaczniki części mowy są zbudowane z małego zestawu treningowego (zaledwie milion słów w języku angielskim). Będzie to czasami przedstawiać rzadkie zastosowania, takie jak zielona lub dogor book jako czasowniki lub zapytaj jako rzeczownik.

dodatkowa uwaga na temat języka chińskiego: przed XX wiekiem klasycznochiński był tradycyjnie używany do wszystkich pism. Chiński Klasyczny opiera się na gramatyce i słownictwie starożytnego chińskiego, a adnotacje składniowe będą więc częściej błędne niż słuszne.

zauważ również, że korpusy z 2009 roku nie były częścią speechtagged.

piszę pracę na podstawie Twoich wyników. Jak mogę cytować Twoją pracę?

jeśli masz zamiar wykorzystać te dane do publikacji naukowej, Zacytuj oryginalny artykuł:

Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, AdrianVeres, Matthew K. Gray, William Brockman,zespół Google Books, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig,Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman aiden*.Ilościowa analiza kultury z wykorzystaniem milionów zdigitalizowanych książek. Nauka (opublikowany online przed drukiem: 12/16/2010)

mamy również artykuł na temat tagowania naszej części mowy:

Yuri Lin, Jean-Baptiste Michel, Erez Lieberman Aiden,Jon Orwant, William Brockman, Slav Petrov.Adnotacje składniowe dla Google Books Ngram Corpus. Sprawozdanie z 50. dorocznego spotkania Stowarzyszenia lingwistów Obliczeniowychvolume 2: Demo Papers (ACL ’12) (2012)

Czy mogę pobrać Twoje dane, aby uruchomić własne eksperymenty?

tak! Dane ngram są dostępne do pobrania tutaj. Aby można było zarządzać rozmiarami plików, pogrupowaliśmy je według ich liter początkowych, a następnie zgrupowaliśmy różne rozmiary ngram w oddzielnych plikach. Pliki ngrams withineach nie są posortowane alfabetycznie.

aby wygenerować odczytywalne maszynowo nazwy plików, transliterowaliśmy thengramy dla języków, które używają skryptów innych niż rzymskie (chiński,hebrajski, rosyjski) i użyliśmy litery początkowej transliteracji ngram, aby określić nazwę pliku. To samo podejście przyjęto dla postaci, takich jak ä w języku niemieckim. Należy zauważyć, że Transliteracja została wykorzystana tylko do określenia nazwy pliku; rzeczywiste ngramy są kodowane wutf-8 przy użyciu alfabetu specyficznego dla danego języka.