2010-12-21

vortoj de 1700 ĝis nun

artikolo el 2010-12-16 en la gazeto scienco anoncas la starigon de kvincentmiliardvorta tekstaro. kvincent miliardoj skribeblas ankaŭ kiel 500000000000 aŭ 511. tiu korpuso koncernas la lingvojn anglan, ĉinan, francan, germanan, hispanan, rusan. ĝi kovras la jarojn 1700 ĝis 2008.

guglo, kiu partoprenis la esploron kunlabore kun diversaj universitatoj, provizis la tekstojn el guglo libroj kaj disponigas fasadon por simpla vortesploro.

la kvalito de ciferecigitaj tekstoj ne ĉie bonas. ekzemple en la pli antikvaj tesktoj, en kiuj tiparoj ankoraŭ enhavas longan "s"-literon, tiu litero legiĝas kiel "f". malgraŭ tiu kaj aliaj trovotaj misoj, la afero donas novan dimension al vortstatistiko.

mi ekzempligis iam anekdote, kiel per guglo tendencoj oni ekscias pri maturiĝo de fragoj. ĉi tie jam ne temas pri fruktosezonoj, sed pri historio. mi prezentas kelkajn simplajn ekzemplojn el serĉoj de francaj vortoj.


se temas pri objektoj, serĉante "aŭtomobilon" (bildo 1), oni povas sekure prognozi, ke ĝi inventiĝis ĉirkaŭ 1890 kaj prosperis poste.


simile "komputilo" (bildo 2) klare aperas en tekstoj ekde la fino de la 1950aj jaroj kaj kreskas. forbalaite de la franca neologismo ordinateur la anglismo computer ne havis tempon por flori.


male historia okazaĵo montras abruptan pinton kaj iompostioman malkreskon. ekzemple la historia entento (france triple entente, bildo 3), ŝtata interligo angla-franca-rusa, estiĝis antaŭ la unua mondmilito, funkciis dum tiu milito — tiam la uzo de la esprimo kulminas — kaj poste ankoraŭ priparolatas pli kaj pli malabunde.


pli subtile oni povas ankaŭ spuri lingvan evoluon. ĝuste la esprimo unua mondmilito tute ne koincidas kun la evento (ruĝe en bildo 4). estis ja nenia kaŭzo por nomi ĝin "unua". la tiama nomo en la franca lingvo estis granda milito, kiu efektive pintas ĉirkaŭ 1918 (blue en la sama bildo). nur kiam okazis la dua mondmilito en la 1940aj jaroj, komparado de la du eventoj estigis la paron unua mondmilito dua mondmilito. en 1942 la du esprimoj granda milito kaj unua mondmilito sampezas, la unua poste malkreskas, dum kreskas la dua.

mi ne tralegis la artikolon de scienco, sed aŭdis ke ĝi provizas aliajn ekzemplojn lingvajn, kiel la evoluo de la konkurencaj verbaj formoj burnt, burned, aŭ historiajn, kiel la koincido de la vorto ĥolero kun epidemioj.

ĉu mi diru la evidentaĵon? 500 miliardoj da vortoj — eĉ kun tekstaj misoj, eĉ kun dispartigo inter pluraj lingvoj, eĉ se mankas kvanta ekvilibro inter jaroj kaj inter tekstospecoj — estas grandega laborkampo, kian neniam antaŭe havis historiistoj, lingvistoj, filologoj, sociologoj kaj aliaj fosemaj ologoj.

6 commentaires:

Ken Miner a dit…

Interesega! Mi tute ne sciis pri ĉi tio.

La solan obĵeton pri ĉi tiaj grandegaj korpusoj sendube vi scias: ke ili tendencas uzurpi tutajn lingvojn. Mi iam rolis ekz. en la projekto ARTFL; kritikuloj diradis siatempe ke post kelka tempo, por ĉiaj esploroj, ARTFL estos la franca lingvo. Simile, de kiam haveblos kvincentmiliarda korpuso, de tiam longe oni ne atendu freŝajn kruddatenajn esplorojn.

Tio estas laŭ mi tamen begatela obĵeto kompare kun la avantaĝoj.

Toño a dit…

Kaj, kompreneble, mi tuj iris serĉi la vorton "esperanto", kompare kun, ekzemple "volapuk". Sufiĉe interesajn rezultojn, eĉ por simpla grafikaĵo, kiu markas la evoluon de la vorto.

En anglalingvaj tekstoj oni vidas tre subitan kreskon de la apero de Esperanto ĉ la jaro 1920, kaj poste grandaj variadoj, sed pli malpli stagno, ĝis la jaro 1980, kiam aperas eĉ pli subita kresko. En la hispana, la grandega pinto okazas ĉ. la jaro 1909, verŝajne kun rilato al la UK de Barcelono, poste subita malkresko dum epoko de movada krizo kaj rekresko en la 20-aj, kun ioma posta stabileco; ŝajnas ke la evoluon multe pli influas tekstoj en Hispanio ol en Latinameriko.

Alia kuriozaĵo: ne malofte aperas mencioj de Esperanto antaŭ 1880. Kompreneble, devas temi pri misskriboj, misprintoj aŭ misskanaĵoj, kaj tio ne multe surprizas min en la hispana, sed iom pli en la angla.

Koincide, mi substrekis en miaj lastaj blogaĵoj (1, 2), ke oni ne multe devas fidi nudajn nombrojn, sed la ilo ŝajnas tre interesa por postaj studoj.

yyaann a dit…

Mmmh… "Courriel" uziĝas pli ol "email" laŭ tiu interesega statistikilo… Kompreneble, ĉi tiuj tekstaroj povas nur vidigi la konvenan, libran vortuzadon, ĉar mi dubas, ke en la parola vortuzado de la franca lingvo "courriel" estas tiel ofta.

Tamen, la koncerna ilo estas tre interesa se temas pri amasi datumaron pri vorta aper-jaro aŭ se temas pri kompari la laŭjaran oftecon de pluraj vortoj, ekzemple similsencaj.

Dankon pro la jenigo!

ĵeromo a dit…

"email" aperas ankaŭ en tekstoj el la 19a jarcento... rigardante al tekstoj (en la paĝosubaj ligoj) mi vidas, ke "courrier" ofte estis erare ciferecigita kiel "courriel" aŭ "courriel'".

ĵeromo a dit…

ial ne aperas ĝis nun komento de toño, kiun mi tamen ricevis retpoŝte:

Kaj, kompreneble, mi tuj iris serĉi la vorton "esperanto", kompare kun, ekzemple "volapuk". Sufiĉe interesajn rezultojn, eĉ por simpla grafikaĵo, kiu markas la evoluon de la vorto.

En anglalingvaj tekstoj oni vidas tre subitan kreskon de la apero de Esperanto ĉ la jaro 1920, kaj poste grandaj variadoj, sed pli malpli stagno, ĝis la jaro 1980, kiam aperas eĉ pli subita kresko. En la hispana, la grandega pinto okazas ĉ. la jaro 1909, verŝajne kun rilato al la UK de Barcelono, poste subita malkresko dum epoko de movada krizo kaj rekresko en la 20-aj, kun ioma posta stabileco; ŝajnas ke la evoluon multe pli influas tekstoj en Hispanio ol en Latinameriko.

Alia kuriozaĵo: ne malofte aperas mencioj de Esperanto antaŭ 1880. Kompreneble, devas temi pri misskriboj, misprintoj aŭ misskanaĵoj, kaj tio ne multe surprizas min en la hispana, sed iom pli en la angla.

Koincide, mi substrekis en miaj lastaj blogaĵoj (1, 2), ke oni ne multe devas fidi nudajn nombrojn, sed la ilo ŝajnas tre interesa por postaj studoj.


jes, tonjo, prave.

en franca lingvokomputika blogo komentantoj de la novaĵo atentigis, ke ekzemple eldono el jaro 2000a de verko el jaro 1800a estas atribuita al jaro 1800a kune kun siaj enkonduko, notoj kaj aliaj ĉirkaŭtekstoj. tio probable klarigas la antaŭtempan aperon de la nomoj de planlingvoj.

la kaŭzojn vi cetere povas kontroli, ĉar la respondopaĝo provizas ligilojn al la verkoj laŭ sinsekvaj jar-spanoj.

Toño a dit…

Ankaŭ mi ne scias kial ne aperis mia antaŭa mesaĝo; ne mi forviŝis ĝin! :-)
Dume, aperis artikolo de Steven Brewer en Libera Folio: http://www.liberafolio.org/2010/la-pinta-jaro-de-esperanto-estis-1983.