Perché fare analisi sull’evoluzione e struttura di una cultura è sempre stato difficile? Perché non si può semplicemente usare un approccio scientifico per studiare i trend culturali di una popolazione? Semplice, per mancanza di dati. Finora non si è mai riusciti a fare un’analisi veramente quantitativa dello sviluppo culturale della società, per la semplice ragione che non vi sono dei dati oggettivi e in grande quantità da poter analizzare.
Grazie a Google, è invece oggi possibile. Ed è esattamente quello che hanno fatto un gruppo di ricercatori dell‘Harvard University del Massachusetts nella pubblicazione del 16 Dicembre sulla rivista Science. L’idea è stata quella di analizzare, per un periodo di circa 4 anni, un’insieme di dati generato tramite le ricerche di Google Books.
Il dataset è disponibile per il download pubblico, ed è basato sul testo completo di più di 5.2 milioni di libri, per un totale di 500 miliardi di parole, scritte dall’inizio del 1800 fino ai giorni nostri. La maggior parte dell’insieme dei dati è in inglese, ma parte è anche scritto in francese, russo, spagnolo, tedesco e cinese. Questo studio è estremamente nuovo ed importante, perché può tracciare lo sviluppo delle parole in un set di date che copre circa il 4% di tutti i libri mai scritti, utilizzando per la prima volta un approccio quantitativo.
A dimostrazione di ciò, la squadra di ricerca ha anche coniato un nuovo nome per questa “scienza”, chiamandola culturomics, analogamente a genomics. Contando la frequenza con cui appaiono le parole è possibile seguire i trend culturali dell’epoca, e si può anche analizzare lo sviluppo della grammatica, per esempio osservando lo spelling delle parole inglesi e americane (per esempio “colour” o”color”, nel plot a inizio pagina).
I risultati e le nuove opportunità di studio ottenuti da questa analisi sono straordinari. Per esempio, è stato osservato che nella lingua inglese nascono circa 8500 nuove parole ogni anno, ma moltissime di esse non sono presenti nei dizionari. L’universo delle parole è forma da circa il 52% di “materia oscura”, parole usate in letteratura ma non presenti nella documentazione della lingua.
Allo stesso tempo, se le parole aumentano ogni anno, è anche vero che l’umanità si dimentica del proprio passato più velocemente di anno in anno: ogni referenza al passato, in letteratura, diminuisce drasticamente con l’avanzare del tempo. Nel 1912 si parlava ancora spesso del 1880, ma nel 1983 ci si era già dimenticati del 1973.
D’altro canto, e questa non è certo una sorpresa, la diffusione delle novità e delle nuove invenzioni avviene molto più rapidamente. Si parla di nuovi oggetti appena inventati molto più rapidamente ora di quanto non si facesse un secolo fa. Novità anche per quanto riguarda le “star”. Oggi le celebrità sono molto più giovani di quanto lo erano e il secolo scorso e anche molto più famose in giro per il mondo. La loro fama è però molto più breve, in quanto la popolazione tende a dimenticarsi di loro molto più velocemente di quanto non facesse una volta.
La “culturomica” (mia traduzione del termine culturomics) può essere utilizzata anche per individuare censure o tabù culturali. La mancanza nell’utilizzo di certe parole o di citazioni di certi pensatori può infatti farci capire cosa la società sta cercando di nascondere.
Questo studio è stato fatto con la collaborazione di varie aziende linguistiche, come l’Encyclopaedia Britannica e l’American Heritage Dictionary, ma ovviamente Google ha dato un contributo non indifferente. Il centro di ricerca di Google è stato così interessato a questo studio che ha messo addirittura a disposizione un tool, attualmente usufruibile da chiunque, che permette di creare dei grafici come quello che ho fatto all’inizio di questo post. Il tool è a disposizione qui. Divertitevi!
interessante… tra l’altro si vedono i segni8 delle due grandi guerre, chissa dov’è il nesso… (ho provato anche con center e centre)
Però alla fine il bene vince sempre: http://ngrams.googlelabs.com/graph?content=god%2Cdevil&year_start=1800&year_end=2000&corpus=5&smoothing=3
Forse una volta erano più peccaminosi…
Grazie per la segnalazione.
Davvero interessante!
Speriamo lo estendano prima o poi all’italiano.
Guardate la crescita esponenziale di web e www :)
“il 52% di “materia oscura””
ancora con sta materia oscura e basta!
i tracciati quantitativi e i dati di sopra mensionati sono del tutto irrilevanti…..
l’esempio lo si puo’ osservare a vari livelli sopratutto in ambito accademico in cui si scrivono le medesime informazioni migliaia di volte in migliaia di salse spesso distinte proprio dalla terminologia che mano a mano si specializza…
…in realtà la specializzazione della terminologia protegge gli studiosi dalla banalità di alcuni loro concetti di per se estremamente semplici esempio classico del medico che diagnostica al paziente una dermatite atopica invece di dirgli che non si conoscono le orgini della malattia della pelle da cui è affetto….
un tempo si utilizzavano lingue nobili come il latino o il greco, per caratterizzare la scientificità di un linguaggio o di una terminologia, oggi si preferisce coniare termini nuovi , pratica tipicamente anglosassone…
l’inglese lo si ricordi lo si scriva a caratteri cubitali NON E’ UNA LINGUA, MA UN DIALETTO ALLA PARI DEL RUSSO, e come tale va trattato, ignorano l’etimologia, ignorano la sillabazione, e per questa ossessiva indole alla semplificazione, creano dei termini che sono dei mostri linguistici fatti da acronimi particelli e una buona dose di delirio onirico….
personalmente utilizzo l’inglese perchè ne sono costretto, ed utilizzando strettamente quel “poco” digrammatica e sintassi che hanno limitando ai termini per cosi’ dire puri ed evitando totalmente gli acronimi, in questo modo mi sforzo di dare una parvenza di lingua ad uno sporco dialetto indegno di essere utilizzato e tramandato ai posteri….
chi non ha studiato e tradotto dal latino o dal greco non puo’ capire le mie parole…se i latini avessero usato un linguaggio alla pari di quanto fanno i popoli anglosassoni (e gli italiani che ci vanno dietro come i muli) il mondo non sarebbe stato cosi’ evoluto…dal’altronde nel medioevo quando noi avevamo oltre ad una letteratura romana sconfinata e una letteratura italiana con dante capostipite…gli inglesi ignoravano anche l’utilizzo della sega e si accontentavano di utilizzare ascie e martelli e di cantare lamentosi stornelli in capanne di pietre e legno…
http://ngrams.googlelabs.com/graph?content=cyberspace&year_start=1800&year_end=2000&corpus=6&smoothing=0
:)
Bye
Phant
@ Homero
AHAHAHAHAHAHAHAHAHAHAHAHAHAHAHAHAHAHAHAHAHAHAHAHAHAHAHAH !!!!
Mai letta una tale marea di sciocchezze :DDDD
Cos’e’ il ritrovo annuale del luogo comune?
@homero, hai qualche fonte?
x pleg
sono sciocchezze per chi si nutre esclusivamente di google….ovviamente….
x cipo
vedi la fonte è nella storia della lingua scritta per la quale un buon corso al dipartimento di italianistica andrebbe abbastanza bene per avere conferme…..quello che google non dice è che dall’800 al 900 c’è stata una produzione abnorme di testi la maggior parte dei quali scritti in lingua inglese/americano che ha creato una congestione della conoscenza, riempiendo le biblioteche di feccia ed ora in questa feccia andiamo a contare quante volte una parola è stata usata……e voi tutti ad esultare!!!
un’esempio per tutti (per l’autrice in testa) la tesi di dottorato di Gauss era poco piu’ di 10 pagine….oggi le tesi di dottorato sono di 300/400 pagine….capirete il grande spreco di carta e di tempo per leggerle….
se la nostra vita si allungasse in misura della logorrea di scrive dovremmo campare 500 anni…
Segnalo anche questo post sullo stesso tema, con alcune riflessioni sui limiti dell’archivio un po’ più scientifiche di quelle del troll qui sopra…
http://bit-player.org/2010/googling-the-lexicon
x dargon17
non darmi del troll!
e torna a scuola ad imparare le basi della letteratura occidentale!
ma guarda come si permette uno che tra l’altro usa un neologismo che tra 1000 anni sarà incomprensibile….l’ignoranza non ha fine….
@ homero
un dialetto è una declinazione, un imbastardimento derivante da una lingua codificata.
Ora come tu possa definire dialetti l’inglese e il russo non lo capisce nessuno qui, tranne tu..
anche se è vero che nella letteratura anglofona una gran parte della produzione letteraria del ‘900 è spazzatura commerciale, ci sono grandi autori e poeti classici anche lì, e il ragionamento del dialetto proprio non sta in piedi, se non ti spieghi meglio.
@Giacomo
sono perfettamente d’accordo con te. Poi non è che in Italiano siano state scritte solo Divine Commedie, eh….
@homero
intanto ti consiglierei – prima di gettarti in queste affermazioni tanto apodittiche quanto sperticate – di imparare un po’ meglio le norme della lingua\dialetto\codice (scegli tu, dato che sembri avere una semantica tutta tua) con cui ti esprimi…
rivedi i tuoi “perchè” e “un’esempio”…
@homero
bah, che c’entra l’etimo con il dialetto? come se conoscere l’etimo delle parole (nel senso che sono state importate e variate da un’altra lingua e saperlo per certo), portasse ad una lingua originale. l’etimo è solo la storia di una parola, ma una parola è solo un insieme di suoni per intendere qualcosa. che vengano dal passato o siano state coniate l’altro ieri non vedo che importanza abbia per la parola stessa, è solo un fatto culturale che questo strumento (con i suoi limiti) può aiutare ad analizzare. non è che le parole che derivano dal greco o dal latino ci sono state suggerite da qualche divinità…
trovo questo strumento molto interessante com’era già google trends, soprattutto il fatto che google permetta a chiunque di usarlo è importante. l’unico appunto tecnico è il fatto che si possano eseguire solo operazioni semplici e che la ricerca sia case sensitive… però direi che l’interesse c’è, ovviamente il dato va poi analizzato, non basta guardare il grafico e dire l’ipad era più popolare dell’iphone nel 1800
http://ngrams.googlelabs.com/graph?content=ipad%2Ciphone&year_start=1800&year_end=2000&corpus=5&smoothing=3
Interessante anche il confronto tra rich (ricco) e poor (povero): http://ngrams.googlelabs.com/graph?content=rich%2Cpoor&year_start=1800&year_end=2000&corpus=5&smoothing=3