di  -  martedì 27 marzo 2012

Quelli di voi più “hard core”, che mi seguono ormai da anni, si ricorderanno forse un post che ho scritto circa un anno e mezzo fa, sul genoma letterario via google books. Quella volta era appena uscito un articolo di un gruppo di Harvard che, per la prima volta, ha utilizzato un approccio altamente quantitativo e scientifico per studiare la linguistica. L’idea che hanno avuto è molto semplice: di solito per fare studi di linguistica si prendono dei campioni letterari che vengono considerati rappresentativi di un’epoca e li si legge e studia approfonditamente.

Ovviamente in questo processo si perdono un sacco di informazioni, poiché selezionare solo un piccolo campione è un’approssimazione molto poco giustificabile. Idealmente uno dovrebbe leggere tutti i libri mai stati scritti, per sapere veramente come si è evoluto il linguaggio. Umanamente questo è impossibile, ma “qualcuno” lo ha fatto: Google. Google books ha digitalizzato oltre 5 milioni di libri, fornendo quindi un campione molto più rappresentativo di quello che un gruppo di ricerca può leggere manualmente. Gli studiosi di Harvard hanno quindi dissezionato i 5 milioni di libri creando 2 miliardi di “n-grammi” , ovvero grafici che rappresentano l’uso delle parole nel tempo. Questi grafici sono così divertenti (oltre che utili) da fare, che Google ha deciso di rendere pubblico lo strumento a questo indirizzo. Questo studio, apparso su Science più di un anno fa, ha dato inizio a una vera e propria nuova disciplina, chiamata in inglese “culturomics”, ovvero lo studio del codice genetico della cultura umana.

Per quelli di voi che ne vogliono sapere di più, consiglio il seminario fatto nella serie “TED talks” dagli autori di quell’articolo.

Lo strumento che Google e Harvard hanno reso disponibile è estremamente potente e, soprattutto, è utilizzabile da chiunque. Ecco quindi che un gruppo di fisici non hanno saputo resistere dall’analizzare un così ricco set di dati e hanno prodotto un nuovo articolo, apparso questa volta sulla rivista Nature. A. Petersen, J. Tenenbaum e i loro collaboratori hanno preso un’insieme di ben 10^7 parole (dieci milioni di parole) in inglese, spagnolo ed ebraico e usate tra il 1800 e il 2008 e ne hanno studiato l’andamento dinamico. Lo studio è stato fatto in modo prettamente statistico, cercando dei pattern non solo nella diffusione delle parole ma nell’intera lingua. In particolare hanno analizzato la frequenza di nascita e morte di nuove parole. Sebbene, a conferma degli studi precedentemente fatti, risulti che l’inglese sia una lingua ancora molto viva, con una nascita di circa 8500 nuove parole all’anno, lo studio attuale suggerisce che questo numero è destinato a decrescere sempre di più. La ragione è fondamentalmente da ricercarsi nella standardizzazione del linguaggio. Una volta gli autori scrivevano la stessa parola in decine di modi diversi all’interno della propria opera, e molte di queste ortografie venivano poi assunte da altri. Oggi, invece, coi controlli ortografici automatici, tendiamo a standardizzare il modo in cui ogni parola va scritta. Anche l’uso dei sinonimi tende a diminuire: se una volta c’erano molti modi per dire la stessa parola (nell’articolo si fa l’esempio di “Roengenogram”, “radiogram” o semplicemente “X-ray”) oggi si tende a usare tutti la stessa, per facilitare la comunicazione. Nell’immagine qui sotto, per esempio, possiamo vedere come con lo sviluppo di case editrici commerciali e professionali, che applicano severe regole di correzione ortografica prima della pubblicazione, la frequenza di “morte” dei vocaboli sia aumentata moltissimo, mentre la frequenza di “nascita” sia in netto declino:

Per queste ragioni le nuove parole che nascono nel linguaggio moderno tendono ad essere collegate esplicitamente con nuovi concetti che non hanno ancora una rappresentazione verbale (come “tweet” o “google”, che in inglese sono diventati dei veri e propri verbi: “let me google this” o “did you try googling that?” ).

L’articolo in questione, non si limita solo a studiare l’andamento di vita o di morte delle parole, ma cerca anche vari tipi di correlazione. Per esempio, appaiono evidenti correlazioni con importanti eventi storici internazionali, come le guerre mondiali. In quei momenti diverse culture si sono trovate forzatamente a stretto contatto, con necessità di comunicare, e questo ha fatto si che fosse necessario coniare molte parole nuove (solitamente importate da altre lingue).  Inoltre è bello sapere quando nasce e muore un parola, ma cosa succede quando essa è in vita? Una delle cose più interessanti che si nota dall’articolo di Nature è che l’uso di una nuova parola raggiunge il suo apice dopo circa 30 anni di “vita”, praticamente una generazione umana. Inoltre, un altro dato molto interessante è che gli andamenti linguistici sembrano essere estremamente simili per tutte le lingue prese in considerazione.

Insomma, sembra che siamo di fronte alla nascita di una nuova scienza, che di certo sarà molto utile per la comprensione del linguaggio, ma anche della storia e della società umana.

5 Commenti »

I commenti inseriti dai lettori di AppuntiDigitali non sono oggetto di moderazione preventiva, ma solo di eventuale filtro antispam. Qualora si ravvisi un contenuto non consono (offensivo o diffamatorio) si prega di contattare l'amministrazione di Appunti Digitali all'indirizzo info@appuntidigitali.it, specificando quale sia il commento in oggetto.

  • # 1
    MLCR
     scrive: 

    Articolo interessante, ma mi sembra piuttosto improprio parlare di “fisica” dei linguaggi: non centra proprio niente con la fisica…..

  • # 2
    Giove
     scrive: 

    C’entra, c’entra, prima di Galileo si diceva che anche l’astronomia non c’entrava nulla con la Fisica, e oggi invece la natura fisica dell’Universo è un fatto acquisito…senti cosa dice Wikupedia alla voce Fisica “La fisica (dal neutro plurale latino physica), a sua volta derivante dal greco τὰ φυσικά [tà physiká], ovvero “le cose naturali”, da φύσις [physis], “natura”) è la scienza della natura nel senso più ampio.” Scienza della natura nel senso più ampio, e il linguaggio non è altro che un fenomeno naturale complesso. Mai sentito parlare di “scienza della complessità”?

  • # 3
    Losgondino
     scrive: 

    Mi hanno illuso che nel 1800 e’ stata usata la parola ANTANI, invece e’ Antoni, praticamente il trisavolo di una supercazzola. :-)

  • # 4
    Blobay
     scrive: 

    Nell’articolo si riporta: “Una delle cose più interessanti che si nota dall’articolo di Nature è che l’uso di una nuova parola raggiunge il suo apice dopo circa 30 anni di “vita”…

    Molto superficialmente mi fa pensare che 30 anni sono definiti come la durata di una generazione. Dunque una generazione scopre o “inventa” un termine, la generazione successiva lo prende come acquisito in quanto imparato dai genitori o comunque dai più anziani.

    Si crive anche: “Per queste ragioni le nuove parole che nascono nel linguaggio moderno tendono ad essere collegate esplicitamente con nuovi concetti che non hanno ancora una rappresentazione verbale (come “tweet” o “google”, che in inglese sono diventati dei veri e propri verbi: “let me google this” o “did you try googling that?”…

    Questo invece mi fa pensare che se le aziende non superano questa soglia di età, non entreranno mai nella storia.
    Un esempio pratico può essere la parola “thermos” che usiamo per individuare un oggetto di uso comune, ma che era il nome di un prodotto di svariati anni fa. Lo stesso vale per “hoover”, parola comunemente utilizzata in inglese per definire l’italiano aspirapolvere, ma derivata dal nome dell’inventore.

    Poniamio che google soccomba o “cambi mestiere” prima del compimento dei suoi trent’anni e quindi prima che la prossima generazione inglobi la parola “googlare” nel proprio dizionario, non entrerebbe praticamente nella storia, cadendo nel limbo come tanti altri “storici” motori di ricerca prima di lui.

    In un mondo dinamico come quello di internet, uno dei pochi posti dove attualemente, ma sempre più in futuro si scriverà maggiormente, il linguaggio rischia di involvere in pochi semplici vocaboli della lingua quotidiana o di uso comune, a causa della non “radicabilità” dei termini.

    Chi ne soffrirà di più sarà proprio l’italiano, lingua ricca di sinonimi, di composizioni verbali e termini vari per descrivere una stessa scena.

    Rimarranno solo i cultori dei classici a mentenere viva una lingua destinata al declino? Proprio adesso che la cultura rischiava di divenire un qualcosa alla portata di tutti?

  • # 5
    awert
     scrive: 

    manca un h e w al posto della e

    “e questo a fatto si che fosse necessario coniare moltw parole nuove”

Scrivi un commento!

Aggiungi il commento, oppure trackback dal tuo sito.

I commenti inseriti dai lettori di AppuntiDigitali non sono oggetto di moderazione preventiva, ma solo di eventuale filtro antispam. Qualora si ravvisi un contenuto non consono (offensivo o diffamatorio) si prega di contattare l'amministrazione di Appunti Digitali all'indirizzo info@appuntidigitali.it, specificando quale sia il commento in oggetto.