I grandi modelli del linguaggio naturale sono sistemi informatici di natura statistica, che predicono sequenze di forme linguistiche, sulla base di informazioni probabilistiche sul modo in cui le sequenze di testo si combinano nei testi di partenza.
I generatori di linguaggio sono grandi modelli del linguaggio naturale, ulteriormente programmati, attraverso interazioni con esseri umani, per produrre output che somiglino a quelle che tali esseri umani qualificano come risposte plausibili, pertinenti e appropriate.
Si tratta di sistemi nei quali il linguaggio è dissociato dal pensiero: sono infatti, al tempo stesso, capaci di produrre linguaggio e incapaci di pensare. Riproducono le relazioni semantiche che si trovano riflesse nelle caratteristiche formali del linguaggio, ma non hanno accesso al significato in senso proprio, ossia alla relazione tra le forme linguistiche e “qualcosa di esterno” ad esse.
I testi prodotti sono lessicalmente e sintatticamente corretti, ma privi di valore informativo. In quanto fondati su meri modelli del linguaggio, i generatori di linguaggio non contengono infatti alcun riferimento al vero e al falso (e neppure al possibile e all’impossibile), né alcun criterio per distinguerli.
In ambito scientifico, i prodotti di simili sistemi sono perciò generalmente inutili, dannosi e potenzialmente lesivi di diritti giuridicamente tutelati, poiché non è possibile sapere, senza sobbarcarsi con altri strumenti l’intero lavoro di verifica, se ciò che vi si legge sia vero o falso, né se si tratti della riproduzione parziale o integrale di opere dell’ingegno umano. In alcuni settori, possono essere utilizzati per la formulazione di innumerevoli alternative, purché si abbiano strumenti ulteriori e indipendenti, per “buttare via la maggior parte” di ciò che il sistema produce e verificare se non vi sia “dell’oro tra i rifiuti”.
L’attuale diffusione e commercializzazione dei generatori di linguaggio nelle diverse fasi della ricerca scientifica deriva dal ruolo dei grandi editori della sorveglianza e dei monopoli della tecnologia, che, in virtù della loro posizione dominante e della concentrazione di risorse e potere, sono in grado di dar forma alla percezione pubblica dei sistemi di intelligenza artificiale, così da tutelare il proprio modello di business e accrescere il proprio dominio. Con l’inserimento dei generatori di linguaggio in tutte le applicazioni che accompagnano le attività di ricerca, i giganti della tecnologia mirano a consolidare il ruolo di intermediazione delle piattaforme proprietarie della scienza, così da accentrare in pochi soggetti privati il bene pubblico della conoscenza e la facoltà di controllo e indirizzo della possibilità stessa di svolgere attività di ricerca.
Le promesse delle grandi aziende sono coerenti con una concezione commerciale e neoliberale della scienza: un’accelerazione delle attività di ricerca, un maggior numero di “prodotti” della ricerca e la liberazione dall’inutile fatica di scrivere, quasi che lo scrivere non coincidesse con l’attività stessa del pensare.
Gli effetti reali dell’introduzione su larga scala dei generatori di linguaggio nella ricerca scientifica erano prevedibili – e sono stati previsti – sulla base delle caratteristiche architettoniche di tali sistemi: fabbricazione, falsificazione e plagio automatizzati (e non riconoscimento dei contributi scientifici altrui, anche in assenza di plagio in senso stretto), normalizzazione, assenza di trasparenza, riproduzione sistematica e naturalizzazione della prospettiva egemonica e dei suoi stereotipi. Integrità della ricerca e impiego dei generatori di linguaggio sono dunque, al momento, reciprocamente alternativi.
Poiché sono attualmente utilizzati per l’addestramento di tali sistemi anche tutti gli input degli utenti e considerato che i dati di addestramento possono essere riprodotti per intero negli output, anche quando siano protetti dal diritto d’autore, l’uso dei generatori di linguaggio compromette la riservatezza dei dati immessi. Per questo, con riferimento alla valutazione della ricerca, il Dutch Research Council ha preliminarmente proibito qualsiasi impiego dei sistemi di intelligenza artificiale generativa nei processi di revisione.
This text is licensed under CC BY-SA 4.0 license
Accessi: 380