Zadie Smith, Stephen King şi Elena Ferrante, printre miile de autori ale căror opere piratate au fost folosite pentru a antrena inteligenţa artificială

Zadie Smith, Stephen King, Rachel Cusk şi Elena Ferrante se numără printre miile de autori ale căror opere piratate au fost folosite pentru a antrena instrumente de inteligenţă artificială, se arată într-un articol publicat în The Atlantic.

Mai mult de 170.000 de titluri au fost introduse în modelele gestionate de companii precum Meta şi Bloomberg, potrivit unei analize a „Books3” - setul de date folosit de aceste firme pentru a-şi construi instrumentele de inteligenţă artificială.

Books3 a fost folosit pentru a antrena LLaMA al Meta, unul dintre modelele lingvistice de mari dimensiuni - cel mai cunoscut dintre acestea fiind ChatGPT al OpenAI - care poate genera conţinut pe baza modelelor identificate în exemple de texte. Setul de date a fost utilizat, de asemenea, pentru a antrena BloombergGPT de la Bloomberg, GPT-J de la EleutherAI şi „probabil” că a fost utilizat în alte modele de inteligenţă artificială.

Evenimente

5 noiembrie - Gala Profit - Povești cu Profit... Made in Romania
14 noiembrie - Maratonul Agriculturii

Titlurile conţinute în Books3 sunt aproximativ o treime ficţiune şi două treimi non-ficţiune, iar majoritatea au fost publicate în ultimele două decenii. Alături de scrierile lui Smith, King, Cusk şi Ferrante, lucrările protejate de drepturi de autor din setul de date includ 33 de cărţi de Margaret Atwood, cel puţin nouă de Haruki Murakami, nouă de Bell Hooks, şapte de Jonathan Franzen, cinci de Jennifer Egan şi cinci de David Grann.

De asemenea, figurează cărţi de George Saunders, Junot Díaz, Michael Pollan, Rebecca Solnit şi Jon Krakauer, precum şi 102 romane de tip pulp ale fondatorului scientologiei L. Ron Hubbard şi 90 de cărţi ale pastorului John MacArthur.

Titlurile cuprind edituri mari şi mici, inclusiv peste 30.000 publicate de Penguin Random House, 14.000 de HarperCollins, 7.000 de Macmillan, 1.800 de Oxford University Press şi 600 de Verso.

Acest lucru vine după un proces intentat luna trecută de trei scriitori - Sarah Silverman, Richard Kadrey şi Christopher Golden - care au susţinut că operele lor protejate de drepturi de autor „au fost copiate şi incluse ca parte a formării” LLaMA de la Meta. Analiza a arătat că scrierile celor trei reclamanţi fac într-adevăr parte din Books3.

OpenAI, compania din spatele chatbot-ului AI ChatGPT, a fost, de asemenea, acuzată că şi-a antrenat modelul pe opere protejate de drepturi de autor. Indiciile privind sursele datelor de antrenament ale OpenAI se află într-o lucrare publicată de companie în 2020, care menţionează două „corpusuri de cărţi bazate pe internet”, dintre care unul se numeşte Books2 şi se estimează că ar conţine aproape 300.000 de titluri. Un proces din iunie afirmă că singurele site-uri care oferă atât de mult material sunt „bibliotecile din umbră”, cum ar fi Library Genesis (LibGen) şi Z-Library, prin care cărţile pot fi asigurate în vrac prin intermediul sistemelor torrent.

Shawn Presser, dezvoltatorul independent de inteligenţă artificială care a creat iniţial Books3, a declarat că, deşi înţelege îngrijorările autorilor, a creat baza de date pentru ca oricine să poată dezvolta instrumente de inteligenţă artificială generativă şi îşi face griji cu privire la riscurile pe care le presupune faptul că marile companii deţin controlul asupra tehnologiei.

În timp ce un purtător de cuvânt al Meta a refuzat să comenteze pentru The Atlantic utilizarea Books3 de către firmă, un purtător de cuvânt al Bloomberg a confirmat că firma a folosit setul de date. „Nu vom include setul de date Books3 printre sursele de date utilizate pentru antrenarea viitoarelor versiuni ale BloombergGPT”, au adăugat aceştia.

Urmărește-ne și pe Google News

Articolul de mai sus este destinat exclusiv informării dumneavoastră personale. Dacă reprezentaţi o instituţie media sau o companie şi doriţi un acord pentru republicarea articolelor noastre, va rugăm să ne trimiteţi un mail pe adresa abonamente@news.ro.