The China Mail - Pour grandir, l'IA générative se tourne vers les livres

USD -
AED 3.672502
AFN 64.000263
ALL 82.887148
AMD 366.961185
ANG 1.790403
AOA 916.999974
ARS 1477.282482
AUD 1.451326
AWG 1.8
AZN 1.69974
BAM 1.719513
BBD 2.010673
BDT 122.690487
BGN 1.69088
BHD 0.376397
BIF 2974.792134
BMD 1
BND 1.295148
BOB 6.89258
BRL 5.176601
BSD 0.998341
BTN 94.112631
BWP 13.622705
BYN 2.840941
BYR 19600
BZD 2.007699
CAD 1.419465
CDF 2269.999442
CHF 0.809125
CLF 0.023381
CLP 920.204301
CNY 6.80385
CNH 6.806635
COP 3447.33
CRC 454.351489
CUC 1
CUP 26.5
CVE 97.350115
CZK 21.33975
DJF 177.776214
DKK 6.57171
DOP 59.37498
DZD 133.406996
EGP 49.511101
ERN 15
ETB 157.452947
EUR 0.87917
FJD 2.266102
FKP 0.756718
GBP 0.757645
GEL 2.644983
GGP 0.756718
GHS 11.249719
GIP 0.756718
GMD 73.000293
GNF 8779.999741
GTQ 7.610005
GYD 208.702762
HKD 7.84129
HNL 26.71295
HRK 6.624102
HTG 130.476672
HUF 311.820498
IDR 17932.85
ILS 2.999203
IMP 0.756718
INR 94.688449
IQD 1307.718026
IRR 1375050.000419
ISK 126.597116
JEP 0.756718
JMD 157.33372
JOD 0.709004
JPY 161.625503
KES 129.529701
KGS 87.450007
KHR 4020.149139
KMF 434.00027
KPW 900.00035
KRW 1545.310216
KWD 0.30966
KYD 0.831896
KZT 483.810797
LAK 22188.003203
LBP 89397.304146
LKR 336.454108
LRD 181.540044
LSL 16.531463
LTL 2.95274
LVL 0.60489
LYD 6.410995
MAD 9.415497
MDL 17.719258
MGA 4256.067999
MKD 54.183404
MMK 2099.450161
MNT 3580.242389
MOP 8.062139
MRU 39.651054
MUR 47.710121
MVR 15.449697
MWK 1731.111883
MXN 17.5381
MYR 4.100597
MZN 63.915223
NAD 16.531463
NGN 1376.119947
NIO 36.733491
NOK 9.88535
NPR 150.695297
NZD 1.772125
OMR 0.3845
PAB 0.99749
PEN 3.422005
PGK 4.380744
PHP 61.303503
PKR 277.832264
PLN 3.76694
PYG 6100.388479
QAR 3.645025
RON 4.602102
RSD 103.16901
RUB 75.351681
RWF 1466.964054
SAR 3.748015
SBD 8.051953
SCR 13.241511
SDG 600.000121
SEK 9.73885
SGD 1.296115
SHP 0.746601
SLE 24.796392
SLL 20969.503664
SOS 570.490909
SRD 37.320245
STD 20697.981008
STN 21.55618
SVC 8.735131
SYP 110.532098
SZL 16.530795
THB 33.4385
TJS 9.221714
TMT 3.5
TND 2.937497
TOP 2.40776
TRY 46.616399
TTD 6.780108
TWD 31.864013
TZS 2627.689002
UAH 44.889771
UGX 3690.695456
UYU 40.019342
UZS 11982.22316
VES 620.752985
VND 26309.5
VUV 119.950905
WST 2.785497
XAF 577.139891
XAG 0.017722
XAU 0.000249
XCD 2.70255
XCG 1.799113
XDR 0.717821
XOF 577.180517
XPF 104.849947
YER 238.625001
ZAR 16.52215
ZMK 9001.205413
ZMW 18.019596
ZWL 321.999592
  • AEX

    -7.4700

    1060.19

    -0.7%

  • BEL20

    -8.0300

    5724.25

    -0.14%

  • PX1

    -32.8800

    8398.52

    -0.39%

  • ISEQ

    -43.5300

    13998.56

    -0.31%

  • OSEBX

    -14.3700

    1901.72

    -0.75%

  • PSI20

    -2.7500

    9154.28

    -0.03%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    128.0200

    4244.51

    +3.11%

  • N150

    -29.6600

    4148.1

    -0.71%

Pour grandir, l'IA générative se tourne vers les livres
Pour grandir, l'IA générative se tourne vers les livres / Photo: © AFP/Archives

Pour grandir, l'IA générative se tourne vers les livres

Préserver les droits d'auteurs en négociant avec les plateformes: confronté aux besoins toujours plus grands de l'intelligence artificielle générative, le monde de l'édition commence lui aussi à passer des contrats avec ses acteurs pour monnayer ses contenus.

Taille du texte:

Le grand éditeur américain HarperCollins vient de proposer à certains de ses auteurs un contrat avec une société d'intelligence artificielle (IA) - dont l'identité est confidentielle - permettant à cette dernière d'utiliser leurs œuvres publiées pour entraîner son modèle d'intelligence artificielle générative.

Dans un courrier consulté par l'AFP, l'entreprise d'IA propose 2.500 dollars par livre sélectionné afin d'entraîner son modèle de langage (LLM) pour une période de trois ans.

Car pour pouvoir produire toutes sortes de contenus sur simple requête en langage courant, les modèles d'IA générative ont besoin d'être nourris d'une quantité de données sans cesse croissante.

Contacté, l'éditeur a confirmé l'opération. "HarperCollins a conclu un accord avec une société de technologie d'intelligence artificielle pour autoriser l'utilisation limitée de certains titres (...) pour entraîner des modèles d'IA, afin d'améliorer la qualité et les performances des modèles", écrit-il.

La maison d'édition explique également que l'accord "encadre clairement la production de modèles respectueux des droits d'auteur".

L'offre a toutefois été diversement appréciée dans le secteur de l'édition, et des écrivains comme l'Américain Daniel Kibblesmith l'ont sèchement déclinée: "je le ferais probablement pour un milliard de dollars. Je le ferais pour une somme d'argent qui ne me demanderait plus de travailler, puisque c'est le but final de cette technologie", s'est indigné l'auteur sur le réseau social Bluesky.

- Nouveaux matériaux -

Si HarperCollins est l'un des plus gros éditeurs à ce jour à passer ce type d'accord, il n'est pas le premier. L'éditeur américain de livres scientifiques Wiley a donné accès "au contenu de livres académiques et professionnels publiés pour une utilisation spécifique dans la formation des modèles, pour 23 millions de dollars, à une grande entreprise technologique", indiquait-il en mars cette année, lors de la présentation de ses résultats financiers.

Ce type de collaboration met en lumière les problèmes liés au développement des intelligences artificielles génératives, qui sont entraînées sur d'immenses quantités de données collectées sur le web avec, à la clef, de potentielles violations des droit d'auteurs.

Pour Giada Pistilli, responsable de l'éthique chez Hugging Face, une plateforme d'IA en accès libre franco-américaine, cette annonce est un pas en avant, puisque le contenu des livres est monétisé. Mais elle regrette une marge de négociation limitée pour les auteurs.

"Ce que l'on va voir, c'est un mécanisme d'accords bilatéraux entre entreprises de nouvelles technologies et éditeurs ou détenteurs de droits d'auteur, alors qu'il faudrait, à mon sens, une conversation plus large pour inclure un peu plus les parties prenantes", dit-elle.

"On part de tellement loin", commente de son côté Julien Chouraqui, le directeur juridique du syndicat français de l'édition (SNE). "C'est un progrès: le fait qu'il y ait un accord signifie qu'il y a eu un dialogue et une volonté d'aboutir à un équilibre entre l'utilisation de données sources, qui sont sous droit et qui vont générer de la valeur", dit-il.

Face à ces questions, les éditeurs de presse sont eux aussi en train de s'organiser. Fin 2023, le quotidien américain The New York Times a lancé des poursuites à l'encontre d'OpenAI, créateur du logiciel ChatGPT, ainsi que de Microsoft, son principal investisseur, pour violation des droits d'auteur. D'autres médias ont, eux, noué des accords avec OpenAI.

Les entreprises de la tech n'ont peut-être plus le choix pour améliorer leurs produits que de mettre la main au portefeuille, d'autant qu'elles commencent à manquer de nouveaux matériaux pour alimenter les modèles.

La presse américaine a récemment rapporté que les nouveaux modèles en développement semblent avoir atteint leurs limites, notamment chez Google, Anthropic et OpenAI.

"Sur le net, vous récoltez du licite et de l'illicite, et beaucoup de contenus piratés. Cela pose un problème juridique. Sans oublier le problème de qualité des données", observe Julien Chouraqui, du SNE: "si on a à cœur le développement d'un marché sur des bases vertueuses, il faut donc associer l'ensemble des acteurs."

A.Zhang--ThChM