The China Mail - Pour grandir, l'IA générative se tourne vers les livres

USD -
AED 3.673037
AFN 68.211665
ALL 83.532896
AMD 383.502854
ANG 1.789699
AOA 916.999605
ARS 1325.3501
AUD 1.53428
AWG 1.8025
AZN 1.702491
BAM 1.678726
BBD 2.016566
BDT 121.342432
BGN 1.678755
BHD 0.374147
BIF 2978.069611
BMD 1
BND 1.283464
BOB 6.900991
BRL 5.433798
BSD 0.998755
BTN 87.452899
BWP 13.43805
BYN 3.297455
BYR 19600
BZD 2.00618
CAD 1.375525
CDF 2890.000242
CHF 0.807797
CLF 0.024682
CLP 968.279931
CNY 7.181501
CNH 7.189545
COP 4044.89
CRC 506.072701
CUC 1
CUP 26.5
CVE 94.644007
CZK 20.97601
DJF 177.846444
DKK 6.40929
DOP 60.99309
DZD 128.915497
EGP 48.200314
ERN 15
ETB 138.586069
EUR 0.85876
FJD 2.2523
FKP 0.743868
GBP 0.743955
GEL 2.700507
GGP 0.743868
GHS 10.536887
GIP 0.743868
GMD 72.496085
GNF 8660.572508
GTQ 7.66319
GYD 208.952405
HKD 7.849795
HNL 26.151667
HRK 6.468898
HTG 130.681087
HUF 339.572006
IDR 16256
ILS 3.423545
IMP 0.743868
INR 87.48855
IQD 1308.355865
IRR 42124.999964
ISK 122.819789
JEP 0.743868
JMD 159.9073
JOD 0.709017
JPY 147.661971
KES 128.990062
KGS 87.449943
KHR 4000.686666
KMF 422.150012
KPW 900
KRW 1389.339649
KWD 0.30553
KYD 0.832325
KZT 539.727909
LAK 21608.514656
LBP 89486.545642
LKR 300.373375
LRD 200.248916
LSL 17.702931
LTL 2.95274
LVL 0.60489
LYD 5.415218
MAD 9.044505
MDL 16.768379
MGA 4407.536157
MKD 52.817476
MMK 2099.737573
MNT 3594.27935
MOP 8.075018
MRU 39.838634
MUR 45.409688
MVR 15.402791
MWK 1731.857002
MXN 18.587695
MYR 4.242502
MZN 63.959745
NAD 17.702931
NGN 1531.619647
NIO 36.753787
NOK 10.28401
NPR 139.924467
NZD 1.68111
OMR 0.381572
PAB 0.998755
PEN 3.535041
PGK 4.212695
PHP 56.880323
PKR 283.390756
PLN 3.64615
PYG 7480.36565
QAR 3.650401
RON 4.353701
RSD 100.553624
RUB 79.785293
RWF 1444.659028
SAR 3.752762
SBD 8.217066
SCR 14.720484
SDG 600.495506
SEK 9.573879
SGD 1.285325
SHP 0.785843
SLE 23.098421
SLL 20969.503947
SOS 570.790953
SRD 37.279028
STD 20697.981008
STN 21.02914
SVC 8.738681
SYP 13001.8509
SZL 17.696236
THB 32.380047
TJS 9.328183
TMT 3.51
TND 2.928973
TOP 2.342098
TRY 40.75225
TTD 6.779108
TWD 29.865971
TZS 2481.868034
UAH 41.31445
UGX 3563.795545
UYU 40.075533
UZS 12578.000944
VES 128.74775
VND 26225
VUV 119.401493
WST 2.653916
XAF 563.029055
XAG 0.026227
XAU 0.000295
XCD 2.70255
XCG 1.800009
XDR 0.700227
XOF 563.029055
XPF 102.364705
YER 240.450513
ZAR 17.747135
ZMK 9001.203799
ZMW 23.145788
ZWL 321.999592
  • AEX

    -1.1600

    891.36

    -0.13%

  • BEL20

    22.6100

    4733.91

    +0.48%

  • PX1

    33.9200

    7743

    +0.44%

  • ISEQ

    17.2000

    11482.77

    +0.15%

  • OSEBX

    0.9700

    1622.72

    +0.06%

  • PSI20

    17.8500

    7780.27

    +0.23%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -32.7800

    3149.81

    -1.03%

  • N150

    8.5100

    3707.25

    +0.23%

Pour grandir, l'IA générative se tourne vers les livres
Pour grandir, l'IA générative se tourne vers les livres / Photo: © AFP/Archives

Pour grandir, l'IA générative se tourne vers les livres

Préserver les droits d'auteurs en négociant avec les plateformes: confronté aux besoins toujours plus grands de l'intelligence artificielle générative, le monde de l'édition commence lui aussi à passer des contrats avec ses acteurs pour monnayer ses contenus.

Taille du texte:

Le grand éditeur américain HarperCollins vient de proposer à certains de ses auteurs un contrat avec une société d'intelligence artificielle (IA) - dont l'identité est confidentielle - permettant à cette dernière d'utiliser leurs œuvres publiées pour entraîner son modèle d'intelligence artificielle générative.

Dans un courrier consulté par l'AFP, l'entreprise d'IA propose 2.500 dollars par livre sélectionné afin d'entraîner son modèle de langage (LLM) pour une période de trois ans.

Car pour pouvoir produire toutes sortes de contenus sur simple requête en langage courant, les modèles d'IA générative ont besoin d'être nourris d'une quantité de données sans cesse croissante.

Contacté, l'éditeur a confirmé l'opération. "HarperCollins a conclu un accord avec une société de technologie d'intelligence artificielle pour autoriser l'utilisation limitée de certains titres (...) pour entraîner des modèles d'IA, afin d'améliorer la qualité et les performances des modèles", écrit-il.

La maison d'édition explique également que l'accord "encadre clairement la production de modèles respectueux des droits d'auteur".

L'offre a toutefois été diversement appréciée dans le secteur de l'édition, et des écrivains comme l'Américain Daniel Kibblesmith l'ont sèchement déclinée: "je le ferais probablement pour un milliard de dollars. Je le ferais pour une somme d'argent qui ne me demanderait plus de travailler, puisque c'est le but final de cette technologie", s'est indigné l'auteur sur le réseau social Bluesky.

- Nouveaux matériaux -

Si HarperCollins est l'un des plus gros éditeurs à ce jour à passer ce type d'accord, il n'est pas le premier. L'éditeur américain de livres scientifiques Wiley a donné accès "au contenu de livres académiques et professionnels publiés pour une utilisation spécifique dans la formation des modèles, pour 23 millions de dollars, à une grande entreprise technologique", indiquait-il en mars cette année, lors de la présentation de ses résultats financiers.

Ce type de collaboration met en lumière les problèmes liés au développement des intelligences artificielles génératives, qui sont entraînées sur d'immenses quantités de données collectées sur le web avec, à la clef, de potentielles violations des droit d'auteurs.

Pour Giada Pistilli, responsable de l'éthique chez Hugging Face, une plateforme d'IA en accès libre franco-américaine, cette annonce est un pas en avant, puisque le contenu des livres est monétisé. Mais elle regrette une marge de négociation limitée pour les auteurs.

"Ce que l'on va voir, c'est un mécanisme d'accords bilatéraux entre entreprises de nouvelles technologies et éditeurs ou détenteurs de droits d'auteur, alors qu'il faudrait, à mon sens, une conversation plus large pour inclure un peu plus les parties prenantes", dit-elle.

"On part de tellement loin", commente de son côté Julien Chouraqui, le directeur juridique du syndicat français de l'édition (SNE). "C'est un progrès: le fait qu'il y ait un accord signifie qu'il y a eu un dialogue et une volonté d'aboutir à un équilibre entre l'utilisation de données sources, qui sont sous droit et qui vont générer de la valeur", dit-il.

Face à ces questions, les éditeurs de presse sont eux aussi en train de s'organiser. Fin 2023, le quotidien américain The New York Times a lancé des poursuites à l'encontre d'OpenAI, créateur du logiciel ChatGPT, ainsi que de Microsoft, son principal investisseur, pour violation des droits d'auteur. D'autres médias ont, eux, noué des accords avec OpenAI.

Les entreprises de la tech n'ont peut-être plus le choix pour améliorer leurs produits que de mettre la main au portefeuille, d'autant qu'elles commencent à manquer de nouveaux matériaux pour alimenter les modèles.

La presse américaine a récemment rapporté que les nouveaux modèles en développement semblent avoir atteint leurs limites, notamment chez Google, Anthropic et OpenAI.

"Sur le net, vous récoltez du licite et de l'illicite, et beaucoup de contenus piratés. Cela pose un problème juridique. Sans oublier le problème de qualité des données", observe Julien Chouraqui, du SNE: "si on a à cœur le développement d'un marché sur des bases vertueuses, il faut donc associer l'ensemble des acteurs."

A.Zhang--ThChM