The China Mail - Pour grandir, l'IA générative se tourne vers les livres

USD -
AED 3.672504
AFN 65.000368
ALL 81.910403
AMD 376.168126
ANG 1.79008
AOA 917.000367
ARS 1431.790402
AUD 1.425923
AWG 1.8025
AZN 1.70397
BAM 1.654023
BBD 2.008288
BDT 121.941731
BGN 1.67937
BHD 0.375999
BIF 2954.881813
BMD 1
BND 1.269737
BOB 6.889932
BRL 5.217404
BSD 0.997082
BTN 90.316715
BWP 13.200558
BYN 2.864561
BYR 19600
BZD 2.005328
CAD 1.36855
CDF 2200.000362
CHF 0.77566
CLF 0.021803
CLP 860.890396
CNY 6.93895
CNH 6.929815
COP 3684.65
CRC 494.312656
CUC 1
CUP 26.5
CVE 93.82504
CZK 20.504104
DJF 177.555076
DKK 6.322204
DOP 62.928665
DZD 129.553047
EGP 46.73094
ERN 15
ETB 155.0074
EUR 0.846204
FJD 2.209504
FKP 0.735067
GBP 0.734457
GEL 2.69504
GGP 0.735067
GHS 10.957757
GIP 0.735067
GMD 73.000355
GNF 8752.167111
GTQ 7.647681
GYD 208.609244
HKD 7.81385
HNL 26.45504
HRK 6.376104
HTG 130.618631
HUF 319.703831
IDR 16855.5
ILS 3.110675
IMP 0.735067
INR 90.57645
IQD 1310.5
IRR 42125.000158
ISK 122.710386
JEP 0.735067
JMD 156.057339
JOD 0.70904
JPY 157.200504
KES 128.622775
KGS 87.450384
KHR 4033.00035
KMF 419.00035
KPW 900.021111
KRW 1463.803789
KWD 0.30721
KYD 0.830902
KZT 493.331642
LAK 21426.698803
LBP 89293.839063
LKR 308.47816
LRD 187.449786
LSL 16.086092
LTL 2.95274
LVL 0.60489
LYD 6.314009
MAD 9.185039
MDL 17.000296
MGA 4426.402808
MKD 52.129054
MMK 2100.115486
MNT 3570.277081
MOP 8.023933
MRU 39.850379
MUR 46.060378
MVR 15.450378
MWK 1737.000345
MXN 17.263604
MYR 3.947504
MZN 63.750377
NAD 16.086092
NGN 1366.980377
NIO 36.694998
NOK 9.690604
NPR 144.506744
NZD 1.661958
OMR 0.383441
PAB 0.997082
PEN 3.367504
PGK 4.275868
PHP 58.511038
PKR 278.812127
PLN 3.56949
PYG 6588.016407
QAR 3.64135
RON 4.310404
RSD 99.553038
RUB 76.792845
RWF 1455.283522
SAR 3.749738
SBD 8.058149
SCR 13.675619
SDG 601.503676
SEK 9.023204
SGD 1.272904
SHP 0.750259
SLE 24.450371
SLL 20969.499267
SOS 568.818978
SRD 37.818038
STD 20697.981008
STN 20.719692
SVC 8.724259
SYP 11059.574895
SZL 16.08271
THB 31.535038
TJS 9.342721
TMT 3.505
TND 2.847504
TOP 2.40776
TRY 43.612504
TTD 6.752083
TWD 31.590367
TZS 2577.445135
UAH 42.828111
UGX 3547.71872
UYU 38.538627
UZS 12244.069517
VES 377.985125
VND 25950
VUV 119.620171
WST 2.730723
XAF 554.743964
XAG 0.012866
XAU 0.000202
XCD 2.70255
XCG 1.797032
XDR 0.689923
XOF 554.743964
XPF 101.703591
YER 238.403589
ZAR 16.04457
ZMK 9001.203584
ZMW 18.570764
ZWL 321.999592
  • AEX

    10.2500

    995.35

    +1.04%

  • BEL20

    -7.7400

    5517.52

    -0.14%

  • PX1

    35.4300

    8273.84

    +0.43%

  • ISEQ

    95.0400

    13295.1

    +0.72%

  • OSEBX

    49.1200

    1816.11

    +2.78%

  • PSI20

    111.4900

    8890.3

    +1.27%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -84.1400

    4000.2

    -2.06%

  • N150

    35.3800

    4010.68

    +0.89%

Pour grandir, l'IA générative se tourne vers les livres
Pour grandir, l'IA générative se tourne vers les livres / Photo: © AFP/Archives

Pour grandir, l'IA générative se tourne vers les livres

Préserver les droits d'auteurs en négociant avec les plateformes: confronté aux besoins toujours plus grands de l'intelligence artificielle générative, le monde de l'édition commence lui aussi à passer des contrats avec ses acteurs pour monnayer ses contenus.

Taille du texte:

Le grand éditeur américain HarperCollins vient de proposer à certains de ses auteurs un contrat avec une société d'intelligence artificielle (IA) - dont l'identité est confidentielle - permettant à cette dernière d'utiliser leurs œuvres publiées pour entraîner son modèle d'intelligence artificielle générative.

Dans un courrier consulté par l'AFP, l'entreprise d'IA propose 2.500 dollars par livre sélectionné afin d'entraîner son modèle de langage (LLM) pour une période de trois ans.

Car pour pouvoir produire toutes sortes de contenus sur simple requête en langage courant, les modèles d'IA générative ont besoin d'être nourris d'une quantité de données sans cesse croissante.

Contacté, l'éditeur a confirmé l'opération. "HarperCollins a conclu un accord avec une société de technologie d'intelligence artificielle pour autoriser l'utilisation limitée de certains titres (...) pour entraîner des modèles d'IA, afin d'améliorer la qualité et les performances des modèles", écrit-il.

La maison d'édition explique également que l'accord "encadre clairement la production de modèles respectueux des droits d'auteur".

L'offre a toutefois été diversement appréciée dans le secteur de l'édition, et des écrivains comme l'Américain Daniel Kibblesmith l'ont sèchement déclinée: "je le ferais probablement pour un milliard de dollars. Je le ferais pour une somme d'argent qui ne me demanderait plus de travailler, puisque c'est le but final de cette technologie", s'est indigné l'auteur sur le réseau social Bluesky.

- Nouveaux matériaux -

Si HarperCollins est l'un des plus gros éditeurs à ce jour à passer ce type d'accord, il n'est pas le premier. L'éditeur américain de livres scientifiques Wiley a donné accès "au contenu de livres académiques et professionnels publiés pour une utilisation spécifique dans la formation des modèles, pour 23 millions de dollars, à une grande entreprise technologique", indiquait-il en mars cette année, lors de la présentation de ses résultats financiers.

Ce type de collaboration met en lumière les problèmes liés au développement des intelligences artificielles génératives, qui sont entraînées sur d'immenses quantités de données collectées sur le web avec, à la clef, de potentielles violations des droit d'auteurs.

Pour Giada Pistilli, responsable de l'éthique chez Hugging Face, une plateforme d'IA en accès libre franco-américaine, cette annonce est un pas en avant, puisque le contenu des livres est monétisé. Mais elle regrette une marge de négociation limitée pour les auteurs.

"Ce que l'on va voir, c'est un mécanisme d'accords bilatéraux entre entreprises de nouvelles technologies et éditeurs ou détenteurs de droits d'auteur, alors qu'il faudrait, à mon sens, une conversation plus large pour inclure un peu plus les parties prenantes", dit-elle.

"On part de tellement loin", commente de son côté Julien Chouraqui, le directeur juridique du syndicat français de l'édition (SNE). "C'est un progrès: le fait qu'il y ait un accord signifie qu'il y a eu un dialogue et une volonté d'aboutir à un équilibre entre l'utilisation de données sources, qui sont sous droit et qui vont générer de la valeur", dit-il.

Face à ces questions, les éditeurs de presse sont eux aussi en train de s'organiser. Fin 2023, le quotidien américain The New York Times a lancé des poursuites à l'encontre d'OpenAI, créateur du logiciel ChatGPT, ainsi que de Microsoft, son principal investisseur, pour violation des droits d'auteur. D'autres médias ont, eux, noué des accords avec OpenAI.

Les entreprises de la tech n'ont peut-être plus le choix pour améliorer leurs produits que de mettre la main au portefeuille, d'autant qu'elles commencent à manquer de nouveaux matériaux pour alimenter les modèles.

La presse américaine a récemment rapporté que les nouveaux modèles en développement semblent avoir atteint leurs limites, notamment chez Google, Anthropic et OpenAI.

"Sur le net, vous récoltez du licite et de l'illicite, et beaucoup de contenus piratés. Cela pose un problème juridique. Sans oublier le problème de qualité des données", observe Julien Chouraqui, du SNE: "si on a à cœur le développement d'un marché sur des bases vertueuses, il faut donc associer l'ensemble des acteurs."

A.Zhang--ThChM