The China Mail - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

USD -
AED 3.672504
AFN 70.181275
ALL 83.642568
AMD 383.706547
ANG 1.789623
AOA 917.000367
ARS 1187.638217
AUD 1.529286
AWG 1.8025
AZN 1.70397
BAM 1.668415
BBD 2.017658
BDT 122.217957
BGN 1.67402
BHD 0.375858
BIF 2976.327575
BMD 1
BND 1.275069
BOB 6.904671
BRL 5.479504
BSD 0.999275
BTN 85.44935
BWP 13.359778
BYN 3.270207
BYR 19600
BZD 2.007251
CAD 1.37105
CDF 2881.000362
CHF 0.808798
CLF 0.024262
CLP 931.047132
CNY 7.172504
CNH 7.17292
COP 4037.193431
CRC 503.988057
CUC 1
CUP 26.5
CVE 94.0627
CZK 21.101704
DJF 177.94839
DKK 6.365604
DOP 59.449776
DZD 128.922158
EGP 49.689913
ERN 15
ETB 134.993559
EUR 0.853304
FJD 2.24125
FKP 0.728768
GBP 0.738089
GEL 2.720391
GGP 0.728768
GHS 10.343357
GIP 0.728768
GMD 71.503851
GNF 8657.709533
GTQ 7.685221
GYD 208.974195
HKD 7.850005
HNL 26.110471
HRK 6.429504
HTG 131.004479
HUF 340.380388
IDR 16236.25
ILS 3.386195
IMP 0.728768
INR 85.50715
IQD 1309.021113
IRR 42125.000352
ISK 121.160386
JEP 0.728768
JMD 160.14502
JOD 0.70904
JPY 144.640504
KES 129.153338
KGS 87.394039
KHR 4005.971422
KMF 420.503794
KPW 900.000025
KRW 1364.350383
KWD 0.30579
KYD 0.832758
KZT 519.85498
LAK 21549.157603
LBP 89534.058435
LKR 299.680102
LRD 199.85498
LSL 17.895244
LTL 2.95274
LVL 0.60489
LYD 5.411815
MAD 9.022393
MDL 16.923011
MGA 4393.260823
MKD 52.488804
MMK 2099.665693
MNT 3583.911574
MOP 8.080529
MRU 39.851567
MUR 45.160378
MVR 15.403739
MWK 1732.736191
MXN 18.82055
MYR 4.228504
MZN 63.960377
NAD 17.895244
NGN 1543.740377
NIO 36.775432
NOK 10.077105
NPR 136.71913
NZD 1.651037
OMR 0.383109
PAB 0.999275
PEN 3.546854
PGK 4.121988
PHP 56.610375
PKR 283.416336
PLN 3.621341
PYG 7974.408189
QAR 3.642397
RON 4.335904
RSD 99.961612
RUB 78.609512
RWF 1442.951589
SAR 3.7503
SBD 8.347338
SCR 14.665216
SDG 600.503676
SEK 9.48201
SGD 1.275904
SHP 0.785843
SLE 22.503667
SLL 20969.503664
SOS 571.038601
SRD 37.796038
STD 20697.981008
SVC 8.743869
SYP 13001.855182
SZL 17.891235
THB 32.555038
TJS 9.852762
TMT 3.51
TND 2.921305
TOP 2.342104
TRY 39.935755
TTD 6.782683
TWD 29.103038
TZS 2633.226701
UAH 41.663638
UGX 3592.237151
UYU 40.255918
UZS 12577.52186
VES 106.603504
VND 26095
VUV 118.903032
WST 2.737488
XAF 559.570911
XAG 0.027788
XAU 0.000305
XCD 2.70255
XDR 0.695927
XOF 559.570911
XPF 101.735978
YER 242.250363
ZAR 17.82665
ZMK 9001.203587
ZMW 23.657923
ZWL 321.999592
  • AEX

    9.4700

    920.14

    +1.04%

  • BEL20

    38.0000

    4509.03

    +0.85%

  • PX1

    134.5200

    7691.55

    +1.78%

  • ISEQ

    135.1600

    11398.19

    +1.2%

  • OSEBX

    10.2200

    1607.73

    +0.64%

  • PSI20

    92.1500

    7523.59

    +1.24%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    4.2300

    2493.06

    +0.17%

  • N150

    29.3400

    3607.8

    +0.82%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: © AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

Q.Moore--ThChM