The China Mail - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

USD -
AED 3.672499
AFN 63.508409
ALL 83.130137
AMD 367.930065
ANG 1.790403
AOA 917.506766
ARS 1479.237698
AUD 1.450579
AWG 1.80125
AZN 1.700987
BAM 1.724577
BBD 2.013888
BDT 122.992813
BGN 1.69088
BHD 0.377147
BIF 2984.81535
BMD 1
BND 1.298984
BOB 6.909809
BRL 5.209023
BSD 0.999934
BTN 94.624111
BWP 13.680173
BYN 2.818068
BYR 19600
BZD 2.01104
CAD 1.42403
CDF 2268.999938
CHF 0.81271
CLF 0.023343
CLP 918.720455
CNY 6.790498
CNH 6.812925
COP 3444.43
CRC 455.186766
CUC 1
CUP 26.5
CVE 97.22259
CZK 21.340975
DJF 177.719807
DKK 6.584465
DOP 58.613453
DZD 133.503983
EGP 49.614424
ERN 15
ETB 158.650487
EUR 0.8808
FJD 2.2442
FKP 0.758197
GBP 0.759685
GEL 2.639997
GGP 0.758197
GHS 11.199781
GIP 0.758197
GMD 72.497463
GNF 8761.518452
GTQ 7.627362
GYD 209.162776
HKD 7.83898
HNL 26.720332
HRK 6.636201
HTG 130.744947
HUF 313.441501
IDR 18023.55
ILS 2.987898
IMP 0.758197
INR 94.44095
IQD 1310
IRR 1375049.999401
ISK 127.020219
JEP 0.758197
JMD 157.488647
JOD 0.709058
JPY 161.743497
KES 129.529765
KGS 87.449752
KHR 4017.494974
KMF 434.000152
KPW 900.00035
KRW 1546.760063
KWD 0.30949
KYD 0.833297
KZT 486.623047
LAK 22065.000305
LBP 89549.999401
LKR 337.341005
LRD 182.249788
LSL 16.590249
LTL 2.95274
LVL 0.60489
LYD 6.405023
MAD 9.415494
MDL 17.709096
MGA 4224.999504
MKD 54.277626
MMK 2099.539901
MNT 3580.066416
MOP 8.076099
MRU 40.069983
MUR 48.210327
MVR 15.450235
MWK 1737.000468
MXN 17.625155
MYR 4.13703
MZN 63.909571
NAD 16.589564
NGN 1374.123004
NIO 36.610102
NOK 9.856065
NPR 151.394749
NZD 1.772685
OMR 0.384504
PAB 0.999965
PEN 3.422009
PGK 4.38325
PHP 61.441999
PKR 278.049757
PLN 3.77416
PYG 6099.351442
QAR 3.644985
RON 4.592503
RSD 103.387018
RUB 74.902626
RWF 1466
SAR 3.741267
SBD 8.051953
SCR 13.814179
SDG 599.999885
SEK 9.75603
SGD 1.29765
SHP 0.746601
SLE 24.79971
SLL 20969.503664
SOS 571.497058
SRD 37.460182
STD 20697.981008
STN 21.675
SVC 8.749173
SYP 110.532098
SZL 16.590246
THB 33.439499
TJS 9.284423
TMT 3.5
TND 2.9375
TOP 2.40776
TRY 46.5119
TTD 6.780184
TWD 31.822898
TZS 2620.503015
UAH 44.88455
UGX 3689.350352
UYU 39.918699
UZS 12014.999848
VES 620.752985
VND 26335
VUV 118.798432
WST 2.761642
XAF 578.424923
XAG 0.017324
XAU 0.000249
XCD 2.70255
XCG 1.802141
XDR 0.716966
XOF 572.999591
XPF 105.49826
YER 238.624991
ZAR 16.571597
ZMK 9001.200644
ZMW 18.024056
ZWL 321.999592
  • AEX

    -0.3200

    1065.35

    -0.03%

  • BEL20

    -41.1300

    5671.66

    -0.72%

  • PX1

    45.0400

    8385.49

    +0.54%

  • ISEQ

    137.9800

    13936.44

    +1%

  • OSEBX

    -18.2800

    1926.78

    -0.94%

  • PSI20

    -80.4000

    9055.89

    -0.88%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -300.8100

    4116.43

    -6.81%

  • N150

    -15.5400

    4183.4

    -0.37%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: © AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

Q.Moore--ThChM