The China Mail - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

USD -
AED 3.6725
AFN 65.498831
ALL 81.910095
AMD 378.010177
ANG 1.79008
AOA 917.000095
ARS 1442.232097
AUD 1.447974
AWG 1.8
AZN 1.679026
BAM 1.658807
BBD 2.01469
BDT 122.336816
BGN 1.67937
BHD 0.376968
BIF 2960
BMD 1
BND 1.274003
BOB 6.911584
BRL 5.272703
BSD 1.000305
BTN 90.399817
BWP 13.243033
BYN 2.865297
BYR 19600
BZD 2.011721
CAD 1.37165
CDF 2230.000045
CHF 0.777555
CLF 0.02195
CLP 866.710083
CNY 6.93805
CNH 6.939685
COP 3700.85
CRC 495.911928
CUC 1
CUP 26.5
CVE 93.825019
CZK 20.603404
DJF 177.71986
DKK 6.34081
DOP 62.995021
DZD 130.060373
EGP 46.856399
ERN 15
ETB 155.150026
EUR 0.849125
FJD 2.216898
FKP 0.732184
GBP 0.739795
GEL 2.69498
GGP 0.732184
GHS 10.974974
GIP 0.732184
GMD 72.999956
GNF 8760.500761
GTQ 7.672344
GYD 209.27195
HKD 7.81303
HNL 26.454967
HRK 6.3973
HTG 131.225404
HUF 322.782007
IDR 16886.95
ILS 3.119945
IMP 0.732184
INR 90.321502
IQD 1310.5
IRR 42125.000158
ISK 122.900592
JEP 0.732184
JMD 156.449315
JOD 0.708997
JPY 156.633502
KES 129.000438
KGS 87.449771
KHR 4033.000063
KMF 419.000058
KPW 900.030004
KRW 1471.989986
KWD 0.30744
KYD 0.833598
KZT 493.342041
LAK 21500.000573
LBP 85550.000319
LKR 309.548446
LRD 186.150152
LSL 16.260081
LTL 2.95274
LVL 0.60489
LYD 6.324959
MAD 9.185022
MDL 16.999495
MGA 4440.000275
MKD 52.338218
MMK 2099.783213
MNT 3569.156954
MOP 8.049755
MRU 39.849936
MUR 46.050157
MVR 15.450164
MWK 1737.000329
MXN 17.55195
MYR 3.951299
MZN 63.749722
NAD 16.285115
NGN 1367.09822
NIO 36.701015
NOK 9.81742
NPR 144.639707
NZD 1.684896
OMR 0.384507
PAB 1.000314
PEN 3.367497
PGK 4.265974
PHP 58.815021
PKR 279.737212
PLN 3.587406
PYG 6605.373863
QAR 3.641349
RON 4.3236
RSD 99.675965
RUB 76.750999
RWF 1453
SAR 3.750175
SBD 8.058149
SCR 14.65365
SDG 601.502308
SEK 9.06708
SGD 1.27589
SHP 0.750259
SLE 24.450569
SLL 20969.499267
SOS 571.484438
SRD 37.870144
STD 20697.981008
STN 21.05
SVC 8.752036
SYP 11059.574895
SZL 16.305262
THB 31.850216
TJS 9.362532
TMT 3.505
TND 2.847496
TOP 2.40776
TRY 43.61304
TTD 6.773307
TWD 31.665034
TZS 2584.999947
UAH 43.163845
UGX 3570.701588
UYU 38.599199
UZS 12275.000276
VES 377.985125
VND 25955
VUV 119.687673
WST 2.726344
XAF 556.374339
XAG 0.015352
XAU 0.000213
XCD 2.70255
XCG 1.802745
XDR 0.691101
XOF 554.499549
XPF 101.697491
YER 238.401353
ZAR 16.34654
ZMK 9001.196933
ZMW 18.580528
ZWL 321.999592
  • AEX

    -5.1500

    985.14

    -0.52%

  • BEL20

    -20.5200

    5525.05

    -0.37%

  • PX1

    -23.1300

    8238.17

    -0.28%

  • ISEQ

    -319.0500

    13200.06

    -2.36%

  • OSEBX

    1.4100

    1767.03

    +0.08%

  • PSI20

    -102.1300

    8779.01

    -1.15%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -10.2400

    4084.58

    -0.25%

  • N150

    -8.7600

    3975.26

    -0.22%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: © AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

Q.Moore--ThChM