The China Mail - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

USD -
AED 3.673042
AFN 69.000368
ALL 82.503989
AMD 383.470403
ANG 1.790403
AOA 917.000367
ARS 1449.82499
AUD 1.50355
AWG 1.8
AZN 1.70397
BAM 1.667292
BBD 2.014654
BDT 121.734979
BGN 1.66676
BHD 0.375921
BIF 2947.5
BMD 1
BND 1.283231
BOB 6.911867
BRL 5.346404
BSD 1.000294
BTN 88.23908
BWP 13.325036
BYN 3.388134
BYR 19600
BZD 2.011859
CAD 1.38545
CDF 2835.000362
CHF 0.79671
CLF 0.02434
CLP 954.860396
CNY 7.124704
CNH 7.12213
COP 3896.25
CRC 503.904385
CUC 1
CUP 26.5
CVE 94.37504
CZK 20.726804
DJF 177.720393
DKK 6.36065
DOP 63.22504
DZD 129.73604
EGP 48.013462
ERN 15
ETB 143.650392
EUR 0.852104
FJD 2.238704
FKP 0.737136
GBP 0.737626
GEL 2.690391
GGP 0.737136
GHS 12.203856
GIP 0.737136
GMD 71.503851
GNF 8660.000355
GTQ 7.668865
GYD 209.274967
HKD 7.77821
HNL 26.180388
HRK 6.420404
HTG 130.890119
HUF 333.080388
IDR 16407.9
ILS 3.335965
IMP 0.737136
INR 88.27785
IQD 1310
IRR 42075.000352
ISK 122.050386
JEP 0.737136
JMD 160.463411
JOD 0.70904
JPY 147.71304
KES 129.503801
KGS 87.450384
KHR 4004.00035
KMF 419.503794
KPW 899.95109
KRW 1393.030383
KWD 0.30537
KYD 0.833635
KZT 540.88683
LAK 21675.000349
LBP 89550.000349
LKR 301.815376
LRD 194.095039
LSL 17.370381
LTL 2.95274
LVL 0.60489
LYD 5.410381
MAD 9.025039
MDL 16.614737
MGA 4475.000347
MKD 52.461979
MMK 2099.069477
MNT 3596.841777
MOP 8.018584
MRU 39.915039
MUR 45.503741
MVR 15.310378
MWK 1738.000345
MXN 18.440204
MYR 4.205039
MZN 63.910377
NAD 17.370377
NGN 1502.303725
NIO 36.730377
NOK 9.860104
NPR 141.174966
NZD 1.678698
OMR 0.383399
PAB 1.000345
PEN 3.491504
PGK 4.185504
PHP 57.170375
PKR 281.550374
PLN 3.627061
PYG 7148.093842
QAR 3.640604
RON 4.317038
RSD 99.829591
RUB 83.75163
RWF 1445
SAR 3.751657
SBD 8.206879
SCR 14.224722
SDG 601.503676
SEK 9.316804
SGD 1.284504
SHP 0.785843
SLE 23.375038
SLL 20969.503664
SOS 571.503662
SRD 39.375038
STD 20697.981008
STN 21.25
SVC 8.751652
SYP 13001.882518
SZL 17.370369
THB 31.660369
TJS 9.412813
TMT 3.51
TND 2.90364
TOP 2.342104
TRY 41.326504
TTD 6.801045
TWD 30.299904
TZS 2460.000335
UAH 41.238923
UGX 3515.696596
UYU 40.067006
UZS 12435.000334
VES 158.73035
VND 26385
VUV 119.422851
WST 2.656919
XAF 559.186909
XAG 0.023705
XAU 0.000274
XCD 2.70255
XCG 1.802814
XDR 0.695271
XOF 557.503593
XPF 102.050363
YER 239.550363
ZAR 17.38729
ZMK 9001.203584
ZMW 23.73205
ZWL 321.999592
  • AEX

    3.1700

    908.89

    +0.35%

  • BEL20

    -22.5500

    4775.68

    -0.47%

  • PX1

    1.5600

    7825.24

    +0.02%

  • ISEQ

    -13.7300

    11430.97

    -0.12%

  • OSEBX

    1.6500

    1654.62

    +0.1%

  • PSI20

    -6.2000

    7748.45

    -0.08%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -51.3800

    3567.01

    -1.42%

  • N150

    2.9300

    3667.47

    +0.08%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: © AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

Q.Moore--ThChM