The China Mail - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

USD -
AED 3.672503
AFN 66.489639
ALL 83.872087
AMD 382.480133
ANG 1.789982
AOA 917.0003
ARS 1450.699702
AUD 1.544736
AWG 1.8025
AZN 1.699041
BAM 1.69722
BBD 2.01352
BDT 122.007836
BGN 1.695875
BHD 0.37699
BIF 2949.338748
BMD 1
BND 1.304378
BOB 6.907594
BRL 5.352801
BSD 0.999679
BTN 88.558647
BWP 13.450775
BYN 3.407125
BYR 19600
BZD 2.010578
CAD 1.41299
CDF 2221.00033
CHF 0.80818
CLF 0.024039
CLP 943.050062
CNY 7.12675
CNH 7.12449
COP 3825.88
CRC 502.442792
CUC 1
CUP 26.5
CVE 95.686244
CZK 21.11385
DJF 178.017286
DKK 6.47882
DOP 64.320178
DZD 130.66705
EGP 47.347006
ERN 15
ETB 153.49263
EUR 0.86768
FJD 2.28525
FKP 0.766404
GBP 0.76411
GEL 2.715017
GGP 0.766404
GHS 10.92632
GIP 0.766404
GMD 73.508006
GNF 8677.881382
GTQ 7.6608
GYD 209.15339
HKD 7.775025
HNL 26.286056
HRK 6.539803
HTG 130.827172
HUF 334.998987
IDR 16711
ILS 3.271502
IMP 0.766404
INR 88.66825
IQD 1309.660176
IRR 42112.501218
ISK 126.68026
JEP 0.766404
JMD 160.35857
JOD 0.708975
JPY 153.312971
KES 129.150268
KGS 87.449913
KHR 4012.669762
KMF 428.000238
KPW 900.033283
KRW 1447.954975
KWD 0.307089
KYD 0.833167
KZT 526.13127
LAK 21717.265947
LBP 89523.367365
LKR 304.861328
LRD 182.946302
LSL 17.373217
LTL 2.952741
LVL 0.60489
LYD 5.466197
MAD 9.311066
MDL 17.114592
MGA 4508.159378
MKD 53.394772
MMK 2099.044592
MNT 3585.031206
MOP 8.005051
MRU 39.997917
MUR 45.999832
MVR 15.404961
MWK 1733.486063
MXN 18.63575
MYR 4.183006
MZN 63.960152
NAD 17.373217
NGN 1436.9102
NIO 36.78522
NOK 10.225185
NPR 141.693568
NZD 1.77489
OMR 0.384498
PAB 0.999779
PEN 3.375927
PGK 4.279045
PHP 58.997504
PKR 282.679805
PLN 3.691414
PYG 7081.988268
QAR 3.643566
RON 4.413096
RSD 101.707004
RUB 81.145785
RWF 1452.596867
SAR 3.750613
SBD 8.223823
SCR 13.740107
SDG 600.497654
SEK 9.586485
SGD 1.305415
SHP 0.750259
SLE 23.196085
SLL 20969.499529
SOS 571.349231
SRD 38.503502
STD 20697.981008
STN 21.260533
SVC 8.747304
SYP 11056.895466
SZL 17.359159
THB 32.414498
TJS 9.227278
TMT 3.5
TND 2.959939
TOP 2.342104
TRY 42.117398
TTD 6.773954
TWD 30.971303
TZS 2459.806999
UAH 42.066455
UGX 3491.096532
UYU 39.813947
UZS 11966.746503
VES 227.27225
VND 26315
VUV 122.169446
WST 2.82328
XAF 569.234174
XAG 0.0208
XAU 0.000251
XCD 2.70255
XCG 1.801686
XDR 0.70875
XOF 569.231704
XPF 103.489719
YER 238.491627
ZAR 17.38063
ZMK 9001.224357
ZMW 22.61803
ZWL 321.999592
  • AEX

    -9.8100

    961.06

    -1.01%

  • BEL20

    27.9200

    4926.5

    +0.57%

  • PX1

    -109.8100

    7964.77

    -1.36%

  • ISEQ

    -64.6100

    12126.73

    -0.53%

  • OSEBX

    -6.1200

    1603.62

    -0.38%

  • PSI20

    -106.8900

    8376.71

    -1.26%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    66.1600

    4100.44

    +1.64%

  • N150

    -45.6800

    3637.99

    -1.24%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: © AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

Q.Moore--ThChM