The China Mail - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

USD -
AED 3.672496
AFN 63.999946
ALL 83.24986
AMD 377.160203
ANG 1.790083
AOA 917.000086
ARS 1382.517903
AUD 1.440766
AWG 1.80125
AZN 1.704454
BAM 1.70594
BBD 2.013154
BDT 122.637848
BGN 1.709309
BHD 0.377586
BIF 2964
BMD 1
BND 1.290401
BOB 6.906447
BRL 5.174041
BSD 0.999512
BTN 95.111495
BWP 13.788472
BYN 2.972354
BYR 19600
BZD 2.010179
CAD 1.389145
CDF 2285.000296
CHF 0.79391
CLF 0.023467
CLP 926.609957
CNY 6.88655
CNH 6.876895
COP 3683.58
CRC 464.734923
CUC 1
CUP 26.5
CVE 95.874996
CZK 21.157601
DJF 177.720364
DKK 6.445155
DOP 60.102391
DZD 132.7283
EGP 53.515012
ERN 15
ETB 157.049675
EUR 0.86253
FJD 2.257397
FKP 0.758501
GBP 0.752535
GEL 2.690186
GGP 0.758501
GHS 11.000174
GIP 0.758501
GMD 74.000076
GNF 8774.999935
GTQ 7.64789
GYD 209.174328
HKD 7.838835
HNL 26.599211
HRK 6.494404
HTG 131.185863
HUF 329.938498
IDR 16976
ILS 3.12967
IMP 0.758501
INR 93.259304
IQD 1310
IRR 1315874.999766
ISK 123.659924
JEP 0.758501
JMD 158.129555
JOD 0.708973
JPY 158.569932
KES 130.130344
KGS 87.449859
KHR 4010.000135
KMF 428.506089
KPW 899.943346
KRW 1504.602134
KWD 0.30924
KYD 0.832908
KZT 476.211659
LAK 21950.000369
LBP 89509.104989
LKR 315.318459
LRD 183.674994
LSL 17.069847
LTL 2.95274
LVL 0.60489
LYD 6.405023
MAD 9.342503
MDL 17.701369
MGA 4177.999615
MKD 53.154384
MMK 2100.405998
MNT 3572.722217
MOP 8.070843
MRU 40.110052
MUR 46.789729
MVR 15.470028
MWK 1737.000028
MXN 17.835798
MYR 4.024945
MZN 63.949732
NAD 17.070234
NGN 1384.43049
NIO 36.730032
NOK 9.6619
NPR 152.178217
NZD 1.734375
OMR 0.3845
PAB 0.999507
PEN 3.496008
PGK 4.390206
PHP 60.168016
PKR 279.201559
PLN 3.69684
PYG 6474.685228
QAR 3.643991
RON 4.395496
RSD 101.223992
RUB 80.557611
RWF 1460
SAR 3.753469
SBD 8.042037
SCR 13.866338
SDG 601.000132
SEK 9.373325
SGD 1.28284
SHP 0.750259
SLE 24.549812
SLL 20969.510825
SOS 571.502503
SRD 37.373967
STD 20697.981008
STN 21.725
SVC 8.746053
SYP 110.747305
SZL 17.069872
THB 32.574995
TJS 9.580319
TMT 3.51
TND 2.929859
TOP 2.40776
TRY 44.472301
TTD 6.790468
TWD 31.946952
TZS 2588.311004
UAH 43.911606
UGX 3762.887497
UYU 40.550736
UZS 12195.502598
VES 473.27785
VND 26336.5
VUV 120.24399
WST 2.777713
XAF 572.15615
XAG 0.013452
XAU 0.000212
XCD 2.70255
XCG 1.801363
XDR 0.710952
XOF 570.496955
XPF 104.050266
YER 238.649804
ZAR 16.833855
ZMK 9001.196569
ZMW 19.105686
ZWL 321.999592
  • AEX

    13.2500

    973.05

    +1.38%

  • BEL20

    123.7900

    5197.13

    +2.44%

  • PX1

    154.7700

    7971.51

    +1.98%

  • ISEQ

    196.5100

    12252.29

    +1.63%

  • OSEBX

    -14.8900

    2053.05

    -0.72%

  • PSI20

    146.1100

    9277.88

    +1.6%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    62.7400

    3689.24

    +1.73%

  • N150

    70.2700

    3931.38

    +1.82%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: © AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

Q.Moore--ThChM