L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

The China Mail - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Beijing 15°C

USD -

AED 3.672496

AFN 63.999946

ALL 83.24986

AMD 377.160203

ANG 1.790083

AOA 917.000086

ARS 1382.517903

AUD 1.440766

AWG 1.80125

AZN 1.704454

BAM 1.70594

BBD 2.013154

BDT 122.637848

BGN 1.709309

BHD 0.377586

BIF 2964

BMD 1

BND 1.290401

BOB 6.906447

BRL 5.174041

BSD 0.999512

BTN 95.111495

BWP 13.788472

BYN 2.972354

BYR 19600

BZD 2.010179

CAD 1.389145

CDF 2285.000296

CHF 0.79391

CLF 0.023467

CLP 926.609957

CNY 6.88655

CNH 6.876895

COP 3683.58

CRC 464.734923

CUC 1

CUP 26.5

CVE 95.874996

CZK 21.157601

DJF 177.720364

DKK 6.445155

DOP 60.102391

DZD 132.7283

EGP 53.515012

ERN 15

ETB 157.049675

EUR 0.86253

FJD 2.257397

FKP 0.758501

GBP 0.752535

GEL 2.690186

GGP 0.758501

GHS 11.000174

GIP 0.758501

GMD 74.000076

GNF 8774.999935

GTQ 7.64789

GYD 209.174328

HKD 7.838835

HNL 26.599211

HRK 6.494404

HTG 131.185863

HUF 329.938498

IDR 16976

ILS 3.12967

IMP 0.758501

INR 93.259304

IQD 1310

IRR 1315874.999766

ISK 123.659924

JEP 0.758501

JMD 158.129555

JOD 0.708973

JPY 158.569932

KES 130.130344

KGS 87.449859

KHR 4010.000135

KMF 428.506089

KPW 899.943346

KRW 1504.602134

KWD 0.30924

KYD 0.832908

KZT 476.211659

LAK 21950.000369

LBP 89509.104989

LKR 315.318459

LRD 183.674994

LSL 17.069847

LTL 2.95274

LVL 0.60489

LYD 6.405023

MAD 9.342503

MDL 17.701369

MGA 4177.999615

MKD 53.154384

MMK 2100.405998

MNT 3572.722217

MOP 8.070843

MRU 40.110052

MUR 46.789729

MVR 15.470028

MWK 1737.000028

MXN 17.835798

MYR 4.024945

MZN 63.949732

NAD 17.070234

NGN 1384.43049

NIO 36.730032

NOK 9.6619

NPR 152.178217

NZD 1.734375

OMR 0.3845

PAB 0.999507

PEN 3.496008

PGK 4.390206

PHP 60.168016

PKR 279.201559

PLN 3.69684

PYG 6474.685228

QAR 3.643991

RON 4.395496

RSD 101.223992

RUB 80.557611

RWF 1460

SAR 3.753469

SBD 8.042037

SCR 13.866338

SDG 601.000132

SEK 9.373325

SGD 1.28284

SHP 0.750259

SLE 24.549812

SLL 20969.510825

SOS 571.502503

SRD 37.373967

STD 20697.981008

STN 21.725

SVC 8.746053

SYP 110.747305

SZL 17.069872

THB 32.574995

TJS 9.580319

TMT 3.51

TND 2.929859

TOP 2.40776

TRY 44.472301

TTD 6.790468

TWD 31.946952

TZS 2588.311004

UAH 43.911606

UGX 3762.887497

UYU 40.550736

UZS 12195.502598

VES 473.27785

VND 26336.5

VUV 120.24399

WST 2.777713

XAF 572.15615

XAG 0.013452

XAU 0.000212

XCD 2.70255

XCG 1.801363

XDR 0.710952

XOF 570.496955

XPF 104.050266

YER 238.649804

ZAR 16.833855

ZMK 9001.196569

ZMW 19.105686

ZWL 321.999592

AEX

13.2500

973.05

+1.38%
BEL20

123.7900

5197.13

+2.44%
PX1

154.7700

7971.51

+1.98%
ISEQ

196.5100

12252.29

+1.63%
OSEBX

-14.8900

2053.05

-0.72%
PSI20

146.1100

9277.88

+1.6%
ENTEC

-5.8300

1416.23

-0.41%
BIOTK

62.7400

3689.24

+1.73%
N150

70.2700

3931.38

+1.82%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

CULTURE 29.06.2025

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

Q.Moore--ThChM

The China Mail - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

En vedette

La moitié des Français se rend sur YouTube au moins une fois par semaine

Le prince Harry et d'autres plaignants veulent un dédommagement "substantiel" du Daily Mail

Céline Dion, le retour d'une insubmersible diva

Céline Dion officialise son grand retour, avec dix concerts à Paris