La IA aprende a mentir, manipular y amenazar a sus creadores

The China Mail - La IA aprende a mentir, manipular y amenazar a sus creadores

Beijing 12°C

USD -

AED 3.6725

AFN 66.000108

ALL 83.901353

AMD 382.570077

ANG 1.789982

AOA 916.999801

ARS 1450.724808

AUD 1.534696

AWG 1.8025

AZN 1.69797

BAM 1.701894

BBD 2.013462

BDT 121.860805

BGN 1.69918

BHD 0.377041

BIF 2951

BMD 1

BND 1.306514

BOB 6.907654

BRL 5.361505

BSD 0.999682

BTN 88.718716

BWP 13.495075

BYN 3.407518

BYR 19600

BZD 2.010599

CAD 1.409215

CDF 2221.000153

CHF 0.80857

CLF 0.024076

CLP 944.483424

CNY 7.126749

CNH 7.124445

COP 3834.5

CRC 501.842642

CUC 1

CUP 26.5

CVE 96.374996

CZK 21.140968

DJF 177.72029

DKK 6.479905

DOP 64.296439

DZD 130.854023

EGP 47.330044

ERN 15

ETB 153.125036

EUR 0.86811

FJD 2.2795

FKP 0.766404

GBP 0.764305

GEL 2.715031

GGP 0.766404

GHS 10.924986

GIP 0.766404

GMD 73.509182

GNF 8691.000271

GTQ 7.661048

GYD 209.152772

HKD 7.774705

HNL 26.35987

HRK 6.539017

HTG 130.911876

HUF 335.563972

IDR 16696.1

ILS 3.257715

IMP 0.766404

INR 88.621799

IQD 1310

IRR 42112.499493

ISK 127.610373

JEP 0.766404

JMD 160.956848

JOD 0.708971

JPY 153.642986

KES 129.19854

KGS 87.449835

KHR 4026.999604

KMF 428.000324

KPW 900.033283

KRW 1446.10203

KWD 0.30709

KYD 0.83313

KZT 525.140102

LAK 21712.50351

LBP 89550.000099

LKR 304.599802

LRD 182.625009

LSL 17.37969

LTL 2.95274

LVL 0.60489

LYD 5.454987

MAD 9.302002

MDL 17.135125

MGA 4499.99989

MKD 53.533982

MMK 2099.044592

MNT 3585.031206

MOP 8.006805

MRU 38.250003

MUR 46.000322

MVR 15.405

MWK 1735.999682

MXN 18.58065

MYR 4.1825

MZN 63.96023

NAD 17.379867

NGN 1441.160333

NIO 36.770147

NOK 10.174201

NPR 141.949154

NZD 1.765395

OMR 0.384511

PAB 0.999687

PEN 3.376498

PGK 4.215987

PHP 58.922004

PKR 280.849885

PLN 3.69217

PYG 7077.158694

QAR 3.640972

RON 4.413295

RSD 101.779005

RUB 81.353148

RWF 1450

SAR 3.750456

SBD 8.223823

SCR 13.740975

SDG 600.441137

SEK 9.53742

SGD 1.305045

SHP 0.750259

SLE 23.198831

SLL 20969.499529

SOS 571.503834

SRD 38.558031

STD 20697.981008

STN 21.45

SVC 8.747031

SYP 11056.895466

SZL 17.379605

THB 32.368036

TJS 9.257197

TMT 3.5

TND 2.959469

TOP 2.342104

TRY 42.11808

TTD 6.775354

TWD 30.903499

TZS 2459.806976

UAH 42.064759

UGX 3491.230589

UYU 39.758439

UZS 11987.500677

VES 227.27225

VND 26314.5

VUV 122.169446

WST 2.82328

XAF 570.814334

XAG 0.020505

XAU 0.000249

XCD 2.70255

XCG 1.801656

XDR 0.70875

XOF 570.495095

XPF 104.150276

YER 238.497322

ZAR 17.35745

ZMK 9001.197493

ZMW 22.392878

ZWL 321.999592

La IA aprende a mentir, manipular y amenazar a sus creadores

TECNOLOGíA 29.06.2025

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

Q.Moore--ThChM

The China Mail - La IA aprende a mentir, manipular y amenazar a sus creadores

La IA aprende a mentir, manipular y amenazar a sus creadores

Destacados

Gigantes tecnológicos apuntan al espacio para impulsar su carrera por la IA

Las bolsas de Corea del Sur y Japón caen por temor a una burbuja de la IA

Trump nomina por segunda vez a un cercano a Musk para dirigir la NASA

Alemania construirá una "fábrica de IA" bajo tierra para reducir su dependencia de China y EEUU