The China Mail - La IA aprende a mentir, manipular y amenazar a sus creadores

USD -
AED 3.6725
AFN 66.000108
ALL 83.901353
AMD 382.570077
ANG 1.789982
AOA 916.999801
ARS 1450.724808
AUD 1.534696
AWG 1.8025
AZN 1.69797
BAM 1.701894
BBD 2.013462
BDT 121.860805
BGN 1.69918
BHD 0.377041
BIF 2951
BMD 1
BND 1.306514
BOB 6.907654
BRL 5.361505
BSD 0.999682
BTN 88.718716
BWP 13.495075
BYN 3.407518
BYR 19600
BZD 2.010599
CAD 1.409215
CDF 2221.000153
CHF 0.80857
CLF 0.024076
CLP 944.483424
CNY 7.126749
CNH 7.124445
COP 3834.5
CRC 501.842642
CUC 1
CUP 26.5
CVE 96.374996
CZK 21.140968
DJF 177.72029
DKK 6.479905
DOP 64.296439
DZD 130.854023
EGP 47.330044
ERN 15
ETB 153.125036
EUR 0.86811
FJD 2.2795
FKP 0.766404
GBP 0.764305
GEL 2.715031
GGP 0.766404
GHS 10.924986
GIP 0.766404
GMD 73.509182
GNF 8691.000271
GTQ 7.661048
GYD 209.152772
HKD 7.774705
HNL 26.35987
HRK 6.539017
HTG 130.911876
HUF 335.563972
IDR 16696.1
ILS 3.257715
IMP 0.766404
INR 88.621799
IQD 1310
IRR 42112.499493
ISK 127.610373
JEP 0.766404
JMD 160.956848
JOD 0.708971
JPY 153.642986
KES 129.19854
KGS 87.449835
KHR 4026.999604
KMF 428.000324
KPW 900.033283
KRW 1446.10203
KWD 0.30709
KYD 0.83313
KZT 525.140102
LAK 21712.50351
LBP 89550.000099
LKR 304.599802
LRD 182.625009
LSL 17.37969
LTL 2.95274
LVL 0.60489
LYD 5.454987
MAD 9.302002
MDL 17.135125
MGA 4499.99989
MKD 53.533982
MMK 2099.044592
MNT 3585.031206
MOP 8.006805
MRU 38.250003
MUR 46.000322
MVR 15.405
MWK 1735.999682
MXN 18.58065
MYR 4.1825
MZN 63.96023
NAD 17.379867
NGN 1441.160333
NIO 36.770147
NOK 10.174201
NPR 141.949154
NZD 1.765395
OMR 0.384511
PAB 0.999687
PEN 3.376498
PGK 4.215987
PHP 58.922004
PKR 280.849885
PLN 3.69217
PYG 7077.158694
QAR 3.640972
RON 4.413295
RSD 101.779005
RUB 81.353148
RWF 1450
SAR 3.750456
SBD 8.223823
SCR 13.740975
SDG 600.441137
SEK 9.53742
SGD 1.305045
SHP 0.750259
SLE 23.198831
SLL 20969.499529
SOS 571.503834
SRD 38.558031
STD 20697.981008
STN 21.45
SVC 8.747031
SYP 11056.895466
SZL 17.379605
THB 32.368036
TJS 9.257197
TMT 3.5
TND 2.959469
TOP 2.342104
TRY 42.11808
TTD 6.775354
TWD 30.903499
TZS 2459.806976
UAH 42.064759
UGX 3491.230589
UYU 39.758439
UZS 11987.500677
VES 227.27225
VND 26314.5
VUV 122.169446
WST 2.82328
XAF 570.814334
XAG 0.020505
XAU 0.000249
XCD 2.70255
XCG 1.801656
XDR 0.70875
XOF 570.495095
XPF 104.150276
YER 238.497322
ZAR 17.35745
ZMK 9001.197493
ZMW 22.392878
ZWL 321.999592
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: © AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

Q.Moore--ThChM