The China Mail - La IA aprende a mentir, manipular y amenazar a sus creadores

USD -
AED 3.672495
AFN 67.314966
ALL 81.81895
AMD 382.214596
ANG 1.790403
AOA 916.999719
ARS 1473.768702
AUD 1.504189
AWG 1.8025
AZN 1.698782
BAM 1.653108
BBD 2.015045
BDT 121.75949
BGN 1.654098
BHD 0.37706
BIF 2986.078827
BMD 1
BND 1.279604
BOB 6.913223
BRL 5.270799
BSD 1.000507
BTN 88.102443
BWP 14.232162
BYN 3.389232
BYR 19600
BZD 2.01218
CAD 1.37795
CDF 2853.49884
CHF 0.789299
CLF 0.024242
CLP 951.020229
CNY 7.1036
CNH 7.102925
COP 3877.34
CRC 504.0994
CUC 1
CUP 26.5
CVE 93.202037
CZK 20.558299
DJF 178.160579
DKK 6.315335
DOP 61.871355
DZD 129.232982
EGP 48.2123
ERN 15
ETB 144.342508
EUR 0.84601
FJD 2.24125
FKP 0.731979
GBP 0.734325
GEL 2.698886
GGP 0.731979
GHS 12.256835
GIP 0.731979
GMD 72.000316
GNF 8679.151188
GTQ 7.663765
GYD 209.282472
HKD 7.777155
HNL 26.2201
HRK 6.372502
HTG 130.91032
HUF 328.788978
IDR 16563.7
ILS 3.33874
IMP 0.731979
INR 88.120985
IQD 1310.62463
IRR 42062.502255
ISK 121.320276
JEP 0.731979
JMD 160.535202
JOD 0.708949
JPY 147.44097
KES 129.210205
KGS 87.449888
KHR 4008.959513
KMF 414.999733
KPW 899.981828
KRW 1386.395016
KWD 0.30509
KYD 0.833745
KZT 541.272927
LAK 21661.827664
LBP 89593.904124
LKR 302.221696
LRD 177.087119
LSL 17.339194
LTL 2.95274
LVL 0.604889
LYD 5.395262
MAD 8.983209
MDL 16.54305
MGA 4396.941919
MKD 52.008097
MMK 2099.410231
MNT 3597.68587
MOP 8.014944
MRU 39.949117
MUR 45.269901
MVR 15.296561
MWK 1734.863789
MXN 18.228415
MYR 4.195956
MZN 63.909847
NAD 17.339194
NGN 1495.999651
NIO 36.818528
NOK 9.80107
NPR 140.96357
NZD 1.694456
OMR 0.384492
PAB 1.000511
PEN 3.477559
PGK 4.244834
PHP 57.077502
PKR 283.911741
PLN 3.60053
PYG 7123.688292
QAR 3.648212
RON 4.287902
RSD 99.11301
RUB 83.200731
RWF 1450.179402
SAR 3.750335
SBD 8.217066
SCR 14.611702
SDG 601.552097
SEK 9.30417
SGD 1.279715
SHP 0.785843
SLE 23.310212
SLL 20969.503664
SOS 571.802891
SRD 38.238502
STD 20697.981008
STN 20.708309
SVC 8.754232
SYP 13001.791617
SZL 17.333277
THB 31.8265
TJS 9.379675
TMT 3.51
TND 2.895698
TOP 2.342104
TRY 41.301302
TTD 6.787254
TWD 30.104009
TZS 2470.0002
UAH 41.284185
UGX 3503.492928
UYU 40.013355
UZS 12260.112162
VES 160.247381
VND 26385
VUV 118.486076
WST 2.647502
XAF 554.439185
XAG 0.023899
XAU 0.000273
XCD 2.70255
XCG 1.803144
XDR 0.689851
XOF 554.450901
XPF 100.802975
YER 239.549765
ZAR 17.34954
ZMK 9001.191881
ZMW 23.577143
ZWL 321.999592
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: © AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

Q.Moore--ThChM