The China Mail - La IA aprende a mentir, manipular y amenazar a sus creadores

USD -
AED 3.672504
AFN 63.999611
ALL 81.301522
AMD 370.000133
ANG 1.789884
AOA 917.999937
ARS 1387.714602
AUD 1.382304
AWG 1.80125
AZN 1.701441
BAM 1.65949
BBD 2.014662
BDT 122.963617
BGN 1.668102
BHD 0.37735
BIF 2975
BMD 1
BND 1.266376
BOB 6.911825
BRL 4.939598
BSD 1.000288
BTN 94.642615
BWP 13.384978
BYN 2.824803
BYR 19600
BZD 2.011777
CAD 1.363895
CDF 2315.999733
CHF 0.778905
CLF 0.022782
CLP 896.619525
CNY 6.81125
CNH 6.81323
COP 3726.81
CRC 456.404426
CUC 1
CUP 26.5
CVE 93.949934
CZK 20.711503
DJF 177.720282
DKK 6.360298
DOP 59.550121
DZD 132.260501
EGP 52.692005
ERN 15
ETB 157.100639
EUR 0.850996
FJD 2.18445
FKP 0.736622
GBP 0.735665
GEL 2.680286
GGP 0.736622
GHS 11.250389
GIP 0.736622
GMD 73.500677
GNF 8779.999601
GTQ 7.635589
GYD 209.238393
HKD 7.83435
HNL 26.629735
HRK 6.412895
HTG 130.892895
HUF 305.056501
IDR 17317.7
ILS 2.903605
IMP 0.736622
INR 94.615499
IQD 1310
IRR 1313000.000312
ISK 122.390182
JEP 0.736622
JMD 157.609595
JOD 0.708989
JPY 156.397497
KES 129.179771
KGS 87.420504
KHR 4013.491746
KMF 419.000198
KPW 900.003495
KRW 1448.429787
KWD 0.30795
KYD 0.83356
KZT 463.200855
LAK 21969.999933
LBP 89381.099728
LKR 320.221287
LRD 183.575013
LSL 16.535024
LTL 2.95274
LVL 0.60489
LYD 6.340093
MAD 9.198496
MDL 17.194712
MGA 4159.999825
MKD 52.460035
MMK 2099.549246
MNT 3579.649525
MOP 8.073157
MRU 39.912517
MUR 46.779879
MVR 15.455039
MWK 1741.999962
MXN 17.25655
MYR 3.924972
MZN 63.909737
NAD 16.53495
NGN 1361.990151
NIO 36.719669
NOK 9.29575
NPR 151.428014
NZD 1.679701
OMR 0.384511
PAB 1.000288
PEN 3.462503
PGK 4.33825
PHP 60.819855
PKR 278.774993
PLN 3.60225
PYG 6121.903517
QAR 3.644014
RON 4.481099
RSD 99.923021
RUB 74.749385
RWF 1460
SAR 3.745223
SBD 8.019432
SCR 13.934011
SDG 600.501804
SEK 9.243097
SGD 1.268095
SHP 0.746601
SLE 24.649613
SLL 20969.496166
SOS 571.504798
SRD 37.41101
STD 20697.981008
STN 21.2
SVC 8.752206
SYP 111.203697
SZL 16.540082
THB 32.239824
TJS 9.347679
TMT 3.505
TND 2.872502
TOP 2.40776
TRY 45.234005
TTD 6.778611
TWD 31.413496
TZS 2592.183035
UAH 43.857246
UGX 3761.369807
UYU 40.193288
UZS 12075.000375
VES 493.496435
VND 26325
VUV 118.250426
WST 2.722585
XAF 556.574973
XAG 0.012925
XAU 0.000213
XCD 2.70255
XCG 1.802793
XDR 0.696429
XOF 557.497355
XPF 101.874996
YER 238.625034
ZAR 16.40755
ZMK 9001.199275
ZMW 18.930729
ZWL 321.999592
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: © AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

Q.Moore--ThChM