The China Mail - La IA aprende a mentir, manipular y amenazar a sus creadores

USD -
AED 3.672499
AFN 63.497801
ALL 82.78735
AMD 368.501999
ANG 1.790403
AOA 917.000026
ARS 1470.994295
AUD 1.450737
AWG 1.80125
AZN 1.699774
BAM 1.718856
BBD 2.018008
BDT 123.091796
BGN 1.69088
BHD 0.376992
BIF 2985
BMD 1
BND 1.297974
BOB 6.938524
BRL 5.1836
BSD 1.001973
BTN 94.864877
BWP 13.624819
BYN 2.814079
BYR 19600
BZD 2.015116
CAD 1.423285
CDF 2269.000116
CHF 0.81196
CLF 0.023222
CLP 913.970277
CNY 6.790497
CNH 6.81316
COP 3430.81
CRC 454.535468
CUC 1
CUP 26.5
CVE 97.374994
CZK 21.357955
DJF 177.720297
DKK 6.58811
DOP 58.549651
DZD 133.752003
EGP 49.637897
ERN 15
ETB 161.535521
EUR 0.88133
FJD 2.24775
FKP 0.758197
GBP 0.758355
GEL 2.645023
GGP 0.758197
GHS 11.224992
GIP 0.758197
GMD 72.48613
GNF 8775.000362
GTQ 7.644241
GYD 209.623413
HKD 7.83995
HNL 26.807458
HRK 6.639198
HTG 131.00145
HUF 313.327501
IDR 17971.5
ILS 2.987501
IMP 0.758197
INR 94.66405
IQD 1312.563167
IRR 1375050.000233
ISK 126.909928
JEP 0.758197
JMD 157.717811
JOD 0.709038
JPY 161.763501
KES 129.549725
KGS 87.449994
KHR 4010.000164
KMF 430.999638
KPW 900.00035
KRW 1546.87991
KWD 0.30931
KYD 0.834996
KZT 487.384102
LAK 22188.337654
LBP 89725.095575
LKR 335.228721
LRD 182.352683
LSL 16.522564
LTL 2.95274
LVL 0.60489
LYD 6.429642
MAD 9.377774
MDL 17.639408
MGA 4185.964758
MKD 54.30225
MMK 2099.539901
MNT 3580.066416
MOP 8.091488
MRU 39.79664
MUR 48.209863
MVR 15.459914
MWK 1737.391847
MXN 17.59575
MYR 4.136102
MZN 63.899143
NAD 16.522564
NGN 1370.849964
NIO 36.867777
NOK 9.840295
NPR 151.78296
NZD 1.771746
OMR 0.384493
PAB 1.001977
PEN 3.39166
PGK 4.394272
PHP 61.470967
PKR 278.668893
PLN 3.777101
PYG 6107.983882
QAR 3.652503
RON 4.623702
RSD 103.469007
RUB 74.824636
RWF 1469.343633
SAR 3.755291
SBD 8.065041
SCR 13.652298
SDG 600.499646
SEK 9.77081
SGD 1.298035
SHP 0.746601
SLE 24.750278
SLL 20969.503664
SOS 572.656446
SRD 37.483032
STD 20697.981008
STN 21.530796
SVC 8.767412
SYP 110.532098
SZL 16.517116
THB 33.4105
TJS 9.293141
TMT 3.51
TND 2.965857
TOP 2.40776
TRY 46.497606
TTD 6.803181
TWD 31.734502
TZS 2620.002986
UAH 44.976754
UGX 3667.442985
UYU 40.189832
UZS 12038.49365
VES 616.865275
VND 26334
VUV 118.798432
WST 2.761642
XAF 576.48558
XAG 0.016359
XAU 0.000246
XCD 2.70255
XCG 1.805774
XDR 0.716966
XOF 576.48558
XPF 104.811706
YER 238.650124
ZAR 16.619401
ZMK 9001.201672
ZMW 17.97425
ZWL 321.999592
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: © AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

Q.Moore--ThChM