The China Mail - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

USD -
AED 3.672999
AFN 70.495129
ALL 88.480839
AMD 388.079816
ANG 1.789679
AOA 916.499323
ARS 1124.989913
AUD 1.544595
AWG 1.8025
AZN 1.693065
BAM 1.760475
BBD 2.01821
BDT 121.44561
BGN 1.752608
BHD 0.376926
BIF 2936
BMD 1
BND 1.304667
BOB 6.906795
BRL 5.611801
BSD 0.999608
BTN 85.262414
BWP 13.645733
BYN 3.271208
BYR 19600
BZD 2.00784
CAD 1.39553
CDF 2871.000251
CHF 0.841102
CLF 0.02451
CLP 940.569751
CNY 7.20635
CNH 7.196915
COP 4212.85
CRC 507.95051
CUC 1
CUP 26.5
CVE 99.124995
CZK 22.311966
DJF 177.720164
DKK 6.67299
DOP 58.9029
DZD 133.449925
EGP 50.462403
ERN 15
ETB 132.91142
EUR 0.894595
FJD 2.262498
FKP 0.758117
GBP 0.751945
GEL 2.744994
GGP 0.758117
GHS 12.724969
GIP 0.758117
GMD 71.999757
GNF 8654.999921
GTQ 7.685314
GYD 209.123559
HKD 7.79715
HNL 25.99252
HRK 6.741303
HTG 130.691715
HUF 361.5055
IDR 16619.9
ILS 3.56095
IMP 0.758117
INR 85.109298
IQD 1309.437546
IRR 42100.000137
ISK 130.350066
JEP 0.758117
JMD 159.24209
JOD 0.709297
JPY 147.62503
KES 129.500853
KGS 87.450421
KHR 4016.000273
KMF 440.503528
KPW 899.995499
KRW 1414.759838
KWD 0.30723
KYD 0.832966
KZT 508.08524
LAK 21620.000281
LBP 89549.999748
LKR 298.717314
LRD 199.62497
LSL 18.317566
LTL 2.95274
LVL 0.60489
LYD 5.489896
MAD 9.298389
MDL 17.472119
MGA 4518.675542
MKD 55.062334
MMK 2099.484484
MNT 3573.897983
MOP 8.02371
MRU 39.612944
MUR 46.429687
MVR 15.399357
MWK 1733.404745
MXN 19.426302
MYR 4.322497
MZN 63.8977
NAD 18.317813
NGN 1602.429756
NIO 36.779333
NOK 10.35813
NPR 136.415311
NZD 1.684201
OMR 0.384987
PAB 0.999577
PEN 3.65444
PGK 4.151402
PHP 55.771008
PKR 281.476394
PLN 3.78885
PYG 7982.465221
QAR 3.643417
RON 4.5659
RSD 105.514724
RUB 79.855411
RWF 1431.361783
SAR 3.750593
SBD 8.350849
SCR 14.220787
SDG 600.506901
SEK 9.72816
SGD 1.301815
SHP 0.785843
SLE 22.749885
SLL 20969.500214
SOS 571.209973
SRD 36.497463
STD 20697.981008
SVC 8.746686
SYP 13003.313899
SZL 18.312338
THB 33.246503
TJS 10.365266
TMT 3.5
TND 3.023498
TOP 2.342103
TRY 38.789698
TTD 6.783414
TWD 30.422052
TZS 2687.497909
UAH 41.541044
UGX 3658.179822
UYU 41.748053
UZS 12889.869031
VES 92.714991
VND 25961.5
VUV 119.97318
WST 2.778545
XAF 590.436285
XAG 0.030403
XAU 0.000308
XCD 2.70255
XDR 0.734637
XOF 590.454887
XPF 107.349566
YER 244.449571
ZAR 18.34335
ZMK 9001.201071
ZMW 26.488498
ZWL 321.999592
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: © AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

V.Fan--ThChM