The China Mail - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

USD -
AED 3.672502
AFN 68.590587
ALL 83.350237
AMD 381.498727
ANG 1.789783
AOA 917.000173
ARS 1300.50564
AUD 1.553875
AWG 1.80025
AZN 1.739919
BAM 1.677085
BBD 2.011508
BDT 121.343863
BGN 1.67853
BHD 0.376978
BIF 2978.845643
BMD 1
BND 1.28401
BOB 6.901105
BRL 5.475499
BSD 0.998722
BTN 86.903506
BWP 13.427486
BYN 3.356829
BYR 19600
BZD 2.003619
CAD 1.387475
CDF 2872.999818
CHF 0.804445
CLF 0.024631
CLP 966.270226
CNY 7.176197
CNH 7.18235
COP 4026.7
CRC 504.7205
CUC 1
CUP 26.5
CVE 94.551488
CZK 21.0223
DJF 177.844091
DKK 6.40782
DOP 62.125019
DZD 129.906313
EGP 48.585498
ERN 15
ETB 141.800056
EUR 0.85848
FJD 2.27125
FKP 0.741171
GBP 0.742925
GEL 2.694988
GGP 0.741171
GHS 10.935611
GIP 0.741171
GMD 72.000014
GNF 8658.071763
GTQ 7.654842
GYD 208.945369
HKD 7.812425
HNL 26.16812
HRK 6.466979
HTG 130.681964
HUF 338.7655
IDR 16283
ILS 3.40751
IMP 0.741171
INR 87.01865
IQD 1308.105883
IRR 42050.000091
ISK 123.110087
JEP 0.741171
JMD 160.008232
JOD 0.709013
JPY 147.442503
KES 129.040417
KGS 87.4423
KHR 4002.778278
KMF 422.488836
KPW 899.981998
KRW 1397.480353
KWD 0.30563
KYD 0.83224
KZT 537.77492
LAK 21614.999715
LBP 89871.033022
LKR 301.237363
LRD 200.241813
LSL 17.669487
LTL 2.95274
LVL 0.60489
LYD 5.41507
MAD 9.019667
MDL 16.793147
MGA 4403.227604
MKD 52.81045
MMK 2098.706911
MNT 3601.092413
MOP 8.039342
MRU 39.389808
MUR 45.939649
MVR 15.399126
MWK 1731.793276
MXN 18.775655
MYR 4.22501
MZN 63.909753
NAD 17.670324
NGN 1537.160041
NIO 36.752159
NOK 10.240105
NPR 139.045953
NZD 1.716208
OMR 0.384505
PAB 0.998722
PEN 3.509862
PGK 4.143503
PHP 57.107001
PKR 283.387527
PLN 3.647315
PYG 7216.662808
QAR 3.630883
RON 4.339897
RSD 100.603975
RUB 80.497268
RWF 1445.647793
SAR 3.752918
SBD 8.220372
SCR 14.630211
SDG 600.4975
SEK 9.589995
SGD 1.285485
SHP 0.785843
SLE 23.360893
SLL 20969.49797
SOS 570.747477
SRD 37.819009
STD 20697.981008
STN 21.008493
SVC 8.738713
SYP 13001.883701
SZL 17.669949
THB 32.57006
TJS 9.328068
TMT 3.5
TND 2.878989
TOP 2.342104
TRY 40.933899
TTD 6.775563
TWD 30.2958
TZS 2508.385041
UAH 41.318224
UGX 3560.311785
UYU 40.11336
UZS 12499.99957
VES 137.956897
VND 26390
VUV 119.442673
WST 2.685572
XAF 562.47867
XAG 0.026389
XAU 0.000299
XCD 2.70255
XCG 1.799964
XDR 0.699543
XOF 561.999806
XPF 102.750015
YER 240.195756
ZAR 17.68641
ZMK 9001.198951
ZMW 23.31524
ZWL 321.999592
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: © AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

V.Fan--ThChM