The China Mail - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

USD -
AED 3.672502
AFN 66.272138
ALL 83.49892
AMD 382.462203
ANG 1.789982
AOA 917.000222
ARS 1406.911304
AUD 1.533966
AWG 1.805
AZN 1.701199
BAM 1.689676
BBD 2.011145
BDT 121.87473
BGN 1.689676
BHD 0.373737
BIF 2940.647948
BMD 1
BND 1.300389
BOB 6.909719
BRL 5.334399
BSD 0.998531
BTN 88.502808
BWP 13.406479
BYN 3.40311
BYR 19600
BZD 2.008207
CAD 1.40302
CDF 2149.999776
CHF 0.806225
CLF 0.024015
CLP 942.090228
CNY 7.11935
CNH 7.122165
COP 3780.3
CRC 501.339093
CUC 1
CUP 26.5
CVE 95.261339
CZK 21.03101
DJF 177.814255
DKK 6.46169
DOP 64.155508
DZD 129.316631
EGP 47.012697
ERN 15
ETB 154.143499
EUR 0.86534
FJD 2.28425
FKP 0.760233
GBP 0.760575
GEL 2.705011
GGP 0.760233
GHS 10.919222
GIP 0.760233
GMD 73.00004
GNF 8667.818575
GTQ 7.651836
GYD 208.907127
HKD 7.77563
HNL 26.25486
HRK 6.51898
HTG 132.907127
HUF 332.810054
IDR 16669
ILS 3.24347
IMP 0.760233
INR 88.63935
IQD 1308.077754
IRR 42099.999599
ISK 126.703233
JEP 0.760233
JMD 160.267819
JOD 0.708964
JPY 153.946992
KES 129.209843
KGS 87.450129
KHR 4019.006479
KMF 421.000235
KPW 900.018268
KRW 1456.145008
KWD 0.306901
KYD 0.832138
KZT 524.198704
LAK 21680.345572
LBP 89418.488121
LKR 304.354212
LRD 182.332613
LSL 17.296674
LTL 2.95274
LVL 0.60489
LYD 5.452268
MAD 9.256069
MDL 17.024622
MGA 4488.12095
MKD 53.153348
MMK 2099.87471
MNT 3580.787673
MOP 7.998963
MRU 39.553348
MUR 45.90988
MVR 15.405027
MWK 1731.490281
MXN 18.43226
MYR 4.166996
MZN 63.950265
NAD 17.296674
NGN 1435.23005
NIO 36.742981
NOK 10.152799
NPR 141.60432
NZD 1.775568
OMR 0.38114
PAB 0.998618
PEN 3.369762
PGK 4.215983
PHP 58.947013
PKR 282.349719
PLN 3.670117
PYG 7065.226782
QAR 3.639309
RON 4.401198
RSD 101.226782
RUB 81.085876
RWF 1450.885529
SAR 3.750401
SBD 8.230592
SCR 13.701253
SDG 600.496076
SEK 9.533875
SGD 1.302655
SHP 0.750259
SLE 23.195989
SLL 20969.499529
SOS 570.62635
SRD 38.59899
STD 20697.981008
STN 21.166307
SVC 8.736933
SYP 11056.858374
SZL 17.302808
THB 32.350499
TJS 9.216415
TMT 3.51
TND 2.95162
TOP 2.342104
TRY 42.23858
TTD 6.768898
TWD 31.015797
TZS 2456.415026
UAH 41.870929
UGX 3494.600432
UYU 39.766739
UZS 12042.332613
VES 228.194001
VND 26306
VUV 122.303025
WST 2.820887
XAF 566.701512
XAG 0.020379
XAU 0.000247
XCD 2.70255
XCG 1.799568
XDR 0.704795
XOF 566.701512
XPF 103.032397
YER 238.501498
ZAR 17.28389
ZMK 9001.203851
ZMW 22.591793
ZWL 321.999592
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: © AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

V.Fan--ThChM