The China Mail - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

USD -
AED 3.672504
AFN 65.000368
ALL 81.652501
AMD 376.168126
ANG 1.79008
AOA 917.000367
ARS 1431.790402
AUD 1.425923
AWG 1.8025
AZN 1.70397
BAM 1.654023
BBD 2.008288
BDT 121.941731
BGN 1.67937
BHD 0.375914
BIF 2954.881813
BMD 1
BND 1.269737
BOB 6.889932
BRL 5.217404
BSD 0.997082
BTN 90.316715
BWP 13.200558
BYN 2.864561
BYR 19600
BZD 2.005328
CAD 1.36855
CDF 2200.000362
CHF 0.77566
CLF 0.021803
CLP 860.890396
CNY 6.93895
CNH 6.929815
COP 3699.522179
CRC 494.312656
CUC 1
CUP 26.5
CVE 93.2513
CZK 20.504104
DJF 177.555076
DKK 6.322204
DOP 62.928665
DZD 129.553047
EGP 46.73094
ERN 15
ETB 155.0074
EUR 0.846204
FJD 2.209504
FKP 0.735067
GBP 0.734457
GEL 2.69504
GGP 0.735067
GHS 10.957757
GIP 0.735067
GMD 73.000355
GNF 8752.167111
GTQ 7.647681
GYD 208.609244
HKD 7.81385
HNL 26.338534
HRK 6.376104
HTG 130.618631
HUF 319.703831
IDR 16855.5
ILS 3.110675
IMP 0.735067
INR 90.596504
IQD 1306.186308
IRR 42125.000158
ISK 122.710386
JEP 0.735067
JMD 156.057339
JOD 0.70904
JPY 157.200504
KES 128.622775
KGS 87.450384
KHR 4023.848789
KMF 419.00035
KPW 900.021111
KRW 1463.560383
KWD 0.30721
KYD 0.830902
KZT 493.331642
LAK 21426.698803
LBP 89293.839063
LKR 308.47816
LRD 187.449786
LSL 16.086092
LTL 2.95274
LVL 0.60489
LYD 6.314009
MAD 9.153622
MDL 17.000296
MGA 4426.402808
MKD 52.129054
MMK 2100.115486
MNT 3570.277081
MOP 8.023933
MRU 39.425769
MUR 46.060378
MVR 15.450378
MWK 1728.952598
MXN 17.263604
MYR 3.947504
MZN 63.750377
NAD 16.086092
NGN 1366.980377
NIO 36.694998
NOK 9.690604
NPR 144.506744
NZD 1.674621
OMR 0.383441
PAB 0.997082
PEN 3.354899
PGK 4.275868
PHP 58.511038
PKR 278.812127
PLN 3.56949
PYG 6588.016407
QAR 3.634319
RON 4.310404
RSD 99.268468
RUB 76.789716
RWF 1455.283522
SAR 3.748738
SBD 8.058149
SCR 13.84955
SDG 601.503676
SEK 9.023204
SGD 1.272904
SHP 0.750259
SLE 24.450371
SLL 20969.499267
SOS 568.818978
SRD 37.818038
STD 20697.981008
STN 20.719692
SVC 8.724259
SYP 11059.574895
SZL 16.08271
THB 31.535038
TJS 9.342721
TMT 3.505
TND 2.891792
TOP 2.40776
TRY 43.612504
TTD 6.752083
TWD 31.590367
TZS 2577.445135
UAH 42.828111
UGX 3547.71872
UYU 38.538627
UZS 12244.069517
VES 377.985125
VND 25950
VUV 119.620171
WST 2.730723
XAF 554.743964
XAG 0.012866
XAU 0.000202
XCD 2.70255
XCG 1.797032
XDR 0.689923
XOF 554.743964
XPF 100.858387
YER 238.403589
ZAR 16.04457
ZMK 9001.203584
ZMW 18.570764
ZWL 321.999592
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: © AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

V.Fan--ThChM