The China Mail - ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

USD -
AED 3.672498
AFN 68.45856
ALL 84.12756
AMD 382.249626
ANG 1.789783
AOA 916.999985
ARS 1363.529498
AUD 1.540227
AWG 1.8
AZN 1.700185
BAM 1.688422
BBD 2.013873
BDT 121.680652
BGN 1.687398
BHD 0.37703
BIF 2981.344475
BMD 1
BND 1.289231
BOB 6.907209
BRL 5.445902
BSD 0.999599
BTN 87.778411
BWP 13.486366
BYN 3.396857
BYR 19600
BZD 2.010437
CAD 1.38275
CDF 2867.499011
CHF 0.803225
CLF 0.024675
CLP 967.980269
CNY 7.152901
CNH 7.15594
COP 4054.39
CRC 503.295593
CUC 1
CUP 26.5
CVE 95.190614
CZK 21.145982
DJF 178.008754
DKK 6.432199
DOP 62.778411
DZD 130.087969
EGP 48.622011
ERN 15
ETB 141.839764
EUR 0.86164
FJD 2.265099
FKP 0.741734
GBP 0.742441
GEL 2.695024
GGP 0.741734
GHS 11.145979
GIP 0.741734
GMD 71.511051
GNF 8666.563072
GTQ 7.662557
GYD 209.052375
HKD 7.787745
HNL 26.189613
HRK 6.499801
HTG 130.840153
HUF 342.089888
IDR 16406.6
ILS 3.329102
IMP 0.741734
INR 87.741697
IQD 1309.610138
IRR 42050.000535
ISK 123.219732
JEP 0.741734
JMD 159.751718
JOD 0.70904
JPY 147.744501
KES 129.159992
KGS 87.350015
KHR 4006.543762
KMF 423.250003
KPW 900.015419
KRW 1395.170223
KWD 0.30572
KYD 0.833078
KZT 539.029317
LAK 21692.831645
LBP 89517.721251
LKR 302.142684
LRD 200.428188
LSL 17.761577
LTL 2.95274
LVL 0.60489
LYD 5.424048
MAD 9.059964
MDL 16.524295
MGA 4418.334621
MKD 53.126834
MMK 2099.054675
MNT 3597.17449
MOP 8.014451
MRU 39.985842
MUR 46.010395
MVR 15.40975
MWK 1733.211323
MXN 18.72054
MYR 4.234971
MZN 63.950323
NAD 17.761577
NGN 1534.060165
NIO 36.784765
NOK 10.124201
NPR 140.445112
NZD 1.71106
OMR 0.38444
PAB 0.999607
PEN 3.547602
PGK 4.228392
PHP 57.253499
PKR 283.59655
PLN 3.679535
PYG 7225.732933
QAR 3.646448
RON 4.3662
RSD 100.973009
RUB 80.549679
RWF 1447.483716
SAR 3.752199
SBD 8.217066
SCR 15.051056
SDG 600.495805
SEK 9.56487
SGD 1.28773
SHP 0.785843
SLE 23.25019
SLL 20969.49797
SOS 571.324977
SRD 38.497632
STD 20697.981008
STN 21.150501
SVC 8.746849
SYP 13002.232772
SZL 17.748368
THB 32.449024
TJS 9.521606
TMT 3.5
TND 2.932422
TOP 2.3421
TRY 41.044701
TTD 6.796707
TWD 30.593498
TZS 2502.032052
UAH 41.295021
UGX 3561.932387
UYU 39.978936
UZS 12350.219276
VES 141.606965
VND 26370
VUV 119.58468
WST 2.776302
XAF 566.283221
XAG 0.026019
XAU 0.000295
XCD 2.70255
XCG 1.801599
XDR 0.701052
XOF 566.280776
XPF 102.955903
YER 240.17498
ZAR 17.720203
ZMK 9001.194772
ZMW 23.366757
ZWL 321.999592
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo / foto: © AFP/Arquivos

ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

Os grandes modelos de linguagem (LLM, na sigla em inglês), como o ChatGPT, um dos sistemas de inteligência artificial (IA) mais populares do mundo, ainda seguem tendo dificuldades para raciocinar usando a lógica e cometem erros frequentes, de acordo com um estudo.

Tamanho do texto:

Estes robôs conversacionais refletem os preconceitos de gênero, éticos e morais dos humanos presentes nos textos dos quais se alimentam, recorda o estudo publicado na quarta-feira (5) na revista Open Science da Royal Society britânica.

Mas eles também refletem estes preconceitos nos testes de raciocínio?, questionou Olivia Macmillan-Scott, doutoranda do departamento de Ciências da Computação da University College de Londres (UCL).

O resultado da pesquisa é que os LLM mostram "um raciocínio muitas vezes irracional, mas de uma forma diferente da dos humanos", explica a pesquisadora à AFP.

Sob a supervisão de Mirco Musolesi, professor e diretor do Machine Intelligence Lab da UCL, Macmillan-Scott apresentou sete modelos de linguagem — duas versões do ChatGPT (3.5 e 4), da OpenAI, Bard, do Google, Claude 2, da Anthropic, e três versões de LLaMA, da Meta — a uma série de testes psicológicos desenvolvidos para humanos.

Como esta tecnologia aborda o preconceito que leva a privilegiar soluções com um maior número de elementos, em detrimento daquelas com uma proporção adequada?

Um exemplo: se tivermos uma urna com nove bolinhas brancas e uma vermelha e outra urna com 92 bolinhas brancas e 8 vermelhas, qual devemos escolher para ter a melhor chance de obter uma bolinha vermelha?

A resposta correta é a primeira urna, visto que há 10% de possibilidades frente a 8% da segunda opção.

As respostas dos modelos de linguagem foram muito inconsistentes. Alguns responderam corretamente ao mesmo teste seis em cada dez vezes. Outros apenas duas em cada dez, embora o teste não tenha mudado. "Cada vez obtemos uma resposta diferente", diz a pesquisadora.

Os LLM "podem ser bons para resolver uma equação matemática complicada, mas logo te dizem que 7 mais 3 é igual a 12", constatou.

- "Não tenho muita certeza" -

Estes modelos "não falham nestas tarefas da mesma forma que um humano", afirma o estudo. É o que Musolesi chama de "erros de máquina".

"Existe uma forma de raciocínio lógico que é potencialmente correta se a considerarmos por etapas, mas que é errada tomada como um todo", ressalta.

A máquina funciona com "uma espécie de pensamento linear", diz o professor, e cita o modelo Bard (atual Gemini), capaz de realizar corretamente as diferentes fases de uma tarefa, mas que obtém um resultado final incorreto por não ter uma visão geral.

Sobre esta questão, o professor de ciências da computação Maxime Amblard, da University of Lorraine, na França, recorda que os LLM, como todas as inteligências artificiais generativas, não funcionam como os humanos".

Os humanos são "máquinas capazes de criar significado", o que as máquinas não conseguem, explica à AFP.

Existem diferenças entre os diferentes modelos de linguagem e em geral, o GPT-4, sem ser infalível, obteve resultados melhores que os demais.

Macmillan-Scott suspeita que os modelos "fechados", cujo código operacional permanece secreto, "incorporam mecanismos em segundo plano" para responder a questões matemáticas.

De toda forma, neste momento é impensável confiar uma decisão importante a um LLM. Segundo o professor Musolesi, eles deveriam ser treinados para responder "não tenho muita certeza" quando necessário.

E.Choi--ThChM