The China Mail - IA aprende a mentir, manipular e ameaçar seus criadores

USD -
AED 3.672992
AFN 69.489986
ALL 84.291688
AMD 383.839605
ANG 1.789699
AOA 916.999967
ARS 1319.896786
AUD 1.54696
AWG 1.8025
AZN 1.703586
BAM 1.695528
BBD 2.019931
BDT 122.652264
BGN 1.702503
BHD 0.376963
BIF 2942.5
BMD 1
BND 1.289721
BOB 6.912904
BRL 5.607501
BSD 1.000429
BTN 87.444679
BWP 13.523249
BYN 3.273935
BYR 19600
BZD 2.009545
CAD 1.380165
CDF 2889.999809
CHF 0.809365
CLF 0.024626
CLP 965.903248
CNY 7.176898
CNH 7.203695
COP 4180.22
CRC 505.767255
CUC 1
CUP 26.5
CVE 95.950068
CZK 21.408976
DJF 177.720257
DKK 6.494535
DOP 61.000234
DZD 130.665077
EGP 48.688802
ERN 15
ETB 138.195699
EUR 0.870199
FJD 2.26455
FKP 0.749719
GBP 0.75184
GEL 2.683085
GGP 0.749719
GHS 10.501353
GIP 0.749719
GMD 72.000309
GNF 8655.999991
GTQ 7.675736
GYD 209.303031
HKD 7.84994
HNL 26.350282
HRK 6.563398
HTG 131.278148
HUF 348.138498
IDR 16447.4
ILS 3.370915
IMP 0.749719
INR 87.524998
IQD 1310
IRR 42112.496152
ISK 123.77952
JEP 0.749719
JMD 160.078717
JOD 0.709016
JPY 148.737499
KES 129.502337
KGS 87.449649
KHR 4015.000089
KMF 426.481732
KPW 899.916557
KRW 1389.709963
KWD 0.305703
KYD 0.833727
KZT 543.834174
LAK 21574.999791
LBP 89550.000023
LKR 302.24403
LRD 200.999765
LSL 17.890173
LTL 2.95274
LVL 0.60489
LYD 5.414999
MAD 9.089499
MDL 17.067261
MGA 4430.000077
MKD 53.368936
MMK 2098.902778
MNT 3590.484358
MOP 8.089174
MRU 39.820637
MUR 46.119586
MVR 15.401776
MWK 1736.499952
MXN 18.77485
MYR 4.240579
MZN 63.959915
NAD 17.889939
NGN 1531.000199
NIO 36.750139
NOK 10.251295
NPR 139.9101
NZD 1.687835
OMR 0.384529
PAB 1.000438
PEN 3.552498
PGK 4.152023
PHP 57.854002
PKR 283.249583
PLN 3.71645
PYG 7492.815376
QAR 3.64075
RON 4.416704
RSD 102.004735
RUB 81.252889
RWF 1440
SAR 3.75154
SBD 8.244163
SCR 14.472936
SDG 600.502571
SEK 9.71061
SGD 1.292885
SHP 0.785843
SLE 23.000277
SLL 20969.503947
SOS 571.50088
SRD 36.670024
STD 20697.981008
STN 21.45
SVC 8.753321
SYP 13001.94935
SZL 17.889582
THB 32.651497
TJS 9.563891
TMT 3.51
TND 2.894989
TOP 2.342098
TRY 40.582505
TTD 6.788933
TWD 29.70101
TZS 2570.000105
UAH 41.765937
UGX 3586.538128
UYU 40.034504
UZS 12600.000148
VES 122.68725
VND 26202.5
VUV 119.475888
WST 2.757115
XAF 568.669132
XAG 0.026577
XAU 0.000303
XCD 2.70255
XCG 1.80294
XDR 0.69341
XOF 568.664202
XPF 103.850093
YER 240.649912
ZAR 17.932005
ZMK 9001.198585
ZMW 22.984061
ZWL 321.999592
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: © AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

O.Yip--ThChM