The China Mail - IA aprende a mentir, manipular e ameaçar seus criadores

USD -
AED 3.673042
AFN 63.503991
ALL 82.403989
AMD 368.150403
ANG 1.790403
AOA 918.000367
ARS 1465.449815
AUD 1.42575
AWG 1.8025
AZN 1.70397
BAM 1.705709
BBD 2.013483
BDT 122.708482
BGN 1.69088
BHD 0.37702
BIF 2985
BMD 1
BND 1.290663
BOB 6.90816
BRL 5.152304
BSD 0.999721
BTN 94.239742
BWP 13.585663
BYN 2.777729
BYR 19600
BZD 2.010527
CAD 1.415225
CDF 2280.000362
CHF 0.807055
CLF 0.02293
CLP 902.460396
CNY 6.769604
CNH 6.783725
COP 3452.68
CRC 453.506829
CUC 1
CUP 26.5
CVE 96.403894
CZK 21.091104
DJF 177.720393
DKK 6.516504
DOP 58.403884
DZD 133.34504
EGP 49.986489
ERN 15
ETB 158.37504
EUR 0.871881
FJD 2.235504
FKP 0.756415
GBP 0.755512
GEL 2.650391
GGP 0.756415
GHS 11.22504
GIP 0.756415
GMD 73.503851
GNF 8775.000355
GTQ 7.625892
GYD 209.119888
HKD 7.83685
HNL 26.68504
HRK 6.568104
HTG 130.583803
HUF 306.820388
IDR 17826.3
ILS 2.95976
IMP 0.756415
INR 94.330504
IQD 1310
IRR 1375000.000352
ISK 125.530386
JEP 0.756415
JMD 157.959917
JOD 0.70904
JPY 161.30504
KES 129.403801
KGS 87.450384
KHR 4010.00035
KMF 429.503794
KPW 900.00035
KRW 1527.650383
KWD 0.30793
KYD 0.833035
KZT 487.855928
LAK 22055.000349
LBP 89550.000349
LKR 333.641485
LRD 182.150382
LSL 16.405039
LTL 2.95274
LVL 0.60489
LYD 6.375039
MAD 9.225039
MDL 17.654036
MGA 4200.000347
MKD 53.732839
MMK 2099.727916
MNT 3581.295381
MOP 8.070939
MRU 40.060379
MUR 47.850378
MVR 15.450378
MWK 1737.000345
MXN 17.326504
MYR 4.137904
MZN 63.910377
NAD 16.403727
NGN 1360.440377
NIO 36.610377
NOK 9.680204
NPR 150.787532
NZD 1.741735
OMR 0.384983
PAB 0.999725
PEN 3.384039
PGK 4.38775
PHP 60.716504
PKR 278.325038
PLN 3.71375
PYG 6138.96617
QAR 3.640504
RON 4.568104
RSD 102.170373
RUB 73.103247
RWF 1464
SAR 3.74824
SBD 8.061424
SCR 13.683262
SDG 600.503676
SEK 9.57882
SGD 1.292404
SHP 0.746601
SLE 24.750371
SLL 20969.503664
SOS 571.503662
SRD 37.402504
STD 20697.981008
STN 21.4
SVC 8.747449
SYP 110.532098
SZL 16.403649
THB 32.890369
TJS 9.272075
TMT 3.5
TND 2.91175
TOP 2.40776
TRY 46.438204
TTD 6.779085
TWD 31.715038
TZS 2630.985038
UAH 44.909735
UGX 3638.520172
UYU 39.96965
UZS 12005.000334
VES 606.63266
VND 26310
VUV 118.773512
WST 2.751708
XAF 572.078806
XAG 0.015419
XAU 0.00024
XCD 2.70255
XCG 1.801643
XDR 0.703697
XOF 565.000332
XPF 104.250363
YER 238.603589
ZAR 16.458037
ZMK 9001.203584
ZMW 17.919703
ZWL 321.999592
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: © AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

O.Yip--ThChM