The China Mail - IA aprende a mentir, manipular e ameaçar seus criadores

USD -
AED 3.6725
AFN 66.000108
ALL 83.901353
AMD 382.570077
ANG 1.789982
AOA 916.999801
ARS 1450.724808
AUD 1.534696
AWG 1.8025
AZN 1.69797
BAM 1.701894
BBD 2.013462
BDT 121.860805
BGN 1.69918
BHD 0.377041
BIF 2951
BMD 1
BND 1.306514
BOB 6.907654
BRL 5.361505
BSD 0.999682
BTN 88.718716
BWP 13.495075
BYN 3.407518
BYR 19600
BZD 2.010599
CAD 1.409215
CDF 2221.000153
CHF 0.80857
CLF 0.024076
CLP 944.483424
CNY 7.126749
CNH 7.124445
COP 3834.5
CRC 501.842642
CUC 1
CUP 26.5
CVE 96.374996
CZK 21.140968
DJF 177.72029
DKK 6.479905
DOP 64.296439
DZD 130.854023
EGP 47.330044
ERN 15
ETB 153.125036
EUR 0.86811
FJD 2.2795
FKP 0.766404
GBP 0.764305
GEL 2.715031
GGP 0.766404
GHS 10.924986
GIP 0.766404
GMD 73.509182
GNF 8691.000271
GTQ 7.661048
GYD 209.152772
HKD 7.774705
HNL 26.35987
HRK 6.539017
HTG 130.911876
HUF 335.563972
IDR 16696.1
ILS 3.257715
IMP 0.766404
INR 88.621799
IQD 1310
IRR 42112.499493
ISK 127.610373
JEP 0.766404
JMD 160.956848
JOD 0.708971
JPY 153.642986
KES 129.19854
KGS 87.449835
KHR 4026.999604
KMF 428.000324
KPW 900.033283
KRW 1446.10203
KWD 0.30709
KYD 0.83313
KZT 525.140102
LAK 21712.50351
LBP 89550.000099
LKR 304.599802
LRD 182.625009
LSL 17.37969
LTL 2.95274
LVL 0.60489
LYD 5.454987
MAD 9.302002
MDL 17.135125
MGA 4499.99989
MKD 53.533982
MMK 2099.044592
MNT 3585.031206
MOP 8.006805
MRU 38.250003
MUR 46.000322
MVR 15.405
MWK 1735.999682
MXN 18.58065
MYR 4.1825
MZN 63.96023
NAD 17.379867
NGN 1441.160333
NIO 36.770147
NOK 10.174201
NPR 141.949154
NZD 1.765395
OMR 0.384511
PAB 0.999687
PEN 3.376498
PGK 4.215987
PHP 58.922004
PKR 280.849885
PLN 3.69217
PYG 7077.158694
QAR 3.640972
RON 4.413295
RSD 101.779005
RUB 81.353148
RWF 1450
SAR 3.750456
SBD 8.223823
SCR 13.740975
SDG 600.441137
SEK 9.53742
SGD 1.305045
SHP 0.750259
SLE 23.198831
SLL 20969.499529
SOS 571.503834
SRD 38.558031
STD 20697.981008
STN 21.45
SVC 8.747031
SYP 11056.895466
SZL 17.379605
THB 32.368036
TJS 9.257197
TMT 3.5
TND 2.959469
TOP 2.342104
TRY 42.11808
TTD 6.775354
TWD 30.903499
TZS 2459.806976
UAH 42.064759
UGX 3491.230589
UYU 39.758439
UZS 11987.500677
VES 227.27225
VND 26314.5
VUV 122.169446
WST 2.82328
XAF 570.814334
XAG 0.020505
XAU 0.000249
XCD 2.70255
XCG 1.801656
XDR 0.70875
XOF 570.495095
XPF 104.150276
YER 238.497322
ZAR 17.35745
ZMK 9001.197493
ZMW 22.392878
ZWL 321.999592
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: © AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

O.Yip--ThChM