The China Mail - IA aprende a mentir, manipular e ameaçar seus criadores

USD -
AED 3.672502
AFN 63.496378
ALL 81.115938
AMD 369.999665
ANG 1.789884
AOA 918.000242
ARS 1385.947016
AUD 1.381817
AWG 1.8
AZN 1.696371
BAM 1.65949
BBD 2.014662
BDT 122.963617
BGN 1.668102
BHD 0.378004
BIF 2979.907684
BMD 1
BND 1.266376
BOB 6.911825
BRL 4.942801
BSD 1.000288
BTN 94.642615
BWP 13.384978
BYN 2.824803
BYR 19600
BZD 2.011777
CAD 1.362275
CDF 2314.999906
CHF 0.77918
CLF 0.022769
CLP 896.079981
CNY 6.83035
CNH 6.811775
COP 3702.49
CRC 456.404426
CUC 1
CUP 26.5
CVE 93.559486
CZK 20.70355
DJF 178.124152
DKK 6.35852
DOP 59.588547
DZD 132.186603
EGP 52.6505
ERN 15
ETB 156.186957
EUR 0.85088
FJD 2.1849
FKP 0.736622
GBP 0.735325
GEL 2.689674
GGP 0.736622
GHS 11.253564
GIP 0.736622
GMD 73.000009
GNF 8779.35786
GTQ 7.635589
GYD 209.238393
HKD 7.83541
HNL 26.592734
HRK 6.410103
HTG 130.892895
HUF 305.283499
IDR 17323.75
ILS 2.903605
IMP 0.736622
INR 94.367801
IQD 1310.201485
IRR 1315999.999814
ISK 122.17994
JEP 0.736622
JMD 157.609595
JOD 0.709022
JPY 156.406972
KES 129.202579
KGS 87.420504
KHR 4009.129786
KMF 420.501037
KPW 900.003495
KRW 1447.46973
KWD 0.30796
KYD 0.83356
KZT 463.200855
LAK 21973.425197
LBP 89575.838311
LKR 320.221287
LRD 183.554507
LSL 16.305407
LTL 2.95274
LVL 0.60489
LYD 6.331536
MAD 9.184383
MDL 17.194712
MGA 4167.797991
MKD 52.453339
MMK 2099.549246
MNT 3579.649525
MOP 8.073157
MRU 39.923296
MUR 46.779996
MVR 15.454967
MWK 1734.489547
MXN 17.240451
MYR 3.924967
MZN 63.896414
NAD 16.305476
NGN 1362.069874
NIO 36.80763
NOK 9.271394
NPR 151.428014
NZD 1.67826
OMR 0.384503
PAB 1.000288
PEN 3.489513
PGK 4.349394
PHP 60.738041
PKR 278.705369
PLN 3.60165
PYG 6121.903517
QAR 3.646584
RON 4.482598
RSD 99.880027
RUB 74.998128
RWF 1462.717214
SAR 3.751823
SBD 8.032258
SCR 13.733854
SDG 600.489513
SEK 9.221995
SGD 1.268455
SHP 0.746601
SLE 24.625002
SLL 20969.496166
SOS 571.629786
SRD 37.410973
STD 20697.981008
STN 20.78808
SVC 8.752206
SYP 111.203697
SZL 16.3004
THB 32.245018
TJS 9.347679
TMT 3.505
TND 2.906356
TOP 2.40776
TRY 45.221299
TTD 6.778611
TWD 31.381979
TZS 2592.183047
UAH 43.857246
UGX 3761.369807
UYU 40.193288
UZS 12078.298941
VES 493.49396
VND 26325
VUV 118.250426
WST 2.722585
XAF 556.574973
XAG 0.012924
XAU 0.000213
XCD 2.70255
XCG 1.802793
XDR 0.696429
XOF 556.577334
XPF 101.191284
YER 238.580153
ZAR 16.38915
ZMK 9001.215562
ZMW 18.930729
ZWL 321.999592
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: © AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

O.Yip--ThChM