IA aprende a mentir, manipular e ameaçar seus criadores

The China Mail - IA aprende a mentir, manipular e ameaçar seus criadores

Beijing 12°C

USD -

AED 3.6725

AFN 66.000108

ALL 83.901353

AMD 382.570077

ANG 1.789982

AOA 916.999801

ARS 1450.724808

AUD 1.534696

AWG 1.8025

AZN 1.69797

BAM 1.701894

BBD 2.013462

BDT 121.860805

BGN 1.69918

BHD 0.377041

BIF 2951

BMD 1

BND 1.306514

BOB 6.907654

BRL 5.361505

BSD 0.999682

BTN 88.718716

BWP 13.495075

BYN 3.407518

BYR 19600

BZD 2.010599

CAD 1.409215

CDF 2221.000153

CHF 0.80857

CLF 0.024076

CLP 944.483424

CNY 7.126749

CNH 7.124445

COP 3834.5

CRC 501.842642

CUC 1

CUP 26.5

CVE 96.374996

CZK 21.140968

DJF 177.72029

DKK 6.479905

DOP 64.296439

DZD 130.854023

EGP 47.330044

ERN 15

ETB 153.125036

EUR 0.86811

FJD 2.2795

FKP 0.766404

GBP 0.764305

GEL 2.715031

GGP 0.766404

GHS 10.924986

GIP 0.766404

GMD 73.509182

GNF 8691.000271

GTQ 7.661048

GYD 209.152772

HKD 7.774705

HNL 26.35987

HRK 6.539017

HTG 130.911876

HUF 335.563972

IDR 16696.1

ILS 3.257715

IMP 0.766404

INR 88.621799

IQD 1310

IRR 42112.499493

ISK 127.610373

JEP 0.766404

JMD 160.956848

JOD 0.708971

JPY 153.642986

KES 129.19854

KGS 87.449835

KHR 4026.999604

KMF 428.000324

KPW 900.033283

KRW 1446.10203

KWD 0.30709

KYD 0.83313

KZT 525.140102

LAK 21712.50351

LBP 89550.000099

LKR 304.599802

LRD 182.625009

LSL 17.37969

LTL 2.95274

LVL 0.60489

LYD 5.454987

MAD 9.302002

MDL 17.135125

MGA 4499.99989

MKD 53.533982

MMK 2099.044592

MNT 3585.031206

MOP 8.006805

MRU 38.250003

MUR 46.000322

MVR 15.405

MWK 1735.999682

MXN 18.58065

MYR 4.1825

MZN 63.96023

NAD 17.379867

NGN 1441.160333

NIO 36.770147

NOK 10.174201

NPR 141.949154

NZD 1.765395

OMR 0.384511

PAB 0.999687

PEN 3.376498

PGK 4.215987

PHP 58.922004

PKR 280.849885

PLN 3.69217

PYG 7077.158694

QAR 3.640972

RON 4.413295

RSD 101.779005

RUB 81.353148

RWF 1450

SAR 3.750456

SBD 8.223823

SCR 13.740975

SDG 600.441137

SEK 9.53742

SGD 1.305045

SHP 0.750259

SLE 23.198831

SLL 20969.499529

SOS 571.503834

SRD 38.558031

STD 20697.981008

STN 21.45

SVC 8.747031

SYP 11056.895466

SZL 17.379605

THB 32.368036

TJS 9.257197

TMT 3.5

TND 2.959469

TOP 2.342104

TRY 42.11808

TTD 6.775354

TWD 30.903499

TZS 2459.806976

UAH 42.064759

UGX 3491.230589

UYU 39.758439

UZS 11987.500677

VES 227.27225

VND 26314.5

VUV 122.169446

WST 2.82328

XAF 570.814334

XAG 0.020505

XAU 0.000249

XCD 2.70255

XCG 1.801656

XDR 0.70875

XOF 570.495095

XPF 104.150276

YER 238.497322

ZAR 17.35745

ZMK 9001.197493

ZMW 22.392878

ZWL 321.999592

IA aprende a mentir, manipular e ameaçar seus criadores

TECNOLOGIA 29.06.2025

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

O.Yip--ThChM

The China Mail - IA aprende a mentir, manipular e ameaçar seus criadores

IA aprende a mentir, manipular e ameaçar seus criadores

Apresentou

'Somos ricos demais', diz o famoso fotógrafo Martin Parr

O futuro dos caças autônomos chega a Roma

Alemanha vai construir 'fábrica de IA' para reduzir dependência de China e EUA

OpenAI fecha contrato bilionário com Amazon em corrida pela IA