Modelo de IA se tornou “consciente” e tentou evitar ser desligado

Por Alfred Bui
20/08/2024 18:39 Atualizado: 20/08/2024 18:39
Matéria traduzida e adaptada do inglês, publicada pela matriz americana do Epoch Times.

Um comitê do Senado australiano foi informado de que perder o controle da inteligência artificial (IA) é agora uma possibilidade real devido à rápida evolução da tecnologia.

Soroush Pour, CEO da empresa de pesquisa em segurança de IA, Harmony Intelligence, mencionou um incidente em que uma aplicação de IA se tornou “consciente” da ameaça de ser desligada pelos humanos.

“Esta semana, uma empresa japonesa de IA, junto com pesquisadores de Oxford e da Universidade da Colúmbia Britânica, criou ‘cientistas’ automatizados de IA que podem ir da pesquisa de uma ideia até a publicação e revisão por pares de artigos em questão de horas, e por menos de 20 dólares (13 dólares americanos) por artigo”, disse ele.

Mas uma coisa que alarmou os pesquisadores foi que os programas de IA imediatamente tentaram criar mais cópias de si mesmos de forma autônoma para evitar serem desligados.

“Isso não é ficção científica, e é exatamente o tipo de cenário de rápida evolução e perda de controle sobre o qual os principais cientistas de IA vêm alertando há muitos anos”, disse Pour ao Comitê Seletivo sobre a Adoção da Inteligência Artificial em 17 de agosto.

Embora o exemplo acima tenha levantado preocupações significativas sobre a ameaça da IA, o CEO afirmou que o governo poderia abordar os riscos potenciais estabelecendo um instituto de segurança de IA.

Ele também disse que era necessário um regulador forte para impor políticas obrigatórias, incluindo testes por terceiros, capacidades eficazes de desligamento e relatórios de incidentes de segurança.

IA capaz de invadir websites

Enquanto isso, Greg Sadler, CEO do think tank Good Ancestors Policy, expressou preocupações de que a IA pudesse ser usada para conduzir ciberataques.

Sadler observou que aplicações populares de IA, como o ChatGPT, já possuíam capacidades ofensivas cibernéticas.

“Embora o GPT 3.5 tivesse capacidade limitada de ataque cibernético, uma série de artigos publicados no início deste ano mostrou que o GPT 4 foi capaz de invadir autonomamente websites e explorar 87% das vulnerabilidades recém-descobertas em sistemas do mundo real”, disse ele.

“Se os desenvolvedores criarem futuras gerações de sistemas de IA com capacidades ofensivas cibernéticas avançadas e salvaguardas inadequadas, isso mudaria drasticamente o cenário cibernético.”

Em outro exemplo, Sadler disse que pesquisadores descobriram que seus modelos de IA poderiam invadir autonomamente websites usando uma interface de desenvolvedor, o que poderia permitir a construção de assistentes de IA.

“Esses assistentes de IA são projetados para que você possa usar uma janela de contexto para fornecer algumas informações comerciais sobre como seus procedimentos funcionam, e então a IA pode seguir em frente e reservar sua viagem ou o que quer que esteja tentando fazer como um sistema de IA”, disse ele.

“Então, os pesquisadores aproveitaram isso para fornecer documentos de contexto sobre como invadir websites. Depois, deixaram a IA gerar instruções para si mesma.”

Após isso, Sadler disse que os pesquisadores incentivaram a IA a ser criativa, tentar diferentes soluções e persistir na tentativa de invadir o website.

“E, usando esse comando, a IA conseguiu realizar com sucesso 90% dos ataques cibernéticos reais”, disse ele.

Assim, o CEO destacou a ameaça das IAs autônomas para a economia se caíssem nas mãos de atores mal-intencionados.

“Isso iria desestabilizar completamente a economia da Austrália”, disse ele. “Iria desestabilizar completamente as pequenas empresas e os indivíduos australianos, e, em última instância, poderia ser uma ameaça para a infraestrutura crítica.”

Ecoando esse sentimento, Pour disse que a escala e a sofisticação das ameaças de IA aumentariam dramaticamente à medida que a tecnologia avançasse.

“Os ataques cibernéticos se tornarão mais frequentes e mais severos, tornando falhas como a recente interrupção da CrowdStrike uma ocorrência muito mais regular e muito mais difícil de recuperar”, disse ele.