quarta-feira, 21 de outubro de 2015

Teoria dos jogos questiona cooperação

Por Emily Singer e Quanta Magazine


Quando o manuscrito passou por sua mesa, Joshua Plotkin, um biólogo teórico da University of Pennsylvania ficou imediatamente intrigado.

O físico Freeman Dyson e o cientista da computação William Press, dois profissionais muito bem sucedidos em seus campos, tinham encontrado uma nova solução para um famoso cenário da teoria dos jogos, de décadas de idade, chamado o dilema do prisioneiro, em que os jogadores têm de decidir se trapacearão ou cooperarão com um parceiro.

O dilema do prisioneiro vem sendo usado há tempos para ajudar a explicar como cooperação pode persistir na natureza. Afinal, a seleção natural é regida pela sobrevivência dos mais aptos. Diante disso, seria de se esperar que estratégias egoístas, que beneficiam apenas um indivíduo, teriam mais chances de perdurar.

No entanto, um minucioso estudo do dilema do prisioneiro revelou que organismos poderiam agir inteiramente em seu próprio interesse e ainda assim criar uma comunidade colaborativa. 

A nova solução de Press e Dyson para o problema colocou em dúvida essa perspectiva promissora ao sugerir que as melhores estratégias são egoístas e levam à extorsão, não à cooperação.

Plotkin considerou a matemática da dupla notável em sua elegância. Mas seu resultado o deixou perturbado.

A Natureza inclui muitos exemplos de comportamentos cooperativos.

Morcegos hematófagos, por exemplo, doam um pouco de sua refeição sanguinolenta a membros da comunidade que não conseguem encontrar presas. Algumas espécies de aves e insetos sociais rotineiramente ajudam a criar ninhadas alheias. E até bactérias cooperam ao se aglutinarem para que algumas possam sobreviver a “venenos”.

Se na Natureza reina extorsão, o que impulsiona esses e outros atos de altruísmo?

O artigo de Press e Dyson analisou um clássico cenário da teoria dos jogos — dois jogadores envolvidos em confrontos reiterados.

Plotkin queria saber se a generosidade poderia ser reavivada se o mesmo cálculo fosse aplicado a uma situação que se assemelhasse mais à Natureza.

Para isso, ele reproduziu a abordagem dos cientistas em uma população animal, permitindo que indivíduos de um grupo jogassem uma série de jogos com todos os outros membros da comunidade.

O resultado de seus experimentos, o mais recente dos quais foi divulgado em dezembro no periódico da Proceedings of the National Academy of Sciences, sugere que generosidade e egoísmo se equilibram em uma linha muito tênue e precária. 

Em alguns casos, a cooperação triunfa. Mas mude uma única variável e a extorsão predominará novamente.

“Agora temos uma explicação muito generalizada para quando se pode esperar uma evolução, ou não, da cooperação em populações”, alegra-se Plotkin, que conduziu a pesquisa com seu colega Alexander Stewart.

A essa altura, o trabalho ainda é inteiramente teórico, mas os resultados poderiam ter, potencialmente, implicações bastante abrangentes, explicando fenômenos que vão desde cooperação entre organismos complexos até a evolução da pluricelularidade, uma forma de colaboração entre células individuais.

Plotkin e outros acreditam que o trabalho de Press e Dyson poderia fornecer uma nova estrutura básica para estudar a evolução da cooperação por meio da teoria dos jogos, permitindo que pesquisadores desvendem os parâmetros que permitem sua existência.

“O trabalho basicamente reativou esse campo”, opinou Martin Nowak, um biólogo e matemático na Harvard University.

Tit for tat

Macacos-vervet (Chlorocebus pygerythrus) são conhecidos por seus gritos de alerta. Um animal gritará para alertar seus vizinhos quando houver um predador por perto. Mas ao fazer isso, ele chama uma perigosa atenção sobre si mesmo.

Desde a época de Darwin, cientistas têm lutado para explicar como esse tipo de comportamento altruísta evoluiu. Se uma porcentagem suficientemente alta de macacos alarmistas fosse abatida por predadores, seria de se esperar que a seleção natural extinguisse os alardeadores no pool genético.

Mas isso não acontece e as especulações sobre o porquê disso resultaram em décadas de debates (às vezes acalorados).

Pesquisadores propuseram diversos mecanismos possíveis para explicar cooperação.

A seleção de parentesco sugere que, em última análise, ajudar membros da família ajuda o indivíduo. Já a seleção de grupo propõe que grupos cooperativos podem ser mais propensos a sobreviver que os que não colaboram. E a reciprocidade direta postula que indivíduos se beneficiam por ajudar outros que os tenham ajudado no passado.

O dilema do prisioneiro ajuda pesquisadores a entender estratégias simples, como colaborar com membros generosos da comunidade e enganar os trapaceiros, que podem criar uma sociedade cooperativa nas condições certas.

Descrito inicialmente na década de 50, o clássico dilema do prisioneiro envolve dois criminosos que são presos e colocados em salas separadas. A cada um é dada uma opção: confessar ou calar. Na melhor hipótese, os dois não dizem nada e são libertados.

Mas como nenhum deles sabe o que o outro fará, ficar em silêncio é arriscado. Se um caguetar e o outro ficar quieto, o delator recebe uma sentença mais leve, enquanto o parceiro silencioso sofre.
]

Mesmo organismos simples, como microrganismos, se envolvem nesses tipos de “jogos”.

Alguns microrganismos marinhos produzem moléculas que os ajudam a captar ferro, um nutriente vital. Colônias microbianas frequentemente têm indivíduos produtores e trapaceiros, microrganismos que não produzem o composto por si só, mas exploram as moléculas de seus vizinhos.

Em uma única instância do dilema do prisioneiro, a melhor estratégia é desertar — delate seu parceiro e terá uma condenação mais branda.

Mas se o jogo se repetir constantemente, a melhor estratégia muda.

Em um único encontro, um macaco vervet que avista um predador está mais seguro se calar a boca. Mas ao longo de toda uma vida, ele tem mais chances de sobreviver se alertar seus vizinhos de um perigo iminente e eles fizerem o mesmo.

“Cada participante (ou ‘jogador’) tem o incentivo de desertar, mas de modo geral eles se sairão melhor se cooperarem”, explicou Plotkin. “É um clássico problema de como cooperação pode nascer”.

Na década de 70, Robert Axelrod, um cientista político na University of Michigan, lançou um torneio do tipo “todos contra todos” aplicando estratégias diferentes uns contra os outros. 

Para surpresa de muitos concorrentes, a abordagem mais simples ganhou.

Simplesmente imitar a jogada anterior do outro jogador, uma estratégia chamada “tit for tat”, (ou “toma lá, dá cá”, em tradução literal), triunfou sobre programas muito mais sofisticados.

Estratégias desse tipo podem ser encontradas em todo o mundo biológico.

Duplas de peixes-espinho (da família Gasterosteidae), por exemplo, procuram predadores próximos em uma espécie de dueto “toma lá, cá”. Se um deles faz o movimento ousado de disparar à frente, o outro retribui com um ato similar de bravura. Se um fica para trás, na esperança de deixar seu parceiro assumir o risco, o companheiro também se contém. 

Nos últimos 30 anos, cientistas exploraram versões evolutivamente mais realistas do dilema do prisioneiro que a versão simples de Axelrod.

Jogadores em um grande torneio do tipo “todos contra todos” começam com um conjunto variado de estratégias, entenda isso como sua aptidão geneticamente determinada.

Para imitar a sobrevivência do mais apto, o vencedor de cada interação gera mais descendentes; e estes herdam a mesma estratégia dos pais. Desse modo, as táticas mais bem sucedidas ganham popularidade com o tempo.

A abordagem vencedora depende de uma variedade de fatores, inclusive do tamanho do grupo, que estratégias estão presentes no início, e com que frequência jogadores cometem erros.

De fato, acrescer ruído ao jogo, uma mudança estratégica randômica que funciona como um substituto para mutação genética, acaba com o domínio da reciprocidade (do “toma lá, dá cá”).

Nessas circunstâncias, uma variante conhecida como “tit for tat generoso”, que envolve perdoar ocasionalmente a traição de outro, triunfa.

A sensação geral dessas simulações é otimista: bondade recompensa.

“As estratégias mais bem-sucedidas muitas vezes tendem a ser aquelas que não tentam se aproveitar de outra pessoa”, concluiu Nowak.

Mas eis que Press e Dyson entram com uma sombria dose de desespero.

Eles delinearam uma abordagem, apelidada de extorsão, em que um jogador poderia vencer sempre ao optar pela deserção de acordo com um conjunto prescrito de probabilidades.

A estratégia deles é notável por permitir que um jogador controle o resultado do jogo.

“A principal inovação é calcular quantas vezes você pode desertar sem desmotivar seu parceiro completamente”, explicou Christian Hilbe, um pesquisador no grupo de Nowak em Harvard.

Além disso, o jogador vitorioso só precisa se lembrar de uma jogada anterior, mas a estratégia funciona tão bem como as que incorporam muitas rodadas prévias do jogo.

O segundo jogador é forçado a cooperar com o extorsionário porque essa é a opção que oferece o melhor retorno.

“Se eu sou um chantagista, de vez em quando desertarei mesmo que tenhamos colaborado, em proporção precisamente suficiente para que, independente do que você faz, terei uma recompensa, ou retorno maior que você”, exemplificou Plotkin.

A situação é uma reminiscência de um trabalho em grupo no ensino médio. Se um membro da equipe deixa de se esforçar, os outros alunos, mais conscienciosos, não têm escolha senão trabalhar com maior empenho para tirar uma boa nota.

O artigo original de Press e Dyson se passou em um contexto da teoria dos jogos clássica: uma série de interações entre um único par de jogadores.

Mas Plotkin e Stewart queriam saber o que aconteceria se eles aplicassem a mesma abordagem matemática em um grupo em evolução, como macacos-vervet ou morcegos hematófagos, que se reproduzem e sobrevivem com base em sua aptidão individual. 

Eles exploraram a classe mais ampla de estratégias bem-sucedidas, chamada estratégias do determinante zero, que Press e Dyson haviam identificado.

Essa classe inclui o oposto moral de extorsão: generosidade.

Em geral, um jogador que emprega uma estratégia generosa sempre cooperará quando seu oponente fizer o mesmo. Se o adversário desertar, o primeiro jogador continuará cooperando com certa probabilidade, em uma tentativa de persuadir o adversário de volta à generosidade.

Para alívio de Plotkin e Stewart, estratégias generosas — e não as extorsivas — foram as mais bem-sucedidas quando aplicadas a populações em evolução.

“Encontramos um panorama bem mais otimista”, observou Plotkin, que publicou os resultados em 2013 no periódico científico Proceedings of the National Academy of Sciences. “As estratégias mais robustas, as que não podem ser substituídas por outras, são generosas”, resumiu.

A intuição básica é simples.

“Extorsão funciona bem com um adversário”, analisou Plotkin. “Mas em uma população grande, um extorsionário acabará se juntando a outro”. E depois os dois desertarão, obtendo um retorno pior.

“Plotkin aprimorou nosso modelo ao virá-lo de cabeça para baixo”, comentou Dyson. “Se você quiser que alguém colabore com você, é melhor subornar a pessoa com benefícios de curto alcance que puni-la imediatamente”.

Hilbe confirmou essas conclusões em um cenário do mundo real, lançando jogadores humanos contra computadores “generosos” ou “extorsivos”.

Como previsto, as pessoas ganharam prêmios maiores quando jogavam contra computadores generosos que contra máquinas “egoístas”. No entanto, as pessoas também tendiam a punir adversários chantagistas, recusando-se a cooperar mesmo quando isso seria de seu melhor interesse. Isso, por sua vez, reduziu a recompensa tanto do jogador humano como do computador. No fim das contasl, o computador generoso teve uma recompensa maior que o chantagista.

A vingança do extorsionário

Em vista desses resultados, Plotkin esperava que chantagistas poderiam ser controlados. Mas esse otimismo foi efêmero.

Após seu estudo de 2013, Plotkin mudou as recompensas serem ganhas por cooperar ou desertar.

Os jogadores transmitiram tanto sua estratégia como as recompensas estratégicas aos seus descendentes, sendo que ambas podem sofrer mutações randômicas.

Com essa reviravolta no sistema, que pode corresponder a uma mudança em condições ambientais, o resultado voltou novamente para o lado sombrio.

Generosidade não era mais a solução preferida.

“À medida que mutações que aumentam a tentação de desertar são disseminadas pelo grupo, a população atinge um ponto de inflexão”, esclareceu Plotkin. “A tentação de desertar é incontrolável e deserção rege a conduta”.

De acordo com o cientista, o resultado foi inesperado.

“Isso é surpreendente, porque ele está dentro da mesma estrutura, ou seja, a teoria do jogo, que pessoas têm usado para explicar cooperação”, argumenta. “Eu julgava que mesmo se você permitisse e evolução do jogo, cooperação ainda prevaleceria."

O ponto a ser lembrado é que pequenos ajustes nas condições podem ter um grande efeito em o que triunfa: cooperação ou extorsão.

“É bem interessante observar que isso leva a resultados qualitativamente diferentes”, observou Jeff Gore, um biofísico no Massachusetts Institute of Technology (MIT), que não esteve envolvido no estudo. “Dependendo das restrições, você pode evoluir tipos qualitativamente diferentes de jogos”.

Chris Adami, um biólogo computacional na Michigan State University, sustenta que não existe uma coisa como uma estratégia ideal; o vencedor depende das condições.

De fato, é improvável que o estudo de Plotkin seja o fim da história.

“Tenho certeza de que haverá pessoas que examinarão como o resultado depende das suposições”, salientou Hilbe. “Talvez a cooperação possa ser resgatada de alguma forma”.

O futuro do prisioneiro

Obviamente, o dilema do prisioneiro é uma versão altamente simplificada de interações reais.

Então, a pergunta é: qual a utilidade de um modelo é bom para estudar a evolução da cooperação?

Dyson não está otimista. Ele aprecia os estudos de Plotkin e Hilbe, mas principalmente porque eles envolvem cálculos matemáticos interessantes. “Como uma descrição de mundos possíveis [eles] certamente são muito interessantes, mas para mim isso não parece ser como o mundo da biologia”, objetou.

Para Ethan Akin, um matemático que explorou estratégias similares às de Press e Dyson, os resultados são mais aplicáveis a tomadas de decisão sociológicas que à evolução da cooperação.

Alguns biólogos experimentais discordam e sustentam que tanto o dilema do prisioneiro quanto a teoria dos jogos mais abrangente tiveram um profundo efeito em seus campos. “Considero que a contribuição da teoria dos jogos para a cooperação microbiana é enorme”, observou Will Ratcliff, um biólogo evolutivo no Georgia Institute of Technology.

Cientistas que estudam resistência a antibióticos, por exemplo, estão usando um cenário da teoria dos jogos chamado snowdrift game (em tradução literal, o jogo da nevasca, ou acúmulo de neve), em que um jogador sempre se beneficia ao cooperar.

(Se você está preso em seu prédio após uma nevasca, você se beneficia se desimpedir com a pá a entrada de automóveis, mas o mesmo se aplica a todo mundo que mora ali e que não colabora com o esforço).

Algumas bactérias podem produzir e secretar uma enzima capaz de neutralizar antibióticos. É custoso produzi-la e bactérias preguiçosas, que não fazem isso, podem se beneficiar ao usar enzimas produzidas por seus vizinhos mais diligentes.

Em um cenário estritamente de dilema do prisioneiro, os preguiçosos acabariam matando os produtores, prejudicando toda a população. Mas no jogo da nevasca, os produtores têm maior acesso à enzima, melhorando assim a sua aptidão, e os dois tipos de bactérias podem coexistir.

No laboratório, microrganismos podem imitar cenários da teoria dos jogos, mas se esses ambientes controlados refletem acuradamente o que acontece na natureza é outra história.

“Estabelecemos a dinâmica do jogo ao presumir certo tipo de ecologia”, explicou Ratcliff. Mas esses parâmetros podem não espelhar o habitat normal do microrganismo.

“Para mostrar que as dinâmicas de um experimento estão em conformidade com o dilema do prisioneiro ou outros jogos não significa necessariamente que esses mecanismos os impulsionam na natureza”, salientou Ratcliff.


ESTRATÉGIAS DE SOBREVIVÊNCIA
Como a teoria dos jogos reconcilia evolução e cooperação



No dilema iterado do prisioneiro, dois jogadores competem um contra o outro em uma série de rodadas. Isso permite que os pesquisadores determinem qual estratégia é mais bem-sucedida em longo prazo. Abaixo, o jogador coluna da esquerda emprega uma estratégia generosa, tentando seduzir seu oponente a ajudar ao ajudar ocasionalmente mesmo quando o oponente deserta.

O jogador egoísta, à direita, tende a desertar, ajudando apenas com frequência suficiente para impedir seu adversário de uma deserção permanente.

Cada rodada é pontuada utilizando uma matriz como a do exemplo de morcegos acima.

Em uma partida “pau-a-pau”, a estratégia egoísta derrota a generosa. No entanto, as mesmas estratégias têm resultados diferentes quando aplicadas a um cenário evolutivamente mais realista.
No vídeo, uma população de jogadores se envolve em uma série de encontros frontais muito parecidas com um torneio “todos contra todos”.

O jogador que “ganha” cada encontro gera mais descendentes que empregam estratégias similares.

Aqui, um único jogador que emprega uma estratégia generosa tenderá a propagar sua tática pela população:

Em última análise, toda a população se converte de estratégias egoístas para generosas.

Biólogos usam modelos como este para explicar como o comportamento cooperativo persiste em estado selvagem.

Reproduzido com permissão de Quanta Magazine, uma divisão editorialmente independente da SimonsFoundation.org, cuja missão é melhorar a compreensão pública da ciência ao cobrir desenvolvimentos de pesquisa e tendências em matemática e ciências físicas e da vida.


Nenhum comentário:

Postar um comentário