Enquanto que o “treino” do AlphaGo passou pelo estudo dos movimentos de mais de 100 mil partidas de Go entre humanos, a versão Zero aprendeu a ganhar a sós com o tabuleiro e com as peças, sem qualquer interferência humana.
Isto foi possível graças à construção de um algoritmo de Machine Learning com as regras do jogo que, sustentado por uma rede neural baseada na aprendizagem por reforço, permite que a máquina aprenda sozinha ao jogar milhões de vezes consecutivas contra si mesma num ambiente virtual.
Se inicialmente, as jogadas da IA eram aleatórias, com cada vitória havia uma atualização do sistema e uma nova aprendizagem. Ao repetir deste esquema, o AlphaGo Zero começou a desenvolver as suas próprias estratégias.
E, bastaram apenas três dias para dominar um jogo de 3.000 anos e vencer a sua antecessora, AlphaGo. Em 100 partidas, a versão Zero conseguiu o pleno. Ao fim de 40 dias de treino, a taxa de vitórias da Zero sobre a AlphaGo era de 90%.
A explicação do desenvolvimento da nova versão do Alpha Go foi publicada na revista científica Nature e, para a equipa da DeepMind, “um objetivo antigo da inteligência artificial é um algoritmo que aprenda, tabula rasa, a ter uma proficiência sobrehumana em domínios complexos”, referem no artigo publicado. “Começando tabula rasa, o nosso novo programa, Alpha Go Zero, alcançou um desempenho sobrehumano.”
Os investigadores concluíram que "É possível treinar até um nível sobrehumano, sem exemplos ou orientação humana, e sem nenhum conhecimento para além das regras básicas.”
Comentários