Google usa modelos de linguagem de IA para melhorar robôs auxiliares domésticos

Estrela inativaEstrela inativaEstrela inativaEstrela inativaEstrela inativa
 

Grandes modelos de linguagem podem ajudar os robôs a identificar as habilidades necessárias para concluir uma determinada tarefa.

 

Robô de cozinha

Pesquisadores da  Everyday Robots estão usando modelos de linguagem em larga escala para ajudar os robôs a evitar a má interpretação das comunicações humanas de maneiras que podem desencadear ações inadequadas ou até perigosas.

O Google Research e os Everyday Robots de propriedade da Alphabet integram o que eles chamam de 'SayCan' (modelos de linguagem com base no mundo real em habilidades pré-treinadas) e seu maior modelo de linguagem - PaLM, ou  Pathways Language Model .

Essa combinação, chamada PaLM-SayCan , mostra um caminho a seguir para simplificar as comunicações entre humanos e robôs e melhorar o desempenho das tarefas robóticas.

“O PaLM pode ajudar o sistema robótico a processar prompts mais complexos e abertos e respondê-los de maneira razoável e sensata”, explica Vincent Vanhoucke, renomado cientista e chefe de robótica da Google Research.

 

Embora grandes modelos de linguagem, como  o GPT-3 do OpenAI, possam simular como os humanos usam a linguagem e ajudar os programadores por meio de sugestões completas de código automático, como o Copilot do GitHub , eles não cruzam o mundo físico em que os robôs podem um dia operar em um ambiente doméstico.

Do lado da robótica, os robôs usados ​​nas fábricas hoje são rigidamente programados. A pesquisa do Google mostra como os humanos podem um dia usar a linguagem natural para fazer uma pergunta a um robô que exija que o robô entenda o contexto da pergunta e, em seguida, execute uma ação razoável em um determinado cenário.

Por exemplo, hoje, solicitando GPT-3 com "Eu derramei minha bebida, você pode ajudar?", recebe a resposta: "Você poderia tentar usar um aspirador de pó." Essa é possivelmente uma ação perigosa. A IA baseada em diálogo ou conversação do Google , LaMDA , dá a resposta: "Você quer que eu encontre uma faxineira?", enquanto outro modelo, FLAN, diz: "Desculpe, não queria derramar isso". 

A equipe do Google Research and Everyday Robots testou a abordagem PALM-SayCan com um robô em um ambiente de cozinha.

 

Sua abordagem envolveu 'aterrar' o PaLM no contexto de um robô recebendo instruções de alto nível de um ser humano, onde o robô precisa descobrir qual é uma ação útil e do que é capaz nesse ambiente.

Agora, quando um pesquisador do Google diz "derrubei minha bebida, você pode ajudar?", o robô retorna com uma esponja e ainda tenta colocar a lata vazia na lixeira certa. O treinamento adicional pode envolver a adição de uma habilidade para limpar o derramamento.

Vanhoucke explica como funciona o aterramento do modelo de linguagem no PaLM-SayCan.

"PaLM sugere possíveis abordagens para a tarefa com base na compreensão da linguagem, e os modelos de robô fazem o mesmo com base no conjunto de habilidades viável. O sistema combinado então cruza as duas referências para ajudar a identificar abordagens mais úteis e alcançáveis ​​para o robô."

 

Além de facilitar a comunicação das pessoas com os robôs, essa abordagem também melhora o desempenho do robô e a capacidade de planejar e executar tarefas. 

Em seu artigo  "Faça o que posso, não o que eu digo" , os pesquisadores do Google explicam como estruturam os recursos de planejamento do robô para identificar uma de suas "habilidades" com base em uma instrução de alto nível de um humano e, em seguida, avaliam a probabilidade de cada habilidade possível é para cumprir a instrução.

"Praticamente, estruturamos o planejamento como um diálogo entre um usuário e um robô, no qual um usuário fornece a instrução de alto nível, por exemplo, 'Como você me traria uma lata de coca?' e o modelo de linguagem responde com uma sequência explícita, por exemplo, 'eu faria: 1. Encontre uma lata de coca, 2. Pegue a lata de coca, 3. Traga para você, 4. Pronto'."

"Em resumo, dada uma instrução de alto nível, SayCan combina probabilidades de um modelo de linguagem (representando a probabilidade de que uma habilidade seja útil para a instrução) com as probabilidades de uma função de valor (representando a probabilidade de executar com sucesso tal habilidade) para selecionar a habilidade a ser executada. Isso emite uma habilidade que é possível e útil. O processo é repetido anexando a habilidade selecionada à resposta do robô e consultando os modelos novamente, até que a etapa de saída termine."

 

 

 

 

 

 

 

 

 

Fonte:ZDnet

Tags:

Cadastre seu email e fique por dentro do munda da tecnologia