Como lançar um programa de aprendizagem federado

Este é o segundo artigo de uma série de duas partes sobre aprendizagem federada (FL). Parte 1 – Como saber se a aprendizagem federada deve fazer parte de sua estratégia de dados – ajudará você a decidir se o aprendizado federado é adequado para um caso de uso que você tem em mente. Este artigo descreve as etapas envolvidas na adaptação do aprendizado federado à sua organização.

1. Comece com um caso de teste

A primeira etapa no processo de adoção do FL é realizar um teste em pequena escala em uma única máquina para determinar se seus dados são adequados para aprendizagem federada. Este teste também ajudará a estabelecer um caso de negócio inicial, demonstrando (ou não) que o modelo criado pelo aprendizado federado é preciso o suficiente para o seu problema.

Para conduzir o teste, você precisa coletar uma amostra relativamente pequena de dados que seja representativa da distribuição de dados em seus silos de dados, dividi-los da mesma maneira e, em seguida, treinar um modelo usando um algoritmo de aprendizado federado nesse conjunto de dados dividido. Em essência, você simula o aprendizado federado sobre trabalhadores distribuídos em uma única máquina e compara o desempenho de um modelo treinado em todo o conjunto de dados com o desempenho do modelo aprendido de forma federada. O motivo pelo qual você pode fazer este teste localmente é porque os algoritmos de aprendizado federado são agnósticos quanto aos dados estarem em locais diferentes e apenas assumem que os modelos de trabalho estão sendo treinados em conjuntos de dados separados. Se os resultados do teste forem satisfatórios, você pode seguir para a próxima etapa.

2. Obtenha a adesão dos proprietários de dados

A segunda etapa no caminho para a adoção do aprendizado federado é obter a adesão dos proprietários dos dados em relação a uma implantação de produção ou prova de conceito. A preocupação mais comum dos proprietários de dados é que o processo de FL exponha acidentalmente informações de identificação pessoal ou segredos comerciais confidenciais. Você pode resolver essas questões entendendo o modelo de ameaça que os proprietários dos dados têm em mente. Por exemplo, se eles estão preocupados com os próprios modelos revelando informações, ou não confiam na entidade que controla o servidor central, então um aprofundamento técnico sobre que tipo de informação é retido nos modelos será útil. Se eles ainda não estiverem convencidos, você pode adotar tecnologias de preservação de privacidade mais avançadas, como a criptografia homomórfica, para ocultar os modelos de trabalho de todos sem impedir o aprendizado federado. Pesquisadores estão continuamente considerando essas questões, portanto, você deve consultar a literatura relevante ao responder a questões específicas.

Outra preocupação importante que os proprietários de dados costumam ter é que o aprendizado federado pode expor seus dados aos concorrentes. Por exemplo, imagine que sua organização é um consórcio de fabricantes de aditivos e você deseja construir controladores de processo baseados em IA e sistemas de garantia de qualidade usando dados de construção confidenciais de membros de seu consórcio. Nesse cenário, os proprietários dos dados costumam ficar preocupados com o fato de que, se participarem do aprendizado federado, seus dados podem acabar ajudando seus concorrentes a obterem vantagem sobre eles.

Essa é uma preocupação legítima e você pode resolvê-la de várias maneiras, dependendo do caso de uso. Por exemplo, a aprendizagem federada pode ser focada em um problema que não resultará em uma vantagem para nenhum dos participantes, mas que aumenta a penetração de mercado geral do grupo como um todo. Considere o exemplo do fabricante do aditivo: O objetivo é aprender controladores de processo ideais para manufatura aditiva (AM) por meio da aprendizagem federada. AM é um subvertical relativamente novo e promissor, mas ainda não é amplamente adotado. A complexidade dos processos de AM significa que o aprendizado de máquina é necessário para otimizar várias etapas no pipeline de fabricação para permitir uma adoção mais ampla da tecnologia. Usar o aprendizado federado para compartilhar percepções de dados confidenciais e construir melhores otimizadores atrairia, portanto, um consórcio hipotético de fabricantes de aditivos.

Em geral, dissipar essa preocupação em torno da vantagem competitiva requer a compreensão do contexto mais amplo do negócio e, em seguida, o desenvolvimento da abordagem FL sob essa luz.

3. Construa seu sistema

Depois de concluir o teste inicial, desenvolver o caso de negócios e convencer os proprietários dos dados a prosseguir, a etapa final é realmente construir e implantar a solução de aprendizado federado. Vou delinear esta etapa agora, mas esteja avisado de que o que se segue será mais subjetivo do que o que cobrimos até agora, pois será colorido por minha própria experiência na construção de uma biblioteca de aprendizagem federada em minha organização.

Em geral, você tem duas opções ao decidir como construir e implantar uma solução de aprendizado federado: adotar uma solução existente ou construir a sua própria. Dependendo de suas necessidades e do nível de especialização disponível em sua organização, a última opção pode ser muito mais preferível. Para entender por quê, farei um breve levantamento do estado atual das coisas.

Existem muitas bibliotecas de aprendizado federado disponíveis para plataformas de aprendizado de máquina populares; no entanto, a maioria deles foi projetada para pesquisa e experimentação, em vez de implantação. Isso significa que eles são muito imaturos ou não possuem o conjunto de recursos necessário para um aplicativo robusto no mundo real.

As duas principais exceções, da minha perspectiva, são a estrutura Clara da Nvidia e a estrutura FATE de código aberto do WeBank. Clara é, na verdade, um grande SDK para aprendizado de máquina que visa certas partes do setor de saúde e oferece uma funcionalidade integrada de aprendizado federado. Se o seu caso de uso se encaixa nesse setor, Clara e a comunidade ao redor dele serão um ótimo lugar para você começar. FATE é outra estrutura bastante grande e rica em recursos, originalmente destinada ao setor financeiro, que implementa muitos tipos diferentes de algoritmos e outras tecnologias de preservação de privacidade. Dependendo do cenário que você está considerando, FATE também pode ser uma ótima opção para você. No entanto, eu o encorajaria a fazer sua própria pesquisa para entender melhor o que pode ser adequado para você – novas estruturas estão sendo desenvolvidas o tempo todo.

Se o seu problema específico não se adequar aos aplicativos que essas estruturas têm como objetivo, você precisará se esforçar bastante para entendê-lo e adaptá-lo ao seu caso de uso e pilha de tecnologia. Portanto, pode ser preferível construir sua própria biblioteca / solução, o que, ao que parece, é viável para um pequeno grupo de engenheiros de software e aprendizado de máquina experientes.

A razão para isso é viável porque uma solução de aprendizado federado, em um alto nível, consiste em três componentes, cada um dos quais está ao alcance de tal equipe: o algoritmo de aprendizado federado, a infraestrutura de comunicação e a infraestrutura de segurança:

O algoritmo de aprendizagem federado especifica como os modelos dos trabalhadores devem ser combinados em um modelo global no servidor e como o modelo global deve então ser integrado de volta pelos trabalhadores. Existem alguns algoritmos bem estabelecidos (como FedAvg), que geralmente funcionam sem exigir modificações significativas, e os pesquisadores estão desenvolvendo novos algoritmos o tempo todo. Como mencionei acima, esses algoritmos são independentes do substrato de comunicação subjacente e qualquer engenheiro de aprendizado de máquina deve ser capaz de implementá-los sem muito esforço.

A infraestrutura de comunicação é necessário passar os modelos do trabalhador para o servidor e, em seguida, de volta novamente de maneira segura e confiável. Se o número de funcionários / proprietários de dados em potencial for a escala do consórcio (na casa dos milhares, que é o caso de muitos dos exemplos que mencionei no primeiro artigo), a infraestrutura de comunicação pode ser implementada usando um servidor web e engenheiros de software experientes deve ser capaz de implementar isso.

Infraestrutura de segurança é o componente final. Os requisitos para isso variam entre os aplicativos, mas uma versão padrão envolve garantir que a comunicação entre o servidor e o trabalhador seja segura e que os trabalhadores sejam devidamente autenticados e gerenciados. Isso, novamente, pode ser realizado com tecnologias padrão como https (que protege sites) e assinaturas digitais, respectivamente, e deve ser simples de implementar para engenheiros de software experientes.

Uma questão importante que esqueci é o processo de construção do modelo de aprendizado de máquina. Isso normalmente requer muita análise de dados, exploração, configuração de vários pipelines e exploração de diferentes tipos de arquiteturas de modelo e abordagens de treinamento e assim por diante. Todas essas tarefas se tornam mais desafiadoras em um ambiente federado. Na melhor das hipóteses, você pode reunir alguns dados de todos os silos em um local central e, em seguida, prosseguir normalmente para criar a arquitetura do modelo e o pipeline de dados. Você pode então treinar o modelo de produção usando o aprendizado federado. Se isso não for possível, técnicas como análise de dados federados e pesquisa de arquitetura neural federada são opções possíveis. No geral, o desenvolvimento do modelo federado é outro grande tópico que merece um artigo próprio.

Esperamos que esta série de duas partes tenha aguçado seu apetite para adotar o ensino federado em sua organização e sirva como um ponto de partida útil.

MM Hassan Mahmud é um tecnólogo sênior de IA e aprendizado de máquina na Catapulta Digital, com experiência em aprendizado de máquina na academia e na indústria.

VentureBeat está sempre em busca de informações posts de convidados relacionadas à tecnologia e estratégia de dados corporativos.

VentureBeat

A missão da VentureBeat é ser uma praça da cidade digital para que os tomadores de decisões técnicas obtenham conhecimento sobre a tecnologia transformadora e façam transações. Nosso site oferece informações essenciais sobre tecnologias e estratégias de dados para orientá-lo à medida que lidera suas organizações. Convidamos você a se tornar um membro de nossa comunidade, para acessar:
  • informações atualizadas sobre os assuntos de seu interesse
  • nossas newsletters
  • conteúdo líder de pensamento fechado e acesso com desconto a nossos eventos premiados, como o Transform
  • recursos de rede e muito mais
Torne-se um membro

Source: VentureBeat by feedproxy.google.com.

*The article has been translated based on the content of VentureBeat by feedproxy.google.com. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!