Por que a IA precisa de uma dieta constante de dados sintéticos

Confira as sessões sob demanda do Low-Code/No-Code Summit para aprender como inovar com sucesso e obter eficiência aprimorando e dimensionando os desenvolvedores cidadãos. Assista agora.


A inteligência artificial (IA) pode estar comendo o mundo como o conhecemos, mas especialistas dizem que a própria IA também está morrendo de fome – e precisa mudar sua dieta. Uma empresa diz que os dados sintéticos são a resposta.

“Os dados são alimento para a IA, mas a IA hoje é subalimentada e desnutrida”, disse Kevin McNamara, CEO e cofundador do provedor de plataforma de dados sintéticos, domínio paralelo, que apenas criado $ 30 milhões em uma rodada da série B liderada pela March Capital. “É por isso que as coisas estão crescendo lentamente. Mas se pudermos alimentar melhor essa IA, os modelos crescerão mais rápido e de maneira mais saudável. Dados sintéticos são como alimento para treinamento de IA.”

A pesquisa mostrou que cerca de 90% das implantações de IA e aprendizado de máquina (ML) falham. UMA gene de dados relatório do início deste ano apontou que muitas falhas se devem à falta de dados de treinamento. Ele descobriu que 99% dos profissionais de visão computacional dizem que tiveram um projeto de ML interrompido especificamente por causa da falta de dados para vê-lo. Mesmo os projetos que não são totalmente cancelados por falta de dados sofrem atrasos significativos, tirando-os do caminho certo, relataram 100% dos entrevistados.

Nesse sentido, o Gartner prevê que os dados sintéticos serão cada vez mais usados ​​como um suplemento para fins de treinamento de IA e ML. O gigante da pesquisa projeta que até 2024 dados sintéticos serão usados ​​para acelerar 60% de projetos de IA.

Evento

Cúpula de Segurança Inteligente

Aprenda o papel crítico da IA ​​e ML na segurança cibernética e estudos de caso específicos do setor em 8 de dezembro. Registre-se para o seu passe livre hoje.

Registrar agora

Dados sintéticos são gerados por algoritmos de aprendizado de máquina que ingerem dados reais para treinar padrões comportamentais e criar dados simulados que retêm as propriedades estatísticas do conjunto de dados original. Os dados resultantes replicam as circunstâncias do mundo real, mas, ao contrário dos conjuntos de dados anônimos padrão, não são vulneráveis ​​às mesmas falhas dos dados reais.

Tirando a IA da ‘Idade da Pedra’

Pode parecer incomum ouvir que uma tecnologia tão avançada quanto a IA está presa em uma espécie de “Idade da Pedra”, mas é isso que McNamara vê – e sem a adoção de dados sintéticos, continuará assim, diz ele.

“No momento, o desenvolvimento de IA é mais ou menos como era a programação de computadores nos anos 60 ou 70, quando as pessoas usavam a programação de cartões perfurados – um processo manual e trabalhoso”, disse ele. “Bem, o mundo acabou se afastando disso e para a programação digital. Queremos fazer isso para o desenvolvimento de IA.”

Os três maiores gargalos que mantêm a IA na Idade da Pedra são os seguintes, de acordo com McNamara:

  1. Coletando dados do mundo real – o que nem sempre é viável. Mesmo para algo como o jaywalking, que acontece com bastante frequência em cidades ao redor do mundo, se você precisar de milhões de exemplos para treinar seu algoritmo, isso rapidamente se torna inatingível para as empresas saírem e obterem do mundo real.
  2. Marcação — que muitas vezes requer milhares de horas de tempo humano e pode ser impreciso porque, bem, os humanos cometem erros.
  3. Iterando nos dados uma vez rotulado – o que exige que você ajuste as configurações do sensor etc. e, em seguida, aplique-o para realmente começar a treinar sua IA.

“Todo esse processo é muito lento”, disse McNamara. “Se você pode mudar essas coisas muito rápido, você pode realmente descobrir configurações melhores e melhores maneiras de desenvolver sua IA em primeiro lugar.”

Entre no palco à direita: dados sintéticos

O Parallel Domain funciona gerando mundos virtuais baseados em mapas, que ele chama de “primos digitais” de cenários e geografias do mundo real. Esses mundos podem ser alterados e manipulados para, por exemplo, ter mais caminhadas imprudentes ou chuva, para ajudar no treinamento de veículos autônomos.

Uma amostra dos dados sintéticos do Domínio Paralelo mostrando uma visão de mapa de seus recursos do mundo virtual.
Uma amostra dos dados sintéticos do Domínio Paralelo mostrando uma visão de mapa de seus recursos do mundo virtual.

Como os mundos são primos digitais e não gêmeos digitais, a personalização pode simular os dados às vezes mais difíceis de obter – mas essenciais para o treinamento – que as empresas normalmente teriam que sair e obter por conta própria. A plataforma permite que os usuários a adaptem às suas necessidades por meio de uma API, para que possam mover ou manipular fatores exatamente da maneira que desejam. Isso acelera o processo de treinamento de IA e remove bloqueios de tempo e trabalho.

A empresa afirma que em questão de horas pode fornecer conjuntos de dados de treinamento prontos para uso de seus clientes – clientes que incluem o Toyota Research Institute, Google, Continental e Woven Planet.

“Os clientes podem entrar no mundo simulado e fazer as coisas acontecerem ou extrair dados desse mundo”, disse McNamara. “Temos botões para diferentes tipos de categorias de ativos e cenários que podem acontecer, bem como maneiras de os clientes conectarem sua própria lógica para o que veem, onde veem e como essas coisas se comportam”.

Então, os clientes precisam de uma maneira de extrair dados desse mundo para a configuração que corresponda à sua configuração, explicou ele.

“Nossas ferramentas de configuração de sensor e ferramentas de configuração de etiqueta nos permitem replicar a configuração exata da câmera ou a configuração exata do lidar e radar e rotulagem que um cliente veria”, disse ele.

Dados sintéticos, IA generativa

Os dados sintéticos não são apenas úteis para o treinamento de modelos de IA e ML, mas também podem ser aplicados para fazer com que a IA generativa – um uso da tecnologia que já está crescendo rapidamente – se desenvolva ainda mais rapidamente.

A Parallel Domain está de olho no campo enquanto a empresa entra em 2023 com capital novo. Ele espera multiplicar os dados que a IA generativa precisa treinar, para que possa se tornar uma ferramenta ainda mais poderosa para a criação de conteúdo. Sua equipe de P&D está se concentrando na variedade e nos detalhes das simulações de dados sintéticos que pode fornecer.

“Estou entusiasmado com a IA generativa em nosso espaço”, disse McNamara. “Não estamos aqui para criar uma interpretação artística do mundo. Estamos aqui para criar um primo digital do mundo. Eu acho que a IA generativa é realmente poderosa em olhar para exemplos de imagens de todo o mundo, então reuni-las e criar exemplos interessantes e novas informações dentro de dados sintéticos. Por causa disso, a IA generativa será uma grande parte dos avanços tecnológicos nos quais estamos investindo no próximo ano.”

O valor dos dados sintéticos não se limita à IA. Dada a grande quantidade de dados necessários para criar ambientes virtuais realistas, também é a única abordagem prática para levar o metaverso adiante.

A Parallel Domain faz parte do setor de inicialização de dados sintéticos em rápido crescimento, que Crunchbase relatado anteriormente está vendo uma faixa de financiamento. Datagen, Gretel AI e Mostly AI são alguns de seus concorrentes que também arrecadaram vários milhões no ano passado.

Missão da VentureBeat é ser uma praça da cidade digital para tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e transações. Conheça os nossos Briefings.


Source: VentureBeat by venturebeat.com.

*The article has been translated based on the content of VentureBeat by venturebeat.com. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!