**Guia:**De acordo com o The Information, o Google reuniu uma equipe de centenas de engenheiros. O novo grande assassino Gemini combina as capacidades dos três principais modelos de GPT-4, Midjourney e Stable Diffusion, e será lançado esta queda.
O novo grande assassino do Google, Gêmeos, está prestes a conhecer o mundo!
De acordo com rumores, o Gemini não só pode conduzir conversas de texto como GPT-4, mas também integra os recursos de Midjourney e Stable Diffusion para gerar imagens.
Para lutar contra o OpenAI, o CEO do Google, Pichai, deu um passo extraordinário em abril deste ano, fundindo equipes com culturas e códigos completamente diferentes - Google Brain e DeepMind.
Agora, o Google Avengers, que reuniu centenas de engenheiros, está de prontidão, trabalhando dia e noite, apenas para atacar o GPT-4 da OpenAI e recuperar o primeiro lugar no campo de IA de uma só vez.
O fundador do Google, Sergey Brin, também voltou às trincheiras para treinar pessoalmente o Gemini.
Diz-se que o Gemini está chegando neste outono, e o teste do Google está chegando.
Lista de Vingadores foi revelada
Aposte em Gêmeos para criar o matador de GPT-4 mais forte
De acordo com pessoas familiarizadas com o assunto, o Gemini combina as capacidades textuais do LLM com as capacidades dos diagramas de Vincent.
Em outras palavras, é equivalente a uma versão combinada de GPT-4 e Midjourney/Stable Diffusion.
Esta também é a primeira vez que o mundo exterior ouviu que Gêmeos tem uma habilidade de desenho tão poderosa.
Além disso, oferece a capacidade de analisar gráficos, criar gráficos com descrições de texto e controlar o software usando comandos de texto ou voz.
No final de junho, o CEO do Google DeepMind, Hassabis, também deu a notícia de que o Gemini será integrado ao AlphaGo e a grandes modelos de linguagem, e o Google DeepMind está pronto para gastar dezenas de milhões de dólares, ou mesmo centenas de milhões.
A Gemini integrará o AlphaGO, que usa aprendizado por reforço e busca em árvores, além de tecnologias em robótica, neurociência e outras áreas.
Pode-se dizer que o Google está apostando fortemente no Gemini, que potencializará o chatbot Bard e promoverá aplicativos de nível empresarial, como Google Docs e Slides.
Além disso, o Google também espera cobrar dos desenvolvedores o acesso ao Gemini por meio do serviço de aluguel de servidores em nuvem.
Atualmente, o Google Cloud vende acesso aos modelos de IA do Google por meio do produto Vertex AI
Se esses novos recursos forem concretizados, há uma boa chance de o Google alcançar a Microsoft.
Afinal, a Microsoft já está muito à frente em produtos de IA, com aplicativos do Office 365 incluindo recursos de IA e seus aplicativos vendendo aos usuários acesso ao ChatGPT.
James Cham, um investidor em startups de IA da Bloomberg Beta, o braço de capital de risco da Bloomberg, disse à Bloomberg: “Nos últimos nove meses, todo mundo tem feito esta pergunta: quando haverá uma empresa que parece ter o potencial de alcançar OpenAI?”
“Agora, finalmente, parece haver um modelo comparável ao GPT-4.”
Google, forçado a sair da zona de conforto
Com a ascensão do OpenAI, o Google tem que tentar introduzir novas tecnologias enquanto garante seu principal negócio de busca.
De acordo com informações privilegiadas, é provável que o Google use o Gemini em alguns produtos antes de lançar o Gemini.
No passado, o Google usava modelos mais simples para melhorar a busca, mas produtos como Bard e Gemini precisam analisar grandes quantidades de imagens e texto para gerar respostas mais humanas.
Os custos de servidor potencialmente enormes gerados por uma quantidade tão grande de dados também são algo que o Google deve controlar.
O Bardo atualizado é mais forte
Aproveite o YouTube
De acordo com o The Information, o Google treinou o Gemini em um grande número de vídeos do YouTube.
Além disso, o Gemini também pode integrar áudio e vídeo no próprio modelo para formar recursos multimodais, e este último foi considerado por muitos pesquisadores como a próxima fronteira da IA.
Por exemplo, um modelo treinado em vídeos do YouTube pode ajudar os mecânicos a diagnosticar problemas de conserto de carros com base em vídeos.
Ou o código de software pode ser gerado a partir de um esboço de um site ou aplicativo que um usuário deseja criar. A OpenAI já demonstrou esse recurso do GPT-4, mas ainda não está disponível.
O chefe da OpenAI, Greg Brockman, demonstrou a capacidade do GPT-4 de ler imagens e escrever o código da página da web, mas parece ser um pombo
O uso do conteúdo do YouTube também pode ajudar o Google a desenvolver um software de conversão de texto em vídeo mais avançado que gera automaticamente vídeos detalhados com base nas descrições de conteúdo que os usuários desejam assistir.
É semelhante à tecnologia desenvolvida pela startup RunwayML, apoiada pelo Google, que agora está sendo observada de perto por criadores de conteúdo em Hollywood.
Google DeepMind lançou um contra-ataque abrangente
Em 2011, o Google criou o Google Brain (Google Brain), que visa construir a própria IA do Google para otimizar resultados de pesquisa, publicidade precisa e funções de preenchimento automático no Gmail.
A DeepMind em Londres, por outro lado, é mais dedicada à pesquisa acadêmica - em 2016, a AlphaGo derrotou Li Shishi por 4 a 1, o que é considerado um marco importante no caminho para a inteligência artificial geral (AGI).
Exceto pelo fato de que o Google usará o software desenvolvido pela DeepMind para melhorar a eficiência operacional dos data centers, o trabalho da DeepMind não teve muito impacto em seus principais produtos.
Mas no final do ano passado, tudo mudou.
Em novembro de 2022, a OpenAI lançou o ChatGPT, e o número de usuários disparou para dezenas de milhões em apenas algumas semanas, alcançando a marca de 100 milhões de usuários no menor tempo possível.
Em poucos meses, a receita da OpenAI atingiu centenas de milhões de dólares e, durante esse período, a Microsoft investiu recentemente 10 bilhões de dólares, e incontáveis fundos de capital fluíram para a OpenA. O valor de mercado e a popularidade da OpenAI atingiram um patamar sem precedentes.
Nessa época, o Google percebeu que sua liderança no campo da IA já estava em risco.
**Google Brain+DeepMind=? **
Em abril deste ano, o passivo Google lançou o movimento final: Google Brain e DeepMind oficialmente fundidos!
As duas principais divisões de “O Rei Não Vê o Rei” realmente se encaixam, e esse movimento também chocou as mandíbulas das pessoas.
O Google DeepMind combinado será liderado pelo CEO da DeepMind, Demis Hassabis, com o ex-chefe de IA do Google, Jeff Dean, assumindo o cargo de cientista-chefe.
Agora, pelo menos 26 figurões estão trabalhando no desenvolvimento do Gemini, incluindo pesquisadores que trabalharam no Google Brain e no DeepMind.
Dois executivos da DeepMind, Oriol Vinyals e Koray Kavukcuoglu, liderarão o desenvolvimento do Gemini, juntamente com o ex-chefe do Google Brain, Jeff Dean, disseram pessoas familiarizadas com o assunto. Eles supervisionarão as centenas de funcionários envolvidos no desenvolvimento do Gemini.
Além disso, o cofundador do Google, Sergey Brin, também é um veterano, retornando após uma longa ausência.
Sergey Brin e Larry Page
Ele está avaliando os modelos Gemini e ajudando a equipe a treinar os modelos.
Segundo relatos, Brin também esteve envolvido no processo de tomada de decisão técnica para retreinar o modelo depois que a equipe descobriu que o Gemini havia sido acidentalmente treinado em conteúdo potencialmente ofensivo.
A dor do “casamento acidental”
Com a fusão do Google Brain e do DeepMind, a nova equipe rapidamente encontrou problemas muito sérios - como mesclar os códigos e qual software é usado para desenvolvimento?
Afinal, as bases de código desses dois departamentos eram completamente independentes antes.
Embora os dois lados tenham chegado a um acordo após cada concessão:
Na fase de pré-treinamento do modelo, use o software Pax do Google Brain para treinar modelos de aprendizado de máquina
Em um estágio posterior, use o software Core Model Strike da DeepMind para desenvolver o modelo
Mas, de acordo com informações privilegiadas, ainda há muitos funcionários que estão zangados porque precisam usar um software com o qual não estão familiarizados.
Além disso, tanto o Google quanto o DeepMind desenvolveram seus próprios modelos para o ChatGPT.
A DeepMind embarcou em um projeto de codinome Goodall para desenvolver um sistema para competir com o ChatGPT usando diferentes variantes do modelo inédito Chipmunk. O Google Brain desenvolveu o Gemini.
No final, a DeepMind decidiu abandonar seus esforços originais e optou por cooperar com o projeto baseado no Google Brain para desenvolver o Gemini.
Curiosamente, o Google Brain é considerado muito mais relaxado do que o DeepMind em termos de políticas de trabalho remoto.
Atrito interno, constrangimento, contra-ataque
Comparado com a situação do lado da OpenAI, o Google está preso em um atrito interno exaustivo.
Primeiro, uma série de talentos técnicos de alto nível restantes, como Liam Fedus, Barret Zoph e Luke Metz, pesquisadores, etc., optaram por ingressar na OpenAI.
Embora o Google tenha recuperado alguns talentos: como o recrutamento de Jacob Devlin e Jack Rae.
Jacob Devlin foi ao OpenAI em janeiro deste ano depois de criticar o desenvolvimento de Bard. E Jack Rae é um ex-pesquisador do DeepMind que ingressará na OpenAI em 2022.
Anteriormente, Devlin expressou suas preocupações sobre o uso do treinamento de dados ChatGPT pela equipe Bard para Pichai, Dean e outros executivos e, em seguida, renunciou
Então, para lutar contra o próspero ChatGPT e retornar ao líder da pista de inteligência artificial, o Google lançou às pressas o robô de bate-papo Bard em fevereiro deste ano.
No entanto, a coletiva de imprensa foi anulada devido a um erro factual de baixo nível, fazendo com que o valor de mercado da empresa evaporasse centenas de bilhões de dólares da noite para o dia.
O primeiro contra-ataque do Google terminou em constrangimento.
Em maio, o novo modelo PaLM 2 foi lançado na conferência Google I/O, o que melhorou muito a capacidade de Bard de responder a perguntas e gerar código.
Também foi lançado ao mesmo tempo o Search Generative Experience (SGE), que combina IA generativa com seus próprios serviços de pesquisa tradicionais.
Simplificando, o SGE é um serviço de pesquisa de IA semelhante ao Bing Chat, mas, em vez de usar a nova janela de bate-papo diretamente, ele exibe coleções de conteúdo geradas por IA para os usuários nos resultados da pesquisa.
Ou seja, durante a pesquisa, o Google usará a IA para fornecer explicações sobre o conteúdo pesquisado, responder a perguntas levantadas pelos usuários, ajudar os usuários a planejar viagens e assim por diante.
E os usuários não precisam mais ir e voltar entre vários links, como fazer compras, e não precisam se esforçar para julgar quais informações por trás do link são verdadeiras, porque todo o conteúdo disponível está concentrado nas respostas coletadas pela IA.
Em uma atualização recente, o Google adicionou a capacidade do SGE de anexar fotos e vídeos ao conteúdo de resposta gerado pela IA, ajudando os usuários a entender o conhecimento e as informações que procuram de maneira mais intuitiva.
Assim como o Bing Chat, as respostas de IA do SGE incluirão links com carimbo de data/hora para dar suporte ao conteúdo das respostas geradas por IA. Se os usuários estiverem interessados em informações relevantes, eles podem clicar no link para entender o conteúdo específico de forma mais abrangente.
Nas respostas geradas pela IA, para muitas informações e conceitos baseados em conhecimento, os usuários podem passar o mouse diretamente para obter a definição precisa do conceito.
Essa função agora está disponível para respostas de IA a questões baseadas em conhecimento, como ciência, história e economia.
Para usuários que precisam navegar por informações muito longas da página da web para aprender ou entender as informações, o SGE também atualizou uma função de resumo AI em uma página da web - SGE durante a navegação.
Esta função equivale a fornecer aos usuários um “gerador de contornos” pronto para ser despachado a qualquer momento. Para qualquer conteúdo da Web longo, os usuários podem usá-lo para gerar um esboço e compreender rapidamente os pontos principais.
Na seção Explorar a página abaixo, os usuários também podem ver perguntas relacionadas ao conteúdo da página. Se o usuário estiver interessado na pergunta, clique diretamente para ver como o conteúdo do artigo responde a essas perguntas.
No entanto, devido à estratégia de mercado conservadora do Google, o SEG atualmente permite apenas que usuários nos Estados Unidos usem a Lista de Espera para se inscrever no teste.
Portanto, provavelmente a maioria dos usuários nem sabe que o Google lançou esse serviço.
Em suma, é relatado que após a combinação dos dois departamentos, pelo menos 21 ferramentas de IA generativa foram testadas, e até mesmo ferramentas que fornecem aos usuários conselhos de vida e aconselhamento psicológico.
No ano passado, o Google, que demitiu com urgência engenheiros que afirmavam ter uma IA de chat consciente, agora começou a explorar essas áreas “sensíveis” e pode-se ver que realmente decidiu tentar.
Projeto Gemini, a situação atual é muito boa
No entanto, a fusão das duas equipes é de fato uma grande surpresa para alguns engenheiros que estão à frente do projeto Gemini.
James Molloy e Tom Hennigan, que trabalharam anteriormente na DeepMind, trabalharam na infraestrutura junto com o pesquisador sênior do Google, Paul Barham.
Timothy Lillicrap trabalhou na DeepMind no desenvolvimento de sistemas para xadrez e Go, enquanto Emily Pitler, pesquisadora do Google Brain, lidera uma equipe focada em tornar os LLMs capazes de tarefas especializadas como matemática ou pesquisas na web.
Mas, além dos problemas de pessoal na organização resultante da fusão, a equipe do Gemini também enfrentou grandes desafios durante o processo de desenvolvimento, como determinar os dados que podem ser usados para o treinamento do modelo.
Portanto, os advogados do Google avaliaram de perto o esforço de treinamento.
Em um caso, os advogados ordenaram que os pesquisadores removessem os dados de treinamento dos livros didáticos, temendo objeções dos detentores dos direitos autorais.
E esses dados poderiam ter ajudado a treinar modelos para responder a perguntas sobre campos como astronomia ou biologia.
No entanto, Aydin Senkut, ex-executivo do Google e fundador da empresa de capital de risco Felicis Ventures, comentou que o lançamento do Gemini o fez ver que “o Google está determinado a estar na vanguarda novamente, em vez de ser extremamente conservador”.
Aydin Senkut também concorda com a decisão do Google:
“É a direção certa. Eventualmente, eles vão pegar fogo.”
Referências:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
GPT-4 assassino Google Gemini ataca! A lista de 26 líderes de P&D foi exposta, oferecendo recursos de geração de imagens semelhantes ao Midjourney
**Fonte:**Xinzhiyuan
**Guia:**De acordo com o The Information, o Google reuniu uma equipe de centenas de engenheiros. O novo grande assassino Gemini combina as capacidades dos três principais modelos de GPT-4, Midjourney e Stable Diffusion, e será lançado esta queda.
O novo grande assassino do Google, Gêmeos, está prestes a conhecer o mundo!
De acordo com rumores, o Gemini não só pode conduzir conversas de texto como GPT-4, mas também integra os recursos de Midjourney e Stable Diffusion para gerar imagens.
Agora, o Google Avengers, que reuniu centenas de engenheiros, está de prontidão, trabalhando dia e noite, apenas para atacar o GPT-4 da OpenAI e recuperar o primeiro lugar no campo de IA de uma só vez.
O fundador do Google, Sergey Brin, também voltou às trincheiras para treinar pessoalmente o Gemini.
Diz-se que o Gemini está chegando neste outono, e o teste do Google está chegando.
Aposte em Gêmeos para criar o matador de GPT-4 mais forte
De acordo com pessoas familiarizadas com o assunto, o Gemini combina as capacidades textuais do LLM com as capacidades dos diagramas de Vincent.
Em outras palavras, é equivalente a uma versão combinada de GPT-4 e Midjourney/Stable Diffusion.
Além disso, oferece a capacidade de analisar gráficos, criar gráficos com descrições de texto e controlar o software usando comandos de texto ou voz.
No final de junho, o CEO do Google DeepMind, Hassabis, também deu a notícia de que o Gemini será integrado ao AlphaGo e a grandes modelos de linguagem, e o Google DeepMind está pronto para gastar dezenas de milhões de dólares, ou mesmo centenas de milhões.
A Gemini integrará o AlphaGO, que usa aprendizado por reforço e busca em árvores, além de tecnologias em robótica, neurociência e outras áreas.
Além disso, o Google também espera cobrar dos desenvolvedores o acesso ao Gemini por meio do serviço de aluguel de servidores em nuvem.
Se esses novos recursos forem concretizados, há uma boa chance de o Google alcançar a Microsoft.
Afinal, a Microsoft já está muito à frente em produtos de IA, com aplicativos do Office 365 incluindo recursos de IA e seus aplicativos vendendo aos usuários acesso ao ChatGPT.
James Cham, um investidor em startups de IA da Bloomberg Beta, o braço de capital de risco da Bloomberg, disse à Bloomberg: “Nos últimos nove meses, todo mundo tem feito esta pergunta: quando haverá uma empresa que parece ter o potencial de alcançar OpenAI?”
“Agora, finalmente, parece haver um modelo comparável ao GPT-4.”
Google, forçado a sair da zona de conforto
Com a ascensão do OpenAI, o Google tem que tentar introduzir novas tecnologias enquanto garante seu principal negócio de busca.
De acordo com informações privilegiadas, é provável que o Google use o Gemini em alguns produtos antes de lançar o Gemini.
No passado, o Google usava modelos mais simples para melhorar a busca, mas produtos como Bard e Gemini precisam analisar grandes quantidades de imagens e texto para gerar respostas mais humanas.
Os custos de servidor potencialmente enormes gerados por uma quantidade tão grande de dados também são algo que o Google deve controlar.
Aproveite o YouTube
De acordo com o The Information, o Google treinou o Gemini em um grande número de vídeos do YouTube.
Por exemplo, um modelo treinado em vídeos do YouTube pode ajudar os mecânicos a diagnosticar problemas de conserto de carros com base em vídeos.
Ou o código de software pode ser gerado a partir de um esboço de um site ou aplicativo que um usuário deseja criar. A OpenAI já demonstrou esse recurso do GPT-4, mas ainda não está disponível.
O uso do conteúdo do YouTube também pode ajudar o Google a desenvolver um software de conversão de texto em vídeo mais avançado que gera automaticamente vídeos detalhados com base nas descrições de conteúdo que os usuários desejam assistir.
É semelhante à tecnologia desenvolvida pela startup RunwayML, apoiada pelo Google, que agora está sendo observada de perto por criadores de conteúdo em Hollywood.
Google DeepMind lançou um contra-ataque abrangente
Em 2011, o Google criou o Google Brain (Google Brain), que visa construir a própria IA do Google para otimizar resultados de pesquisa, publicidade precisa e funções de preenchimento automático no Gmail.
A DeepMind em Londres, por outro lado, é mais dedicada à pesquisa acadêmica - em 2016, a AlphaGo derrotou Li Shishi por 4 a 1, o que é considerado um marco importante no caminho para a inteligência artificial geral (AGI).
Exceto pelo fato de que o Google usará o software desenvolvido pela DeepMind para melhorar a eficiência operacional dos data centers, o trabalho da DeepMind não teve muito impacto em seus principais produtos.
Mas no final do ano passado, tudo mudou.
Em poucos meses, a receita da OpenAI atingiu centenas de milhões de dólares e, durante esse período, a Microsoft investiu recentemente 10 bilhões de dólares, e incontáveis fundos de capital fluíram para a OpenA. O valor de mercado e a popularidade da OpenAI atingiram um patamar sem precedentes.
**Google Brain+DeepMind=? **
Em abril deste ano, o passivo Google lançou o movimento final: Google Brain e DeepMind oficialmente fundidos!
Dois executivos da DeepMind, Oriol Vinyals e Koray Kavukcuoglu, liderarão o desenvolvimento do Gemini, juntamente com o ex-chefe do Google Brain, Jeff Dean, disseram pessoas familiarizadas com o assunto. Eles supervisionarão as centenas de funcionários envolvidos no desenvolvimento do Gemini.
Ele está avaliando os modelos Gemini e ajudando a equipe a treinar os modelos.
Segundo relatos, Brin também esteve envolvido no processo de tomada de decisão técnica para retreinar o modelo depois que a equipe descobriu que o Gemini havia sido acidentalmente treinado em conteúdo potencialmente ofensivo.
A dor do “casamento acidental”
Com a fusão do Google Brain e do DeepMind, a nova equipe rapidamente encontrou problemas muito sérios - como mesclar os códigos e qual software é usado para desenvolvimento?
Afinal, as bases de código desses dois departamentos eram completamente independentes antes.
Embora os dois lados tenham chegado a um acordo após cada concessão:
Na fase de pré-treinamento do modelo, use o software Pax do Google Brain para treinar modelos de aprendizado de máquina
Em um estágio posterior, use o software Core Model Strike da DeepMind para desenvolver o modelo
Mas, de acordo com informações privilegiadas, ainda há muitos funcionários que estão zangados porque precisam usar um software com o qual não estão familiarizados.
A DeepMind embarcou em um projeto de codinome Goodall para desenvolver um sistema para competir com o ChatGPT usando diferentes variantes do modelo inédito Chipmunk. O Google Brain desenvolveu o Gemini.
No final, a DeepMind decidiu abandonar seus esforços originais e optou por cooperar com o projeto baseado no Google Brain para desenvolver o Gemini.
Curiosamente, o Google Brain é considerado muito mais relaxado do que o DeepMind em termos de políticas de trabalho remoto.
Atrito interno, constrangimento, contra-ataque
Comparado com a situação do lado da OpenAI, o Google está preso em um atrito interno exaustivo.
Primeiro, uma série de talentos técnicos de alto nível restantes, como Liam Fedus, Barret Zoph e Luke Metz, pesquisadores, etc., optaram por ingressar na OpenAI.
Embora o Google tenha recuperado alguns talentos: como o recrutamento de Jacob Devlin e Jack Rae.
Jacob Devlin foi ao OpenAI em janeiro deste ano depois de criticar o desenvolvimento de Bard. E Jack Rae é um ex-pesquisador do DeepMind que ingressará na OpenAI em 2022.
Então, para lutar contra o próspero ChatGPT e retornar ao líder da pista de inteligência artificial, o Google lançou às pressas o robô de bate-papo Bard em fevereiro deste ano.
No entanto, a coletiva de imprensa foi anulada devido a um erro factual de baixo nível, fazendo com que o valor de mercado da empresa evaporasse centenas de bilhões de dólares da noite para o dia.
O primeiro contra-ataque do Google terminou em constrangimento.
Também foi lançado ao mesmo tempo o Search Generative Experience (SGE), que combina IA generativa com seus próprios serviços de pesquisa tradicionais.
Simplificando, o SGE é um serviço de pesquisa de IA semelhante ao Bing Chat, mas, em vez de usar a nova janela de bate-papo diretamente, ele exibe coleções de conteúdo geradas por IA para os usuários nos resultados da pesquisa.
E os usuários não precisam mais ir e voltar entre vários links, como fazer compras, e não precisam se esforçar para julgar quais informações por trás do link são verdadeiras, porque todo o conteúdo disponível está concentrado nas respostas coletadas pela IA.
Assim como o Bing Chat, as respostas de IA do SGE incluirão links com carimbo de data/hora para dar suporte ao conteúdo das respostas geradas por IA. Se os usuários estiverem interessados em informações relevantes, eles podem clicar no link para entender o conteúdo específico de forma mais abrangente.
Essa função agora está disponível para respostas de IA a questões baseadas em conhecimento, como ciência, história e economia.
Esta função equivale a fornecer aos usuários um “gerador de contornos” pronto para ser despachado a qualquer momento. Para qualquer conteúdo da Web longo, os usuários podem usá-lo para gerar um esboço e compreender rapidamente os pontos principais.
Na seção Explorar a página abaixo, os usuários também podem ver perguntas relacionadas ao conteúdo da página. Se o usuário estiver interessado na pergunta, clique diretamente para ver como o conteúdo do artigo responde a essas perguntas.
Portanto, provavelmente a maioria dos usuários nem sabe que o Google lançou esse serviço.
Em suma, é relatado que após a combinação dos dois departamentos, pelo menos 21 ferramentas de IA generativa foram testadas, e até mesmo ferramentas que fornecem aos usuários conselhos de vida e aconselhamento psicológico.
Projeto Gemini, a situação atual é muito boa
No entanto, a fusão das duas equipes é de fato uma grande surpresa para alguns engenheiros que estão à frente do projeto Gemini.
James Molloy e Tom Hennigan, que trabalharam anteriormente na DeepMind, trabalharam na infraestrutura junto com o pesquisador sênior do Google, Paul Barham.
Timothy Lillicrap trabalhou na DeepMind no desenvolvimento de sistemas para xadrez e Go, enquanto Emily Pitler, pesquisadora do Google Brain, lidera uma equipe focada em tornar os LLMs capazes de tarefas especializadas como matemática ou pesquisas na web.
Mas, além dos problemas de pessoal na organização resultante da fusão, a equipe do Gemini também enfrentou grandes desafios durante o processo de desenvolvimento, como determinar os dados que podem ser usados para o treinamento do modelo.
Portanto, os advogados do Google avaliaram de perto o esforço de treinamento.
Em um caso, os advogados ordenaram que os pesquisadores removessem os dados de treinamento dos livros didáticos, temendo objeções dos detentores dos direitos autorais.
E esses dados poderiam ter ajudado a treinar modelos para responder a perguntas sobre campos como astronomia ou biologia.
No entanto, Aydin Senkut, ex-executivo do Google e fundador da empresa de capital de risco Felicis Ventures, comentou que o lançamento do Gemini o fez ver que “o Google está determinado a estar na vanguarda novamente, em vez de ser extremamente conservador”.
Aydin Senkut também concorda com a decisão do Google:
“É a direção certa. Eventualmente, eles vão pegar fogo.”
Referências: