Na era em que a IA generativa está a absorver dados abertamente de forma desenfreada, a Wikipédia optou por transformar oficialmente a relação de “ser explorada de forma gratuita” numa parceria de acordo comercial: desde a Microsoft, Google, Amazon até às novas empresas de IA, todas agora precisam de obter acesso à Wikipédia através de licenças de conteúdo e serviços pagos.
(Antecedentes: A Grok vai substituir a Wikipédia? Elon Musk revela que a xAI está a desenvolver a “Grokipedia”: uma grande melhoria em relação à Wikipedia)
(Informação adicional: V神 avalia a LLM pela primeira vez: Grok essencialmente salva a plataforma X, “ajudando na disseminação da verdade”, mas ainda apresenta muitas alucinações)
Índice deste artigo
A Fundação Wikimedia celebra o 25º aniversário da criação da Wikipédia, lançando uma série de atividades e atualizações tecnológicas, ao mesmo tempo que envia sinais claros ao exterior: a maior enciclopédia online do mundo não é apenas uma base de conhecimento “gratuita para uso”, mas uma infraestrutura fundamental que assinou acordos de licenciamento de conteúdo com várias gigantes da IA, entrando oficialmente na mesa de negociações comerciais.
Atualmente, a Wikipédia possui mais de 65 milhões de artigos, cobre mais de 300 línguas, e tem quase 15 mil milhões de visualizações mensais, sendo o único entre os dez sites mais visitados operado por uma organização sem fins lucrativos, além de ser um dos conjuntos de dados abertos de alta qualidade mais importantes para modelos de linguagem de grande escala.
Nos últimos anos, com o surgimento da IA generativa, a dependência das empresas tecnológicas em relação ao conteúdo da Wikipédia cresceu rapidamente. Para responder a essa demanda e manter a sustentabilidade financeira, a Wikimedia desenvolveu o produto comercial Wikimedia Enterprise, que oferece serviços de reutilização e distribuição de conteúdo em grande escala.
Na sua declaração mais recente, a fundação revelou que empresas como Ecosia, Microsoft, Mistral AI, Perplexity, Pleias, ProRata tornaram-se novos parceiros, juntando-se às gigantes tecnológicas originais como Amazon, Google e Meta.
Isto significa que, empresas que anteriormente capturavam diretamente o conteúdo da Wikipédia para resultados de pesquisa ou treino de IA, agora começam a aceder aos dados através de “parcerias de licenciamento”, com a Wikimedia Enterprise a fornecer APIs ou fluxos de dados de acordo com as necessidades de latência, estabilidade e formato de dados, enquanto as empresas retribuem financeiramente à fundação Wikimedia, sustentando operações sem fins lucrativos e investimentos em infraestrutura.
Na sua comunicação, a Wikimedia destacou que a Wikipédia já foi avaliada por várias partes como um dos conjuntos de dados abertos de “melhor qualidade” para treinar grandes modelos de linguagem. Isto deve-se ao facto de o seu conteúdo ser mantido por cerca de 250 mil voluntários ativos, que seguem rigorosos padrões de neutralidade, verificabilidade e fontes confiáveis, além de passar por uma revisão de longo prazo através do histórico de versões e da comunidade, sendo estes ativos estruturais difíceis de serem reconstruídos por desenvolvedores de modelos.
Para as empresas de IA, obter o conteúdo da Wikipédia não é apenas uma questão de legalidade e ética de licenciamento, mas também de qualidade de saída do modelo e de controlo sobre os factos; para a Wikimedia, trata-se de transformar o tráfego que antes era capturado passivamente em uma fonte de receita previsível, que permite sustentar os custos de servidores, comunidades multilíngues e desenvolvimento tecnológico a longo prazo.
Curiosamente, apesar de terem estabelecido parcerias de licenciamento de conteúdo com várias gigantes da IA, a Wikimedia continua a reforçar na sua estratégia de IA que “o humano vem em primeiro lugar”, e que o papel da IA é auxiliar os voluntários na edição, não substituí-los.
A fundação planeia usar IA para detectar edições destrutivas, marcar artigos potencialmente problemáticos, ajudar na tradução e descoberta de conteúdo, permitindo que os editores concentrem o seu tempo na análise de fontes, redação e governança da comunidade.
A CEO Maryana Iskander afirmou que o valor central da Wikipédia reside na produção de conhecimento “movida por humanos”, e mesmo na era da IA, a plataforma manterá a sua estrutura de governança por uma comunidade global de voluntários; as ferramentas de IA são apenas um auxílio para reduzir a barreira de participação, não o principal responsável pelas decisões de conteúdo.