A Wikimedia Deutschland anunciou nesta quarta-feira, 1º de outubro de 2025, o Wikidata Embedding Project, um banco de dados que aplica busca semântica vetorial ao conteúdo da Wikipedia e de projetos associados, reunindo quase 120 milhões de registros.
Com a adoção do Model Context Protocol (MCP) – padrão que facilita a comunicação entre fontes de dados e sistemas de inteligência artificial – a iniciativa amplia o acesso de modelos de linguagem natural às informações mantidas por editores voluntários da enciclopédia.
Parceria técnica
O projeto foi desenvolvido em conjunto com a empresa de busca neural Jina.AI e a fornecedora de dados em tempo real DataStax, controlada pela IBM. Até então, o Wikidata oferecia dados legíveis por máquina via buscas por palavra-chave e consultas SPARQL. A nova solução foi desenhada para funcionar melhor com sistemas de retrieval-augmented generation (RAG), permitindo que desenvolvedores incorporem informações verificadas pela comunidade da Wikipedia em seus modelos.
Contexto semântico ampliado
O banco de dados oferece contexto capaz de relacionar termos e conceitos. Uma busca por “cientista”, por exemplo, retorna listas de físicos nucleares, pesquisadores que trabalharam no Bell Labs, traduções do termo em diversos idiomas, imagens autorizadas pelo Wikimedia e conceitos relacionados, como “pesquisador” e “acadêmico”.
Disponibilidade
A base de dados está disponível publicamente na plataforma Toolforge. Desenvolvedores interessados poderão participar de um webinar promovido pelo Wikidata em 9 de outubro.

Imagem: Internet
Demanda por dados confiáveis
O lançamento ocorre em meio à busca de laboratórios de IA por fontes de alta qualidade para ajuste fino de modelos. Em cenários que exigem elevada precisão, a confiabilidade das informações é crucial. Embora a Wikipedia enfrente críticas, seu conteúdo é considerado mais factual que coleções genéricas como o Common Crawl.
Independência destacada
O gerente do projeto, Philippe Saadé, ressaltou a autonomia da iniciativa em relação a grandes empresas de tecnologia. “Este lançamento mostra que uma IA poderosa não precisa ficar nas mãos de poucos”, afirmou.
Com informações de TechCrunch







