Melhorias no Processo de Blocagem para Resolução de Entidades Baseadas na Relevância dos Termos

Published: 2018, Last Modified: 21 Jan 2026SBBD 2018EveryoneRevisionsBibTeXCC BY-SA 4.0
Abstract: Resumo Resolução de Entidades é uma tarefa comumente enfrentada no processo de integração de dados. Por necessitar de um número de comparações de ordem quadrática, torna-se inviável aplica-lá em grandes conjuntos de dados. Técnicas de blocagem e de processamentos de blocos têm sido propostas, visando amenizar esse problema. Neste trabalho, é proposta uma forma de escolher termos para serem usados na etapa de blocagem e no processamento de blocos, com base em sua relevância na coleção de dados. A proposta é avaliada, comparando-a com trabalhos relevantes publicados na literatura. Os resultados mostram que a proposta deste trabalho reduz o tempo de processamento pela metade e melhora a qualidade dos blocos gerados.
Loading