Fase 4 — Consolidação e Enriquecimento
Após a coleta nas bases automáticas e manuais, o conjunto bruto de documentos inevitavelmente contém sobreposições: o mesmo artigo retornado por Scopus e Web of Science, ou por duas expressões de busca distintas dentro da mesma base. A Consolidação resolve essa sobreposição de forma sistemática e auditável, produzindo uma base única e confiável — sem duplicatas — que será a entrada para a Triagem. O resultado é registrado no funil PRISMA como a transição de "registros identificados" para "registros após remoção de duplicatas".
Deduplicação Automática (Smart Merge)
O Tykyra aplica uma deduplicação em quatro camadas sequenciais, cada uma atuando sobre os registros que escaparam das camadas anteriores:
- DOI idêntico: dois registros com o mesmo DOI são tratados como o mesmo documento — a camada mais precisa e de menor risco de falso positivo.
- Fingerprint de título e resumo: o sistema normaliza o texto (remove acentos e caracteres especiais) e compara o hash resultante — captura variações de codificação que deixariam o DOI inutilizável.
- Título e resumo diretos: comparação literal após normalização básica, para casos onde o DOI está ausente em ao menos um dos registros.
- Título e ano (fallback): usada quando o resumo está vazio nos dois registros — garante que documentos sem abstract preenchido não escapem da deduplicação.
O pesquisador configura os pesos do Smart Merge (Título/Resumo, Autores, Ano, Citações, Links) antes de executar. A deduplicação é totalmente automática — não há interface de revisão par a par — e o resultado é apresentado no funil de consolidação com as métricas de cada camada: quantos registros foram removidos por DOI, por fingerprint, por título+resumo e por título+ano, chegando ao total consolidado final.
O botão "Executar Consolidação" não roda se não houver documentos coletados, e a consolidação é bloqueada se a contagem de documentos ultrapassar o limite do plano (ver Planos e Perfis de Acesso).
Tela correspondente: Consolidação
Enriquecimento de Metadados (Colaborador)
Após a deduplicação, os registros consolidados podem ser enriquecidos com metadados adicionais via DOI: o Tykyra consulta fontes externas para complementar campos como autores, periódico, volume, páginas e palavras-chave quando esses dados estão ausentes ou incompletos no registro original. O progresso do enriquecimento é exibido em tempo real com um terminal de log.
O enriquecimento é opcional e está disponível para usuários com plano Colaborador. Ele não altera nem substitui campos já preenchidos — apenas preenche lacunas.
Análises Consolidadas e Visualizador da Coleção
Após consolidar, três abas ficam disponíveis para análise da base resultante:
- Funil: gráfico do fluxo de deduplicação (total coletado → removidos por camada → consolidado final), exportável em PNG ou SVG.
- Tabela: estatísticas por base e por expressão de busca (documentos, fontes ativas, lógicas únicas).
- Análises: distribuição temporal por ano, Top 20 documentos mais citados, autores e periódicos mais frequentes.
Para uma inspeção mais profunda do conjunto antes da consolidação, o Tykyra oferece o Visualizador da Coleção (disponível para usuários Colaborador): uma janela separada que exibe os documentos brutos com filtros por base, expressão de busca e campo de busca (título, resumo, autores, DOI), além de uma análise de duplicatas com a matriz base×base (heatmap de sobreposição entre pares de bases) e um painel de leitura com destaque de registros duplicados.
Tela correspondente: Visualizador da Coleção
Gate de Finalização
O botão "Finalizar e Ir para Critérios" segue as seguintes regras:
- 0 documentos consolidados: desabilitado (é necessário ter ao menos um documento para avançar).
- 1 documento: habilitado sem exigir que a consolidação tenha sido executada (com apenas um registro, a deduplicação é irrelevante).
- 2 ou mais documentos: exige que a consolidação tenha sido executada ao menos uma vez.
O motivo da mensagem de desabilitação é exibido como tooltip no próprio botão.
Entradas, Processamento e Saídas
- Entradas: documentos brutos coletados na Fase 3, organizados por base e expressão de busca.
- Processamento: deduplicação automática em quatro camadas com métricas de funil por etapa; enriquecimento opcional de metadados via DOI (Colaborador); geração de análises de distribuição temporal, autores e periódicos.
- Saídas: coleção consolidada e deduplicada, com funil PRISMA parcial registrado, pronta como base de trabalho para a Fase 5 (Triagem); status
CONSOLIDACAO_REALIZADAgravado no projeto.
Decisões Metodológicas
| Decisão | Justificativa |
|---|---|
| Deduplicação automática em quatro camadas sem revisão par a par | Garantir que toda a deduplicação seja rastreável (métricas por camada no funil) e consistente, sem depender de julgamento manual para cada par de registros — reduz viés e tempo de execução em coleções grandes |
| DOI como primeira camada de deduplicação | O DOI é o identificador mais confiável na literatura científica; usá-lo primeiro minimiza falsos positivos nas camadas seguintes, que precisam de heurísticas de similaridade textual |
| Gate de finalização por contagem, não por execução obrigatória | Permitir que pesquisadores com coleções muito pequenas (1 documento) avancem sem forçar uma etapa desnecessária, enquanto exige a execução para volumes onde a deduplicação é relevante |
Próximos Passos
Com a coleção consolidada e deduplicada, o pesquisador avança para a Fase 5 — Triagem, onde serão definidos os critérios de exclusão automática e, em seguida, realizada a triagem manual (com possibilidade de apoio de IA) documento a documento. Veja Fase 5 — Triagem.
Referências
O PRISMA 2020 exige que o relatório da revisão informe explicitamente o número de registros removidos por duplicata e o método utilizado (item 8). O funil de consolidação do Tykyra registra exatamente essas métricas por camada, facilitando o preenchimento desse item no relato final.