Sistemas de indexação de uma forma em geral utilizam anéis de sinônimo para resolver problemas em entender o que o usuário quer na busca. Ou seja, será necessário que na programação seja incluída a variação das palavras através de um vocabulário. Se tenho uma loja de informática, obviamente que meu vocabulário terá palavras de informática, como lap top. Uma será a palavra oficialmente utilizada, as demais seguem lógicas linguistícas e de digitação.
Por exemplo: Lap top = laptop = laprop… Neste caso, também se trabalha com os sinônimos, compondo assim o chamado anel de sinônimos. O resultado é o famoso “Você Quis Dizer Isso___” recurso muito conhecido do Google. Ocorre que ferramentas de Inteligência Artificial (IA) ocupam cada vez mais espaço no mundo da informação e essas plataformas de tratamento de informação acabam incorporando este árduo trabalho dos anéis de sinônimos.
Hoje em dia também utiliza-se separadores de palavras (tokenizadores) e lematizadores que executam análise lingüística dos dados indexados e do texto completo. Plataformas de IA como Autonomy ou Fast, só para citar duas, acabam incorporando outras funcionalidades linguísticas, deixando de fato para os anéis as relações de sinonímia. Por exemplo, lematização ou stemming, serve para reduzir uma palavra a sua raiz. Ele busca a conjugação do verbo e chega à sua matriz. São tirados os plurais, os gêneros são arrumados, prefixos e sufixos são extraídos. Logo, cria-se um termo indexado e uma fila de variações de palavras que acabam indexando o conteúdo. Por exemplo, “executando”, “executou” e “executor” são várias formas da palavra “executar”.
Outro recurso na questão da busca é em relação à linguagem humana e a linguagem de indexação, entra em cena a lista de stopwords é uma lista com palavras irrelevantes para efeito de indexação de documentos, como preposições, pronomes e artigos: o, a, é, um, dois, tu, tua, tudo, etc.
Isso tudo gera a tabela de termos indexada, que é utilizada na hora da busca para o cálculo da relevância. Mas aí já é outra história.