
Mostra-se neste artigo uma visão geral do que é, as vantagens, as limitações da Indexação Semântica Latente (mais conhecida como LSI) e sua relação com o SEO.
Em abril de 2003 o Google compra a Applied Semantics[1] empresa que oferecia entre seus produtos publicidade em internet só que com o diferencial de usar processamento semântico no texto. É a partir desta aquisição que começa a se falar que o Google incorpora o LSI (Latent Semantic Indexing) em seu sistema. A notícia desta aquisição e, sobretudo, a incorporação do LSI na ferramenta de busca é muito comentada por todas as pessoas que trabalham com SEO (Search Engine Optimization) devido às novas possibilidades que traz esta técnica, virando desta forma o LSI um termo popular no mundo SEM.
O LSI foi um trabalho de investigação realizado por M.W. Berry, S.T. Dumais, e A.T. Shippy [2], neste trabalho é mostrado um estudo detalhado sobre esta técnica a sua aplicabilidade, entre as áreas de aplicação encontra-se cross-language, clustering e Recuperação de Informação, áreas ligadas diretamente com as ferramentas de busca. A partir desse trabalho foram realizados vários estudos em torno do LSI, tentando explorar as vantagens que oferece esta técnica.
Este método oferece uma análise semântica intrínseca dos termos em todos os documentos indexados, ou seja, este método trabalha com a sinonímia e polissemia. Por exemplo, para a consulta "venda de carros" feita a uma ferramenta de busca que usa LSI o sistema retornará documentos que contenham as frases "venda de carros" e "venda de automóvel" já que carro e automóvel são sinônimos. Da mesma forma, em uma consulta por "banco de dados", o resultado da consulta serão somente documentos que contenham uma relação de "banco de dados" deixando por fora documentos que se referem à banco como entidade financeira e banco como objeto de descanso.
Poder-se-ia dizer que é o LSI é uma evolução do modelo vetorial, já que trabalha com vários vetores coluna, criando desta forma uma matriz, que nas linhas estão representados os termos indexados de cada documento e nas colunas o documento, desta forma é criada a relação à matriz termo-documento. Explicando melhor esta relação, seja ti a linha e dj a coluna da matriz, e seja o elemento da matriz Oij que representaria o número de vezes que o termo i aparece no documento j. Após criar esta matriz termo-documento, é aplicado o SVD (Simple Value Decomposition), esta decomposição divide a matriz termo-documento em três matrizes: a matriz U que contém os termos, a matriz S que contém os valores mais representativos da matriz termo-documento (os valores singulares da matriz) e a matriz V que contém os documentos. Uma vez criadas estas três matrizes é escolhido um tamanho (nível k) para trabalhar com as três matrizes. Escolhido este valor, são criadas três matrizes (que serão chamadas U', S' e V') de nível k, a estas três novas matrizes é multiplicado o vetor Q, que representa uma consulta. O resultado desta multiplicação será um vetor cujo conteúdo é uma lista dos documentos mais relevantes para a consulta fornecida.
Uma vez indexados os termos de cada documento (p.e. uma página web) e criada a relação termo-documento é aplicado o SVD, o resultado desta decomposição vão ser três matrizes "otimizadas". Foram chamadas de otimizadas porque nestas três matrizes vão ser eliminados dados que não contribuem na matriz termo-documento, uma vez escolhido o nível das matrizes U', S' e V' as matrizes estão prontas para receber as consultas fornecidas ao sistema. O resultado da consulta feita ao sistema será uma lista ordenada por relevância dos documentos que são mais relevantes para a consulta fornecida.
O LSI principalmente apresenta uma limitação técnica e uma desvantagem. A limitação técnica é que se alguma empresa ou alguém quer excursionar em trabalhar com o LSI (desenvolver um produto, aplicar dentro do site, etc.) tem que ter um bom conhecimento em álgebra linear aplicada. A desvantagem é que o tempo de processamento vai depender do número de páginas e termos indexados, aplicar para um web site fica viável, mas incorporar dentro de uma ferramenta de busca implica investir, além do conhecimento técnico, em hardware já que o processamento da matriz é muito demorado. O Google é a única ferramenta de busca (ou pelo menos que foi divulgado) que integrou em seus resultados o uso do LSI possibilitando desta forma a busca por sinônimos, ou seja, se um site for modificado de acordo com o LSI, este site perderia o posicionamento nas outras ferramentas de busca. Esta possibilidade de buscar por sinônimos no Google é possível só quando é usado um comando que indica ao Google que mostre os resultados por sinônimos, este é um problema para os SEOs, já que o Google ao não integrar esta forma de busca de forma natural dificulta que o usuário encontre os resultados com e sem sinônimos para a consulta realizada, já que muitos usuários não têm conhecimento da existência destes comandos e não têm costume de usá-los.
O uso do LSI permite ao profissional de SEO escrever conteúdo que possa ser encontrado por uma palavra-chave ou por um sinônimo dessa palavra chave. Esta possibilidade claramente é uma ajuda para o SEO na hora de escrever conteúdo para o site, e para o usuário oferece uma leitura mais agradável (já que a mesma palavra-chave ou frase-chave não vai aparecer repetidamente na mesma página) e o spam diminuiria consideravelmente.
Veja outros artigos: