Mapa do site

Entre em contato

Av. Ipiranga, 6929 - 3º andar
Jardim Botânico Porto Alegre/RS
CEP: 91530-001
Fone/Fax: 51 3322.3334
E-mail: imma@imma.com.br

  • * Campos Obrigatórios









Latent Semantic Indexing e sua relação com o SEO



Por Diego A. Hinojosa Foronda

  • Aumentar Fonte
  • Diminuir Fonte

Mostra-se neste artigo uma visão geral do que é, as vantagens, as limitações da Indexação Semântica Latente (mais conhecida como LSI) e sua relação com o SEO.


Conhecendo o LSI

Em abril de 2003 o Google compra a Applied Semantics[1] empresa que oferecia entre seus produtos publicidade em internet só que com o diferencial de usar processamento semântico no texto. É a partir desta aquisição que começa a se falar que o Google incorpora o LSI (Latent Semantic Indexing) em seu sistema. A notícia desta aquisição e, sobretudo, a incorporação do LSI na ferramenta de busca é muito comentada por todas as pessoas que trabalham com SEO (Search Engine Optimization) devido às novas possibilidades que traz esta técnica, virando desta forma o LSI um termo popular no mundo SEM.


A Origem do Método

O LSI foi um trabalho de investigação realizado por M.W. Berry, S.T. Dumais, e A.T. Shippy [2], neste trabalho é mostrado um estudo detalhado sobre esta técnica a sua aplicabilidade, entre as áreas de aplicação encontra-se cross-language, clustering e Recuperação de Informação, áreas ligadas diretamente com as ferramentas de busca. A partir desse trabalho foram realizados vários estudos em torno do LSI, tentando explorar as vantagens que oferece esta técnica.


O Porque do Método

Este método oferece uma análise semântica intrínseca dos termos em todos os documentos indexados, ou seja, este método trabalha com a sinonímia e polissemia. Por exemplo, para a consulta "venda de carros" feita a uma ferramenta de busca que usa LSI o sistema retornará documentos que contenham as frases "venda de carros" e "venda de automóvel" já que carro e automóvel são sinônimos. Da mesma forma, em uma consulta por "banco de dados", o resultado da consulta serão somente documentos que contenham uma relação de "banco de dados" deixando por fora documentos que se referem à banco como entidade financeira e banco como objeto de descanso.


O Método LSI

Poder-se-ia dizer que é o LSI é uma evolução do modelo vetorial, já que trabalha com vários vetores coluna, criando desta forma uma matriz, que nas linhas estão representados os termos indexados de cada documento e nas colunas o documento, desta forma é criada a relação à matriz termo-documento. Explicando melhor esta relação, seja ti a linha e dj a coluna da matriz, e seja o elemento da matriz Oij que representaria o número de vezes que o termo i aparece no documento j. Após criar esta matriz termo-documento, é aplicado o SVD (Simple Value Decomposition), esta decomposição divide a matriz termo-documento em três matrizes: a matriz U que contém os termos, a matriz S que contém os valores mais representativos da matriz termo-documento (os valores singulares da matriz) e a matriz V que contém os documentos. Uma vez criadas estas três matrizes é escolhido um tamanho (nível k) para trabalhar com as três matrizes. Escolhido este valor, são criadas três matrizes (que serão chamadas U', S' e V') de nível k, a estas três novas matrizes é multiplicado o vetor Q, que representa uma consulta. O resultado desta multiplicação será um vetor cujo conteúdo é uma lista dos documentos mais relevantes para a consulta fornecida.


Como funciona o LSI

Uma vez indexados os termos de cada documento (p.e. uma página web) e criada a relação termo-documento é aplicado o SVD, o resultado desta decomposição vão ser três matrizes "otimizadas". Foram chamadas de otimizadas porque nestas três matrizes vão ser eliminados dados que não contribuem na matriz termo-documento, uma vez escolhido o nível das matrizes U', S' e V' as matrizes estão prontas para receber as consultas fornecidas ao sistema. O resultado da consulta feita ao sistema será uma lista ordenada por relevância dos documentos que são mais relevantes para a consulta fornecida.


Desvantagens do LSI

O LSI principalmente apresenta uma limitação técnica e uma desvantagem. A limitação técnica é que se alguma empresa ou alguém quer excursionar em trabalhar com o LSI (desenvolver um produto, aplicar dentro do site, etc.) tem que ter um bom conhecimento em álgebra linear aplicada. A desvantagem é que o tempo de processamento vai depender do número de páginas e termos indexados, aplicar para um web site fica viável, mas incorporar dentro de uma ferramenta de busca implica investir, além do conhecimento técnico, em hardware já que o processamento da matriz é muito demorado. O Google é a única ferramenta de busca (ou pelo menos que foi divulgado) que integrou em seus resultados o uso do LSI possibilitando desta forma a busca por sinônimos, ou seja, se um site for modificado de acordo com o LSI, este site perderia o posicionamento nas outras ferramentas de busca. Esta possibilidade de buscar por sinônimos no Google é possível só quando é usado um comando que indica ao Google que mostre os resultados por sinônimos, este é um problema para os SEOs, já que o Google ao não integrar esta forma de busca de forma natural dificulta que o usuário encontre os resultados com e sem sinônimos para a consulta realizada, já que muitos usuários não têm conhecimento da existência destes comandos e não têm costume de usá-los.


O uso do LSI permite ao profissional de SEO escrever conteúdo que possa ser encontrado por uma palavra-chave ou por um sinônimo dessa palavra chave. Esta possibilidade claramente é uma ajuda para o SEO na hora de escrever conteúdo para o site, e para o usuário oferece uma leitura mais agradável (já que a mesma palavra-chave ou frase-chave não vai aparecer repetidamente na mesma página) e o spam diminuiria consideravelmente.


Veja outros artigos:



Saiba mais sobre os seus clientes. Torne-os satisfeitos trazendo as informações e ofertas que são importantes para eles e alcance excelente resultados sobre o seu investimento..

Imma Agência Interativa - Av. Ipiranga, 6929 - 3º andar - Jardim Botânico - Porto Alegre/RS - CEP:91530-001 - Fone/Fax: 51 3322.3334