Google, Internet

Novo indexador da Google: o Caffeine

caffeineA Google anunciou um novo mecanismo de indexamento de sites e conteúdos web chamado de Caffeine. Segundo a empresa o Caffeine providencia uma taxa de resultados mais recentes de cerca de 50%. Seja um post, um blog ou uma notícia, agora encontramos a informação mais cedo do que era possível anteriormente.

Para aqueles que não são especialistas em construção de motores de busca como os programadores da Google, aqui fica uma explicação de como o sistema antigo funcionava. Quando efectuávamos uma pesquisa na Web, não estávamos a varrer a web em tempo real, estávamos sim a consultar um index da Google que “catalogava” os conteúdos web à medida que os “spiders” ou “bots” da Google varriam os sites, que ajudavam a localizar os conteúdos pretendidos pelas pesquisas.

Agora o mecanismo foi melhorado, visto que a Web está num crescimento exponencial de informação actualizada hora a hora, minuto a minuto. Para manter o nível de precisão nas pesquisas a Google teve de inovar, e o novo sistema pode ser observado na seguinte imagem, onde os dois sistemas são comparados, o novo e o antigo:

O sistema antigo possuía varias camadas, algumas das quais eram “refrescadas” de forma mais frequente em relação a outras. A camada inferior era actualizada a cada 2 semanas. Isto poderia originar que houvesse uma desactualização de conteúdos, devido ao atraso de indexação.

 

Com o Caffeine a Google analisa a Web em pequenas porções e actualize o índex de forma continua. À medida que novas páginas ou nova informação é encontrada é adicionada imediatamente ao índex. Isto significa que podemos encontrar informação mais fresca do que antes era possível, independentemente do sitio ou da hora que era publicada na internet.
O Caffeine permite à Google indexar páginas a uma escala gigantesca. A cada segundo o Caffeine processa centenas de milhares de páginas em paralelo. O Caffeine possui capacidade para 100 milhões de gigabytes de armazenamento numa única base de dados, e adiciona nova informação a ela a uma taxa de centenas de milhar de gigabytes por dia.

Escrito por: Miguel


Add to Bookmarks

Etiquetas: , , ,

Um comentário

  1. [...] A Google anunciou um novo mecanismo de indexamento de sites e conteúdos web chamado de Caffeine. Segundo a empresa o Caffeine providencia uma taxa de resultados mais recentes de cerca de 50%. Seja um post, um blog ou uma notícia, agora encontramos a informação mais cedo do que era possível anteriormente. Mais… [...]

Comentar