kwi 3 2010

Przemierzanie, indeksowanie, dostarczanie wyników

Google to skomplikowana “machina” dostarczająca nam chyba najtrafniejsze wyniki spośród wszystkich znanych nam wyszukiwarek.

Czy zastanawialiście się kiedyś jak wygląda cały proces od początku? Poniżej w dużym skrócie postaram się przedstawić 3 najważniejsze kroki.

1. Przemierzanie

Jest to proces wykrywania przez Googlebota nowych oraz zaktualizowanych stron www. Googlebot (pająk, robot) to nic innego jak program (aplikacja) przemierzająca strony, podążająca za linkami umieszczonymi na innych stronach.

Proces rozpoczyna się od przemierzania stron już zaindeksowanych. Przemierzanie danej strony może być dla Googlebota znacznie ułatwione w przypadku dostarczenia mapy strony. Możemy też wyłączyć z przemierzania strony, które chcemy ukryć. Wystarczy odpowiedni wpis w pliku robots.txt.

2. Indeksacja

Indeksacja jest przetwarzaniem przemierzonych stron. Przetwarzanie to polega na budowaniu indeksu Google, opartego o różnego rodzaju parametry – słowa kluczowe, poprawne wypełnienie atrybutów tagów html, linkowanie itd.

3.Wyniki wyszukiwania

W wyniku przetworzeń powstaje indeks słów kluczowych, pozwalający na zbudowanie indeksu wyszukiwania.

Kiedy użytkownik wprowadza interesującą go frazę do wyszukiwarki, Google stara wyświetlić możliwie najtrafniejsze wyniki. Ranking tych wyników ustalany jest po wykonaniu 2 kroku. Podczas ustalania rankingu brane jest pod uwagę ponad 200 czynników!!!


mar 8 2010

Ban – czy na pewno strona dostała karę?

Nie zawsze brak naszej strony w wynikach wyszukiwania musi oznaczać bana nałożonego przez Google.

Dość powszechne są sytuacje, gdy strona pomimo spełniania wszystkich wymogów jakościowych zostaje usunięta z indeksu Google. Dlaczego tak się dzieje? Otóż roboty wyszukiwarek to nie ludzie, a więc nie widzą stron tak jak my:) Nie tyczy się to tylko treści czy grafiki, ale także sposobu w jaki strony są wywoływane. Kod który bez problemu przetwarzany jest przez przeglądarkę (dzięki temu widzimy stronę) może być nieczytelny lub wręcz niedostępny dla robotów wyszukiwarek.

Różne ustawienia serwera lub nie do końca poprawny kod mogą doprowadzić do sytuacji w której strona bez problemu wyświetli się użytkownikowi, natomiast robot nie uzyska do niej dostępu (np. błąd 500 serwera).

Pomocne może być tu narzędzie zaserwowane nam przez Google:  WebMaster Tools -> Pobierz jako Googlebot.

Jeżeli nagłówek jest nieprawidłowy powinniśmy o problemie poinformować admina serwera.