SEO Costruire Motore Ricerca

08/06/2006 by - Internet, SEO

Dopo due settimane dall’inaugurazione il blog è stato inserito nel motore di ricerca della grande G e compagnia. I precedenti articoli e tutorial scritti tempo fa su vari spazi offerti da Altervista.org rimarranno online ma non verranno aggiornati. Per cercare di ottimizzare l’indicizzazione ho seguito le principali regole della SEO senza utilizzare tecniche di spamming e utilizzato il mod_rewrite di apache, strumento efficace ma con una sintassi abbastanza particolare.

Parlando con un amico mi sono ritrovato a rispondere a domande sui motori di ricerca cercando di dargli una risposta di non troppo difficile interpretazione.

Ma come funzionano questi “motori di ricerca” ?? Ne voglio fare uno pure io e indicizzare il mio sito su tutti motori…

I prerequisiti per costruirsi da soli un motore di ricerca sono essenzialmente 3: una macchina collegata alla rete, un bot (Web Crawler/Web Spider o più semplicemente script), un front end (una pagina di ricerca).

Il bot si occuperà (seguendo un determinato algoritmo) di catalogare e ordinare le pagine web (salvataggio su DBRMs).

Non dovrà essere troppo invasivo (pensate al vostro sito preso di “mira” da bot malformati con centinaia di richieste al secondo…) onde evitare DOS

Non dovrà catalogare le pagine escluse dal protocollo robots.txt

Dovrà contenere delle politiche anti-spamming: le tecniche utilizzate (spesso in buona fede) dai webmaster portano a pesanti penalizzazioni, addirittura al ban del dominio!

[Politiche interne MR]

Altre penalizzazioni dette parametri off page: la società di posizionamento X aiuta il sito Y, la società del motore di ricerca Z che non gradisce per i più svariati motivi X e blacklista Y indipendentemente dal fatto che il sito avesse posto in essere delle pratiche di spamming.

Brett Tabke

[/Politiche interne MR]

Ma che cosa sono le pratiche di spamming?

Scriverò qualche post sull’argomento, dopo tanti test è ora di procedere con la pubblicazione dei risultati, spesso contrastanti fra un sito e l’altro.
Fantastico, possiamo iniziare con il codice??

Torniamo al nostro di motore.. si può iniziare con la preparazione di un algoritmo di catalogazione. Siccome sono 10 anni che esistono motori di ricerca ed esiste già una branchia dell’informatica che si occupa del reperimento di documenti elettronici prepariamoci ad una full immersion su

Information Retrieval

Inizialmente il numero di documenti/pagine web online era limitato a quelche migliaia, oggi se ne contano decine di miliardi; un numero destinato a crescere esponenzialmente nei prossimi anni. Le tecniche di indicizzazione praticate dai primi motori di ricerca si sono rivelate obsolete (text-matching) per sottostare all’enorme quantità di dati. Cause non meno importanti l’ambiguità di molti termini del nostro dizionario, la mancanza di una struttura semantica per la rappresentazione delle informazioni, l’uso sconsiderato di tecniche di spam.

Per approfondire l’argomento un’ottima lettura si è rivelata questo testo http://elite.polito.it/tesi/macagno.pdf

Il codice? Semplice: non cè!



Lascia un commento

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.