Dzisiaj jest wtorek, 02 grudnia 2008 r. 337 dzien roku
Languages:ar | id | bg | ca | ceb | cs | da | de | et | en | es | eo | fr | he | hr | it | ko | lt | hu | nl | ja | no | pl | pt | ru | ro | sk | sl | sr | fi | sv | te | tr | uk | zh






REKLAMA
mp3

Motore di ricerca

Da Wikipedia, l'enciclopedia libera.

Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da lui stesso raccolti e restituisce un indice dei contenuti disponibili classificandoli in base a formule matematiche che ne indichino il grado di rilevanza data una determinata chiave di ricerca.

Uno dei campi in cui i motori di ricerca trovano maggiore utilizzo è quello dell'Information Retrieval e nel web.

Indice

[modifica] Motori di ricerca per il Web

Esistono numerosi motori di ricerca attivi sul Web. Il più utilizzato, su scala mondiale (con un indice che supera gli 8 miliardi di pagine), è Google; molto usati anche Live (motore di ricerca della Microsoft), Yahoo! , Ask. Da segnalare il tentativo di creare il primo motore di ricerca europeo, Quaero concorrente di Google con una iniziativa franco-germanica. Il progetto, stimato attorno i 400 milioni di dollari, è stato abbandonato dopo pochi mesi per la rinuncia da parte della compagnia tedesca.

Fra i motori di ricerca nati in Italia quelli maggiormente utilizzati nel nostro paese sono Libero, Virgilio e Diventa Milionario. Tuttavia non sono veri motori di ricerca giacché si limitano a riutilizzare Google. Libero e Diventa Milionario ne evidenziano chiaramente il logo, mentre Virgilio ne usa i risultati senza evidenziarne la fonte, limitandosi solo ad aggiungere alcuni propri risultati sponsorizzati.

Anno Motore Evento
1993 Aliweb Lancio
1994 Bandiera degli Stati Uniti WebCrawler Lancio
Bandiera degli Stati Uniti Infoseek Lancio
Bandiera degli Stati Uniti Lycos Lancio
1995 Bandiera degli Stati Uniti AltaVista Lancio
Magellan Lancio
Bandiera degli Stati Uniti Excite Lancio
Bandiera del Portogallo SAPO Lancio
1996 Bandiera degli Stati Uniti Dogpile Lancio
Bandiera degli Stati Uniti Inktomi Fondazione
Bandiera degli Stati Uniti HotBot Fondazione
Bandiera degli Stati Uniti Ask.com Fondazione
1997 Bandiera degli Stati Uniti Northern Light Lancio
Bandiera della Russia Yandex Lancio
1998 Bandiera degli Stati Uniti Google Lancio
1999 Bandiera della Norvegia AlltheWeb Lancio
Bandiera della Corea del Sud Naver Lancio
Bandiera degli Stati Uniti Teoma Fondazione
Bandiera degli Stati Uniti Vivísimo Fondazione
2000 Bandiera della Cina Baidu Fondazione
Bandiera della Francia Exalead Lancio
2003 Info.com Lancio
2004 Bandiera degli Stati Uniti Yahoo! Search Lancio finale
Bandiera degli Stati Uniti A9.com Lancio
2005 Bandiera degli Stati Uniti Windows Live Search Lancio finale
Bandiera degli Stati Uniti Ask.com Lancio
Bandiera degli Stati Uniti GoodSearch Lancio
2006 Bandiera dell'Italia Trovit Lancio
Bandiera degli Stati Uniti Wikiseek Fondazione
Bandiera dell'Unione europea Quaero Fondazione
Bandiera degli Stati Uniti Ask.com Lancio
Bandiera degli Stati Uniti Windows Live Search Lancio
Bandiera degli Stati Uniti ChaCha Lancio beta
Bandiera dell'India Guruji.com Lancio beta
2007 Bandiera degli Stati Uniti Wikiseek Lancio
Bandiera degli Stati Uniti Wikia Search Lancio
2008 Bandiera degli Stati Uniti Cuil Lancio
2008 Bandiera dell'Italia Diventa Milionario Experimental Version
2008 Wauuu Experimental Version

[modifica] Funzionamento

La maggior parte dei motori di ricerca che opera sul web è gestito da compagnie private che utilizzano algoritmi proprietari e database tenuti segreti. Esistono comunque diversi tentativi di dar vita a motori di ricerca fondati sul software libero, alcuni esempi sono: HTdig [1], Nutch [2], Egothor [3] e OpenFTS [4].

[modifica] Le fasi

Il lavoro dei motori di ricerca si divide principalmente in tre fasi:

  • analisi del campo d'azione (tramite l'uso di crawler appositi);
  • catalogazione del materiale ottenuto;
  • risposta alle richieste dell'utente;

[modifica] Analisi

Per analizzare il web i motori di ricerca utilizzano dei programmi detti crawler (o spider o robot), che si occupano di visitare automaticamente gli URI contenuti nel database e seguire i successivi URI che trovano all'interno dei documenti analizzati, inserendo di volta in volta nel database tutte le informazioni "sensibili" della pagina (il contenuto testuale, varie informazioni su di essa come la data di ultimo aggiornamento, e altro).

[modifica] Catalogazione

Dopo l'analisi delle pagine, a seconda di criteri che variano da motore a motore, alcune di esse vengono inserite nel database e nell'indice del motore di ricerca.

La parte testuale archiviata durante la fase di analisi verrà in seguito analizzata per fornire le risposte alle ricerche degli utenti. Molti motori di ricerca sul web rendono anche disponibile una copia dei dati testuali di ogni pagina archiviata per quando la risorsa originale sia irraggiungibile: questa funzione è detta Copia cache.

[modifica] Risposta

Rispondere alle richieste degli utenti implica la necessità di elencare i siti in ordine di rilevanza rispetto alla richiesta ricevuta.

Per stabilire la rilevanza di un sito vengono cercate nel database quei documenti che contengono la parola chiave inserita dall'utente, dopodiché ogni motore di ricerca sfrutta propri algoritmi per classificare le pagine, controllando, per esempio, quante volte le parole chiave vengono ripetute, quanti link riceve quel documento, in quali punti della pagine sono poste le parole chiave, quanti siti del database contengono link verso quella pagina, o quante volte un utente ha visitato quel sito dopo una ricerca.

[modifica] Risultati sponsorizzati

I motori di ricerca forniscono anche risultati sponsorizzati, ovvero mostrano in maggiore evidenza nelle SERP (Search Engine Result Pages, Pagine dei risultati dei motori di ricerca) siti web di aziende che pagano per risultare tra i primi risultati quando si cercano termini (detti keyword o parole chiave) che sono in relazione all'ambito di competenza dell'azienda stessa. I risultati sponsorizzati dei motori possono apparire anche sui siti che partecipano al loro programma di affiliazione. In particolar modo, Google permette di far apparire nelle proprie SERP (chiaramente distinti dai risultati "naturali") risultati a pagamento comprati con il programma AdWords. In aggiunta a questo offre anche un servizio di sponsorizzazione che si rivolge a tutti i siti che hanno determinati requisiti, chiamato AdSense. Google AdSense (spesso abbreviato con Google AS) usa le capacità del motore di ricerca di interpretare il tema della pagina in cui è posizionato l'apposito codice per fornire annunci a tema. Yahoo! Search ha annunciato l'arrivo di un programma analogo chiamato Panama.

[modifica] Raffinazione della ricerca

La possibilità di raffinazione della ricerca varia da motore a motore, ma la maggior parte permette di utilizzare operatori booleani: ad esempio è possibile cercare "Ganimede AND satellite NOT coppiere" per cercare informazioni su Ganimede inteso come pianeta e non come figura mitologica.

Su Google e sui motori più moderni è possibile raffinare la ricerca a seconda della lingua del documento, delle parole o frasi presenti o assenti, del formato dei file (Microsoft Word, PDF, PostScript, ecc.), a seconda della data di ultimo aggiornamento, e altro ancora. È anche possibile cercare contenuti presenti in un determinato sito, ad esempio "Ganimede site:nasa.gov" cercherà le informazioni su Ganimede presenti sul sito della NASA.

Su Exalead ci trova una parte speciale per raffinare la ricerca più intuitivamente.

[modifica] Motori di ricerca più utilizzati

  • Google (www.google.com) che, oltre ad essere di gran lunga il più usato direttamente, è anche quello con il maggior numero di siti che ne utilizzano il database, anche a causa del programma di sponsorizzazione "AdSense per la ricerca" che appartiene al più vasto programma AdSense.
  • Yahoo! (www.yahoo.it)
  • Windows Live Search (www.live.com) (Live Search è il motore creato dalla Microsoft ed usato da Microsoft Network, meglio noto come MSN).
  • Ask.com (www.ask.com) usato dalla versione italiana di Excite per un rapporto di partnership.

Queste quattro tecnologie proprietarie sono utilizzate da una quantità sterminata di provider e di metamotori di ricerca (il cui nome deriva proprio dal pescare i propri risultati da più motori, come il metamotore incorporato nel portale Excite). A più riprese Microsoft ha provato a comprare Yahoo!, cosa che avrebbe portato ad un ulteriore accorpamento e riduzione delle tecnologie proprietarie in campo a causa della fusione di Live (il motore della Microsoft) e Yahoo! Search. L'ultimo rifiuto di Yahoo è riportato dal Wall Street Journal in data 6/5/2007 (a fronte di un'offerta di circa 50 miliardi di dollari da parte della società fondata da Bill Gates).

L'unico motore con una tecnologia proprietaria in qualche modo affiancabile come utenza ai quattro big è il cinese Baidu (www.baidu.com) (la cui inferiorità tecnologica è palese, ma che attinge ad un bacino di utenza tanto vasto quanto in crescita, sebbene appartenente ad una sola nazione).

Parte delle descrizioni dei siti presentate nei risultati di ricerca dai principali motori sono importate da DMOZ - ODP. ODP, acronimo di Open Directory Project, non è un motore ma una open directory (basata su listing e recensioni fatte da esseri umani, anche se esistono alcuni meccanismi automatici per eliminare i siti deceduti). È stata creata da Netscape, a sua volta comprata da AOL nel 1998 per quasi 25 miliardi di dollari, ed appartiene tuttora ad AOL (che è la divisione internet di Time Warner, divisione della quale Google ha una modesta partecipazione azionaria).

[modifica] In Italia

  • Google è utilizzato anche da Libero, Arianna, Tiscali e Diventa Milionario (per un rapporto di partnership). In Italia il divario fra l'utilizzo di Google e degli altri è talmente vasto che, pur essendo i dati ovviamente variabili, la percentuale delle ricerche effettuate su Google è pari ad un multiplo della somma di tutti gli altri motori di ricerca messi assieme.
  • Yahoo! è utilizzato anche da AltaVista, che venne acquistata indirettamente da Yahoo quando quest'ultimo acquisì Overture, nonché da Kataweb per un rapporto di partnership.
  • Virgilio.it ([5]) è legato a Google da un rapporto di partnership da diversi anni e ne importa (cosa immediatamente verificabile da chiunque) i risultati di ricerca con minime modifiche come aggiungere propri risultati sponsorizzati ed accorpare quelli che fanno riferimento allo stesso dominio.

[modifica] Prospettive di sviluppo

Le più recenti innovazioni nella produzione di algoritmi e di sistemi di Information Retrieval si basano sull'analisi semantica dei termini e sulla conseguente creazione di reti semantiche. Lo stesso Google ha adottato sistemi per la prevenzione dell'errore e la contestualizzazione dei risultati.

È lecito prevedere che nel giro di alcuni anni i motori di ricerca baseranno le proprie tecnologie sia sull'analisi quantitativa dei contenuti (le parole in sé), sia soprattutto su quella qualitativa (il senso delle parole). I motori di ricerca saranno, ad esempio, in grado di distinguere il senso della parola "pesca" a seconda di quale sia il contesto in cui la parola è contenuta (capire se sia il frutto, la disciplina sportiva, o altro). Per muoversi in questa direzione Google ha acquisito Oingo (un tempo noto come "il motore dei concetti") e la tecnologia dell'azienda che lo creò, la Applied Semantics.

[modifica] Il futuro dei motori di ricerca

La nuova frontiera dei motori di ricerca è il web 2.0. Adottando questa logica molti motori e directory internazionali puntano a una maggiore partecipazione degli utenti nella creazione dei contenuti dei motori di ricerca, in modo da eliminare qualsiasi ricorso a spider o a link sponsorizzati. Con questa logica gli utenti possono segnalare essi stessi i link e decidono se dare o meno popolarità ai siti segnalati. I principali progetti sviluppati su questa logica sono al momento solo stranieri, in Italia il primo motore di ricerca che ha adottato tale logica è Ggoal.

[modifica] Voci correlate

[modifica] Collegamenti esterni


Polska, Dolar, Forex


Wikipedia jest zarejestrowanym znakiem towarowym Wikimedia Foundation
Wszystkie materia³y pochodz¹ z Wikipedii, obiête s¹ licencj¹ GNU Free Documentation License