The importance of prior probabilities for entry page search

conference paper
An important class of searches on the world-wide-web has the goal to find an entry page (homepage) of an organisation. Entry page search is quite different from Ad Hoc search. Indeed a plain Ad Hoc system performs disappointingly. We explored three non-content features of web pages: page length, number of incoming links and URL form. Especially the URL from proved to be a good predictor. Using URL form priors we found over 70% of all entry pages at rank 1, and up to 89% in the top 10. Non-content features can easily be embedded in a language model framework as a prior probability.
Een belangrijke groep zoekopdrachten op het internet heeft ten doel de startpagina of 'entry page' van een organisatie te vinden. Zoeken naar een startpagina verschilt sterk van algemeen of 'Ad Hoc' zoeken. De resultaten van een simpel algemeen zoeksysteem zijn teleurstellend.

In het rapport wordt gekeken naar drie aspecten van internetpagina's die niet met de inhoud te maken hebben: paginalengte, aantal inkomende links en URL-vorm. Vooral de URL-vorm bleek een goede voorspellende waarde te hebben. Met URL-vorm a-priori's vonden de auteurs meer dan 70% van alle startpagina's met rang 1 en tot 89% van de top-10. Kenmerken die niet met de inhoud te maken hebben kunnen eenvoudig worden opgenomen in het raamwerk van een taalmodel als a-priori waarschijnlijkheid.
TNO Identifier
236826
ISSN
01635840
Source title
Proceedings of the Twenty-Fifth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 11 August 2002 through 15 August 2002, Tampere
Editor(s)
Beaulieu M.
Baeza-Yates R.
Myaeng S.H.
Jarvelin K.
Pages
27-34