Perlaki Attila:

Weblapok keresôrendszerei

Bevezetô

Az Interneten a html szabvány bevezetése óta több, mint tízmillió weblap jelent meg, amelyben hatékony keresôrendszerek nélkül tájékozódni lehetetlen. A sort a Digital cég AltaVista rendszere nyitotta meg, abban az értelemben, ami a hatékony, automatizált keresést jelenti. Próbálkozások ezen idô elôtt is voltak, de fôleg nagy manuális munkával karbantartott tematikus linkgyûjteményeket kell értenünk ez alatt. Ma pedig már léteznek a keresôk keresôi is. Ez alatt olyan, egységes felületû lapokat kell értenünk, amelyek a bevitt mintát a különbözô keresôrendszereknek, a megfelelô formátumban átadják és egyszerre keresnek mindegyikben.

Keresôrendszerekrôl általánosan

A keresôrendszerekben közös, hogy egy lapon, a megfelelô rovatban meg kell adnunk egy vagy több szót, amely elôfordulása alapján reméljük a témába vágó lapot megtalálni. Egy szó megadása alapján egyszerûen, de nem mindig hatékonyan keresünk, ez csak nagyon ritka szó esetén lehet eredményes. (A "White House"keresésekor az egyik rendszer több, mint kétmillió találatot jelzett, legyünk tehát meggondoltak!) Több szó esetén a két leggyakoribb reakció, hogy vagy mindkét szó együttes elôfordulásait keresi a rendszer, vagy minden olyan lapot listáz, amelyekben legalább az egyik szerepel. Utóbbi esetben jóval nagyobb találati számot kapunk, ilyenkor a rendszer a kettôs találatokat elôre sorolja a listában. Bonyolultabb esetben, ha csak általános szavaink vannak túl sok találattal és valamilyen logikai kapcsolattal szeretnénk szûkíteni a találatok számát, akkor meg kell ismerkednünk a rendszer "nyelvtanával" -- errôl rövid leírást mellékeltem a keresôk egyedi leírásánál. Ha például a "White House" példánál maradunk és olyasmire vagyunk kíváncsiak, ami velünk, magyarokkal összefügg, de nem politika, akkor valami ilyesmit kell beírnunk: "White House" AND Hungar AND NOT politic. Ez persze rendszerenként változhat!

Keresôrendszerek összehasonlítása szolgáltatás szerint

AltaVista Architext [2] Einet Galaxy Hotbot InfoSeek LookSmart Lycos WebCrawler Heureka
Tétel/lap: 10 10 20 10 10 [7] 10 25 10
Leírás (sor): 2 4-5 [4] 4-5 3 [8] 3-4 [9] 2
Keresô-nyelv: + [3] [5] + + - + + +
Tematikus lista: + + + - + + + + -
Új bejelentés: + + + + [6] + + + -
Utolsó frissítés: 12.07. 01.20. ? 10.28. 10.28. ? ? ? ?
Elérési sebesség: ++ ++ + ++ ++ + + + +++
Hirdetés: [1] + + + + + + + -
Extra: + + - - - + + + +
[1] csak a Digital saját hirdetései
[2] ismert eXcite néven is
[3] fejlesztés alatt
[4] részletes önálló leírás, kulcsszavak, statisztika, értékelés
[5] nyomógombos vezérlés
[6] csak e-mail-ban lehet bejelenteni
[7] speciális megjelenítés, kategorizálás
[8] részletes önálló leírás
[9] csak title, külön kérésre 4-5 sor

Keresôrendszerek összehasonlítása találati eredmények szerint

AltaVista Architext [2] Einet Galaxy Hotbot InfoSeek LookSmart Lycos WebCrawler Heureka
"White House": 2 000 000
[100 000]
3 154 512 101 200 509 1 326 840 30
(135)
50 788 124 774 507
Magyar gépnév: 31 2 772 hiba 57 21 0 hiba 0 hiba
Magyar személynév: 1 000
[39]
19 488 0 40 10 820 0 2 682 389 39
Magyar intézmény: 20 000
[300]
9 057 0 262 3 632 0 1 943 121 470
Megjegyzés: A kiugróan magas számok oka a többszavas kifejezések szavankénti keresése, ilyenkor a teljes illeszkedés a listában elôre sorolódik. Szögletes zárójelek közt található (amennyiben erre van lehetôség) a precíz keresés eredménye. A LookSmart eredményébe a kategorizált találatok számítanak még bele.

Keresôrendszerek rövid leírása


AltaVista
http://altavista.digital.com

Népszerû keresôrendszer, viszonylag friss, nagy adatbázisú. A weblapokon kívül a USENET anyagokban is lehetôvé tesz keresést. A címhez adott leírás a lap törzsének elsô két-három sora.

Egyszerû keresésbôl külön menüpont (Advanced) segítségével jutunk a célzottabb és bonyolultabb keresôbe. Új lap bejelentéséhez (Add URL) csupán a lap URL címét kell megadni.

A keresô nyelvtana:

&,AND két szó együttes elôfordulásának keresése
|,OR két szó közül legalább az egyik keresése
!,NOT a szó kizárása a keresésbôl
~,NEAR két, nem szomszédos szó együttes keresése
() logikai kifejezés zárójelezése

Speciális hivatkozások weblap esetén:

title: title sorban keres
anchor: <a href>-ben keres
text: csak az egyszerû szövegrészben keres
applet: Java-applet osztályt keres
object: ActiveX objektumot keres
link: hivatkozó oldalakat keres a megadott címre
image: képeket keres
url: (részlegesen megadott) URL-t keres
host: hostcímet keres
domain: domaint keres

Speciális hivatkozások USENET esetén:

from: from mezôben keres
subject: subject mezôben keres
newsgroups: newsgroupot keres
summary: szót és bôvítményeit keresi
keywords: (kulcs)szót keres


Yahoo
http://www.yahoo.com

A Yahoo nem önálló keresôrendszer, hanem az AltaVistára épül, így az összehasonlításba nem került be. Kezelôfelülete eltér, számos beállítást tesz lehetôvé, ám ezek gyakorlatilag csak az Altavistától érkezô válaszok szûrésére szolgálnak. Külön kiemelendô szolgáltatás a tematikus lista megléte, új lap bejelentésekor (How to Include Your Site) itt egyúttal be is kategorizálhatjuk a lapot. A rendszer jelzi, hogy csak az utolsó három évben megjelent lapokat veszi figyelembe. Különleges szolgáltatása még, hogy e-mail címeket is megkeres, ez a szolgáltatás magyar címek esetén is eredményes lehet.

A keresô nyelvtana:

+ két szó együttes elôfordulását keresi
- a szó kizárása a keresésbôl
t: csak a title mezôben keres
u: csak az URL-ben keres
" " pontos keresés
* szótô zárása


Architext (eXcite)
http://www.excite.com

Rendkívül friss, jelenleg a legnagyobb adatbázissal rendelkezô keresô, használata ajánlott. Már néhány napos lapokat is megtalál. A weblapokon kívül a USENET-ben is képes keresni. Tematikus listával rendelkezik. Új lap bejelentése (Add URL) egyszerû, csupán a lap címét kell megadni. Keresési kifejezések egyelôre fejlesztés alatt. A leírás specialitása, hogy a szövegtörzsben megtalált minta közelébôl emel ki négy-öt sort, ha lehetséges. Különleges szolgáltatása, hogy a kapcsolódó lapok szerinti újabb keresés indítható (more like this). Egyetlen hibája, hogy a latin1/2 karaktereket nem kezeli megfelelôen.


Einet Galaxy
http://galaxy.einet.net

Gazdag leírással és értékelési rendszerrel ellátott, de nagyon szûk adatbázisú keresô, elsôsorban amerikai felhasználóknak. A weblapokon kívül gopherekbe és telnet listákra is rálát. Új lap bejelentése (Add Your Site) részletes kérdôív kitöltésével lehetséges, de magyar lapok nevezése nem célszerû. A keresési szempontokat nyomógombos felülettel állíthatjuk be. Tematikus listával rendelkezik.


Hotbot
http://www.hotbot.com

Népszerû, nagy adatbázisú keresôrendszer. A keresés alapbeállításai számos pontban módosíthatók, s ez a beállítás el is menthetô. Nem tartalmaz tematikus listát. Új lap bejelentése (Add URL) egyszerû, csupán a lap URL címét és a bejelentô e-mail címét kell megadni. Sajnos hibás, a keresési szempontoknak meg nem felelô lapok is megjelennek. Ennek ellenére jól használható keresô.

A keresô nyelvtana:

AND szavak együttes keresése
OR szavak közül bármelyik keresése
NOT szó kizárása a keresésbôl
() logikai kifejezés zárójelezése


InfoSeek
http://www.infoseek.com

Nagy adatbázisú, jól használható keresôrendszer. Tematikus listával is rendelkezik. Kiemelendô precíz adatszolgáltatása és keresônyelvének fejlettsége. Új lap bejelentése csupán e-mailben lehetséges (www-request@infoseek.com).

A keresô nyelvtana:

nagy kezdôbetûk:
csak pontosan megfelelô szavakat keres (egyébként kis- és nagybetûseket egyaránt)
, több szavas kifejezések elhatárolása egymástól
" " pontos keresés (a szavak közé tett kötôjel hatása ugyanez)
+ a megadott szó fontosságát jelzi (elôre rendezés a listában)
- a megadott szó kizárása a keresésbôl
| a megadott szavak közül egyet keres
link: hivatkozást keres
site: URL vége alapján keres (pl. uni-miskolc.hu)
url: URL bármely részlete szerint keres (pl. lib)
title: <title> sorban keres


Internet Search
http://home.mcom.com

Nem önálló keresô, hanem több ismert keresôrendszerhez (AltaVista, Yahoo, eXcite, InfoSeek, Lycos) biztosít kaput.


LookSmart
http://www.looksmart.com

Nem hagyományos keresôrendszer és csak amerikai lapokkal foglalkozik. Igen gazdag leírást ad és tematikusan dolgozik, ám adatbázisa igen szegényes. Új bejelentés (Suggest Site) esetén egy igen részletes kérdôívet kell kitölteni, de magyar lap nevezése itt nem célszerû. A lap megjelenése roppant elegáns, ez azonban a szûk sávszélesség miatt szükségessé teszi a Simple módra való átkapcsolást, s maga a keresô is csak a Searc menübôl nyílik. Innen azonban ismert keresôrendszereket is hívni lehet (AltaVista, Yahoo, eXcite, InfoSeek, Lycos).


Lycos
http://lycos.cs.cmu.edu

Nagyon szépen felszerelt, gazdag választékot nyújtó keresôrendszer. Bár nem tartozik a legnagyobb adatbázisú keresôk közé, eredményesen használható. Tematikus listával rendelkezik. A weblapokon kívül gophereket, ftp archívumokat, e-mail címeket, képeket és hangállományokat is megtalál. Külön kiemelendô szolgáltatása a TOP 5%. Sajnos direkt címmegadásra hibásan reagál, illetve a találati listában felbukkannak megmagyarázhatatlan, a keresési feltételnek meg nem felelô oldalak is. Új lap bejelentése (Add Your Site to Lycos) egyszerû, csupán a lap URL és a bejelentô e-mail címét kell megadni.

A keresô nyelvtana:

- a megadott szó a keresésbôl kizárva
. a szó bôvített formáit nem keresi
$ a szó bôvített formáit is keresi


WebCrawler
http://webcrawler.com

Ismert keresôrendszer. Eredménylistája tömör, külön kérésre ad leírást az elsô négy-öt sor alapján. Adatbázisa szûkebb, kevésbé friss. Tematikus listával rendelkezik. Új lap bejelentése (Add URL) egyszerû, csupán a lap címét kell megadni.

A keresô nyelvtana:

AND két szó együttes keresése
OR két szó közül legalább az egyik keresése
NOT a szó kizárása a keresésebôl
ADJ két szó együttes keresése a sorrend figyelembevételével
NEAR/n két szó együttes keresése n szó távolságig
" " pontos keresés
( ) logikai kifejezés zárójelezése


WWWWorm
http://wwww.cs.colorado.edu/wwww

Egy elavult amerikai keresô, amely, bár képes néhány egzotikus szolgáltatásra, nem szolgáltat használható eredményt, s így az összehasonlításba sem került be.


Heureka
http://heureka.net.hu

Új keresôrendszer és ami a legfontosabb, magyar! Adatbázisa nagy, magyar vonatkozásban frissebb, mint a legtöbb keresôrendszeré. A weblapokon kívül a HIX archívumba és a HuDir listába lát bele. Új lap bejelentése itt nem lehetséges, ehhez a KiKi-t, vagy a HuDir-t kell használnunk. A weblapról az elsô két sort idézi. A rendszerben idônként még felbukkannak hibák, ezek javítása folyamatos. Magyar lap keresésekor használata ajánlott!

A keresô nyelvtana:

AND, ES két szó együttes keresése
OR, VAGY két szó közül legalább az egyik keresése
NEAR, MELLETT két, nem szomszédos szó együttes keresése
* (szó végén) toldalékolt alakokra is keres