Wikipédia:Keresőmotor-teszt
Ezen az oldalon egy technikai leírást olvashatsz a Wikipédia szerkesztéséről. Tartsd szem előtt, hogy nem minden ajánlott, ami technikailag megvalósítható! |
Az oldal tartalma dióhéjban: A keresőmotorok kifinomult programok, melyeket könnyű használni. Sokkal nehezebb azonban a kapott információkat megfelelően értelmezni és értékelni. Mint minden programnak, a keresőknek is vannak hibáik és hiányosságaik, amiket meg lehet kerülni, ám ehhez ismerni kell azok természetét. Ezeken kívül van néhány egyszerű trükk is, ami segíthet a világháló átfésülésében. |
A keresőmotorok lehetővé teszik, hogy gyorsan és hatékonyan megtaláljunk egy kifejezést a világháló indexelt lapjain. Hasznos eszközök, ha egy cikk forrásait, nevezetességét vagy tényszerűségét szeretnénk megvizsgálni, vagy épp egy fogalom elterjedt megnevezésére van szükségünk (akár egy cikk neve esetén is).
- Megjegyzés: Ebben a cikkben a Google szerepel példaként, ám a leírtak szinte minden keresőmotor esetén működnek.
A tesztről általában
[szerkesztés]Mire jó?
[szerkesztés]Egy Google-teszt eredményei a Wikipédián több módon is felhasználhatók:
- Népszerűség – egy fogalom ismertségének megállapítása (a klasszikus „Google-teszt”);
- Gyakoriság – valamely kifejezés előfordulása (hasznos, ha az adott kifejezés elterjedése vitatott);
- Valóságtartalom – leellenőrizhető (általában), hogy egy kijelentés valós-e;
- Nevezetesség – megvizsgálható, hogy egy téma saját berkein kívül is nevezetes-e;
- Forráskeresés – valamely témához kereshetünk megfelelő forrásokat (nyomtatott és elektronikus formában is);
- Bővebb információ – szócikkekben is felhasználható tények és idézetek felkutatása;
- Elnevezés és szakkifejezések – kikereshető egy fogalom pontos megnevezése vagy alternatív nevei;
- Szerzői jog tesztje – könnyedén kideríthető, hogy egy cikk (vagy -részlet) szó szerinti (vagy közel szó szerinti) másolata-e valamely weblapnak. Gyakran tisztázható egy-egy információforrás szerzői jogi státusza illetve a jogtulajdonosok kiléte.
Ha megfelelően értelmezzük a kereső nyújtotta adatokat, nagy segítségünkre lehet a Wikipédia szerkesztésében, ellenkező esetben hasznavehetetlen vagy akár félrevezető is lehet. A legfontosabb (és legnehezebb) a kinyert adatok értelmezése, míg megtalálásuk viszonylag egyszerű.
Mire nem jó?
[szerkesztés]Nem használható a keresés helyesírási viták eldöntésére. Az interneten mindenki szabadon írhat, nem csak a jó helyesírású emberek, és vannak gyakran elkövetett hibák is; ha valamit sokan írnak hibásan, attól az még nem lesz helyes. A helyesírási kocsmafalon a témában jártas szerkesztők a szabályok alapján segítenek megoldani a problémákat.
Néhány ismert keresőmotor
[szerkesztés]Típus Példák Általános keresőmotorok Google, Yahoo!, Bing, DuckDuckGo, Startpage Látogatottsági indexek Alexa, Hitwise Szakosodott keresőmotorok Medline (orvosi), Google Tudós (tudomány általában); Hírek Google News Weblaparchívumok (a weblap tartalmának változásai, törlések stb.) Archive.org, Web cache Könyvek (általános információ valamely könyvről) Project Gutenberg, Google Könyvek, Amazon.com and a9.com Egyetemek és felsőoktatási intézmények (ezek honlapjai) 4icu.org
Néhány adatbázis rendelkezik sok évre visszamenő, időbélyeggel ellátott archívummal (mint a Google Groups, a Usenet), ami különösen hasznossá és jól kereshetővé teszi ezeket az oldalakat.
Mire képes és mire nem
[szerkesztés]A keresőmotorok indexelik a világhálón található lapokat és szövegeket, melyeket mások közzétettek, a könyvek végén megtalálható szójegyzékekhez hasonlóan.
Amiben segíthetnek:
- Adatokat szolgáltatnak és elvezetnek olyan oldalakra, amelyek segíthetnek a fent leírtakban.
- Segítenek ellenőrizni egy idézet pontosságát, illetve a forrását.
- Gyakran megtalálható az idézett mű elektronikus változata (például Google Könyvek, Magyar Elektronikus Könyvtár).
- Egy fogalom elterjedtségét könnyedén meg lehet állapítani egy általános kereséssel.
- Lehetőséget nyújtanak bonyolultabb keresés futtatására, mint például az összetett kifejezések keresése, vagy éppen az eredményeket potenciálisan összezavaró szavak vagy mondatok kihagyása a keresésből.
Amiben nem segíthetnek:
- Nem garantálhatják a találatok valódiságát, ahogy megbízhatóságát sem, mivel a keresőmotorok válogatás nélkül indexelnek minden lehetséges lapot, azok tartalmától függetlenül.
- Az, hogy egy kifejezés gyakran előfordul, még nem bizonyíték a nevezetességre, pusztán elterjedtségére.
- Az eredmények nem feltétlenül a keresett kifejezéshez tartoznak; könnyen előfordulhat, hogy egy másik, hasonló kifejezésről szólnak (ha például Kiss Jánosra keresel, sok olyan adatot találhatsz, ami nem az általad keresett személyről szól, míg, ha Kiss Márton Jánosra keresel, sokkal valószínűbb a pontos találat).
- Könnyen lehet, hogy a kulcsszavak megválasztása miatt fontos, a témába vágó találatok hiányoznak a listából.
- Egyáltalán nem biztos, hogy kevéssé elterjedt fogalmak automatikusan jelentéktelenek.
- Nincs garancia arra sem, hogy a keresőmotor valamilyen forrás eredeti változatát találja meg, nem pedig egy átiratát, kivonatát, hű vagy éppen pontatlan idézetét, esetleg jogsértő másolatát.
Amire érdemes odafigyelni:
- A keresés nem feltétlenül a legfrissebb adatokat listázza ki egy-egy témában, mivel egyes területeken jóval gyorsabban frissülnek az adatok, mint ahogyan a keresőmotor indexeli az új tartalmakat.
- A kereső nem törekszik a semlegességre, válogatás nélkül közli az eredményeket.
- A kereső nem helyettesíti az egyéni elemző munkát. Attól, hogy egy kijelentés megjelenik egy indexelt lapon, még nem biztos, hogy hasznos.
A keresőtesztek felhasználása a Wikipédián
[szerkesztés]Ellenőrizhetőség
[szerkesztés]A keresők által kidobott találatok lehetnek kitaláltak, elfogultak vagy egyszerű rágalmak is. Mindig fontos meggondolni, hogy az információ megbízható forrásból származik-e, mielőtt felhasználod egy cikkben. Az ismeretlen (vagy megbízhatatlannak tartott) oldalakról vett információ ártalmas is lehet, felhasználásuk megbízhatóságuk feltüntetésével együtt ajánlott, hogy az olvasó megítélhesse, elfogadja-e vagy sem.
Semleges nézőpont
[szerkesztés]A keresőmotorok nem válogatják meg az információt tartalmilag, mivel a Wikipédiával ellentétben nem törekednek semleges nézőpont bemutatására. A keresőmotorok a tartalomtól függetlenül minden lapot indexelnek, így nem pusztán megbízható információt, de személyes véleményeket vagy légből kapott állításokat is listázhat a kereső. Éppen ezért a keresők nem tekinthetők minden további nélkül megbízható forrásnak, ám a népszerűséget kiválóan lehet velük vizsgálni.
Nevezetesség
[szerkesztés]A találatok száma a legtöbb esetben nem támasztja alá a keresett fogalom nevezetességét. Gyakran előfordul, hogy jelentéktelen dolgok rengeteg találatot eredményeznek, míg egyes fontos témák csak néhányat. Ennek különböző okai lehetnek. Nagyon fontos, hogy a megfelelő kulcsszavakra kerestessünk, és a megfelelő módon. Ellenkező esetben rengeteg irreleváns találatot is kilistáz a program, mivel általában a kifejezésben szereplő minden egyes szóra külön is keres (például, ha egyszerűen a barack szóra keresünk, a találatok jelentős része esetleg nem a gyümölcsre, hanem Barack Obama amerikai elnökre fog vonatkozni).
Bár a találatok száma nem szolgáltat komoly információt egy fogalom nevezetességéről, a találatok típusa (és azok megoszlása) már szolgálhat fontos adatokkal. Ha egy általános keresés eredményei közt nagyobb arányban csak megbízhatatlan oldalak (blogok, bulvársajtó és hasonlók) szereplenek, akkor ez jó eséllyel azt jelenti, hogy a keresett tárgy nem különösebben nevezetes. Amennyiben érdemi információhoz akarunk jutni és meg szeretnénk spórolni némi időt, érdemes alkalmazni néhány trükköt a keresés beállításánál. Ezek segítségével jelentősen csökkenthetjük az érdektelen találatok számát, ezáltal igencsak sok időt spórolhatunk meg (kevesebb haszontalan oldalt kell megnézni).
Keresőprogramok használata
[szerkesztés]Összetett kifejezések
[szerkesztés]Ez a rész a keresőmotorok által felismert bonyolultabb kifejezéseket tárgyalja, a Google-t használva példaként. A legtöbb keresőben ezek ugyanígy felhasználhatók, de ajánlott elolvasni az egyes programok súgóját, hogy többet megtudjunk a motor lehetőségeiről és működési módjáról.
Minden keresőmotor képes végrehajtani egyszerű (simán begépeled a keresett kulcsszavakat) és összetett keresést. Utóbbi segítségével bonyolult kifejezésekre kereshetünk, melyek megkönnyíthetik a munkánkat, és sok időt megspórolhatnak számunkra.
Használható kifejezések
[szerkesztés]A legtöbb kereső képes felismerni egyszerű és összetett logikai kifejezéseket. Alább a leggyakrabban használtak rövid leírását találod (a program csak a nagybetűs alakokat ismeri fel parancsként):
- OR/VAGY - azokat a lapokat listázza ki, melyek legalább egyik kifejezést tartalmazzák;
- AND/ÉS - azokat a lapokat listázza ki, melyek az összes kifejezést tartalmazzák;
- Mínusz jel (-) - kizárja a keresésből azokat a lapokat, melyeken szerepel a mínusz jel után következő kifejezés;
- Zárójelek - a kifejezések csoportosítására használhatók, a legtöbb kereső csak a kerek zárójeleket ismeri fel.
Példák és útmutatók
[szerkesztés]Az alább látható kinyitható dobozok alapvető példákat tartalmaznak, melyek hasznosak lehetnek a wikipédistáknak.
- Megjegyzés: a szakosodott keresőmotorok általában saját kereső struktúrával rendelkeznek, ami eltér az általános keresőmotorok felépítésétől.
Egyszerű keresés | |||||||||
---|---|---|---|---|---|---|---|---|---|
Kereshetünk szavakra (fémek), egyszerű kifejezésekre (fenntartható fejlődés) összetett kifejezésekre (Kiss AND János) vagy akár ki is zárhatunk bizonyos szavakat/kifejezéseket (Adolf -Hitler). Ha idézőjelben adjuk meg a keresett kifejezést, akkor egységként kezeli a program, a logikai kifejezéseket (AND/OR/-) tartalmazó kereséseket zárójelek segítségével lehet csoportosítani. Fontos tudni, hogy a legtöbb kereső nem tesz különbséget kis- és nagybetű között, némelyik pedig az ékezetes betűk esetén az ékezet nélküli megfelelőket is listázza.
|
Kifejezések kizárása | ||||
---|---|---|---|---|
Lehetséges bizonyos szavakat, kifejezéseket vagy akár egész oldalakat kizárni a keresésből. Ezt a legtöbb keresőben úgy érhetjük el, ha a kizárni kívánt rész elé "-"-jelet teszünk; ha egy többszavas vagy összetett kifejezést szeretnénk kizárni, akkor azt zárójelben kell megadni, a mínusz jel után. Használatakor vigyázni kell, hogy ne adjunk meg nagyon gyakori kifejezéseket, melyek témától függetlenül bármely lapon előfordulhatnak, mivel így sok, potenciálisan hasznos, találatot is kizárhatunk. A következő esetekben érdemes használni (persze nem kizárólag):
|
Összetett keresések és jogsértő tartalom kiszűrése | ||||
---|---|---|---|---|
A legtöbb keresőmotor képes felismerni szinte bármilyen összetett kifejezést, persze csak akkor, ha helyesen írjuk be őket (a zárójelek és logikai kötőszavak megfelelő használata mellett). Az ilyen összetett kifejezések segítségével egészen pontos kereséseket végezhetünk, de persze van rá esély, hogy a leszűkítések miatt néhány potenciálisan hasznos lap kimarad a listából.
|
Oldalakra vonatkozó parancsszavak | |||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A keresőben lehetőségünk van meghatározni, hogy mely oldalakon (ne) keressen, sőt azt is, hogy a lapok mely részében kell lennie a keresett kifejezésnek. Így könnyedén lehet keresni egyetlen oldalról információt, vagy esetleg kizárni egy oldalt például a Wikipédiát).
|
Az eredmények értelmezése
[szerkesztés]Általános dolgok
[szerkesztés]A találatok mennyisége még nem elegendő bizonyíték a nevezetesség mellett. Sokkal inkább arra kell figyelni, hogy milyen találatok kerülnek elő, és hogy azok érdemben foglalkoznak-e a témával (s nem pusztán futólag említik). Mindig érdemes átolvasni a találatok egy részét, hogy megbizonyosodj a nevezetességről. Emellett még nagyon oda kell figyelni a többértelmű szavak, kifejezések használatára is: gyakran azért van rengeteg találat, mert a kifejezésnek több jelentése is van (például Madonna esetén, ha épp nem az énekesnőre keresünk).
Amikre érdemes odafigyelni
[szerkesztés]A legtöbb esetben a keresés eredményét figyelmesen meg kell vizsgálni, egészséges mennyiségű szkepticizmussal. Az interneten található anyagok nem mentesek emberi előítéletektől.
Általános előítéletek
[szerkesztés]- Általánosan (az internetre, vagy az emberekre vonatkozólag általában)
-
- Személyes előítéletek - Az emberek általában elfogadóbbak olyan dolgok iránt, melyeket ismernek, kultúrkörükben gyakoribbak, avagy vallási/politikai/filozófiai világképükbe beleillenek, míg az azoknak ellentmondóakkal szemben (kisebb-nagyobb mértékben) elutasítók. Épp ezért fontos, hogy mindenről legalább két különböző nézőpontot vizsgáljunk meg.
- Kulturális és fejlettségi okok - A fejlettebb országokban, ahol az internet-hozzáférés elterjedtebb, sokkal több bejegyzés jelenik meg ugyanarról a témáról, mint az ilyen téren kevésbé fejlett országokban. Ez ahhoz a téves elképzeléshez vezethet, hogy valami nem nevezetes, mivel még a származási országból származó weboldalak is ritkán említik (viszonyítva más hasonlóhoz). Hasonlóképp a kulturális befolyásra is figyelni kell, egyes témák kis népszerűségnek örvendenek némely országokban, míg másokban jóval nagyobbnak (lásd például a homoszexualitást, nyugati cikkekből számtalan létezik, míg a közel-keleti források keveset foglalkoznak vele).
- Népszerűség - Nagyon sok téma igen nagy népszerűségnek örvend mind az internetes, mind a hagyományos médiában, így minden egyes eleme nagy számú találatot eredményez. Fontos észben tartani, hogy a népszerűség nem jelent nevezetességet.
- Nehezen elérhető források - Gyakori, hogy valamilyen, a népszerű témáktól távol álló eseményekről nem tudósítanak ingyenesen és egyszerűen elérhető források (tudományos magazinok például).
- Internetes keresőmotorok esetén
-
- Sötét net - A keresők hatalmas mennyiségű oldalt hagynak ki ilyen vagy olyan okból, s ennek következtében egyes témák akár következetesen is háttérbe kerülhetnek. Ennek legfontosabb oka, hogy olyan oldalakon jelennek meg, melyek nem engedik meg az indexelést, avagy olyan technológiát használnak, ami nem vagy nehezen indexelhető (kép alapú oldalak, Java/Flash alapokra épülő részek, stb.).
- Reklámozás keresés-optimizálással - A keresőoptimalizálás segítségével jelentősen lehet javítani egy oldal pozícióját a keresési rangsorban, így ez a gyakorlat akár reklámcélokra is megfelel. Épp azért a puszta tény, hogy a keresőmotor az első helyre tesz valamit a rangsorban nem jelenti, hogy az valóban releváns és helyes forrás.
- Tükrözés - Nagyon gyakran megtörténik, hogy más oldalak a Wikipédia cikkeire épülnek (vagy azokat egyszerűen lemásolják). Ha ez több oldallal is megtörténik, akkor előfordulhat, hogy a keresés eredménye a Wikipédia saját cikkeinek másolatait fogja adni és nem eredeti anyagot.
- Elírások és egyszerűsítések - Elírások az interneten is gyakran fellelhetők, nemegyszer nagyobb számban, mint a valós információ. Például az El Niño jelenségre keresve nagyon sok oldal az ékezet nélkül fogja mutatni a nevet, míg a hiányos Charles Windsor névre tízszer több találatot eredményez a keresés, mint a helyes Charles Mountbatten-Windsor alakra. Az évszámok esetén különösen érdemes odafigyelni, rengeteg oldal írja például, hogy a USS Constitutiont 1779-ben bocsátották vízre, míg a valódi dátum 1797.
- Népszerű legendák és tévhitek jelentős mennyiségben fordulnak elő az interneten. Az akupunktúráról például több százezer oldal szól, de alig néhány ezer tartalmaz megbízható orvosi adatokat és leírásokat. Ezek ellen a legjobb módszer a hiteles oldalak megkeresése.
- Nyelvi alapú eltérések A nyelv kiválasztása nagyon fontos, mivel a különböző nyelvű oldalak között hatalmas különbség van (aminek oka részben a kulturális különbség). A homoszexualitásról egy liberálisabb ország nyelvén keresve (holland, angol) teljesen más eredményt kapunk, mint egy konzervatív kultúra nyelvén (arab, orosz). Az angol nyelvű oldalak esetén viszont nagy figyelmet kell fordítani a megbízhatóságra, mert világnyelv lévén rengetegen használják, így mélyebb kutatás nélkül nehéz kategorizálni egy oldalt.
- Egyéb
-
- Fontos tudni, hogy más Google-alapú keresők, például a Google Book Search egészen más keresési módszereket használnak, így az eredmények is mások. Érdemes néha két különböző elven működő keresőmotort is kipróbálni: ha az eredmények egyeznek, akkor valószínűbb, hogy relevánsak is (de nem biztos persze).
Alexa rangsor
[szerkesztés]Bizonyos esetekben hasznos lehet, ha tisztában vagyunk egy internetes forrás viszonylagos népszerűségével. Az Alexa Internet egy erre alkalmas eszköz (de a Hitwise is használható). Ha tesztelni akarjuk egy adott weboldal népszerűségét, látogassunk el az Alexa honlapjára és írjuk be az oldal címét.
Az Alexa-rendszer alapja egy eszköztár, amelyet a felhasználóknak installálniuk kell a böngészőjük alá. Ez az alalmazás azután figyeli, hogy a felhasználó melyik weblapokat látogatja, és ezt az információt továbbítja egy központi adatbázisba, amely aztán összesíti ezeket a jelentéseket és összeállíja a különböző webhelyek népszerűségi rangsorát. Torzíthatja az eredményeket az, hogy bizonyos honlapok látogatói kevésbé hajlamosak arra, hogy az Alexa eszköztárat installálják, míg más honlapok nyomást gyakorolnak a látogatóikra, hogy töltsék le az alkalmazást, és így javítsák a webhely pozícióját a népszerűségi rangsorban. Az Alexa-rangsor szándékosan nem szerepel a nevezetességi irányelvekben, aminek a következő okai vannak:
- Egy bizonyos népszerűségi szint alatt az Alexa-rangsor gyakorlatilag értelmét veszti a minta kicsiny mérete miatt. Az Alexa maga is elismeri, hogy a 100 000-nél rosszabb helyen álló webhelyek számára az Alexa-rangsor nem megbízható.
- Az Alexa-rangsor módszertanilag elfogult, aminek következtében a népszerűségi számok csak a felhasználók egy bizonyos körén belüli népszerűséget tükrözik. Nem vesznek részt az Alexa-rangsor kialakításában azok a felhasználók, akik nem installálják az Alexa eszköztárat (például a legtöbb munkahelyi felhasználó, számos magas szintű felhasználó, és sokan azok közül, akik az internetet open-source eszközökkel, esetleg nem Windows operációs rendszer alól böngészik).
- Az Alexa-rangsor nem tükrözi az egyes honlapok enciklopédikus nevezetességét, illetve azt, hogy az adott internetes tartalom mögött áll-e megbízható forrás. Előfordulhat, hogy egy honlap előkelő helyet foglal el az Alexa-rangsorban, mégsem írnak róla semmit, de olyan is van, hogy egy széles körben említett webhely gyenge helyezést kap az Alexa-rangsorban.
- Számos olyan téma van, amelynek a nevezetességéhez nem fér kétség, de a róla szóló internetes források mégsem népszerűek az Alexa szerint.
Nem-latin írások és régi nevek
[szerkesztés]Különösen oda kell figyelni a latintól eltérő karaktereket használó nyelvek esetén (leginkább a neveknél). Ugyanazon név átírására többféle modell is létezik, s az interneten mindenik előfordul (nem beszélve a hibás átírásokról). Abban az esetben, ha több különböző nyelven is keressük, nem csak magyarul (angol, német, francia például), még több variációt találhatunk, ami jelentősen megnehezíti a helyes forma meghatározását (lásd a Wikipédia átírási irányelvek. A magyarban is többféle átírási modell létezik arab, cirill és keleti elnevezések átírására, így érdemes egy keresésben az összeset használni a már említett logikai kifejezések segítségével, így viszonylag sok, jól használható találatot kaphatunk (utána persze meg kell nézni, hogy melyik alak felel meg a Wikipédia irányleveinek). Idegen nevek esetén arra is oda kell figyelni, hogy egyes nyelvekben a neveknek számos variációja lehetséges (gondoljunk például az oroszban az apai név használatára, illetve a családnév hím- és nőnemű alakjára). Előfordulhat az is, hogy egy keresés során a név ragozott alakjába ütközünk.
Ugyancsak érdemes odafigyelni a régi nevekre, melyeknek ugyancsak több formája van (néha modernizálták őket, másokat esetleg nem). Ez a jelenség a magyarban éppúgy előfordul mint más nyelvekben.
Az ilyen keresésekhez szükség van az adott nyelv megfelelő szintű ismeretére, és nem várható el minden wikipédistától, hogy rendelkezzen ilyenekkel, ám a Wikipédia, mint közösség minden bizonnyal tud segíteni, és kérdezni nem szégyen. Ha nem vagyunk biztosak magunkban ilyen esetekben, ne hozzunk elhamarkodott döntéseket, inkább kérdezzünk meg egy hozzáértő kollégát.
Találatok száma
[szerkesztés]A keresőmotorok által kiírt találatok mennyisége nem pontos adat, mindössze megközelítés. A Google például csak akkor írja ki a pontos eredményt, ha minden egyes találatokat felsoroló oldalt átnézünk. A kijelzett szám gyakran több nagyságrenddel eltérhet a valós eredménytől,[1] épp ezért nem érdemes a találatok számára alapozni a nevezetesség megállapításakor. Mivel a keresőmotorok nem feltétlenül csak egy találatot térítenek vissza egy weblapról, érdemes egy honlap-specifikus (site:x.y paraméter) keresés hasznos lehet: néha egyetlen oldal felelős rengeteg találatért.
Olyan keresések esetén, ahol több(száz)milliós nagyságrendű találat van, a Google (és a legtöbb más keresőmotor is) egy olyan eljárást használ, amely kiszűri a nagyon hasonló találatokat. Ezt kétféleképpen teszi: kizárja azokat a találatokat, amelyek nagyban megegyeznek valamelyik másikkal, és jelentősen leszűkíti az azonos doménnévről érkező találatok számát. A kiszűrt találatok helyére nem tesz be újakat, s mivel az eredeti eredmény 1000 találatra korlátozódik, az aktuális végeredmény mindig kevesebb, mint ezer egyedi találatot fog tartalmazni. Kiváló példa a "microsoft" kifejezés keresése: a közel 500 millió találatból mindössze 424 "egyedi találatot" térít vissza. Érdekességként megjegyezhető, hogy az egyszerű "microsoft" keresés 448 millió találatot ad, míg a "leszűkített" keresés, mikor kizárjuk a "microsoft.com" és "wikipedia.org" doménnevekről érkező találatokat 494 millió találatot jelez; még egy ok, miért nem érdemes a találatok számára alapozni.
A keresőmotorok technikai korlátai
[szerkesztés]A világhálón fellelhető oldalak nagy része nincs indexelve különböző technikai okok miatt. Minden keresőmotor különböző részt fed le, de lehetetlen megmondani, hogy milyen százalékot.
A világháló legalább 11,5 milliárd lapból áll,[2] de a valós mérete ennél sokkal nagyobb is lehet (akár a 1012 nagyságrend is elképzelhető), melyek olyan adatbázisokban rejlenek, amiket a keresőmotorok nem tudnak indexelni. Ez elsősorban a dinamikus adatbázisokra jellemző, melyek az oldalt mindig a felhasználó kéréseinek megfelelően formázza, így a keresőbot nem tudja indexelni (mivel csak szimulálja a felhasználót, valójában nem végzi el a szükséges műveleteket).
A legtöbb keresőmotor a robots.txt protokoll szerint jár el és ennek megfelelően blokkolható olyan oldalak által, melyek nem kívánják tartalmukat mindenki számára elérhetővé tenni (és a keresőbot nem regisztrálhat az adatok eléréséért). A leggyakrabban a jogvédett információt tartalmazó oldalak alkalmazzák, melyek regisztrációt igényelnek. Más oldalak technikai okokból blokkolják az indexelést, mivel az jelentős sávszélességet igényel, s túlterhelhet egyes gyengébb szervereket.
A már említett keresőoptimalizálás is jelentősen megváltoztatja a keresések eredményét, gyakorlatilag reklám célokra használva fel az indexelést. Előfordul, hogy egyes oldalak rengeteg kulcsszavat tartalmaznak abból a célból, hogy könnyebb legyen őket megtalálni, ám csak minimális információt tartalmaznak, melyeknek van is valami közük ezekhez a kulcsszavakhoz.
Azok az oldalak, melyeknek a megjelenítéséhez szükség van valamilyen külön kiegészítőre (Adobe PDF, Flash, Silverlight és más hasonlók) nehezebben indexelhetők, nem minden kereső képes erre. Az AJAX/Web 2.0 webdizájn elemeket felhasználó oldalak indexelése is problémás, mivel valósidejű kommunikációt igényelnek (Javascript alapú többnyire), amit a keresőbot nem végez el, csak szimulál (bár az ágazat fejlődésével ezek a problémák folyamatosan gyérülnek). Azokat az adatokat, melyek nem szöveges formában jelennek meg, hanem valamilyen hanganyag, kép vagy videó tartalmaz, nem találják meg a keresőmotorok.
Jegyzetek
[szerkesztés]- ↑ Jonathan de Boyne Pollard: Google result counts are a meaningless metric.. Frequently Given Answers, 2008. január 1.
- ↑ Antonio Gulli and Alessio Signorini (2005. augusztus 29.). „The Indexable Web is more than 11.5 billion pages”.
Források
[szerkesztés]- Joe Meert: Argumentum ad Googlum. Science, AntiScience and Geology, 2006. április 30. — Meert arra a következtetésre jut, hogy "a legtöbb ember kényelmi szempontból nem nézi végig tüzetesen az eredményeket" és "olyan kifejezésekre keresnek, melyek gyakran más kontextusban is megjelennek, ezzel támasztva alá gondolataikat". Úgy véli, hogy "veszélyes és felelőtlen dolog azt gondolni, hogy egy összetett vitát is lehet Google-re alapozni" és azt is megjegyzi, hogy "rég megtanulta, hogy semmi nem helyettesítheti a mélyreható kutatást."
- Rich Turner: Argumentum ad Googlum; Why Getting a Million Hits on Google Doesn't Prove Anything. Grumbles, 2004. február 29. — Turner megjegyzi, hogy a tény, hogy valamit meg lehet találni a Google segítségével, nem jelent semmit és felsorol több példát hibás adatokról, amelyek rengeteg találatot eredményeznek.
- Thelwall, M. (2008). Quantitative comparisons of search engine results, Journal of the American Society for Information Science and Technology, 59(11), 1702-1710.
- Thelwall, M. (2008). Extracting accurate and complete results from search engines: Case study Windows Live. Journal of the American Society for Information Science and Technology, 59(1), 38-50.
- Gomes, et al. (2000). Detecting query-specific duplicate documents.
Kapcsolódó szócikkek
[szerkesztés]- Meta:Mirror filter egy eszköz, mely segít kiszűrni a Wikipédia-oldalak tükrözéseit.