Láthatatlan web
A láthatatlan web a világháló azon része, amelyet elkerülnek a keresők.
Az utóbbi években elérkeztünk abba a korba, amelyben az internet világa teljesen áthatja a hétköznapjainkat. Az interneten minden megtalálható, tehát ami ott nincs, az nem is létezhet – talán ez közelíti meg legjobban némelyek hozzáállását a világhálóhoz. A nagy keresőmotorok közreműködhetnek ennek a látszatnak az alátámasztásában. Az internet jelentős része azonban még a keresőmotoroknak sem elérhető különböző okok miatt. A láthatatlan web „a World Wide Web azon oldalai, amelyek nem részei a felszíni webnek, azaz nincsenek indexelve az általános keresők által”.[1]
Terminológiája
[szerkesztés]A láthatatlan webet más kifejezésekkel is szokták illetni, mint például a mély web vagy rejtett web. Ezek közt a kifejezések közt viszont egyesek szerint apróbb tartalmi eltérések vannak. Michael Bergman véleménye szerint a „láthatatlan web” elnevezés keresőmotor-centrikus, emiatt félrevezető, ugyanis információkat nem csak a keresőmotorok segítségével lehet keresni.[2] A mély web ellentétpárja a felszíni web, amelyhez a keresők könnyedén hozzáférnek.
Terjedelme
[szerkesztés]Ez a lap vagy szakasz tartalmában elavult, korszerűtlen, frissítésre szorul. Frissítsd időszerű tartalommal, munkád végeztével pedig távolítsd el ezt a sablont! |
A láthatatlan web méretével kapcsolatos becslések Bergman 2001-ben megjelent tanulmányának adatain alapulnak.[3] Ezek szerint:
- a láthatatlan web mintegy 550-szer nagyobb lehet, mint a felszíni, látható web;[3]
- tárterületben ez körülbelül 7500 TB információt jelent.[4]
Bergman tanulmányában a következő főbb megállapítások szerepelnek még:[2]
- a láthatatlan web havi forgalma átlagosan 50%-kal nagyobb, mint a felszíni web esetében;
- a láthatatlan web oldalai közt magasabb szintű az összekapcsolás;
- a láthatatlan web növekszik a legjobban új információkkal;
- tartalmilag mélyebbek (specializáltak és részletesebbek);
- ebből adódóan ezerszer-kétezerszer nagyobb a minőségi tartalma;
- a láthatatlan web több mint fele témaspecifikus adatbázisokban van;
- 95%-a nyilvánosan hozzáférhető (nincsenek díjak, illetve előfizetések).
Egységei
[szerkesztés]Chris Sherman és Gary Price láthatóság szerint négy típust különített el:[5]
- „Átlátszatlan”, nem átlátható web (Opaque web);
- Privát web (Private web);
- Szabadalmazott web (Proprietary web);
- Valóban láthatatlan web (Truly invisible web).
Danny Sullivan egy ötödik típust is meghatározott, az ún. „sekély” webet (shallow web).[6]
A láthatatlanság okai
[szerkesztés]Ahhoz, hogy megoldást találjunk a láthatatlanság problémájára, ismernünk kell az okait. Annak, hogy egy oldalt miért nem indexelnek a keresők, több oka is lehet:
- az oldal tartalma egy adatbázisból kerül a weblapra
- az információ eléréséhez különböző adatbázisokat (ACCESS, Oracle, SQL Server, DB2, stb.) kell lekérdezni
- az oldal csak regisztráció után érhető el
- nem szöveges állományok
- multimédia- és grafikus fájlok
- szoftverek
- nem standard HTML formátumú dokumentumok (pl. PDF fájlok)[7]
- teljes vagy részleges kizárásra kerülnek (szolgáltatótól függően) a különböző scripteket tartalmazó oldalak, amelyeknek URL-je tartalmazza a kérdőjelet
- egy oldalra vagy egész site-ra nem mutat egyetlen link sem, így tartalma nem kerül be a kereső adatbázisába, sem pedig keresésnél az eredményhalmazba[8]
- hiányoznak az indexeléshez szükséges, megfelelő kulcsszavak
- az oldalon található információk időközben elavulttá válnak[9]
- az adott oldal nincs bejelentve, vagy ha mégis, akkor a keresésükhöz speciális keresőkre van szükség[10]
- az adott oldalt eltávolították a keresőrendszer indexéből (például illegalitás miatt)[11]
Top 25 kategória[12]
[szerkesztés]- Nyilvános cégiratok
- Telefonszámok
- Egyedi térképek és útbaigazítások
- Klinikai perek
- Szabadalmak
- Utánnyomás nélküli könyvek
- Könyvtári katalógusok
- Mérvadó szótárak
- Környezettudományi információk
- Tőzsdei információk
- Történeti dokumentumok és képek
- Cégjegyzékek
- Kereshető témabibliográfiák
- Gazdasági információk
- Díjak
- Álláshirdetések
- Ösztöndíjjal kapcsolatos információk
- Fordítóeszközök
- Irányítószámok
- Alapvető demográfiai információk
- Interaktív iskolai keresők
- Kampányok pénzügyi információi
- Időjárási adatok
- Termékkatalógusok
- Művészeti galériák
A láthatatlan webhez való hozzáférés[13]
[szerkesztés]Annak érdekében, hogy a láthatatlan web is láthatóvá váljon, több megoldás is született, illetve alkalmazható:
- fájlformátumok láthatóvá tétele[14]
- képek láthatóvá tétele[15]
- speciálisan a láthatatlan web megtalálására kifejlesztett rendszerek használata
- témakatalógusok
- ágens/platform/portál
- keresőgépek
- adatbázisokban való keresés
Témakatalógusok
[szerkesztés]Ágens/platform/portál
[szerkesztés]- Copernic Agent
- Deep Query Manager
- Profusion
Keresőgépek
[szerkesztés]Adatbázisokban való keresés[8]
[szerkesztés]Jegyzetek
[szerkesztés]- ↑ Rabb (2006) 7. p.
- ↑ a b Bergman (2001)
- ↑ a b Lewandowski (2006) 533. p.
- ↑ Somogyi (2009). [2016. március 6-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)
- ↑ Sherman-Price (2001) 70. p.
- ↑ Sullivan (2000). [2012. január 1-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 1.)
- ↑ Rutkovszky (2003)
- ↑ a b c d Rabb (2006) 91. p.
- ↑ Pajor (2006) 76. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)
- ↑ Pajor (2006) 80. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)
- ↑ Pajor (2006) 83. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)
- ↑ Sherman-Price (2001) 96-103. p.
- ↑ Pajor (2006) pp. 95-111.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)
- ↑ Pajor (2006) 95. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)
- ↑ Pajor (2006) 96. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)
Források
[szerkesztés]- Bergman, Michael K.: White Paper: The Deep Web: Surfacing Hidden Value In: The Journal of Electronic Publishing, Vol. 7. (2001) Issue 1.
- Lewandowski, Dirk - Mayr, Philipp: Exploring the academic invisible web In: Library Hi Tech, Vol. 24. (2006) Issue 4., pp. 529-539.
- Pajor Enikő: A láthatatlan/mély web felhasználása a könyvtári tájékoztatásban, Budapest, 2006. 214. p.
- Rabb Ágnes: Szöveggyűjtemény a mély web tanulmányozásához : Cikkek és tanulmányok, külföldi és magyar források alapján, Szeged, 2006., 92. p.
- Rutkovszky Edéné - Rutkovszky Ádám: A láthatatlan web keresése, Debrecen, 2003.
- Sherman, Chris - Price, Gary: The invisible Web: uncovering information sources search engines can't see, Information Today, Inc., 2001. 439. p. ISBN 091096551X, 9780910965514
- Somogyi Tamás: A láthatatlan web tudományos részének feltárása In: Tudományos és Műszaki Tájékoztatás, 56. évf. (2009) 1. szám Archiválva 2016. március 6-i dátummal a Wayback Machine-ben
- Sullivan, Danny: Invisible Web Gets Deeper, 2000.
Külső hivatkozások
[szerkesztés]- Complete Planet
- Invisible-web.net
- Copernic Agent
- Infomine Multiple Database Search
- Digital Librarian