Nors niekas iš tikrųjų nežino, giliai interneto gali būti nuo 400 iki 500 kartų didesnė, kad paviršius interneto [šaltinis: BrightPlanet]. Ir abu paviršius ir gilus interneto augti ir didesni kiekvieną dieną.
Norėdami suprasti, kodėl tiek daug informacijos yra iš akių paieškos, ji padeda turėti fono šiek tiek ant ieško technologijas. Jūs galite skaityti visus apie tai su tuo, kaip veikia interneto paieškos, bet mes suteiksime jums trumpas sąrašas čia.
Paieškos sistemos paprastai sukurti duomenų indeksą rasti informaciją, išsaugotą interneto svetainių ir kitų išteklių internete , Šis procesas reiškia, naudojant automatines vorai ar robotai, kuri įsikurti domenus ir sekite nuorodas į kitose srityse, kaip voragyvis po šilkiniai ūselių žiniatinklio tam tikra prasme kurti klesti žemėlapį internete.
Šis rodiklis ar struktūra yra jūsų raktas ieškant konkrečių duomenų, kad tai susiję su jūsų poreikius. Kaskart Įveskite raktažodį paiešką, rezultatai atrodo beveik akimirksniu dėka šio indekso. Be jo, paieškos sistema būtų tiesiog turi pradėti ieškoti milijardus puslapių nuo nulio kiekvieną kartą, kai kažkas norėjo informacija, procesą, kuris būtų tiek griozdiškas ir nepakenčiamas.
Bet paieškos nematau saugomi į duomenis Gilus voratinklis. Yra duomenų nesuderinamumo ir techninių kliūčių, kad apsunkinti indeksavimo pastangas. Esama privačių svetainių, kurios reikalauja prisijungimo slaptažodžius, kad galėtumėte prieiti prie turinio. Skaitytuvai negali prasiskverbti duomenis, kad reikia raktažodžių paieškas vienu, konkrečios svetainėje. Yra laiku prieigos svetainių, kad nebėra leidžia kartą per tam tikrą laiką praėjo sužinoti visuomenės nuomonę.
Visi šie iššūkiai, ir daug kitų, kad duomenys daug sunkiau paieškos rasti ir indekso. Laikyti svarstymas sužinoti daugiau apie tai, kas atskiria paviršių ir giliai internete.
Tiesiog žemiau paviršiaus
Kaip mes jau buvo minėta, yra milijonai milijonus sub-puslapių Pasipylė visoje milijonų domenų. Yra vidiniai puslapiai be jokių išorinių nuorodų, kaip antai internal.howstuffworks.com, kurie naudojami svetainė techninės priežiūros tikslais. Yra neskelbtų arba nepublikuojami Blog'ai, paveikslų galerijos, failų katalogų ir neapsakomas sumos turinio, kad paieškos sistemos tiesiog negali pamatyti.
Štai tik vienas