Žinios Discovery
/ Knowledge Discovery >> Žinios Discovery >> Technika >> kompiuteris >> Internetas >> interneto pagrindai >>

Kaip interneto paieškos sistemose Work

idžia naudingos informacijos. Yra du pagrindiniai komponentai visas pastangas, kad surinkti duomenys prieinami vartotojų:
  • saugomi duomenų
  • metodo, pagal kurį informacija indeksuota
    informacija

    Paprasčiausiu atveju, paieškos sistema gali tiesiog laikyti žodį ir URL, kur jis buvo rastas. Iš tikrųjų, tai padarys riboto naudojimo variklio, nes nebūtų pasakoja, ar žodis buvo naudojamas svarbi arba trivialus būdu puslapyje būdas, ar žodis buvo naudojamas tik vieną kartą arba daug kartų ar puslapyje nuorodų į kitus puslapius, kuriuose yra žodis. Kitaip tariant, nebūtų pastato eiliškumo sąrašo, kuris bando pateikti naudingiausių puslapių ties paieškos rezultatų sąrašo viršuje būdas.

    Jei norite daugiau naudingų rezultatų, daugelis paieškos sistemų laikyti daugiau ne tik žodžio ir URL. Variklio gali laikyti, kiek kartų puslapyje pasirodo žodis. Variklis gali priskirti svorį kiekvienam įrašui vis pavestas žodžių reikšmes, kaip jie rodomi šalia dokumento viršuje, kad subkategorijose, nuorodose, meta žymeles arba puslapio pavadinime. Kiekvienas komercinis paieškos sistema turi skirtingą formulę priskiriant svorį į jos indeksas žodžių. Tai yra viena iš priežasčių, kad paieška pačiu žodį įvairiose paieškos sistemose gamins įvairius sąrašus, su puslapiuose pateikiamų skirtingų užsakymus.

    Nepriklausomai nuo tikslaus derinys papildomą informaciją saugomų paieškos variklis, kad duomenys bus užkoduoti sutaupyti vietos. Pavyzdžiui, originalus "Google dokumente aprašoma naudojant 2 baitų, iš 8 bitų kiekvienas, saugoti informaciją apie svorius - ar žodis buvo kapitalizuotos, jos šrifto dydį, padėtį, ir kitą informaciją, siekiant padėti rango hitu. Kiekvienas veiksnys gali užtrukti iki 2 ar 3 bitai per 2-baitų grupė (8 bitai = 1 baitas). Kaip rezultatas, daug informacijos gali būti saugomi labai kompaktiškas forma. Po informacija yra suspausta, jis yra pasirengęs už indeksavimo

    puslapis turi vieną tikslą:. Tai leidžia informaciją galima rasti taip greitai, kaip įmanoma. Yra nemažai būdų indeksu turi būti pastatytas, bet vienas iš efektyviausių būdų yra sukurti maišos lentelę. Be maišymo, formulė taikoma pridėti skaitinę vertę kiekvienam žodžiui. Formulė yra skirta tolygiai paskirsto įrašus visoje iš anksto nustatytą skaičių skyriai. Ši skaitinė pasiskirstymas skiriasi nuo žodžių pasiskirstymą abėcėlės, ir tai yra į maišos lentelės efektyvumo raktas.

    anglų, yra keletas laiškai, kurie prasideda daug žodžių, o kiti prad

    Page [1] [2] [3] [4] [5] [6]