Kompjûters, Programming
Wat is in crawler? crawler ark "Yandex" en Google
Alle dagen op it ynternet is der in grut bedrach fan nije materialen te meitsjen fan in webside fernijd de âlde websiden, oplade Photos and videos. Sûnder ferstoppe is sykmasines koe net fûn wurde yn it World Wide Web, net ien fan dizze dokuminten. Alternativen lykas robotic programma op elts opjûne tiid bestiet net. Wat is in syktocht robot, wêrom jo nedich hawwe en hoe om te wurkjen?
Wat is in syktocht robot
Crawler site (sykmasine) - it is in automatyske programma dat by steat is om te besykjen de miljoenen fan websiden, gau Navigearje fia it ynternet, sûnder ienich operator yntervinsje. Bots binne konstant scan romte fan it World Wide Web, it finen fan nije websiden en regelmaat op al yndeksearre. Oare nammen foar web crawlers spinnen, crawlers, bots.
Wêrom binne sykmasine spinnen
De wichtichste funksjes dy't útfiere sykmasine spinnen - websiden yndeksearre, likegoed as tekst, ôfbyldings, audio en fideo triemmen dy't op harren. Bots kontrolearje ferwizings, spegel sites (kopyen) en updates. De robots ek fieren HTML-koade sizzenskip foar oerienstimming noarmen fan 'e World Organization, dy't ûntwikkelet en fiert technologyske noarmen foar it World Wide Web.
Wat is yndeksearkje, en wêrom it is nedich
Indexing - is, yn feite, is it proses fan it besykjen om in beskate webside troch sykmasines. It programma scans de tekst op dizze side, ôfbyldings, videos, Outbound links, dan de side ferskynt yn 'e sykresultaten. Yn guon gefallen, de side kin net ôftaaste automatysk, dan kin wurde tafoege oan de sykmasine de hân webmaster. Typysk, dat foarkomt yn it ûntbrekken fan eksterne ferwizings nei in bepaalde (faak allinne koartlyn makke) side.
Hoe sykje motor spinnen
Eltse sykmasine hat in eigen bot mei de Google sykje robot kin fariearje gâns neffens it meganisme wurket op in fergelykbere programma, "Yandex" of oare systemen.
Yn it algemien, in robot wurk prinsipe is as folget: it programma "komt" op it plak en eksterne links út 'e wichtichste side, "lêst" Web helpboarne (ynklusyf dy looking overhead dat net sjogge de brûker). Boat is hoe te navigearjen tusken siden fan in side en ryd nei oaren.
It programma sil kieze hokker side ta yndeks? Faker as net "reis" de spin begjint mei nijs sites of grutte boarne triemtafels en aggregators mei grutte referinsje gewicht. Crawler hieltyd scans de siden ien foar ien, oan de snelheid en de gearhing fan Indexing de folgjende faktoaren:
- Yntern: perelinovka (ynterne keppelings tusken siden fan deselde boarne), site grutte, it goede koade, brûker-freonlik ensafuorthinne;
- External: de totale ferwizing gewicht, dy't liedt ta de side.
De earste ding it sykjen robot sykopdrachten op eltse webside troch robots.txt. Fierdere resource yndeksearkje wurdt útfierd op basis fan de ynformaasje krigen dat is fan dit dokumint. Dizze triem befettet spesifike ynstruksjes foar de "spinnen" dat kin fergrutsje de kânsen fan side wurkbesites troch sykmasines, en, sadwaande, te kommen ta in iere hit side yn de "Yandex" of Google.
Program analogs crawlers
Faak wurdt de term "search robot" wurdt betize mei yntelligint, brûker of autonome aginten, "pishimmels" of "wjirms". Ûnderdompele signifikante ferskillen allinnich yn ferliking mei aginten, oare definysjes ferwize nei ferlykbere typen fan robots.
Bygelyks, aginten kinne wêze:
- yntellektuele: it programma, dat binne ferhuze fan side nei side, selsstannich besluten hoe't it no fierder; sy binne net tige algemien op it ynternet;
- Autonoom: Dy aginten helpe de brûker by it kiezen fan in produkt, sykje, of it ynfoljen fan formulieren, it saneamde filters, dat binne lytse besibbe oan netwurk programma.;
- brûker: it programma bydrage oan brûker ynteraksje mei it World Wide Web, in browser (bygelyks, Opera, IE, Google Chrome, Firefox), boaden (Viber, Telegram) of e-postprogramma 's (MS Outlook en Qualcomm).
"Ants" en "wjirms" binne mear te ferlykjen mei de sykmasine "spinnen". De earste foarm tusken in netwurk en konsekwint ynteraksje lykas dizze Ant koloanje, "wjirms" is by steat om te replicate yn oare opsichten deselde as de standert crawler.
Ferskaat oan sykmasine robots
Ûnderskied tusken in protte soarten crawlers. Ôfhinklik fan it doel fan it programma, se binne:
- "Spiegel" - dûbelen browsing websiden.
- Mobile - fokus op de mobile ferzjes fan websiden.
- Quick - fix nije ynformaasje fluch troch it besjen fan de nijste updates.
- Reference - ferwiisyndeks, tel harren nûmers.
- Indexers ferskillende soarten ynhâld - spesifike programma foar tekst, Audio, fideo, ôfbyldings.
- "Spyware" - op syk nei siden dy't net werjûn wurde yn de sykmasine.
- "Woodpecker" - de safolle tiid besite siden te kontrolearjen harren relevânsje en effisjinsje.
- Nasjonaal - besiker yn it Web boarnen leit oan ien fan 'e lân domeinen (bgl, .mobi, of .kz .ua).
- Global - yndeks alle nasjonale siden.
Robots grutte sykmasines
Der binne ek inkele sykmasine spinnen. Yn teory, harren funksjonaliteit kin fariearje breed, mar yn 'e praktyk it programma binne hast gelyk. De wichtichste ferskillen yndeksearjend websiden robots twa grutte sykmasines binne as folget:
- It stringency fan testen. Der wurdt fan útgien dat it meganisme fan crawler "Yandex" wat stranger rûzingen de side foar it neilibjen fan 'e noarmen fan it World Wide Web.
- Behâld fan de yntegriteit fan de side. De Google Crawler yndeksearret de hiele side (ynklusyf media ynhâld), "Yandex" kin ek besjen ynhâld selektyf.
- Faasje test nije siden. Google foeget nije boarne yn de sykresultaten binnen in pear dagen, yn it gefal fan "troch Yandex" proses kin nimme twa wiken of mear.
- De frekwinsje fan de re-yndeksearjend. Crawler "Yandex" kontrolearje op fernijings twa kear yn 'e wike, en Google - men elke 14 dagen.
Internet, fansels, net beheind ta de twa sykmasines. Oare sykmasines hawwe harren robots dy't folgje harren eigen yndeksearjend parameters. Dêrneist binne der ferskate "spinnen" dy't ûntwurpen gjin grutte sykje middels, en yndividuele teams of webmasters.
mienskiplik definysje in kriichsdûns
Yn tsjinstelling ta populêre leauwen, "spinnen" net ferwurkje de ynformaasje. It programma allinnich scans en slacht websiden en fierdere ferwurking nimt in hiel oare robots.
Ek in soad brûkers leauwe dat de sykmasine spinnen hawwe in negative ynfloed en "skealik" Ynternet. Yn feite, guon ferzjes fan "spinnen" kin flink overload de tsjinner. Der is ek in minsklik faktor - de webmaster, dy't makke it programma, kin meitsje flaters yn de robot konfiguraasje. Noch it grutste part fan de besteande programma binne goed ûntwurpen en profesjoneel slagge, en eltse opkommende problemen prompt fuorthelle.
Hoe te beheare it yndeksearjend
Sykmasine robots binne de automatisearre programma, mar de yndeksearjend proses wurde kin foar in part regele troch de webmaster. Dit sterk helpt eksterne en ynterne optimalisearjen fan 'e boarne. Dêrneist kinne jo sels in nije side foar in sykmasine: grutte middels hawwe in bysûndere foarm fan websiden registraasje.
Similar articles
Trending Now