Полезни съвети

Дълбока мрежа

Pin
Send
Share
Send
Send


Deep Web - множество уеб страници в World Wide Web, които не са индексирани от търсачките.

Терминът произлиза от английската невидима мрежа.

Най-важната част от дълбокия уеб е дълбоката мрежа, която се състои от уеб страници, динамично генерирани от заявки чрез онлайн бази данни. Концепцията за дълбока уеб не трябва да се бърка с концепцията за тъмна мрежа, което означава мрежови сегменти, които изобщо не са свързани към Интернет или са свързани, но за достъп до тези сегменти са необходими специален софтуер / нестандартни портове и / или протоколи.

Терминът "Deep Web" обикновено се отнася до уеб страници, които по една или друга причина не са индексирани от ботове за търсене. Съответно, ако търсите нещо с любимата си търсачка, не можете да го използвате, за да намерите страници, които тази търсачка не е индексирала. Размерът на дълбокия уеб е неизвестен и като цяло е трудно да се прецени, на първо място, поради неясността на самата концепция. Съществуват обаче груби оценки за общия брой сайтове, водещи до онлайн бази данни.

Към дълбокия Интернет включват:

• страници със „дълбоко“ ниво на влагане, например: http://www.example.com/folder/folder1/folder2/folder3/folder4/index страница,

• Интернет на социални мрежи / форуми със затворени страници за търсене.

• „неиндексируем Интернет“, който преди е бил страници не в html формат, а в „pdf“, „djvu“, „txt“ и т.н.

Това прилича на традиционната топология на Невидимия Интернет от К. Шерман и Г. Прайс, но днес „невидимият Интернет“ се промени неузнаваемо, появиха се и се появяват инструменти, които ви позволяват да работите в „дълбоката мрежа“.

Как да търсите в дълбока мрежа (невидима мрежа)

Той работи на принципа на уики, което означава, че много от нашите статии са написани от няколко автори. При създаването на тази статия 31 души (а) работиха върху нейното редактиране и подобряване, включително анонимно.

Броят на източниците, използвани в тази статия: 5. В долната част на страницата ще намерите списък с тях.

Търсачките като Google индексират повече от трилион страници от световната мрежа, но в интернет има информация, която не може да бъде достигната чрез обикновени търсачки. В повечето случаи тази информация трябва да се търси директно в сайтовете. Дълбоката мрежа (невидима мрежа) също включва информация за потайни общности, които искат да избегнат публичност и личен интерес от страна на властите.

Съдържание

Дълбоката мрежа съдържа уеб страници, които не са свързани с други хипервръзки (например мъртви уеб страници динамично създадени от скриптове на самите сайтове, които нямат директни връзки при поискване), както и сайтове, които са достъпни само за регистрирани потребители и уеб страници само за парола.

Търсачките използват специални роботи за търсене, които следват хипервръзки и индексират съдържанието на уеб страниците, на които се появяват, поставяйки тяхното съдържание и хипервръзки към тях в своите бази данни. След като намери връзки към други страници на индексираната уеб страница, ботът за търсене кликва върху тях и индексира съдържанието на всяка от намерените страници, намира нови хипервръзки и кликва върху тях за индексиране, в резултат на кликвания върху връзки, водещи извън индексираните страници, броя на индексираната мрежа страниците непрекъснато се увеличават. Роботът за търсене не може да достигне до уеб страници, към които няма връзки от други страници, поради което съдържанието на тези страници не е индексирано. В резултат на това, без да знае URL адреса на уебсайта или уеб страницата на Deep Network, обикновен потребител няма да има достъп до тях.

Също така, Deep Network включва сайтове, чиито собственици доброволно са отказали да бъдат индексирани от търсачките (например, използвайки файла robots.txt), както и сайтове и уеб страници, които са защитени с разрешение от гледане на информация от трети страни. В този случай, без да знаете данните за вход и (или) паролата за уеб страницата, е невъзможно да прегледате напълно нейното съдържание или да използвате уебсайта.

Дълбоко редактиране на уеб търсенето

През 2005 г. Yahoo! направи сериозна стъпка към решаването на този проблем. Компанията пусна търсачката „Yahoo! Абонаменти “, който търси сайтове (засега не са многобройни), достъпът до които е отворен само за регистрирани членове на тези сайтове. Това обаче не реши напълно съществуващия проблем. Експертите в търсачките все още се опитват да намерят технически опции за индексиране на съдържанието на базата данни и достъп до затворени уебсайтове.

Една от популярните услуги, работещи с дълбоки уеб данни, е UFOseek, която първоначално е създадена за систематизиране на данни за паранормални явления.

В netstalking, дълбоката мрежа е един от предметите на изследване; има отделни методи и инструменти за търсене в нея.

Специални търсачки:

Въпреки че не винаги е възможно директно да намерите съдържанието на определен уеб сървър, за да може да бъде индексирано, все пак можете да получите достъп до такъв сайт (поради компютърни уязвимости).

За да намерят съдържание в Интернет, търсачките използват уеб сканери, които следват хипервръзки чрез известни номера на виртуални портове на протокола. Този метод е идеален за откриване на съдържание в световната мрежа, но често е неефективен при търсене на дълбоко уеб съдържание. Например роботите за търсене не търсят динамични страници, които са резултат от заявки към базата данни поради неопределен брой от тези заявки. Беше отбелязано, че това може (частично) да бъде преодоляно чрез предоставяне на връзки към резултатите от заявките, но може по невнимание да увеличи популярността на член на дълбока мрежа.

Има няколко търсачки, които имат достъп до дълбока мрежа. Intute спря финансирането и вече е временен архив от юли 2011 г. Scirus затворен в края на януари 2013 г.

Изследователите са проучили как автоматично да сканирате дълбока мрежа, включително съдържание, до което можете да получите достъп само със специален софтуер като Tor. През 2001 г. Шрирам Рагаван и Хектор Гарсия-Молина (Катедрата по компютърни науки в Станфорд, Университета в Станфорд) представиха архитектурен модел на скрита търсачка, който използваше ключови думи, предоставени от потребители или събрани от интерфейси за заявки, за да проверяват и обхождат дълбок Интернет.

Търговските търсачки започнаха да проучват алтернативни методи за обхождане на дълбок интернет. Протоколът на Sitemap (за първи път разработен и внедрен от Google през 2005 г.) и mod_oai са механизми, които позволяват на търсачките и други заинтересовани страни да открият дълбоки интернет ресурси на конкретни уеб сървъри. И двата механизма позволяват на уеб сървърите да хостват достъпни URL адреси в тях, което автоматично открива ресурси, които не са пряко свързани с World Wide Web. Навигационната система за дълбока уеб навигация на Google изчислява подаванията за всеки HTML формуляр и добавя получените HTML страници към индекса на търсачката на Google. Резултатите вземат предвид хиляда заявки в секунда за дълбоко уеб съдържание. В тази система предварителното изчисляване на представителствата се извършва с помощта на три алгоритма:

  • избор на входни стойности за търсене на текст, които приемат ключови думи,
  • специфичен вход, който приема само стойности от определен тип (например дати),
  • Изберете малък брой входни комбинации, които генерират URL адреси, подходящи за включване в индекса за търсене в Интернет.

Гледайте видеоклипа: МОЛЯ ВИ, СТОЙТЕ НАСТРАНА ОТ ДЪЛБОКАТА МРЕЖА! (Август 2020).

Pin
Send
Share
Send
Send