Навигация по сайту

Популярные статьи

Big Ass SEO: Ваш сайт занадта аб'ёме, каб поўзаць з крычала Frog?

  1. Як змагацца з гэтымі велізарнымі вэб-сайтаў?
  2. Выкарыстанне PHPCrawl ў якасці асновы вашай Big Ass паўзе праграмнае забеспячэнне

Многія тэхнічныя (SEO) онлайн маркетолагі знаёмыя з добры кавалак праграмнага забеспячэння пад назвай Якія крычаць Frog , Функцыянальныя магчымасці будуць змяняючыся ад праверкі дублікатаў старонак, загалоўкаў і мета - апісання для даследавання тэхнічных пытанняў , якія тычацца статусу загалоўка HTTP, вар'ятаў Пераадрасаваннем канструкцый і г.д. Праграма толькі варта вам 99GBP у год, што вельмі танна , улічваючы той факт , што большасць кансультантаў SEO будзе выкарыстоўваць яго на штодня.

Тым не менш, ёсць адна вялікая праблема. Якія крычаць жаба гэта праграма, якая працуе ў Windows, лакальна. Гэта азначае, праграмнае забеспячэнне, залежыць ад межаў вашага ПК або наўтбук абсталявання. У працэсе абыходу канкрэтнага сайта, Якія крычаць жабу захоўвае вызначаныя кропкі дадзеных у памяці RAM. У залежнасці ад памеру вашай памяці, даступнай, існуе абмежаванне па колькасці старонак, файлаў або URL, праграма можа апрацоўваць. Кожны можа лёгка паспрабаваць выявіць мяжы, пачаўшы сканаваць сайт як Amazon.com або eBay.com. Гэтыя вэб-сайты маюць мільёны ўнікальных старонак, і я магу запэўніць вас, сярэдні кампутар не атрымае, што далёка ў гэтых вэб-сайтаў. Гэта прывядзе да наступнага паведамленні:

Яшчэ адна праблема, я з Якія крычаць Frog, што вы не можаце сканаваць некалькі вэб-сайтаў з дапамогай адной каманды. Гэта карысна, калі вы хочаце прааналізаваць спасылку сеткі, напрыклад. Пасля таго, як вы вызначылі некаторыя элементы ў сетцы блог, гэта эканоміць шмат часу, калі вы можаце ўвесці спіс з блог і атрымаць усе знешнія звязаныя сайты назад.

Як змагацца з гэтымі велізарнымі вэб-сайтаў?

Як я працую на некаторыя больш, чым у сярэднім вэб-сайтаў з пункту гледжання праіндэксаваных старонак і наведвальнікаў / дзень, я павінен быў знайсці рашэнне гэтай праблемы. Ёсць некаторыя камерцыйныя рашэння для яго, адзін з іх з'яўляецца Вялікабрытанія аснове Deepcrawl , Яны былі такія ж праблемы, як у мяне было, і зрабіў камерцыйнае рашэнне для яго. У мяне ёсць праблема з камерцыйнымі рашэннямі, што вы звязаныя з абмежаваннямі праграмнага пакета вы купляеце.

Гэта прымусіла мяне думаць: «Як я магу пабудаваць маштабуецца рашэнне для абыходу вэб-сайтаў з больш чым 1.000.000 URL-адрасоў?» Ёсць шмат поўзаюць сістэм з адкрытым зыходным кодам, з якіх толькі нешматлікія з іх сапраўды падыходзяць для працы. У залежнасці ад мовы вы зможаце запраграмаваць сябе, вы маглі б зірнуць на наступныя параметры:

Адмова ад адказнасці: быць у курсе таго , што вы можаце быць заблякаваны серверам ці абрынуць сайт, поўзаючы праз яго занадта агрэсіўна.

Выкарыстанне PHPCrawl ў якасці асновы вашай Big Ass паўзе праграмнае забеспячэнне

На жаль, я толькі ў стане закадаваць PHP і SQL, так лепшы варыянт для мяне, каб пачаць з, была бібліятэка PHPCrawl. На самай справе гэта сапраўды поўны вэб-сістэма сканавання, якая можа быць лёгка пераробленыя, у залежнасці ад патрэбаў. Я ведаю, што рашэнні, заснаваныя на мовах праграмавання, такіх як Java або C ++ з'яўляюцца больш падыходнымі для выканання хуткага поўзаюць задач, асабліва з-за таго, што вы можаце паскорыць працэс абыходу, запусціўшы некалькі асобнікаў праграмнага забеспячэння і зрабіць выкарыстанне шмат'ядравых працэсараў. PHPCrawl здольны запускаць некалькі асобнікаў з каманднага радка, але не кожны сервер падыходзіць для гэтага. Вы павінны праверыць неабходныя спецыфікацыі, што на іх сайце.

Таму, як толькі вы ўсталявалі гэтую бібліятэку на лакальным ці знешнім сэрвэры, вам трэба наладзіць базу дадзеных для захоўвання інфармацыі. Я думаю, што самы просты спосаб, каб захаваць вашыя дадзеныя ў базе дадзеных MySQL. Я не буду ўдавацца ў дэталі, каб шмат, таму што я чакаю, людзі, якія хочуць працаваць з такім гусенічным маюць дастаткова навыкаў праграмавання для распрацоўкі іх на сістэмы (знешніх і ўнутраным баз дадзеных), зыходзячы з сваіх патрэбаў.

Ты можаш спампаваць невялікую PHP + MySQL прыклад (ZIP-файл), які можна выкарыстоўваць для абыходу пэўнага дамена, або масіў даменаў, для ўсіх унутраных і выходных спасылак. Дадзеныя захоўваюцца ў базе дадзеных MySQL. Я думаю, што гэта просты і наглядны прыклад, каб пачаць з.

Для вялікіх сайтаў, сістэма будзе трэба так час, каб атрымаць усе URL-адрасы. Вы можаце лёгка паскорыць працэс, запусціўшы некалькі асобнікаў. Для атрымання дадатковай інфармацыі пра наладу PHPCrawl для завяршэння працэсаў хутчэй, чытаць інструкцыі на вэб-сайце , Калі запусціць некалькі асобнікаў, каб паскорыць гэты працэс, быць у курсе таго, што серверы могуць заблакаваць ваш IP на аснове вялікай колькасці запытаў у секунду вы робіце. Каб пазбегнуць гэтага, вы можаце стварыць у сістэме проксі так што кожны запыт будзе праходзіць праз выпадковы IP-адрас.

Вы павінны пераканацца, што вы карыстаецеся кэшаванне базы дадзеных замест выкарыстання лакальнай памяці, у адваротным выпадку вы атрымаеце тыя ж праблемы, як з крычала Frog. Аператыўная памяць абмежаваная, базы дадзеных не з'яўляюцца. PHPCrawl здольны кэшаваць дадзеныя ў SQLite базы дадзеных. Проста дадайце адзін радок кода ў скрыпце: наведайце вэб-старонку PHPCrawl ў прачытаць інструкцыю ,

Асноўная рэалізацыя PHPCrawl пачынаецца з аднаго дамена і паўзе ўсё URL, якія ён знаходзіць. Вы таксама можаце паказаць шукальніку толькі поўзаць канкрэтны дамен. З дапамогай простага цыкла, вы можаце лёгка ўставіць масіў даменаў, каб ён мог праверыць і прааналізаваць канкрэтную сетку.

Калі ў вас ёсць якія-небудзь пытанні, якія тычацца ўстаноўкі гусеніц, не вагаючыся, каб адказаць на гэты блог. Любая дапамога з апрацоўкай дадзеных? Проста па электроннай пошце мне [Электронная пошта абаронена] , Я таксама хацеў бы ведаць, як вы маеце справу з поўзаць сайты з больш чым аднаго мільёна старонак, калі ласка, падзяліцеся сваім вопытам у каментарах.

Як змагацца з гэтымі велізарнымі вэб-сайтаў?
Як змагацца з гэтымі велізарнымі вэб-сайтаў?
URL-адрасоў?
Любая дапамога з апрацоўкай дадзеных?