Jak uruchomić Screaming Frog & URL Profiler na AWS

Dlaczego tak się dzieje?
Wejdź do Amazon Web Services
Jak skonfigurować Windows Box na AWS za pomocą Screaming Frog i URLProfiler
Teraz jesteś gotowy do rzutu
Co to będzie mnie kosztować?
Zawijanie

Od wielu lat jestem wielkim fanem Screaming Frog SEO Spider. Jeden byłby trudno znaleźć skończoną liczbę przypadków użycia narzędzia . Bardzo doceniam również Dana Sharpa i jego zespół, który nadal koncentruje się na innowacjach i ulepszeniach za pomocą tego narzędzia.

Uwielbiam też wiele innych narzędzi gąsienicowych, które pojawiły się w ten sposób DeepCrawl i URLProfiler . Teraz także poznaję On-Page.org i zachęcam do bezpłatnego próbnego spin.

Narzędzie URL Profiler zostało umieszczone jako narzędzie do przechodzenia do naszego proces audytu treści . Mimo to zachęcam do sprawdzenia Nowe narzędzie do kontroli treści Moz także.

Z tego, co wiem o każdym z tych narzędzi, wynika, że wszystkie mają swoje mocne i słabe strony oraz przypadki użycia. Na przykład, jeśli przeprowadzamy audyt zawartości na podstawie populacji (w oparciu o próbki) na milionach stron, zazwyczaj używamy DeepCrawl, a następnie partii 50k adresów URL w URLProfiler.

Jednak pomimo tego, jak niesamowite są roboty SaaS, zawsze czuję, że „znam” stronę lepiej, gdy robię indeksowanie Screaming Frog lub URLProfiler. Jeden z członków naszego zespołu zbudował także funkcje bezgłowego przeglądania Screaming Frog, więc jest to dla nas dodatkowa zachęta, aby to działało. Doskonale zdaję sobie sprawę, że jest to bardziej odzwierciedlenie tego, jak dobrze znam te produkty, niż wady innych produktów. Niemniej jednak ważniejsze jest robienie tego, co trzeba praca, którą jesteśmy DUMNI niż użyć najbardziej wyrafinowanego narzędzia.

Wszystko to powiedziało, ile razy byłeś sfrustrowany tym oknem dialogowym?

Dlaczego tak się dzieje?

Technologicznie roboty oparte na chmurze mają wyraźną przewagę nad robotami indeksującymi. Zazwyczaj przeszukiwacze działające w chmurze działają przy użyciu szeregu węzłów, które dystrybuują przeszukiwanie. Każdy z tych węzłów działa w małej aplikacji zarządzanej przez inną scentralizowaną aplikację, która sprawia, że indeksowanie jest odporne na błędy. Również przeszukiwacze oparte na chmurze zapisują dane przeszukiwania w bazie danych, dzięki czemu narzut pamięci może być utrzymywany na bardzo niskim poziomie. Wreszcie roboty indeksujące w chmurze mają praktycznie nieskończony zestaw zasobów obliczeniowych, z których można korzystać, aby ułatwić indeksowanie. Podsumowując, roboty oparte na chmurze mogą być dystrybuowane, szybsze i bardziej odporne na awarie. Poniższy diagram z patent eBay daje wizualną reprezentację tego, jak zazwyczaj działa oparty na chmurze rozproszony system indeksowania.

I odwrotnie, roboty indeksujące są ograniczone specyfikacją komputera i działają w pamięci. Jeśli Twój komputer ma 4 rdzenie procesora, 8 GB pamięci RAM, używasz systemu Windows 8, masz 50 kart otwartych w Chrome i masz kilka uruchomionych programów TSR, Frog prawdopodobnie krzyczy z bólu, gdy się czołga . Przeszukiwanie pulpitu jest z natury przeszukiwaniem ograniczonym zasobami; dlatego jest podatny na awarię lub zabraknie pamięci, gdy indeksuje zbyt wiele stron.

Przewaga Frog nad profilerem URL polega na tym, że gdy osiągnie ograniczenie zasobów, zapyta cię, czy chcesz oszczędzać, a potem kontynuować. Z drugiej strony profil URL po prostu ulegnie awarii i wszystkie dane znikną. Zazwyczaj obserwuję wykorzystanie procesów w Menedżerze zadań i rozpoczynam zamykanie innych aplikacji, gdy procesor lub pamięć zbyt blisko 100%.

Wygląda na to, że szanse na duże witryny z narzędziami biurkowymi są przeciwko tobie? Oczywiście, z pewnością mogą być, ale żadne z narzędzi opartych na chmurze nie daje mi kombinacji danych, których chcę tak, jak tego chcę. Więc co możemy zrobić?

Wejdź do Amazon Web Services

Teraz uruchomimy Screaming Frog i URLProfiler na Amazon Web Services. To pozwoli nam uruchomić narzędzia na odizolowanej maszynie, która ma znacznie więcej zasobów i prawdopodobnie bardziej stałą prędkość niż cokolwiek, co mamy w naszych biurach. Moja własna maszyna, czyli fantastyczny Samsung ATIV-9, ma 2 rdzenie, 8 GB RAM i 256 SSD. W AWS możemy skonfigurować maszynę, która ma 40 rdzeni, 160 GB i praktycznie nieskończoną przestrzeń. Nie będziemy, bo to przesada, ale rozumiesz.

Prawdopodobnie słyszałeś o usługach Amazon Web Services (AWS) i możesz rzucić to w ramach opcji, jak możesz robić wymyślne rzeczy w sieci. A może czytałeś o tym, jak zasila wiele aplikacji, z których wszyscy korzystamy na co dzień. Niezależnie od przypadku, długi i krótki serwis Amazon Web Services zapewnia wirtualne zasoby obliczeniowe na wiele różnych sposobów. W efekcie można hostować szereg serwerów, baz danych, przestrzeni pamięci i innych w niezliczonych konfiguracjach i manipulować nimi programowo na żądanie. Na przykład, po uruchomieniu indeksowania w DeepCrawl, uruchomienie go zajmuje kilka minut, ponieważ musi uruchomić kilka instancji EC2, aby ułatwić to indeksowanie.

Ten przypadek użycia nie ma zastosowania do tego, co tutaj robimy, ale teraz masz obraz tego, jak narzędzia te wykorzystują AWS na swoją korzyść. W tym przypadku uruchomimy jedno pole i skonfigurujemy je tak, aby działało dokładnie to, czego potrzebujemy.

Jak widać poniżej, istnieje wiele różnych usług oferowanych przez Amazon. Najbardziej skupimy się na Elastic Computing Cloud, powszechnie nazywanym EC2.

Musisz również wiedzieć trochę o VPC, aby uzyskać zdalny dostęp do swoich serwerów, ale nie będziemy w to wchodzić zbyt głęboko.

Chociaż powyższa lista usług może wydawać się zniechęcająca, obiecuję, że proces instalacji będzie całkiem bezbolesny. Czy powinniśmy?

Jak skonfigurować Windows Box na AWS za pomocą Screaming Frog i URLProfiler

Aby zacząć korzystać z usług Amazon Web Services, będziemy skutecznie konfigurować instancję serwera Windows, instalując na nim programy, uruchamiając nasze przeszukiwanie, zapisując obraz tej instancji i wyłączając ją. No to ruszamy!

Zaloguj się do Amazon Web Services - Użyjesz do tego konta Amazon. Amazon zapewnia bezpłatne 12-miesięczne usługi AWS dla pierwszych użytkowników. Należy pamiętać, że bezpłatna warstwa dotyczy tylko niektórych typów użytkowania. Instancje w warstwie bezpłatnej nie będą odpowiednie do tego, co zamierzamy osiągnąć, ale ceny wykraczające poza te typy użytkowania są całkiem rozsądne.
Uruchom swoją instancję - Po pierwsze, upewnij się, że znajdujesz się w odpowiedniej strefie dostępności (w prawym górnym rogu obok mojego imienia). Północna Wirginia jest najtańszym centrum danych. Następnie kliknij przycisk Uruchom instancję.
Wybierz swój AMI - Amazon Machine Image (AMI) to preinstalowany zestaw skonfigurowanego oprogramowania. Zamiast konfigurowania pustej maszyny i konieczności zainstalowania systemu operacyjnego, Amazon pozwala sklonować nową maszynę za pomocą wybranego już systemu operacyjnego. Możesz skonfigurować własne konfiguracje i tworzyć własne AMI, ale nie będziemy. W tym przypadku wybieramy system Windows Server 2012 R2 Base AMI.
Wybierz typ instancji - Tutaj możesz wybrać moc obliczeniową. Jak widać bezpłatna warstwa (t2.micro) daje tylko jeden rdzeń i jeden GB pamięci RAM. To byłoby w porządku, w przypadku pojedynczego węzła, jeśli piszesz skrypt, który robił twoje indeksowanie, ale nie masz go, używasz w pełni funkcjonalnej aplikacji Windows wymagającej pamięci. Idź z typem instancji r3.4xlarge z 16 rdzeniami i 122 GB pamięci RAM i pozwól tym programom oddychać. Możesz dowiedzieć się więcej informacji na temat typów instancji, które oferuje tutaj AWS . Alert spoiler: instancje R3 są „zoptymalizowane pod względem pamięci” i sugerowane specjalnie do uruchamiania programów analitycznych.
Konfiguruj szczegóły instancji - Możesz pozostawić te wszystkie ustawienia domyślne. To twoja pierwsza instancja, musisz skonfigurować VPC i skonfigurować interfejs sieciowy, aby móc się zalogować na serwerze Windows. Powinieneś również sprawdzić ochronę przed automatycznym zamknięciem, ponieważ jest to pierwszy raz, gdy grasz w AWS; w ten sposób na pewno nie stracisz żadnych danych.

Czytać więcej informacji na temat konfigurowania VPC .
Configure Security Group - AWS jest irytująco bezpieczny. Będziesz musiał skonfigurować grupę zabezpieczeń za pomocą kreatora uruchamiania. Grupy zabezpieczeń umożliwiają dostęp do użytkowników na podstawie ich adresów IP. Ponieważ jednak na tym polu nie przechowujesz niczego znaczącego, możesz przejść dalej i dać grupie bezpieczeństwa dostęp z dowolnego adresu IP. Jeśli zaczniesz oszczędzać coś wartościowego, zalecam zablokowanie go do adresów IP, do których dostęp mają tylko Ty i Twój zespół.
Przejrzyj uruchamianie instancji - tak jak w przypadku każdego narzędzia, które korzysta z kreatora, właśnie dokonujesz ostatecznej kontroli konfiguracji w tym momencie. Sprawdź dokładnie, czy ekran wygląda bardzo blisko tego. Powinieneś zobaczyć dwa wskaźniki ostrzegawcze na górze, jeśli skonfigurowałeś go tak, jak ja. Twój typ instancji będzie odzwierciedlał wszystkie ustawione opcje.
Utwórz nową parę kluczy - Para kluczy jest kluczem publicznym i prywatnym, którego AWS używa do logowania. W systemie Windows Server AWS używa tego klucza, aby można było pobrać hasło administratora. Utwórz parę kluczy i pobierz plik.
Połącz się z instancją - AWS poda plik konfiguracyjny do pobrania, aby połączyć się z instancją za pomocą Aplikacja Remote Desktop . Musisz także najpierw przesłać parę kluczy, aby uzyskać tutaj hasło administratora. Gdy to zrobisz, hasło administratora nie ulegnie zmianie, więc dopóki je zachowasz, nie będziesz musiał ponownie łączyć się przez ten interfejs. Więc zapisz swoje hasło i zaloguj się bezpośrednio za pomocą aplikacji Podłączanie pulpitu zdalnego. Będziesz chciał zapisać plik i hasło, aby ułatwić udostępnianie danych logowania współpracownikom.
Po zalogowaniu pojawi się okno systemu Windows, które wygląda tak (bez Chrome, Profiler URL i mojego katalogu indeksowania Screaming Frog) :
Oczywiście Windows Server ma inne funkcje niż wersje Home, ale będzie działał zasadniczo tak samo jak Windows 8. RDC przejmie klawisze skrótów, gdy tylko okno zostanie zmaksymalizowane. Jeśli używasz aplikacji Remote Desktop po raz pierwszy, sprawdź ten post na temat mapowania dysków dzięki czemu można uzyskać dostęp do lokalnych plików na zdalnym komputerze.
Zainstaluj Chrome - Pierwszą rzeczą, którą będziesz chciał zrobić, to zainstaluj Chrome więc nie jesteś obarczony obrzydliwością, jaką jest Internet Explorer.
Zmień ustawienia zabezpieczeń internetowych - Wystąpią problemy podczas instalacji Java na tej irytująco „bezpiecznej” instalacji systemu Windows Server. Przejdź do Ustawienia zabezpieczeń i skonfiguruj poziom niestandardowy, włączając wszystko. Możesz kontynuować i zmienić go ponownie po zainstalowaniu Java.
Zainstaluj Java 64-bit - Będziesz chciał zainstalować Windows Offline 64-bit z strona instalacji ręcznej w Java.com . 64-bit jest ważny, ponieważ opcja alokacji w inny sposób łamie Krzyczącą Żabę.
Zainstaluj Screaming Frog SEO Spider - Ponieważ Screaming Frog wymaga nieco więcej konfiguracji, aby go doładować, zacznijmy od tego najpierw. Pobierz Screaming Frog i wprowadź swój klucz licencyjny.
Zmaksymalizuj alokację pamięci krzyczącej żaby - krzycząca żaba ma plik konfiguracyjny, który pozwala ci określić, ile pamięci przydziela sobie w czasie wykonywania. Ten plik ScreamingFrogSEOSpider.I4j znajduje się w plikach wykonywalnych aplikacji. Otwórz go w Notatniku i zmień domyślny przydział pamięci na 512 MB na 120 GB. Dla tych, którzy chcą wiedzieć, co to robi, ta wartość jest zmienną środowiskową JVM, która mówi Java, aby przydzieliła określoną ilość miejsca Screaming Frog. Screaming Frog po prostu przekazuje to do Java, gdy działa.
Zwiększ wątki - domyślnie Screaming Frog używa tylko 5 wątków jednocześnie, aby być miłym dla webmasterów. Zróbmy to do 15, abyśmy mogli wykonać tę pracę szybciej.
Zainstaluj URL Profiler - Pobierz profil URL, zainstaluj go i umieść w kluczu licencyjnym.
Skonfiguruj klucze API - ustaw klucze API dla wszystkich usług, z których chcesz korzystać.
Utwórz obraz AMI - Teraz, gdy twoja instancja jest całkowicie skonfigurowana, będziemy chcieli stworzyć jej obraz na wypadek, gdyby coś poszło nie tak lub chcesz utworzyć kilka instancji swojego pudełka, jeśli chcesz uruchomić wiele wysokooktanowych indeksowań w pewnego razu.
Nadaj swojemu wizerunkowi nazwę.

Teraz jesteś gotowy do rzutu

Chociaż nie znam ograniczeń tej konfiguracji, obecnie przeglądam ją w trakcie 20 milionów przeszukiwania adresów URL. Jeśli napotkasz jakieś problemy, zawsze możesz przejść do większej instancji, aby uzyskać więcej pamięci. Idealnie byłoby, gdybyś mógł dodać większe wolumeny (dyski twarde) do instancji, na których programy mogłyby opierać się na pamięci wirtualnej, ale z testów i dokumentacji wynika, że Screaming Frog i URLProfiler używają tylko pamięci fizycznej. Skutecznie ograniczasz się do dowolnej maksymalnej konfiguracji pamięci (244 GB w przypadku, gdy zastanawiasz się), która może pomieścić od razu. Na przykład, Dokumentacja Screaming Frog określa że „Mówiąc ogólnie ze standardowym przydziałem pamięci 512 MB pająk może przeszukiwać między URI 10K-100K witryny. Możesz zwiększyć pamięć pająka SEO i jako bardzo szorstki przewodnik, maszyna 64-bitowa z 8 GB pamięci RAM na ogół pozwoli na indeksowanie kilkuset tysięcy adresów URL. ”Chociaż jestem sceptyczny wobec tej liczby opartej na tych specyfikacjach, zakładając, że 8 GB dostajesz 200k adresów URL, a następnie 122GB powinno uzyskać 3,05 miliona adresów URL.

Ponadto piękno Pulpitu zdalnego polega na tym, że możesz rozpocząć przeszukiwanie, zamknąć okno, a następnie zdalnie ponownie je włączyć i będzie działać przez cały czas. Pamiętaj, że Amazon Web Services pobiera opłaty za godzinę, więc nie zapominaj, że prowadzisz instancję, jeśli interesują Cię wydatki. Co prowadzi mnie do następnego punktu…

Co to będzie mnie kosztować?

Ceny Amazon są całkowicie zależne od konfiguracji i mają kalkulator cen jak również system ostrzegania o wydatkach, który pomoże ci utrzymać się na szczycie.

W oparciu o wybraną konfigurację, jeśli pozostawimy ją na 100 godzin (trochę ponad 4 kolejne dni) miesięcznie, będzie to kosztować 237,33 USD. Pod warunkiem, że w tym okresie można zaindeksować 3 miliony adresów URL (szybkość witryny i zależność od przepustowości), jest to znacznie tańsze niż 2980 USD, które DeepCrawl pobiera opłatę za 3 miliony adresów URL z planem płatności w czasie rzeczywistym .

Pod warunkiem, że w tym okresie można zaindeksować 3 miliony adresów URL (szybkość witryny i zależność od przepustowości), jest to znacznie tańsze niż 2980 USD, które DeepCrawl pobiera opłatę za 3 miliony adresów URL z planem płatności w czasie rzeczywistym

Zawijanie

Oczywiście istnieją różne plany, które oferują przeszukiwacze oparte na chmurze i wykonują wiele pracy za Ciebie lub możesz po prostu zbudować maszynę o maksymalnej wydajności, która po prostu uruchamia Screaming Frog i URLProfiler i oszczędza pieniądze. Albo możesz uruchomić Screaming Frog na linuxowym pudełku, aby zaoszczędzić więcej nakładów i potencjalnie uruchomić na mniejszej instancji, ale zgaduję, że jeśli możesz, prawdopodobnie nie czytasz tego postu. Tak czy inaczej, hosting aplikacji Screaming i URLProfiler na AWS to świetne rozwiązanie krótkoterminowe, gdy indeksowanie pulpitu wymaga większej mocy.

Teraz twoja kolej. Chciałbym usłyszeć, jak pokonałeś ograniczenia indeksowania pulpitu w komentarzach poniżej!

*** AKTUALIZACJA: Fili Weise pobił mnie tym uderzeniem. Sprawdź jego dyskusję na temat uruchamiania Screaming Frog w Google Gloud Servers! ***

Dlaczego tak się dzieje?
Wszystko to powiedziało, ile razy byłeś sfrustrowany tym oknem dialogowym?
Dlaczego tak się dzieje?
Wygląda na to, że szanse na duże witryny z narzędziami biurkowymi są przeciwko tobie?
Więc co możemy zrobić?
Czy powinniśmy?

Навигация по сайту