Навигация по сайту

Популярные статьи

Як запустити Screaming Frog & URL Profiler на AWS

  1. Чому це відбувається?
  2. Введіть веб-служби Amazon
  3. Як налаштувати вікно Windows на AWS з Screaming Frog і URLProfiler
  4. Тепер Ви готові до рулону
  5. Що це буде коштувати мені?
  6. Підведенню

Я був великим шанувальником Крик Frog SEO Spider протягом ряду років. Один буде важко знайти кінцеве число випадків використання інструменту . Я також дуже вдячний за те, що Дан Шарп і його команда продовжують зосереджуватися на інноваціях і вдосконаленні інструменту.

Я також люблю багато інших гусеничних інструментів, які з'явилися в його сліду DeepCrawl і URLProfiler . Тепер я також дізнаюся про On-Page.org, і заохочую вас додати їх безкоштовну пробну версію.

URL Profiler хоч і посадив себе як інструмент переходу до нашого процес аудиту вмісту . Хоча, я рекомендую вам перевірити Новий інструмент аудиту вмісту Moz так само.

З того, що я знаю про кожен з цих інструментів, вони мають свої власні сильні сторони, слабкі сторони і випадки використання. Наприклад, якщо ми здійснюємо аудиторську перевірку вмісту (на основі вибірки) на мільйонах сторінок, ми зазвичай використовуємо DeepCrawl, а потім пакети по 50k URL-адрес у URLProfiler.

Однак, незважаючи на те, як сканери SaaS є дивовижними, я завжди відчуваю, що я "знаю" веб-сайт краще, коли я роблю Screaming Frog або URLProfiler crawl. Також один з наших членів команди побудував принести безголовий функції перегляду Screaming Frog, так що це додатковий стимул для нас, щоб вона працювала. Я добре розумію, що це більше відображення того, наскільки добре я знаю ці продукти, ніж недоліки інших продуктів. Тим не менш, важливіше робити те, що потрібно для цього працюємо, що ми ГОРД ніж використовувати найскладніший інструмент.

Все, що сказано, скільки разів ви були розчаровані цим діалоговим вікном?

Чому це відбувається?

Технологічно сканери на основі хмари мають чітку перевагу над сканерами на робочому столі. Як правило, обхідники на основі хмарних обчислень використовують ряд вузлів, які розподіляють сканування. Кожен з цих вузлів запускає невелику програму, керовану іншим централізованим додатком, що робить сканування стійким до збоїв. Крім того, обхідні сканери зберігають свої дані сканування до бази даних, тому накладні витрати на пам'ять можуть бути дуже низькими. Нарешті, обхідні на основі хмари сканери мають практично нескінченний набір обчислювальних ресурсів, щоб витягнути, щоб полегшити сканування. Підсумовуючи, обхідники на основі хмари можуть бути розподілені, швидше і більш стійкі до збоїв. Наведена нижче діаграма з Патент eBay надає візуальне уявлення про те, як зазвичай працює хмарна система розподіленого сканування.

І навпаки, сканери робочого столу обмежені специфікаціями вашого комп'ютера, і вони працюють у пам'яті. Якщо у вашій машині є 4 ядра процесора, 8 Гб оперативної пам'яті, ви працюєте під керуванням Windows 8, відкрито 50 вкладок в Chrome і маєте купу запущених TSR, Frog дуже ймовірно буде кричати від болю, коли він сканує для вас . Сканування робочого столу за своєю суттю є обмеженням ресурсів; Ось чому він схильний до падіння або втрати пам'яті, коли він сканує занадто багато сторінок.

Перевага крикувальної жаби над URL Profiler полягає в тому, що, як тільки вона досягне обмеження ресурсів, вона запитає вас, чи хочете ви зберегти обхід і продовжувати йти. З іншого боку, URL Profiler буде просто збій, і всі ці дані зникнуть. Як правило, я спостерігаю за використанням процесів у диспетчері завдань і починаю закривати інші програми, коли процесор або пам'ять наближаються до 100%.

Схоже, що шанси проти вас для великих сайтів з настільними інструментами? Звичайно, вони, безумовно, можуть бути, але жоден з хмарних інструментів не дає мені комбінації даних, які я хочу просто так, як я хочу. Так що ж ми можемо зробити?

Введіть веб-служби Amazon

Тепер ми збираємося запустити Screaming Frog і URLProfiler на веб-службах Amazon. Це дозволить нам запускати інструменти на ізольованій машині, яка має набагато більше ресурсів і, швидше за все, більш послідовну швидкість, ніж у вас чи у нас у відповідних офісах. Моя власна машина, яка є фантастичним Samsung ATIV-9, має 2 ядра, 8 Гб оперативної пам'яті і 256 SSD. На AWS ми можемо налаштувати машину, яка має 40 ядер, 160 Гб і практично нескінченний простір. Ми не будемо, тому що це перебільшення, але ви зрозуміли.

Шанси на те, що ви чули про Amazon Web Services (AWS), і ви можете кинути його як опцію для того, як ви можете робити модні речі в Інтернеті. Або, можливо, ви прочитали про те, як він керує багатьма програмами, які ми використовуємо щодня. У будь-якому випадку, довгий і короткий час - Amazon Web Services надає вам віртуальні обчислювальні ресурси різними способами. Фактично, ви можете розмістити ряд серверів, баз даних, місця для зберігання та ін. В безлічі конфігурацій і маніпулювати ними програмно за запитом. Наприклад, коли ви запускаєте сканування в DeepCrawl, це займе кілька хвилин, щоб він почав роботу, оскільки він повинен запустити ряд екземплярів EC2, щоб полегшити цей сканування.

Цей випадок використання не стосується того, що ми робимо тут, але тепер ви маєте уявлення про те, як ці інструменти використовують AWS на свою користь. У такому випадку ми розгорнемо одне поле і налаштуємо його так, щоб він працював саме так, як нам потрібно.

Як ви можете бачити нижче, існує безліч різних послуг, які Amazon пропонує. Найбільш увага приділятиметься Elastic Computing Cloud, яку зазвичай називають EC2.
Як ви можете бачити нижче, існує безліч різних послуг, які Amazon пропонує

Ви також повинні знати трохи про VPC, щоб отримати віддалений доступ до серверів, але ми не підемо надто глибоко в це.

Незважаючи на те, що перелік послуг, наведених вище, може виявитися складним, я обіцяю вам, що процес налаштування буде досить безболісним. Чи будемо ми?

Як налаштувати вікно Windows на AWS з Screaming Frog і URLProfiler

Щоб працювати з веб-службами Amazon, ми будемо ефективно налаштовувати примірник Windows Server, встановлювати на нього програми, запускатимемо сканування, зберігаючи зображення цього екземпляра та вимикаючи його. Ось і ми!

  1. Увійдіть до Веб-служби Amazon - Ви будете використовувати для цього обліковий запис Amazon. Amazon надає безкоштовно 12 місяців сервісу AWS користувачам першого разу. Майте на увазі, що вільний рівень застосовується лише до певних типів використання. Екземпляри у вільному ярусі не будуть адекватними тому, що ми прагнемо досягти, але ціноутворення, що виходить за межі цих типів використання, цілком обґрунтоване.
  2. Запустіть екземпляр - спочатку переконайтеся, що ви знаходитесь у правильній зоні доступності (у верхньому правому куті поруч із моїм ім'ям). Північна Вірджинія є найдешевшим центром обробки даних. Після цього натисніть Запустити екземпляр.
  3. Оберіть AMI - Образ машини Amazon (AMI) - це попередньо встановлений набір настроєного програмного забезпечення. Замість того, щоб встановлювати пусту машину і потребувати встановлення операційної системи, Amazon дозволяє клонувати свіжу машину з вже встановленою операційною системою. Ви можете налаштувати власні конфігурації та створити власні AMI, але ми не будемо. У цьому випадку ми будемо вибирати базовий AMI для Windows Server 2012 R2.
  4. Виберіть тип екземпляра - тут ви можете обрати обчислювальну потужність. Як ви можете бачити, вільний рівень (t2.micro) дає лише одне ядро ​​і один Гб оперативної пам'яті. Для одного вузла це буде добре, якщо ви пишете сценарій, який виконував сканування, але ви не працюєте, ви працюєте з повнофункціональною Windows-головною програмою. Перейдіть з типом екземпляра r3.4xlarge з 16 ядрами і 122 ГБ оперативної пам'яті і нехай ці програми дихають. Ви можете дізнатися більше інформації про типи екземплярів, які AWS пропонує тут . Попередження про спойлери: екземпляри R3 є "оптимізованими для пам'яті" і пропонуються спеціально для запуску програм аналітики.
  5. Налаштування подробиць екземпляра - Ви можете залишити всі ці значення як типові. Ну, це ваш перший примірник, вам доведеться налаштувати VPC і налаштувати мережевий інтерфейс, так що ви можете реально увійти на ваш сервер Windows. Ви також повинні перевірити захист від автоматичного вимкнення, оскільки це ваш перший час відтворення з AWS; таким чином, ви впевнені, що не втратите жодних даних.


    Читайте для отримання додаткової інформації про налаштування VPC .

  6. Налаштувати Security Group - AWS дратує безпечно. Вам потрібно налаштувати групу безпеки за допомогою майстра запуску. Групи безпеки дозволяють надавати доступ користувачам на основі їх IP-адрес. Однак, оскільки ви не зберігаєте нічого значного на цьому вікні, ви можете дати їй доступ до групи безпеки з будь-якого IP-адреси. Якщо ви почнете зберігати що-небудь цінне, я рекомендую заблокувати його до IP-адрес, до яких може отримати доступ лише ви та ваша команда.
  7. Запуск екземпляра огляду - як і будь-який інший інструмент, який використовує майстра, ви лише робите остаточну перевірку вашої конфігурації. Перевірте, чи ваш екран виглядає досить близько до цього. Ви повинні побачити два попереджувальних індикатора у верхній частині, якщо ви налаштували його так, як я. Тип вашого примірника буде відображати будь-які встановлені вами параметри.
  8. Створення пари нових ключів - пара ключів - це загальний і приватний ключ, який AWS використовує для входу. Для Windows Server AWS використовує це, щоб ви могли отримати пароль адміністратора. Створіть пару ключів і завантажте файл.

  9. Підключення до вашого примірника - AWS надасть вам файл конфігурації для завантаження для підключення до вашого примірника за допомогою Програма віддаленого робочого столу . Вам також потрібно спочатку завантажити пару ключів, щоб отримати пароль адміністратора. Як тільки ви зробите це, пароль адміністратора не змінюється, тому, поки ви його зберігаєте, вам не потрібно буде знову підключатися через цей інтерфейс. Отже, збережіть свій пароль і ввійдіть безпосередньо в програму підключення до віддаленого робочого столу. Ви хочете зберегти файл і пароль, щоб полегшити обмін відомостями про вхід з вашими колегами.

    Після входу в систему з'явиться вікно Windows, яке виглядає наступним чином (мінус Chrome, URL Profiler і мій каталог сканування крикувальної жаби) :

    Природно, Windows Server має різні функції від Home версій, але він буде працювати принципово так само, як і Windows 8. RDC візьме на себе гарячі клавіші кожного разу, коли вікно буде розгорнуто. Якщо ви вперше використовуєте програму Remote Desktop, відвідайте цей пост про те, як відобразити диски щоб отримати доступ до локальних файлів на віддаленому комп'ютері.

  10. Встановіть Chrome - перше, що ви захочете зробити, це встановіть Chrome так що ви не обтяжуєтеся огидою, яка є Internet Explorer.
  11. Зміна налаштувань безпеки Інтернету - Ви зіткнетеся з деякими проблемами, намагаючись встановити Java на цю прикро "безпечну" установку Windows Server. Перейдіть до Налаштування безпеки та налаштуйте власний рівень, увімкнувши все. Ви можете змінити його назад після інсталяції Java.
  12. Встановіть Java 64-біт - Ви хочете встановити Windows 64-біт з Windows сторінку встановлення вручну на Java.com . 64-біт є важливим, оскільки варіант виділення перериває Screaming Frog інакше.

  13. Встановити Крик Frog SEO павук - Тому що Крик Frog вимагає трохи більше конфігурації, щоб отримати його наддувом, давайте почнемо з цього першого. Скачати Крикнута Жаба і введіть ліцензійний ключ.

  14. Максимізуйте виділення пам'яті жаби з криками - Screaming Frog має файл конфігурації, який дозволяє вказати, скільки пам'яті він виділяє для себе під час виконання. Цей файл ScreamingFrogSEOSpider.I4j розташований з виконуваними файлами додатків. Відкрийте його в "Блокноті" і змініть значення 512 Мб за замовчуванням на 120 Гб. Для тих, хто хоче знати, що це робить, це значення є змінною середовища JVM, яка говорить Java, щоб виділити вказану кількість простору для Screaming Frog. Screaming Frog просто передає це на Java, коли він працює.
  15. Зростання потоків - За замовчуванням Screaming Frog використовує лише 5 потоків, щоб бути приємним для веб-майстрів. Давайте зробимо це до 15, щоб ми могли виконати цю роботу швидше.

  16. Встановіть URL Profiler - Завантажте URL Profiler, встановіть його та вставте в ліцензійний ключ.

  17. Налаштуйте ключі API - Налаштуйте ключі API для всіх служб, які ви хочете використовувати.
  18. Створіть зображення AMI - тепер, коли ваш екземпляр повністю налаштований, ми хочемо створити його зображення на всякий випадок, якщо щось піде не так, або ви хочете створити кілька примірників вашого вікна, якщо потрібно запустити кілька високооктанових сканувань на один раз.

    Дайте своєму імені ім'я.

Тепер Ви готові до рулону

Хоча я не знаю обмежень цієї конфігурації, я зараз переглядаю її в середині 20-мільйонного сканування URL-адрес. Якщо ви зіткнетеся з будь-якими проблемами, ви завжди можете перейти до більшого екземпляра, щоб отримати більше пам'яті. В ідеалі, ви могли б додати більші обсяги (жорсткі диски) до випадків, коли програми можуть спиратися на віртуальну пам'ять, але з тестів і документації виявляється, що Screaming Frog і URLProfiler використовують тільки фізичну пам'ять. Фактично, ви обмежені якою-небудь максимальною конфігурацією пам'яті (244 ГБ у випадку, якщо вам цікаво). Для довідки Документація кричачої жаби вказує що «Взагалі кажучи зі стандартним розподілом пам'яті 512 Мб, павук може сканувати між 10K-100K URI сайту. Ви можете збільшити пам'ять павука SEO і як дуже грубий керівництво, 64-бітна машина з 8 Гб оперативної пам'яті, як правило, дозволить вам сканувати пару сотень тисяч URL-адрес. ”Хоча я скептично ставлюся до цього числа на основі тих специфікацій, припускаючи, що 8 Гб отримує 200k URL-адрес, тоді 122GB має отримати 3.05 мільйони URL-адрес.

Крім того, краса віддаленого робочого столу полягає в тому, що ви можете почати сканування, закрити вікно, а потім віддалене, і воно буде працювати весь час. Пам'ятайте, що веб-служби Amazon стягують плату за годину, тому не забувайте, що ви запускаєте примірник, якщо вас турбує те, що ви витрачаєте. Це підводить мене до моєї наступної точки ...

Що це буде коштувати мені?

Ціни Amazon повністю залежать від вашої конфігурації, і вони мають калькулятор цін а також система оповіщення про витрати, яка допоможе вам залишатися на вершині.

Виходячи з вибраної конфігурації, якщо ми залишили її на 100 годин (трохи більше 4 днів поспіль) на місяць, вона буде коштувати $ 237,33. Якщо ви можете сканувати 3 мільйони URL-адрес за цей період часу (швидкість сайту та залежність від дроселювання), це набагато дешевше, ніж $ 2980 DeepCrawl стягує плату за 3 мільйони URL-адрес з їхньою оплатою .

Якщо ви можете сканувати 3 мільйони URL-адрес за цей період часу (швидкість сайту та залежність від дроселювання), це набагато дешевше, ніж $ 2980   DeepCrawl стягує плату за 3 мільйони URL-адрес з їхньою оплатою

Підведенню

Звичайно, існують різні плани, які пропонують обхідники на основі хмарних обробок, і вони роблять багато роботи для вас, або ви можете просто побудувати машину з максимумом, яка просто запускає Screaming Frog і URLProfiler і економити гроші. Або ви можете запустити Screaming Frog на коробці linux, щоб заощадити більше накладних витрат і потенційно працювати на меншій інстанції, але я припускаю, що якщо б ви могли, ви, ймовірно, не читали цей пост. У будь-якому випадку, хостинг Screaming і URLProfiler на AWS - це короткочасне рішення, коли сканування робочого столу потребує більше енергії.

Тепер твоя черга. Я хотів би почути, як ви подолали обмеження сканування робочого столу в коментарях нижче!

*** UPDATE: Fili Weise фактично побили мене ударом у цьому. Перевірте його обговорення про те, як запустити Screaming Frog на серверах Google Gloud! ***

Чому це відбувається?
Все, що сказано, скільки разів ви були розчаровані цим діалоговим вікном?
Чому це відбувається?
Схоже, що шанси проти вас для великих сайтів з настільними інструментами?
Так що ж ми можемо зробити?
Чи будемо ми?
Що це буде коштувати мені?