Користувальницький пошук

Відновити сторінки сайту з кешу Гугла

У зв"язку з минулими подіями (пожежа в дата-центрі) і втраченими сайтами актуальним стало питання відновлення інформації. Звісно, одними бекапами кількамісячної давнини сайт не відродиш, тому довелося лізти в Гугл і дивитись, чим він може допомогти.
Виявилось, що принаймні текстову інформацію можна досить легко врятувати.

На прикладі forenter.com
В пошуку Google набираємо site:forenter.com і дістаємо список усіх проіндексованих сторінок. Їх насправді вже нема в онлайні, але Гугл дбайливо зберігає їх у своєму кеші. Наше завдання - швидко і в повному об"ємі витягнути все, що можливо врятувати.
Щоб список не дробити на багатосторінкову послідовність, до стрічки в адресі (яка утворилась після звертання до пошуковця) можна потім додати &num=100   і на сторінці відображатиметься одразу сто результатів.

В кожному пункті видачі (майже кожному), після назви сторінки та опису, можна буде побачити пункт "Збережена копія" ("Сохраненная копия"). Саме ця вказівка відкриває закешовану текстову версію того, що ви шукаєте. Тепер інформацію можна закачати, зберегти, відновити.

Інша задача - швидко і масовано зберегти ці всі закешовані збережені копії, а не возитися з кожною окремо. В Інтернеті гуляє якийсь скрипт на php, який парсить Гугл і зберігає кеш сайту, але по-перше, треба платити 2 бакси за нього (мені не шкода грошей, а шкода часу), а по-друге, для чого ці всі складнощі (проплачувати через задницю, розміщувати скрипт на сервері, сподіватись, що в скрипті нема якоїсь гидоти), якщо можна все зробити просто.
Я, особисто, спробував два способи. Найпростіший - в самому бровзері може бути можливість закачування всіх вказівок на сторінці. В моєму Макстоні є опція (на правій кнопці) - Download all links. У списку всіх цих лінків я вибираю лише ті, які починаються на щось типу...  опа... а це щось новеньке... Ще вчора адреси закешованих сторінок починались з цифр (адреси сервера) , а сьогодні - "webcache.googleusercontent.com".
Ну, принцип ви зрозуміли - знайти ті лінки, які ведуть на закешовані сторінки, і їх закачати.
Також можна застосувати безпплатні програмки, які дозволяють закачувати файли і сторінки пакетом, наприклад: Orbit Downloader.
Завантажені файли, скоріше за все, або не будуть мати розширення, або матимуть якесь чудернацьке розширення, не сумісне із здоровим ґлуздом. Тому доведеться їм дописати .html (або навіть .txt) в кінці.

Під час такого закачування гуглівського кешу може статись проблема - Гугл заблокує видачу вам цих сторінок, бо йому не подобається, що його обробляють. Це обходиться просто - потрібно змінити айпішку. В кого айпішка динамічна, достатньо просто від"єднатись від Інтернету і знову під"єднатись (виключити, включити роутер).

Коментарів: 5
  1. Юрко Червоний

    Я відновив кілька публікацій з кешу ґуґла. Але файли так і не відновив(зображення, фото)

  2. Тексто-текстом, а комусь і зображення пропропадали. Не треба отож хоститись в Україні, хай як це непатріотично звучить.

  3. Я все ж хочу захоститись в Україні – щоб і відкривалось тут добре, і Гугл враховував…
    Може спробую Хостед.

  4. Volodarsky

    Компания Окна Вектрус специализируется на изготовлении и установке пластиковых окон евроокон в Москве и остеклением лоджий и балконов, низкие цены и высокое качество установки пластиковых окон рам и откосов выгодно отличает нас от конкурентов.

  5. А компания в состоянии оплатить рекламу на сайте, чтобы выгодно отличаться от конкурентов?
    :)

Написати коментар