Узручнення Пошуку В Інтернеті | Вебсайт Сашка Мілюхіна

Браузери

Просто бо без браузера сильно не побравзите, мої улюблені браузери:

Librewolf: загартований форк Firefox (більше конфіденційності)
qutebrowser: для любителів віму, але зле, що пайтон
lynx: для терміналів, підтримує протокол gopher
браузер Tor: шоб переглядати сторінки через мережу Tor (зрештою, можна налаштувати проксі для будь-якого браузера й не користуватися браузером Tor, але розробники не радять)

більше гарних програм тут.

Індекси (списки посилань)

У старому вебі було дуже зручно шукати гарні сайти, бо люди створювали сторінки з посиланнями на них, і так від одного сайту до іншого стрибали та знаходили класні джерела.

Зараз пошукові системи та чатгопота витіснили таку практику і постачають людям посередню інфу. Але якщо ви хочете знайти щось дійсно цінне, користуйтеся списками посилань на різних сайтах. Можете почати з мого.

Трюки з пошуковими системами й метапошуковики

Попередній текст не каже, шо треба відмовитись від пошукових систем (хоча від ґуґла варто), але треба їх зручно використовувати.

По-перше, корисні пошуковики

librex
searx — тут у налаштуваннях, до речі, можете знайти ще пошуковики
wiby.me
duckduckgo

Два перші — метапошуковики, тобто вони агрегують результати інших пошукових систем. Це класно, бо:

ви отримуєте пістрявіші (“менш чи різнобоко заангажовані”) результати;
вас важче відстежити, бо сервіс метапошуку фактично виступає як такий собі проксі запитів;

а тепер хитрощі

У популярних пошуковиках можна дописати site:<ім'я.сайту> та отримати результати тільки для певного сайту. Наприклад, якщо ви хочете шукати щось тільки на сайті ftrv.se, то так і пишете:

code site:ftrv.se

Поставивши - перед site, ми його “віднімемо”:

Можна додати до пошукового запиту -site:.com для отримання кращих результатів, адже 90% шлаку — сайти, в яких TLD .com. Я налаштував це в config.py qutebrowser-а ось так:
c.url.searchengines = {'DEFAULT': 'https://duckduckgo.com/?q={}+-site%3A.com'}
Так я значно частіше натрапляю на гарні сайти.

Взаємодія зі сторінками

Користуйтеся Ctrl + F чи іншою комбінацією клавіш, яка у вашому браузері відповідає за пошук тексту на сторінці.

Консоль розробника дає можливість дослідити структуру сайту для скрейпінгу, про який буде далі.

Фільтрація непотребу

Не вся інформація корисна чи потрібна, і не варто забивати свою пам’ять усяким непотребом. Крім трюку з -site:.com, розглянемо більш глобальні штуки:

Блокування реклами

Реклама — зло, зло — реклама. Щоб заблокувати її к чорту, я раджу:

uBlock Origin: блокувальник реклами
uMatrix (для qutebrowser — jMatrix): Блокує тупо всі запити, і дає можливість дозволяти потрібні вам
етичні фронтенди для неетичних сервісів: Invidious замість YouTube, nitter.net замість екс-твітера, …

Більше розширень для браузера я описав у своєму списку програм.

Блокування за доменами

Звільніть провайдера від роботи — створіть власний фільтр хостів. За допомогою одного з цих файлів можна повністю перекрити доступ до порно, азартних ігор, поганих псевдосоціальних мереж або всього цього водночас!

Ви можете встановити його на своєму комп’ютері й тоді не будете з’єднуватися зі шкодними сайтами. А якщо на роутері, то всі в хаті будуть захищені від них.

Мережі та протоколи + видаліть VPN

Хто сидить лиш у звичайному вебі, той втрачає дуже багато. Я полюбив даркнет саме через якість інформації, яку надають певні сервіси, тому вважаю, що кожен мусить користуватися Tor і I2P. Я маю трохи посилань для занурення в темну мережу тута.

Крім того, якщо ви користуєтеся сервісом VPN і це не Mullvad чи ваш власний сервер, то це навіть гірше, ніж якби весь ваш трафік бачив провайдер, бо ви даєте ці дані компанії, яка крім того, що може їх усі збирати, ще й точно знає, хто ви є (на відміну від провайдера інтернету, який може тільки припускати, які люди користуються мережею).

Tor повністю заміняє VPN, ще й безкоштовно!

Звісно, варто підтримати проєкт пожертвою, або (що краще та базованіше) запустивши свій вузол. Ось відео про це:

Автоматизація та скрейпінг

Дуже зручно мати локальні копії сайтів, бо не відомо, чи будуть вони онлайн весь час. Для завантаження я користуюсь curl та wget, а також раджу torsocks для торифікації трафіку, бо деякі сайти можуть заблокувати ваc.

ван-лайнер для створення дзеркала сайту:

torsocks wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --wait=0.1 --random-wait -q --show-progress <посилання>

Якщо сайт, наприклад, роблять за допомогою генератора статичних сайтів і його вихідні файли знаходяться під контролем версій (у публічному репозиторії git чи що), то можна натомість завантажити його — так у мене присутній репозиторій landchad.net.

скрейпінг

Скрейпінг дозволяє вибирати тільки ті дані, які вам потрібні замість качання всього підряд, а ще автоматизувати нудну роботу. Я не майстер скрейпінгу, але поділюся тим, що знаю:

scrapy — це бібліотека python для (ясно шо) скрейпінгу.
На сайті www.trickster.dev є багато класних статей про скрейпінг.
варто зразу вкурити xpath (на вказаному вище сайті є файний посібник)

Не забувайте користуватися проксі чи скрейпити через Тор для уникнення блокувань та збереження анонімності. Також варто міняти User Agent-и (приклади скрейперів, які таке роблять, можна легко знайти в мережі — на тому ж ґітхабі їх повно).

←
Вивчіть R вже →
Встановлення віртуалок з QEMU та Virt-Manager + virsh, SSH у віртуальні машини!