🍄 Дон Шампиньон [aka Lord_Alfred]


Гео и язык канала: Россия, Русский
Категория: Технологии


Хитрожопый дорвейщик. Сборник мыслей о Black SEO и иже с ним.
Делаю говно-сайты (doorways), паразитирую на чужих ресурсах, пилю софт для всего этого и зарабатываю так себе на безбедную жизнь.
Блог в vk: https://vk.com/lord.alfred

Связанные каналы

Гео и язык канала
Россия, Русский
Категория
Технологии
Статистика
Фильтр публикаций


🍓 Спарсил все популярные порно-домены из базы theporndude_com

🤔 Пригодится тем, кто парсит контент и не хочет видеть там ещё и адалт. Проще скипать домены, чем собирать базы адалт-ключей под каждый язык)

🔞 Забрать можно отсюда: https://gist.github.com/lord-alfred/9235861756400b9dd2593d727c31b0b1


👐 Как-то пару лет назад заопенсорсил свой небольшой сборник утилит для NLP (Natural Language Processing), завернутых в docker-контейнер в виде API, и вот наконец дошли руки обновить его!

🤤 Раньше там уже было «Определение языка текста» (детектит 176 языков) и «Разделение текста на предложения», а сейчас добавил «Получение основного содержимого из html документа» – чтобы можно было получить корректный контент любой страницы (без менюшек, футеров и прочего говна) при парсинге.

👉 Понакидал там ещё сверху немного фиксов: увеличил размер входящего запроса до 25МБ, обновил readme, добавил токенизацию одного из языков Индии, апнул пайтон и зависимости до 3.11.

🔥 Всё это добро вместе с инструкцией лежит всё там же: https://github.com/lord-alfred/dnlp

🌚 Думаю, многим братьям-дорвейщикам и сёстрам-сеошницам будет полезно заюзать это у себя 🤪

by @Lord_Alfred

7k 9 102 20 98

🔥🔥🔥🔥 Раскопал коэффициенты для факторов в ранжировании Y.

👉 https://gist.github.com/lord-alfred/97400a79f10f3bb13bb4bcd42268b1f8

⏳ Потратил уже больше 10 часов на изучение исходников, но благодаря коллегам, опубликовавшим найденные факторы – наткнулся на формулу с коэффциентами, прогнал её в удобочитаемый вид и дополнил описанием факторов. Очень интересно посмотреть на ранжирование изнутри, особенно обладая такими знаниями 🤓
Но хочется поделиться и небольшим огорчением от увиденного. Т.к. Y изнутри по большому счёту – это огромное хранилище данных, всё что есть в исходниках – это безграничные кучи разрозненных скриптов. Судя по всему – бОльшая часть задач у них сводится к получению+трансформации полученных данных из одного источника и перекладыванию результата в другой. Эдакий подход Map-Reduce.

⛏ Но я не отчаиваюсь, и копаю дальше 😜 Подписывайтесь, дальше ещё планирую выкладывать интересное из того, что найду)

by @Lord_Alfred

7.3k 19 162 42 76

✌️ Добавил списки IP адресов Facebook, Twitter и GitHub в свою репу: https://github.com/lord-alfred/ipranges

🌚 Кого ещё вам не хватает? GoogleBot и BingBot там уже давно есть 🙃

🥱 PS: Последнее время (особенно после апа в прошлом месяце) нет времени сюда писать, но канал я не забрасываю. Всё будет, просто чуть реже, но зато полезнее)


​​🗜 Написал подробную пошаговую инструкцию по настройке резервного копирования данных с серверов в S3.

👉 https://github.com/lord-alfred/s3_backup


🙃 На днях по сеошным каналам пролетела ссылка на json файлик от Google, где перечислены все IP гуглобота. Официальный список, да. Всплыл он в англоязычной доке по валидации бота. Сам офигел что гугл решил быть таким щедрым) Видимо, смешарики довели 😅

👣 Я не смог пройти мимо этого добра. Конечно же добавил его в свой автообновляемый репозиторий со всеми диапазонами IP для: Google, Amazon, DigitalOcean, Microsoft, Oracle - https://github.com/lord-alfred/ipranges

Скорее всего вы знаете об этом репе из предыдущего поста) Но я решил на всякий случай отметить этот прекрасный факт, что теперь список IP гугла расширился и его можно клоачить ещё эффективнее!
Велкам! 🤳


🥸 Списки IP адресов Google, Amazon и Microsoft? Их есть у меня 👀

Недавно закинули интересную ссылку на публичный список CIDR от Google Cloud (среди которых были IP, откуда ходил гуглобот), я покопался в теме и нашел ещё и диапазоны Amazon (AWS) и Microsoft (Azure) 🤙

Запилил на гитхабе репозиторий, где прикрутил использование GitHub Workflow (GH Actions), с помощью которых по крону раз в 8 часов будут скачиваться и добавляться новые списки IP адресов (при их появлении) 😏 В репе есть несколько ссылок: IPv4 / IPv6 и merged (список, сокращенный до максимально наименьшего CIDR), брать можно любой - все они обновляются автоматом как появятся какие-то изменения.

🔨 Вообщем, хватайте ссылки из README и засовывайте в свои TDS/клоаки/доргены/CMS: https://github.com/lord-alfred/ipranges
👍 Но не забудьте поделиться этим постом с друзьями, старичку будет приятно )


🔥 Доткомы по $4! У namecheap лютая акция, можно урвать 20 .com по промокоду SBM2021.

👉 Налетай! Скоро акция закончится: https://www.namecheap.com/promos/small-business-month-sale/


🎃 Заделюсь пресетом для получения PTR записи по IP адресу (выполнение обратного DNS запроса).

Он был собран чтоб проверить по куче IP из логов что ко мне ходили в гости именно гуглоботы, а не кто-то подменил UA и парсил 👺

🤙 https://gist.github.com/lord-alfred/08eadba59509924c65d661bff60f9fae


🚴 Решил заопнесорсить свой небольшой контейнер с парой полезных в хозяйстве ручек:

1️⃣ Определение языка текста (с помощью fastText);
2️⃣ Разделение текста на предложения (не тупо по точкам, а нормальная токенизация из NLTK).

Эдакая вводная в NLP для дорвейщиков 👹 Когда-то запилил для себя, юзаю по сей день, но (к сожалению) не нашел сил туда напичкать чего-то ещё. Возможно, братья-змееусты зашлют PR с нужной фичей. Все тогда будут вдвойне рады и довольны 😜

✌️ Рассказывать как/зачем/почему нет смысла, тем кто парсит тексты – будет и так понятно. А остальное можно узнать в самом репе:
👉 https://github.com/lord-alfred/dnlp

PS: память не жрёт, работает даже на 1-м ядре, отвечает мгновенно 🌪


👾 Гугл снова адово прошелся по серверам, проиндексил кучу страниц (что аж SSD трещали), а потом в очередной раз выебнул половину доров. Не правда ли знакомая ситуация?

🤥 Что делать после такого – каждый решает сам: кто-то идёт на завод, кто-то ищет ответ в скрижалях футпринтах, а кто-то снова донастраивает сервера, чтобы качели в следующий раз брали ещё большую амплитуду, и индекса (а значит и трафа) выходило ещё больше.
Если вы тоже из последних, то следующий набор ссылок будет явно полезен:

💥 Тюнинг OS (я всегда юзаю Ubuntu если что):
@pawilon/tuning-your-linux-kernel-and-haproxy-instance-for-high-loads-1a2105ea553e' rel='nofollow'>https://medium.com/@pawilon/tuning-your-linux-kernel-and-haproxy-instance-for-high-loads-1a2105ea553e
https://web.archive.org/web/20200226020255/http://fx-files.ru/archives/704
https://ma.ttias.be/linux-increase-ip_local_port_range-tcp-port-range/
- @muhammadtriwibowo/set-permanently-ulimit-n-open-files-in-ubuntu-4d61064429a' rel='nofollow'>https://medium.com/@muhammadtriwibowo/set-permanently-ulimit-n-open-files-in-ubuntu-4d61064429a
https://askubuntu.com/questions/1012912/systemd-logs-journalctl-are-too-large-and-slow

🔥 Тюнинг NGINX:
https://github.com/denji/nginx-tuning
https://www.nginx.com/blog/tuning-nginx
https://ruhighload.com/Оптимальная+настройка+nginx
http://nginx.org/ru/docs/ngx_core_module.html#timer_resolution

🌪 Лимитирование запросов в NGINX:
https://nginx.org/ru/docs/http/ngx_http_limit_req_module.html
https://www.freecodecamp.org/news/nginx-rate-limiting-in-a-nutshell-128fe9e0126c/
https://www.nginx.com/blog/rate-limiting-nginx/
https://ospi.fi/blog/nginx-rate-limiting-unlimited-edition.html

🤘 Заделитесь своими закладочками в комментах (ага, ради такого случая я их даже включил).


​​💔 Карты от Advcash тютю. Только что пришло письмо, аттачу скрин оттуда.


😧 Прошел почти месяц с поста, где я решил устроить беспроигрышный конкурс с раздачей скрипта для туннелирования прокси, и почти каждый день кто-то писал мне в личку и рассказвал что пропиарил мой канал! Спасибо всем Вам за это 👍

👨🏻‍🎨 В итоге я решил заопенсорсить его, чтобы снять с себя груз ответственности.
Да, теперь вы можете просто зайти и скачать его к себе без квеста с пиаром моего телеграм-канала: @Lord_Alfred

👉 https://github.com/lord-alfred/ProxyTunneler

🦊 Но! Возникла другая идея)
У меня в закромах есть такой же офигенный и простой скрипт для поднятия IPv6 прокси от туннельных брокеров (я использую их для решения рекапчи). Тоже самое делают всякие щитпрокси, но только за деньги. И да, уже есть похожие скрипты в продаже/по частям разобранные в виде статей, но никто из них не скрестил несколько брокеров в рамках одного сервера 😤

✊ Если к концу ноября на канале будет больше 2500 подписчиков, то я также выложу в OpenSource и этот скрипт 🔥 Помогите мне достичь этой цели 😜
Если не наберется, то скорее всего устрою такой же беспроигрышный конкурс. Только, пожалуйста, не засыпайте канал фейками – я всё равно чищу подписчиков)


🤙 Случайно наткнулся на офигенный сервис и продукт: https://tailscale.com/ – он нужен для создания приватной сети между устройствами буквально в пару кликов.

⚙ Например, если у вас сервер для ZP стоит дома и за NAT, то благодаря этой штуке вы можете подключиться к нему откуда угодно: достаточно только поставить приложение на сервере и нужном устройстве, залогиниться через гугл (это крайне удобно и безопасно), а затем просто взять приватный IP адрес сервера и установить коннект через RDP/ssh/что угодно.

🖥 Я протестил у себя и действительно всё заработало с пол тычка, плюс по ощущениям скорость как будто я работаю напрямую (там внутри WireGuard). Но самый жир: не нужен отдельный сервер, через который все устройства будут ходить к друг другу в гости (как если это делать руками/pritunl). Не разбирался нужен ли он вообще или его "дают в пользование" tailscale, но учитывая что они разрешают подключить до 100 устройств бесплатно – думаю, у них всё посчитано и наши объемы для них ни по чём.

PS: на макоси пришлось ребутаться чтоб залогиниться в программе, но видимо это связано с установкой сервисов для добавления VPN.


​​🎃 Решил устроить небольшой беспроигрышный "конкурс" для раскрутки своего telegram-канала. А то годноту пишу, а подписчики не прибавляются 🤷

🤔 В начале лета я задумался над вопросом перенаправление прокси: использовать 1 прокси-провайдера с привязкой по IP на нескольких серверах, чтоб не платить за несколько тарифов. Сделать свою "прослойку", на которую купить 1 жирный тариф и подключаться через неё. Кто-то даже с помощью таких штук устраивает "складчины" на прокси 😉 Но по этой теме информации не так много, а уж готовых решений – и подавно нет (чтоб привязал прокси к серверу, выставил в скрипте URL для скачивания прокси-листа и после запуска получил список туннелированных проксюх).

🤗 Суть конкурса: вы делитесь этим постом в любом чате / канале в телеге, копируете ссылку или делайте скрин (где видно название чата!), и отправляйте мне в личку: https://vk.com/im?sel=-43106145 . Я проверяю и если всё ок (пост не удалили) – отправляю вам архив с инструкцией и скриптом как запустить туннелирование прокси на своём сервере (Ubuntu/Debian) с помощью 3proxy и bash-магии. Скрипт на столько автоматизирован, что всё необходимое скачается в первый запуск и скрипт сам пропишет себя в cron для периодического перезапуска (чтоб не нужно было передергивать его после смены прокси в списке).

💫 Ну что, погнали?) Попробуюем навести движуху и получить win-win!

by @Lord_Alfred


🔥 Свежие доклады по тематике Антифрод с datafest 2020 👀

1️⃣. Вводный рассказ (Алексей Тощаков, Яндекс): https://youtu.be/CGCt023ck3Y

2️⃣. Детектирование порнографии в видеопотоке (Олег Саитов, МТС): https://youtu.be/zws7w8HMq5c

3️⃣. Антифрод для Беру (Алексей Савостин, Яндекс): https://youtu.be/Gns0C4wRvN4

4️⃣. Антиробот на CatBoost и не только (Анто Гой, @Mail.ru' rel='nofollow'>Почта@Mail.ru): https://youtu.be/by9vFMOqnfc

5️⃣. ML антифрод для интернет платежей (Андрей Мельников, Тинькофф): https://youtu.be/xF-4MlNvNrk

6️⃣. Поиск похожих изображений в модерации (Юлия Лукашкина, Avito): https://youtu.be/k2Z0bloKhNQ

by @Lord_Alfred


Репост из: Ihor Rudnyk
​​Как спалить ПБН через поисковик🐣

О том, что через панель бинг для вебмастеров можно посмотреть беклинки своего сайта — уже написали многие.

Однако в своем докладе на 8p Дмитрий Мазурян озвучил интересную мысль — ПБН закрывают от краулеров сервисов по анализу обратных ссылок, но не от поисковых систем.

А Бинг — поисковая система, которая позволяет вам посмотреть обратные ссылки не только для своего сайта, но и для любого другого.

Алгоритм:
1. добавляем какой-то ваш сайт в панель вебмастеров;
2. заходим в раздел Backlinks;
3. жмем "Add a site to compare".

Все. Вы получили доступ ко всем данным Бинг об обратных ссылках сайта конкурента.

Поторопитесь, так как думаю, многие владельцы ПБН скорее предпочтут пренебречь Бингом, нежели дать ему информацию и подвергаться дополнительному риску.

by @rudnyk


😴 Случайно наткнулся на очень познавательное интервью с Мэтью Уокером о сне и проблемах из-за недосыпа. В середине видео несколько лайфхаков как научиться быстрее засыпать - маст хев для всех, кто целый день пырит в экран.

Есть ощущение что это видео может помочь многим кто меня читает)))

🌚 https://www.youtube.com/watch?v=itgQRal2od0


🚷 Сделал bash-скрипт для массовой установки 301-редиректа на указанных доменах в CloudFlare через Page Rules, чтобы можно было в два прихлопа и три притопа перекинуть остатки трафа с пары сотен доменов, которые были зарегистрированы в прошлую черную пятницу.

Америку этим не открыл, но снова немного поупражнялся в баш-магии, да и поделиться не грех (авось кто-то ещё тоже захочет странного и поленится делать редирект у себя в nginx или нужно будет избавиться от серверов, а домены перепривязывать на другой IP – лень).

🔥 Забрать сие чудо можно отсюда: https://gist.github.com/lord-alfred/8ae23c6bcb4b2d8422c4f9dc428770a7



Показано 20 последних публикаций.

2 309

подписчиков
Статистика канала