Скрипт кластеризации по топам
Это тот же кластеризатор, что сделан на базе Colab, но для тех, кто имеет базовые навыки python.
У кого данных много, будет удобнее запускать скрипт на своем компьютере. Поскольку используемый алгоритм "наивный", в угоду меньшему расходу ресурсов и точности, он работает медленно на большом количестве ключевых слов. На миллионах может понадобиться несколько суток, но скрипт все равно справится, если ему не мешать. На Macbook я его просто запускаю в фоне и работаю, пока он с минимальной нагрузкой кластеризует, главное не выключать ноут, только уходить в режим сна.
Скачать можно здесь:
https://drive.google.com/file/d/1lBE8encNcoRntB5bz3VjQHxoxKKIF4KW/view?usp=share_link
Проект на Github:
https://github.com/dartseoengineer/keyword-clustering
Скрипт сделан с возможностью запуска в терминале (командной строке).
На вход все так же подается CSV файл с как минимум 2-мя колонками: Keywords и URL.
1. Предварительно установите библиотеки pandas и tqdm.
2. Инструкция по использованию скрипта в командной строке:
Обязательные аргументы
input_file: Путь к входному CSV файлу.
output_file: Путь для сохранения выходного файла с кластеризованными ключевыми словами.
Необязательные аргументы
-s, --separator: Разделитель во входном файле (по умолчанию: `,`).
-k, --keyword_col: Название столбца с ключевыми словами во входном файле (по умолчанию: `Keyword`).
-u, --url_col: Название столбца с URL во входном файле (по умолчанию: `URL`).
-t, --similarity_threshold: Порог схожести (по умолчанию: `0.6`).
Пример команды в терминале
Файл результатов
1. Каждая группа в колонке Group имеет номер, начинающийся с 0.
2. Ключевые фразы, которые объеденены в один кластер, будут иметь один номер группы.
3. Если фраза не имеет общих групп с другими фразами, то она выделяется в отдельную группу.
4. Если фразы не имеют собранных URL, то они все выделяются в группу -1.
Это тот же кластеризатор, что сделан на базе Colab, но для тех, кто имеет базовые навыки python.
У кого данных много, будет удобнее запускать скрипт на своем компьютере. Поскольку используемый алгоритм "наивный", в угоду меньшему расходу ресурсов и точности, он работает медленно на большом количестве ключевых слов. На миллионах может понадобиться несколько суток, но скрипт все равно справится, если ему не мешать. На Macbook я его просто запускаю в фоне и работаю, пока он с минимальной нагрузкой кластеризует, главное не выключать ноут, только уходить в режим сна.
Скачать можно здесь:
https://drive.google.com/file/d/1lBE8encNcoRntB5bz3VjQHxoxKKIF4KW/view?usp=share_link
Проект на Github:
https://github.com/dartseoengineer/keyword-clustering
Скрипт сделан с возможностью запуска в терминале (командной строке).
На вход все так же подается CSV файл с как минимум 2-мя колонками: Keywords и URL.
1. Предварительно установите библиотеки pandas и tqdm.
pip install pandas
pip install tqdm
2. Инструкция по использованию скрипта в командной строке:
Обязательные аргументы
input_file: Путь к входному CSV файлу.
output_file: Путь для сохранения выходного файла с кластеризованными ключевыми словами.
Необязательные аргументы
-s, --separator: Разделитель во входном файле (по умолчанию: `,`).
-k, --keyword_col: Название столбца с ключевыми словами во входном файле (по умолчанию: `Keyword`).
-u, --url_col: Название столбца с URL во входном файле (по умолчанию: `URL`).
-t, --similarity_threshold: Порог схожести (по умолчанию: `0.6`).
Пример команды в терминале
python jaccard-score-cli.py for-clustering.csv clustered_keywords.csv -s ';' -k 'keyword' -u 'url' -t 0.6
Файл результатов
1. Каждая группа в колонке Group имеет номер, начинающийся с 0.
2. Ключевые фразы, которые объеденены в один кластер, будут иметь один номер группы.
3. Если фраза не имеет общих групп с другими фразами, то она выделяется в отдельную группу.
4. Если фразы не имеют собранных URL, то они все выделяются в группу -1.