LabelMe - DataScience blog


Гео и язык канала: не указан, не указан
Категория: не указана


Телеграм-канал дата-сайентистов из LabelMe. Статьи ML|AI, новости команды и работа для фрилансеров-разметчиков.
Волшебный телепорт на все наши платформы: https://taplink.cc/labelme.data

Связанные каналы

Гео и язык канала
не указан, не указан
Категория
не указана
Статистика
Фильтр публикаций


Мы запускаем новую рубрику, в которой расскажем о внутренней кухне LabelMe. Как строится рабочий процесс, какие способы сортировки и сборки данных мы используем, благодаря чему сохраняется анонимность и конфиденциальность клиентов. Начнем, пожалуй, с того, почему наши разметчикам удается обрабатывать данные на 25% быстрее, чем исполнителям на биржах.


Говоря о лучших способах визуализации, у специалистов может завязаться серьезный спор. Что лучше Matplotlib на Python или Ggplot2 на R. Мы постараемся объективно рассудить этот спор, испытав каждый способ в максимально равных условиях. FIGHT!


Чем сложнее модель обучения и чем больше для нее используется данных, тем выше вероятность появления различных косяков. Случайно затесавшаяся в датасет про орлов фотка голубя, приведет к ошибкам по оценки и классификации. Избежать этого позволит масштабируемый метод оценки влияния отдельных объектов в данных - TracIn. Разбираемся, как он работает и почему так хорош.


Не все алгоритмы машинного обучения одинаково эффективны и удобны в использовании. Поэтому мы составили подборку методов, которые прошли проверку временем и позволяют качественно решать поставленные задачи.


Исследование выявило самые популярные архитектуры нейросетей, востребованные среды разработки и алгоритмы машинного обучения. Финальной добивочкой спецы Kaggle попытались выявить багаж опыта среднестатистического специалиста науки о данных.




Сослан Мамитов о сборе данных на примере уникального кейса, где выполнить заказ нам помог экологический коллапс в одном из городов Дагестана.


Какие скрипты мы используем? Сколько времени занимает выполнение заказа на 5000 аудиозаписей длительностью от 30 до 120 секунд? Какой контроль качества проходит наша работа? Об этом на примере кейса читайте внутри статьи.






Репост из: Evil Martians
Очень подробное объяснение легендарной функции Q_rsqrt от Джона Кармака из исходного кода Quake III — если вдруг забыли, как магическая константа 0×5f3759df помогает вычислить обратный квадратный корень.

Видео: https://www.youtube.com/watch?v=p8u_k2LIZyo


LabelMe — это компания из России, которая специализируется на подготовке данных для машинного обучения. Ежегодно мы размечаем до 1000 гб данных и на постоянной основе сотрудничаем с крупными брендами (PicsArt, Gradient, Jetlex, Нейросети Ашманова, emovi, TRY.FIT и другие). К работе привлекаем исполнителей из Индии и Средней России, что позволяет сделать сбор нужного датасета максимально доступным даже для стартапов. Беремся за задачи любой сложности, от сбора фотоданных, до плотной разметки трехмерных сканов. В выполнении заказов ценим индивидуальный подход, исполнительность по срокам и нестандартные решения.

🔹Любой желающий может получить тестовую разметку абсолютно бесплатно, а людям, которые приведут бизнес в LabelMe - гарантируем 5% от суммы всего заказа.

🔹Кроме всего прочего, мы разработали инструмент, который позволит решать бизнес-задачи прямо на нашем сайте (https://labelme.ru/). Сейчас он проходит стадию тестирования, но в скором времени он станет доступным для всех. Попробуем кратко описать суть его работы на примере задачи, где нужно обучить модель классифицировать котов и собак.

1. Первые 100 фотографий помечает разметчик.
2. В это время файнтюнится ResNet, который в дальнейшей работе в 90% случаев сам помечает на фотографиях котов и собак.

🔹Если ты проживаешь в Москве, то возможно тебе будут интересны еженедельные воскресные встречи, которые проводит CEO LabelMe Георгий Каспарьянц. На них мы обмениваемся опытом, налаживаем контакты и просто хорошо проводим время. Вот его Telegram: @kaspar_george. Не стесняйтесь, пишите по любым вопросам!






Репост из: Karim Iskakov - канал
New banger from OpenAI – DALL·E (Dalí + WALL·E).

It generates images from text captions and it's fucking amazing! You must go to the webpage and stare at other examples 🤯

🌐 openai.com/blog/dall-e
📉 @loss_function_porn




В конце 2020 года мы наблюдали как CV модели, основанные на трансформерах, входят в топы хорошо-известных бенчмарков, таких как классификация изображений на ImageNet и детекция объектов на датасете COCO. В этой статье рассмотрим модель DeiT и поймём, какие научные достижения предвосхитили эту работу.

https://telegra.ph/God-2020-EHkspansiya-Transformerov-v-Kompyuternom-Zreniem-Model-DeiT-01-04




Срочно нужен датасет? В свободном доступе найти не получается? Мы в LabelMe сделаем все, чтобы твой дедлайн не загорелся.

🔹Скинем тестовый датасет за 3 часа (бесплатно).

🔹Ничего лишнего. Сами разметим данные, предоставим NDA-договор и возьмем на свои плечи тяжкий груз рутины. От вас - в общих чертах обрисовать желаемый результат.

🔹Любые задачи. За дело берется большой штат обученных разметчиков под руководством дата-сайентистов senior-уровня. Вне зависимости от задачи, на выходе всегда получается чистый, работающий на все 100% датасет.

Скоро поменяем внешний вид сайта, но заявку на тестовый можно оставить уже сейчас. Даем 5% от суммы заказа, если приведете компанию к нам. 3 из 4 клиентов, работавших с нами, всегда возвращаются. LabelMe - это качество, скорость и индивидуальный подход. Оставляй заявки по ссылкам в био профиля 🔗


Единственный способ изучить data science, data analysis, machine learning или темы искусственного интеллекта — это практиковаться или выполнять проекты. Альтернативы этому нет. Но по большому счету приходится тратить много времени на поиск подходящего набора данных. В этой статье ты найдешь датасеты (21 шт.), которые могут быть полезными новичкам. Каждый датасет привязан к определенной DS-теме.

https://telegra.ph/Datasety-neobhodimye-dlya-otrabotki-navykov-DS-i-sozdaniya-otlichnogo-portfolio-12-22

Показано 20 последних публикаций.

24

подписчиков
Статистика канала