Arslan's Insights


Channel's geo and language: World, Russian
Category: Technologies


Я Арслан. В этом канале делюсь своими интересными наблюдениями в мире технологий и не только.
Наблюдения не только технические, но и социальные. Стараюсь писать коротко.
Мой контакт: @arslanurt

Related channels  |  Similar channels

Channel's geo and language
World, Russian
Statistics
Posts filter


Столпились!


(продолжение)

На первый взгляд во всех этих пунктах много затрат времени на то, что напрямую не связано с вашей работой. Однако если это не делать, то интуиция будет работать плохо, что в результате приведет к неверным или слишком медленно принятым решениям.


Роль интуиции в работе

Посмотрел подкаст с Яном Непомнящим (один из лучших шахматистов современности).

Очень зацепил момент про интуицию в шахматах: https://www.youtube.com/watch?v=T_QYOn7P-tA&t=2465s

Ян говорит, что вот бросаешь взгляд на доску и в голове сразу появляется какие-то 4 хода, которые нравятся. Сначала непонятно почему, потом начинаешь их анализировать. Если ты в хорошей кондиции, то в 9 случаях из 10 среди этих 4 ходов есть лучший ход, который возможно сделать на текущем шаге. Если кондиция не очень, то реже. Ян считает, что интуиция не просто так берется, а на основе большого опыта.

Рассуждения полностью верны и для работы руководителя. Нужно понимать, что интуиция всегда присутствует, люди не могут быть роботами. Даже если человек считает, что не ориентируется на интуицию, все равно какие-то решения ему нравятся больше, какие-то меньше.

Решения, которые приходится принимать руководителю, бывают тактические и стратегические.

Стратегические решения - это то, куда вообще идет вся команда в ближайший год и далее. Тут ошибка может быть фатальна. Даже 1 из 10. Но с другой стороны интуиция помогает сузить пространство возможных решений. В конечном итоге хорошая интуиция помогает с большей вероятностью двигаться правильно.

Тактические решения - это те решения, которые отвечают на вопрос "Что нужно делать прямо сейчас? Что нужно делать в ближашие два-три месяца?". В них ошибка в 1 случае из 10 - это незначительный риск. Последствия таковы, что некоторые вещи придется переделывать. Но с другой стороны на тактическом уровне медленное принятие решений - фатально на стратегическом уровне. Команда заболачивается, люди бесконечно спорят, боятся принять даже элементарные решения, думаю все это встречали.

Если интуиция работает хорошо, то ей можно пользоваться. Получится работу делать быстрее. Если интуиция работает плохо, то нельзя. Как понять работает ли интуиция хорошо? На самом деле это не очень сложно. На стратегическом уровне нужно в любом случае глубоко прорабатывать решения. Важно так же помнить про когнитивные искажения. Заниматься проработкой, а не рационализацией. В чем отличие? Рационализация - поиск аргументов "за". Проработка - поиск аргументов и "за" и "против". На тактическом уровне можно просто увидеть, что происходит. Делает ли команда то, что не нужно в 1 случае из 10, или чаще, или реже.

Итак, интуиция важна. И важно, чтобы она работала хорошо. Как ее развивать? Нельзя просто верить в интуицию, получится ерунда.

Чтобы развивать интуицию, на мой взгляд надо развивать три вещи: насмотренность, погруженность и подготовка. Расскажу подробнее про каждую вещь:

1. Насмотренность. Нужно понимать как делаются разные проекты. Может казаться, что зачем тратить время на то, чтобы погружаться в чужие проекты, в опыт других компаний или команд. Но если так тратить время, то начинаешь видеть параллели и со своим проектом. Начинаешь видеть похожее. Это помогает учиться на чужих ошибках. Нужно смотреть и стараться разобраться как все работает в вашей и смежных индустриях. Не в вашем проекте, а в других.

2. Погруженность. Надо глубоко понимать как и что делается в вашем проекте. У некоторых людей бытует мнение, что руководитель - это только про people management. Сроки, ресурсы, процессы. Но нет, таким образом решения принимать невозможно. Нужно знать детально, что делают ваши люди. В моменте может казаться, что спрашивать как что-то делается - трата времени. Но по факту погружение помогает более эффективно конфигурировать зоны ответственности. Помогает понимать, где команда идет не туда или где команда идет медленнее, чем могла бы.

3. Подготовка. К принятию решения надо готовиться. Подготовка от погруженности отличается тем, что погруженность - это про все подряд, подготовка - это про конкретное решение. Если не хватает знаний про то место, в котором нужно решение принять, надо погрузиться в это место, даже если времени мало.

2k 0 25 9 63

Очень интересно, что сейчас происходит из-за DeepSeek r1. Для тех, кто не следил:

1. Чуваки смогли обучить LLM, которая почти не хуже, чем у OpenAI.
2. Сделали это в 20 раз дешевле и написали подробную статью как это сделали.
3. Сотрудники из фейсбука на форумах пишут чуть ли не о панике в руководстве, что так дешево можно делать такие модели.
4. Приложение DeepSeek в топе американского стора.
5. Акции крупных компаний падают на премаркете (насдак еще не открылся). Акции nvidia падают почти на 12% на премаркете.

С 2022 года после выхода ChatGPT это первое событие, которое вызвало такой бурный ажиотаж. Представьте, основные игроки в индустрии думают, что нужно очень много денег, анонсируют stargate на 500млрд$. И тут оказывается, что можно сделать то же самое в 20 раз дешевле.

Есть нюансы. Китайцы не могут нормально рассказывать про мощности. Потому что санкции. Поэтому есть некоторые риски, что сказали неправду и использовали больше мощностей.

Но лично я не думаю. Статья есть, нужен примерно квартал, чтобы ее повторили самые быстрые конкуренты. На код и эксперименты около месяца, плюс месяца два на обучение и все проверки. Думаю увидим подтверждение.

Ноу хау в том, что придумали как делать обучение с подкреплением по-другому.

Интересно, а ведь год только начался!

5.1k 5 232 17 143

Forward from: Яндекс
Video is unavailable for watching
Show in Telegram
🫶 Зачем Яндексу свой автономный грузовик, когда машины поедут без водителей и как на это отреагируют окружающие? В новом yet another podcast говорим об этом и многом другом.

🅰️ Ситуация в мире автономного транспорта. Кто из лидеров уже готов к поездкам без водителя в салоне?

🅰️ В поля с дальнобойщиками. Каково это — впервые оказаться в кабине автономного грузовика?

🅰️ Нейросети учатся у водителей. Означает ли это, что роботы будут заезжать в шашлычку и останавливаться на перекур?

🅰️ Грузовики — уже есть. А что со всем остальным: инфраструктурой и безопасностью окружающих?

↗️ Смотрите на YouTube и в VK Видео, слушайте в Яндекс Музыке.

Подписывайтесь 〰️ @yandex


Сделали подкаст про автономные грузовики. Получилось интересно, приглашаю послушать)


Киберпанк уже наступил!


Video is unavailable for watching
Show in Telegram
Сегодня вышел YaC 2024 - ежегодный рассказ про технологии и сервисы Яндекса и людей, которые их создают. В серии про нейросети я рассказал про развитие нашего автономного транспорта и применение нейросетей в нём.

А еще у нас есть классная новость - мы стали еще на шаг ближе к тому, чтобы наши авто вели себя на дороге так же, как хорошие и опытные водители.

Для этого мы начали использовать нейросеть-трансформер - теперь она помогает планировать траекторию движения автономного транспорта, то есть решать, как нужно ехать в сложившейся обстановке. Наша нейросеть обучается на данных о действиях первоклассных водителей в самых разных ситуациях, которые могут возникнуть на дороге. Она обобщает эти знания и учится реагировать даже в таких ситуациях, которых пока еще не было в реальности, но которые гипотетически могут случиться.

На видео видно несколько трудных ситуаций, с которыми приходится сталкиваться на дорогах)

1.8k 2 45 10 56

Оказывается, intel практически в одну калитку проигрывает рынок серверного железа.


ISO 3103

Открытие дня. Оказывается существует международный стандарт про то, как нужно заваривать чай.

"В сосуд, содержащий пробу чая, добавляют кипящую воду до уровня от 4 до 6 мм от края (т. е. приблизительно 285 см3 при использовании большого сосуда для заваривания, 140 см3 при использовании малого сосуда для заваривания, описанных в приложении А) и закрывают крышкой. Дают чаю настояться в течение 6 мин, затем, удерживая крышку так, чтобы разваренный чайный лист оставался в сосуде, переливают настой через зазубренный край в чашу (см. 5.2), вместимость которой соответствует вместимости сосуда для заваривания. Переворачивают крышку, перемещают на нее разваренный чайный лист и помещают ее на опорожненный сосуд для органолептического анализа разваренного чайного листа. При анализе мелкого чая необходима особая тщательность, и может потребоваться применение сита."

В стандарте 6 страниц. Напомню, чтобы принять стандарт в ISO собирается технический комитет и процесс разработки стандарта устроен так, что документ редактируется до тех пор, пока не станет удовлетворять всех участников комитета.

На русском стандарт можно почитать тут: https://rosgosts.ru/file/gost/67/140/gost_iso_3103-2013.pdf


Удивительный perplexity

Сделать компанию, которая просто берет ответ google (по слухам именно google) и прогоняет через GPT API от OpenAI, да еще и делает еще один поиск - это звучит как истинное безумие.

То есть у ребят на старте не было ни одной своей технологии, кроме пачки файлов с клеем между API. Сейчас это несколько поменялось и в качестве LLM теперь они берут mistral и llama и дообучают под свои задачи. И еще они теперь делают свой поиск. Поиск сделать - огромные траты, но google им не даст свое API использовать для победы над самим собой, конечно, поэтому тут нет выбора. Да еще и OpenAI выкатили поиск в ChatGPT, что не добавляет уверенности в будущем perplexity.

Штука классная у ребят получается, конечно. Но все же очень много, кто вообще-то способен сделать то же, что и они. Особенно с тем качеством, которое у них было на старте. Я помню я открывал тогда perplexity и думал, что они умрут через полгода, так как такие плохие ответы читать невозможно, а интерфейс безбожно лагает.

И тем не менее им удалось зажечь. Почему - не знаю) Но уже понятно, что в ближайшие пару лет они точно уже не умрут. Но что будет дальше? По прежнему непонятно. Но, надеюсь, у них получится вырасти сильнее и потеснить google, потому что продукт действительно делают свежий и прикольный.

2k 0 6 23 22

https://techcrunch.com/2024/10/30/aurora-innovation-delays-commercial-autonomous-truck-launch-to-2025

Есть такая компания - Aurora. Делают автономные грузовики в штатах. Хотели запустить перевозки без водителя к концу 2024 года. Сейчас пишут, что откладывают на квартал.

В качестве аргумента пишут, что сейчас у них грузовик может ехать 80% времени без наблюдения и помощи удаленного оператора, а они хотят достигнуть 90%, чтобы начать коммерческие перевозки без водителя.

Давайте посчитаем математику.

Aurora хочет запустить 10 грузовиков. Представим, что грузовики будут ездить круглые сутки, что на самом деле нонсенс и это невозможно, но пусть.

За грузовиками нужно следить 20% времени (так как пишут, что сейчас 80% не требует наблюдения). Значит два человека должны всегда следить за одним из 10 грузовиков. Окееееей, пусть будет 5 человек, чтобы всплески потребности переживать. И пусть один человек может только за одним грузовиком следить, что тоже вообще-то глупость, но пусть.

Пусть они работают по графику 1-3 по 12 часов, хотя вообще-то для 12 часов обычно это график 2-2. Делаем существенное допущение.

То есть в сутках две смены по 5 человек на 4 дня. Получается 40 человек. Пусть есть отпуска и болезни, умножим на полтора. Нужно 60 удаленных операторов.

Пусть оплата удаленного оператора в штатах будет 200к$, что вообще-то нонсенс и это намного больше, чем на самом деле. Делаем допущения.

Итого, нужно заплатить 12млн$ в год, чтобы стать первыми в мире. И это с существенными допущениями, а в реальности в несколько раз меньше.

Ну может денег нет? Вот только 3 августа они подняли раунд 483млн$.

Просто смешно. Думаю через квартал они тоже не запустят. Ну посмотрим.


Снова загружен работой, не до разбора отчета( А пока шутка с внутреннего ресурса:

Сложный код создает сильных инженеров,
сильные инженеры создают простой код,
простой код создает слабых инженеров,
а слабые инженеры создают сложный код.

4k 2 60 1 56

#state_of_ai_report_2024

Слайд [36] про то, что если не просто по всему обучающему датасету идти, а прямо во время обучения подбирать данные для следующей итерации на основе их полезности для обучения, то модель обучается быстрее. Полезность определяется другой моделью.

Слайд [37-38], в котором авторы замечают, что китайские компании показывают крутые LLM не смотря на санкции. В нем же говорят, что вот мол есть 01.AI, которые фокусируются именно на китайском языке. А где про YandexGPT слайд тогда уж скажите мне?)

Слайд [39] прикольный. Говорят, что вот в 2018 году куча народу пытались сделать модель, которая сможет по картинке описать, что на ней находится. А сейчас в 2024 году это просто сопутствующая задача, которую умеют решать мультимодальные модели даже небольшого размера, таков прогресс. Картинки приложил.

Кажется, слайды про LLM более-менее закончились, следующие слайды вижу про картинки и видео, так что продолжение следует!


#state_of_ai_report_2024

Слайд [31] про то, что чем чище данные, тем лучше. Чище - меньше мусора, вранья и тд.

Слайд [32-34] про RAG. RAG - Retrieval Augmented Genration. В контекст модели передаешь дополнительную информацию и модель должна ее использовать для ответа. Интересно, что по прежнему не существует нормального открытого бенчмарка, который нормально учитывает способность модели цитировать информацию, на основе которой происходит генерация. Но внутри яндекса, например, есть соответствующие метрики. Например, есть статья про нейро: https://habr.com/ru/companies/yandex/articles/807801/. Там пишут, что замеряют качество по четырем аспектам: полезность, безопасность, подтвержденность (как раз, что ответ взят из источника) и компетентность. Разметка делается, конечно, вручную, используют 1500-2000 человек для разметки.

Слайд [35] огонь! Про него чуть подробнее:

Для обучения сейчас нужно все больше и больше ресурсов. Кластера для обучения очень требовательны к хорошей сети между серверами. Сеть должна иметь высокую пропускную способность и низкую задержку передачи данных. Так же проессы обучения сильно требовательны к тому, чтобы оборудование было как можно более гомогенным. И вот слайд про исследования, которые призваны бороться с этой проблемой.

В Google DeepMind придумали DiLoCo (Distributed Low-Communication) алгоритм обучения. Который умеет обучать модели на "островах" (группа серверов) с хорошей сетью внутри них и не очень хорошей между ними. Каждый "остров" внутри себя прогоняет много шагов обучения перед взаимодействием с другими "островами". Говорят, что взаимодействие между "островами" меньше в 500 раз. Prime Intellect закодили опенсурсную версию DiLoCo: https://github.com/PrimeIntellect-ai/OpenDiloco. Демонстрируют профит на 1B модели. Как демонстрируют? Тренируют модель на ресурсах на двух континентах, в трех разных странах. Показывают, что эффективно утилизуют при этом вычислительные мощности на 90-95%.


Вау, как я пропустил, а вчера еще была новость!

> For example, we are investing to expand Rust usage at Google beyond Android and other mobile use cases and into our server, application, and embedded ecosystems.

https://security.googleblog.com/2024/10/safer-with-google-advancing-memory.html?m=1

Это тектоническая подвижка. Все-таки google - это компания, на которую ориентируются многие в плане процессов и культуры разработки. И эта новость снимает любые вопросы по поводу будущего и перспектив rust.

Это особенно интересно в контексте того, что вообще-то google пытается сделать свою замену C++ - язык Carbon. Но видимо лобби Carbon таки проиграло)


#state_of_ai_report_2024

Слайд [25] про yet another способ дообучать модели, не особо интересно.

Слайд [26-27] про альтернаивные архитектуры, которые должны быть лучше, чем архитектура трансформер. Типа mamba-transformer. Сами авторы утверждают, что классная штука. Работает в пять раз быстрее и по качеству лучше. Но я не вижу повсеместного использования mamba вокруг, значит видимо не работает тема. Все обучают/дообучают llama-like модели.

Слайд [28] подтверждение того, что трансформеры рулят. Картинку приложил.

Слайды [29-30] про синтетические данные. Из них можно сделать вывод, что синтетические данные полезны, хотя и не просто их генерировать. И надо использовать и настоящие данные, и синтетические. Только синтетики пока недостаточно.

Продолжение следует...


В общем в сумме что получается на основе статей и комментариев уважаемых людей? Можно выкидывать половину слоев в нейросети, веса сжимать в четыре раза, а по качеству это не сильно бьет. Это значит, что стоимость инференса (при эквивалентном качестве модели) будет и дальше падать, причем существенно. И обратное - качество больших моделей будет расти. Америку не открыл, но подкрепил себе свою интуицию)


Про квантизацию добавка размышлений.

Вот есть выбор, взять модель 7b или же взять модель 14b, но квантизованную два раза до 8 бит. Какая будет лучше?

Есть статейка: https://arxiv.org/html/2402.16775v1

Показывают на примере qwen модели и mmlu бенчмарка, что лучше взять 14b квантизованную. 14b квантизованная по памяти занимает столько же, сколько и 7b обычная, но имеет лучше метрики при этом.

Так же подтверждают, что квантизация до 4 бит норм, а ниже уже хуже работает. Хотя на 3 битах и неплохо. На 2 битах падение качества колоссальное.

Но вообще как обычно всегда надо тестить и сравнивать самостоятельно на нужных задачах.


#state_of_ai_report_2024

Слайд [19] снова про мощь OpenAI. За год по прежнему никто не обогнал модели от OpenAI.

Слайд [20] про то, что LLM плохи в математике и геометрии. Но есть решения. DeepMind нагенерили много синтетики на специальном языке для движка формальных доказательств и сделали AlphaGeometry, который чередует специальную языковую модель и движок для формальных диказательств. Такая конструкция решает 25 из 30 олимпиадных задач по геометрии.

Слайд [21] мне очень интересен. В нем информация про уменьшение размера моделей. Берется модель, из нее выкидывается половина слоев, модель дообучается на небольшом датасете и в итоге обладает качеством, не сильно хуже, чем качество исходной модели. И у nvidia, и у meta, и у MIT есть те или иные исследования, как урезать уже готовую модель, практически не теряя в качестве, но сильно выигрывая в производительности.

Слайд [22] логичное продолжение слайда 21. Андрей Карпатый и прочие уважаемые люди говорят, что текущий размер моделей слишком большой. Они говорят, что мы просто не умеем пока достаточно хорошо обучать модели. Когда научимся - размер будет меньше. Сейчас есть хороший способ тренировки маленьких моделей из больших - дистилляция. Фишка дистилляции, что модель обучается копировать предсказание болшой, а это дает сильно болше информации для обучения, чем просто попытка предсказать следующее слово. Например, так делал google для тренировки своих маленьких моделей семейства gemma. Еще слухи ходят, что Claude 3 haiku тоже сдистиллирована на самом деле, но Anthropic этого не подтверждал. Так же появилась либа на питоне для дистилляции: https://github.com/arcee-ai/DistillKit

Слайд [23] замечательный. Появляются LLM-ки, которые можно запускать на телефонах, которые по качеству весьма неплохи. Например, phi-3.5-mini имеет 3.8 млрд параметров, а работает не хуже, чем llama 3.1 8 млрд. Apple выпустил MobileCLIP модель iamge-text, которая тоже достаточно быстра для телефонов.

Слайд [24] продолжение по сути про производительность. Квантизация - когда вес модели занимает меньше бит, чем 16. Майкрософт, например, научился сжимать веса в 1 бит. В презентации утверждают, что квантизация все равно показывает очень хорошее качество. Тем не менее по моему опыту все же качество заметно теряется, если сжимать сильнее, чем в 4-8 бит.

20 last posts shown.

1 788

subscribers
Channel statistics
Popular in the channel