Еще фильтры

Team Lead DS (NLP)

#16823293, 0
Договорная
Тип объявленияБесплатное
Занятость
Полная
График работы
Полный день
Опыт работы
Без опыта

Мы внедрили банковские и экосистемные LegaTech-продукты на основе SOTA-NLP моделей. Наши решения анализируют сотни типов входных документов, извлекают сложноструктурированные знания и помогают людям принимать на их основе ответственные решения. Это, например, позволяет оптимизировать работу банка по правовым рискам кредитных сделок, с минимальным участием человека. Мы идем дальше и нам нужен NLP-специалист, чтобы внедрять разрабатываемые в банке LLM-модели для их применения в правовой сфере. Текущий статус Наши AI-решения применяются в флагманском продукте Сбера «Онлайн-кредитование» для корпоративных клиентов, обеспечивая принятие решений в автоматическом режиме по 60% от всех кредитных сделок банка. Мы уделяем особое внимание сбору и подготовке датасета: мы собрали обширный набор юридических данных, на которых обучили собственный трансформер-энкодер LegalBERT, также у нас есть собственный инструмент разметки, который позволяет задействовать несколько десятков in-house разметчиков для создания различных NLP-датасетов. Команда У нас работают NLP-исследователи, разработчики, юристы и лингвисты — выпускники лучших российских вузов, участники конкурсов и хакатонов. Так, наша команда победила в хакатоне «Лидеры цифровой трансформации», организованном Правительством Москвы в 2022 году. Обязанности Чем предстоит заниматься Необходимо переводить наши разработки на новый уровень (End-to-End) принятия решений, что связано с внедрением больших лингвистических моделей (LLM типа ChatGPT/LaMDA) в наши процессы. Спектр работ – от поиска релевантных статей на Arxiv и проведения экспериментов до проверки моделей на реальных данных и вывода в Production: ● Анализ задач, RnD и подбор адекватных SOTA-решений, быстрая оценка эффективности их применения, оценка необходимых ресурсов, проверка гипотез, выработка плана разработки. ● Подготовка требований к составу, объему и форматам данных, необходимых для дообучения на примерах (SFT — supervised fine-tuning) LLM на специализированном юридическом домене, взаимодействие с функциями DA/DE. ● Организация процесса превращения GPT/T5 моделей в Instruct LLM по методологии RLHF (обучение с подкреплением по обратной связи от человека — как вариант). ● Автогенерация обучающих примеров для Instruc LLM и другие способы (Zero shot learning) уменьшения издержек в процессе адаптации LLM под требования пользователей (Human Tasks Alignment) ● Изучение, разработка и внедрение подходов, обеспечивающих высокий уровень H-H-H: честности, полезности и безопасности ● Улучшение уже применяющихся компонентов, моделей и пайплайнов сегментации и классификации, извлечения и связывания сущностей в используемом нами подходе к решению задачи NER, работа над ошибками моделей, доработка архитектуры. Требования Наши ожидания от кандидатов: ● Реальный опыт разработки NLP-моделей, знание SOTA-подходов, умение их объяснить команде ● Отлично знание основ Data Science — от линейной алгебры и теории вероятностей до DNN ● Понимание архитектуры и принципов устройства и обучения больших лингвистических моделей (LLM) и генеративных трансформеров типа GPT/Bert: Tokenizing, Position Encoding, (Masked) Multihead Attention, Batch/Layer Normalization и т.д. ● Понимание принципов обучения и применения моделей обучения с подкреплением (Reinforced Learning) ● Понимание основных методов Machine Learning (regressions, clustering, decision trees, и т.д.) ● Умение выстраивать Pipe Line машинного обучения и быстрое развертывание их в применении к GPT-подобным моделям — Domain Data Mining / Augmentation / Unsupervised Learning/ SFT / RLHF / Validation / Self Confidence / Active Learning ● Оценка вычислительной сложности всего Pipe Line, применение классических алгоритмов для ее снижения ● Знание Computer Science на уровне, позволяющем управлять командой разработчиков — от понимание классических алгоритмов до Unit Tests, Refactoring и основ Devops ● Готовность браться за нестандартные, сложные задачи (поддержка актуальных знаний в весах моделей (Active Learning) или на внешней дифференцируемой памяти по принципу Query-Key-Value, доверие к Confidence решений, способы преодолеть Token Window Size и другие.) Условия Что мы предлагаем ● Страшно интересные NLP задачи в самой сложной области предметных знаний (GPT + Legal domain). ● Возможность обучения и развития, участия в конференциях от Сбера. ● Уютный офис с печеньками, столовой и спортзалом. ● Социальный пакет (ДМС, фитнес, льготное страхование).



avatar

СБЕР

Контактное лицо: СБЕР
Москва
Связаться с работодателем
Жалоба на вакансию