Шестой цикл «Уроки настоящего извлечения информации из текста» проходил с 1 по 30 ноября 2023 года.
Ежедневно банк ВТБ обрабатывает огромное число документов и запросов. Большинство вопросов типичны, но они пишутся в свободной форме. Поэтому извлекать данные из вопросов с помощью стандартных методов – например, текстовых правил – неэффективно. Однако автоматическое извлечение информации из документов крайне важно для оперативной и эффективной обработки запросов.
Область науки, которая занимается работой с текстовыми данными, называется обработкой естественного языка (от английского — NLP, Natural Language Processing). В последние несколько лет огромного успеха в решении задач области достигли генеративные языковые модели. В цикле мы предлагаем вам решить задачу эффективной обработки документов с помощью подобных моделей.
Участники проекта научатся выделять именованные сущности с помощью моделей машинного обучения, устанавливать взаимосвязи между ними, а также познакомятся с техниками, позволяющими эффективно работать с большими языковыми моделями. |