Главная | Регистрация | Вход | RSS
Воскресенье, 25.02.2024, 11:36

  

                                    




Вы вошли как Гость
Группа "Гости"
Приветствую Вас Гость
 
Меню сайта




Циклы проекта


Цикл 6. УРОКИ НАСТОЯЩЕЙ ОБРАБОТКИ ДАННЫХ

Шестой цикл «Уроки настоящей обработки данных» проходил с 1 по 28 февраля 2022 года.

Партнером шестого цикла выступила компания Яндекс, которая поддерживает крупнейшую в России сеть центров обработки и хранения данных — десятки тысяч серверов. Кроме того, разработала языковой сервис Яндекс.Спеллер. Он помогает находить и исправлять орфографические ошибки в русском, украинском и английском текстах.

Участники проекта не только изучили автоматическое исправление орфографических ошибок и нормализацию написания названий организаций, но и сами автоматизировали поиск множества слов со всевозможными ошибками с помощью алгоритмов и моделей Machine Learning.

На онлайн-лекции «Методы нормализации неструктурированных данных. Уточнение данных на практике» выступил Алексей Александрович Толстиков, старший преподаватель факультета прикладной математики и информатики Белорусского государственного университета, тренер студентов и школьников на олимпиадах по программированию, куратор Школы анализа данных компании Яндекс (г. Минск).

Участники проекта узнали о:

– возможной классификации ошибок;
– методах нахождения ошибок/опечаток в тексте;
– сопоставлении данных в единое понятие (например, мы понимаем, что «МГУ» и «Московский государственный университет им. М.В. Ломоносова» почти всегда это один и тот же университет). Эти методы необходимы для повышения точности поиска информации в сети, верного и быстрого заполнения форм на сайтах и сокращения дублирования информации.

Лекция.

Задачи в цикле.

Первая задача — «Исправить опечатки» —  необходимо обработать 100000 слов и определить, какие из них есть в предоставленном словаре, а какие могут быть получены:

– исправлением одной опечатки (вставкой, заменой или удалением одной буквы или перемещением двух соседних букв местами);

– исправлением двух опечаток.

Во второй задаче — «Нормализация названий университетов» — потребуется обработать  50000 строк данных и сопоставить их с  757 эталонными названиями.

С лучшими решениями цикла вы можете познакомиться в официальной группе проекта в социальной сети «ВКонтакте».

Категория: Циклы проекта 2021/2022 учебного года | Добавил: Oksana (28.07.2022)
Просмотров: 92 | Рейтинг: 0.0/0
Вход на сайт
Поиск
Статистика

Областное государственное автономное образовательное учреждение «Томский региональный центр развития талантов «Пульсар» (ТРЦ «Пульсар»)
Адрес: 634050, Томская область, г. Томск, ул. Татарская, 16, Телефон/факс: 8 (382-2) 51-56-66, e-mail: secretary@education.tomsk.ru