Давай накраудсорсим: еще один способ разметки данных для ML
AI & ML
1. Чем качественнее данные машинного обучения, тем лучше сама модель. Даже на данных меньшего объема, но качественного можно статзначимо улучшить модель.
2. Краудсорсинг - как способ разметки данных с помощью большого числа исполнителей.
3. Чтобы получить качественную разметку с помощью краудсорсинга, надо уметь контролировать качество.
4. Качество зависти от трех вещей - данных, что вы отправляете, людей, которые вам размечают и от того, как вы поставили этим людям задачу.
5. Основные инструменты контроля качества - контроль за UX, перекрытие, агрегация, экзамены и подмешивание honeypots.
О СПИКЕРЕ
Crowd Solutions Architect в Яндексе. Настраиваю процессы разметки данных для моделей машинного обучения в Алисе.
Сооснователь REU Data Science Club, студенческого сообщества начинающих карьеру в Data Science.
Ex-intern Брэдфордского университета на проекте COVID-19 Data Quality Analysis
JUNIOR
Юлия Силова
Яндекс, Москва
Crowd Solutions Architect