Event Talks

Масштабируемый механизм прогнозирования для автоматизации подготовки структурированных данных

Ихаб Ильяс | TMLS2019

О спикере

Ихаб Ильяс - профессор компьютерных наук в Университете Ватерлоо и соучредитель Tamr | Https://cs.uwaterloo.ca/~ilyas/

О разговоре

«Специалисты по обработке данных тратят большую часть своего времени на подготовку, очистку и преобразование необработанных данных, прежде чем они получат возможность скормить эти данные своим хорошо продуманным моделям.

Несмотря на усилия по созданию надежных моделей прогнозирования и классификации, ошибки данных по-прежнему являются основной причиной низкого качества результатов. Эти массивные трудозатратные упражнения по очистке данных остаются основным препятствием для автоматического сквозного конвейера ИИ для науки о данных.

В этом выступлении я сосредоточусь на подготовке и очистке данных как проблеме вывода, которую можно автоматизировать, используя современные абстракции в машинном обучении.

Я опишу фреймворк HoloClean, масштабируемый механизм прогнозирования для структурированных данных. Эта структура имеет несколько успешных доказательств концепций с очисткой данных переписи, данных маркетинговых исследований и страховых отчетов. Пилотные проекты с несколькими коммерческими предприятиями показали значительное повышение качества исходных (обучающих) данных перед их передачей в аналитику.

HoloClean строит две основные вероятностные модели: модель генерации данных (описывающая, как данные должны были выглядеть); и модель реализации (описывающая, как ошибки могут быть внесены в предполагаемые чистые данные). Фреймворк использует обучение за несколько шагов, увеличение данных и самоконтроль, чтобы изучить параметры этих моделей и использовать их для прогнозирования как ошибок, так и их возможного исправления ».