September 7th, 2014

общежитие, Корваллис

(рабочее, всё ещё data science для самых маленьких)

Итак, мы занимаемся предсказаниями и классификацией на базах данных пациентов, врачей, и вообще всего, что попадает в базы данных большого госпиталя. Группа в полном составе существует с начала мая. За это время мы сдали, или вот-вот сдадим порядка 10 маленьких проектов, и потрогали осторожными руками примерно еще столько же.

Примечание. Наш маленький проект - это почти наверняка какой-то переход от общего к частному, предсказание риска, или успешности исхода терапии, или затраты ресурсов - для узкой группы пациентов. На основе гораздо большего количества информации о всех пациентах вообще. Никаких предсказаний индивидуальных диагнозов, никаких обучающихся систем, которые должны имитировать процесс принятия решения врачом. Только статистика и machine learning - изучение поведения сложных систем снаружи.
Характерная пропорция размеров данных: смотрим 100,000 записей, среди них находим 200 пациентов с интересующим нас редким состоянием, строим модель, предсказывающую сколько (и, приблизительно, каких) пациентов с этим же состоянием будет в этом году, или у этого врача, или в этом отделе, или с голубыми глазами и размером долга не меньше 50k, итд.

У нас есть задачи гораздо оригинальнее, но они более долгосрочные. мы ни одну из них еще не закончили.

Так вот что я вам скажу. В сочетании data science самое важное слово - DATA. В десяти случаях из десяти мы прекрасно знали, как строить модель, какая там нужна математика в самом простом варианте, и как её слегка улучшить. В пяти случаях из десяти ничего улучшать не надо было, наша первая догадка была достатчно хороша для практического применения.
И в десяти случаях из десяти данных, которые были нужны для обучения модели, с первой попытки не было. Не было со второй, с третьей, и так далее почти до полного отчаяния.

Из чего я, кстати, делаю вывод. Многочисленные студенты в новомодных программах по data science настоящих практических примеров для своей области знаний не видят никогда.