Гимли (gimli_m) wrote,
Гимли
gimli_m

Categories:

(рабочее, всё ещё data science для самых маленьких)

Итак, мы занимаемся предсказаниями и классификацией на базах данных пациентов, врачей, и вообще всего, что попадает в базы данных большого госпиталя. Группа в полном составе существует с начала мая. За это время мы сдали, или вот-вот сдадим порядка 10 маленьких проектов, и потрогали осторожными руками примерно еще столько же.

Примечание. Наш маленький проект - это почти наверняка какой-то переход от общего к частному, предсказание риска, или успешности исхода терапии, или затраты ресурсов - для узкой группы пациентов. На основе гораздо большего количества информации о всех пациентах вообще. Никаких предсказаний индивидуальных диагнозов, никаких обучающихся систем, которые должны имитировать процесс принятия решения врачом. Только статистика и machine learning - изучение поведения сложных систем снаружи.
Характерная пропорция размеров данных: смотрим 100,000 записей, среди них находим 200 пациентов с интересующим нас редким состоянием, строим модель, предсказывающую сколько (и, приблизительно, каких) пациентов с этим же состоянием будет в этом году, или у этого врача, или в этом отделе, или с голубыми глазами и размером долга не меньше 50k, итд.

У нас есть задачи гораздо оригинальнее, но они более долгосрочные. мы ни одну из них еще не закончили.

Так вот что я вам скажу. В сочетании data science самое важное слово - DATA. В десяти случаях из десяти мы прекрасно знали, как строить модель, какая там нужна математика в самом простом варианте, и как её слегка улучшить. В пяти случаях из десяти ничего улучшать не надо было, наша первая догадка была достатчно хороша для практического применения.
И в десяти случаях из десяти данных, которые были нужны для обучения модели, с первой попытки не было. Не было со второй, с третьей, и так далее почти до полного отчаяния.

Из чего я, кстати, делаю вывод. Многочисленные студенты в новомодных программах по data science настоящих практических примеров для своей области знаний не видят никогда.
Subscribe

  • Teh Workshop, ещё одна модель из кирпичиков

    На этот раз нездорово большая, уже начинаются проблемы категории "сломалось под собственным весом". Кто угадает здание-прототип?…

  • (на всякий случай, а вдруг здесь лучше)

    Сказка про работника по имени Балдев (в ней нет попа, зато будет сорок фривольно одетых дев) Жил-был корпоративный Боб. Хороший парень, не…

  • (no subject)

    Удалить старый жж.... не удалять старый жж... непонятно. Сейчас даже фейсбук уже немножко устарел как главная площадка, но всё равно незаменим как…

  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 8 comments