Гимли (gimli_m) wrote,
Гимли
gimli_m

Category:

На всякий случай.

Сегодня пришлось к слову. Если кого-то интересуют задачи математического моделирования на данных, в контекстах всяких традиционных* дисциплин, и хотите позадавать об этом вопросы, то вот чем я занимаюсь. (Дальше репост из одного большого треда про big data science)
---
Я математик (на прежней работе имел дело со сложными инженерными системами, типа ядерных реакторов). Последний год работаю с моделированием и предсказанием как бы на основе больших данных. Конкретно, мы исследовательская группа при госпитальном комплексе. То есть у нас в прямом доступе полная медицинская история за 20 лет на 3 млн. человек, включая все визиты в клинику по любому поводу, все финансовые операции (потому что страховая компания тоже принадлежит госпиталю), и — теоретически — все их демографические и социоэкономические данные, включая выступления в социальных сетях и членства в деревенских клубах.

Насколько я знаю, это далеко не самый большой набор медицинских больших данных в мире, но самые большие — в том же порядке величин. Ни у кого нет в 10 раз больше.

У нас два типа задач: практические, ежедневные, и амбициозные долгосрочные.
Ежедневные задачи связаны с предсказанием потребностей пациентов и оценки рисков для самых разных отделов госпиталя. Зашёл в клинику человек — ему сегодня нужен будет MRI? Неплохо было бы знать за неделю вперед, т.е. раньше чем сам доктор примет решение отправить его на дорогостоящие анализы.
Мы позвонили и напомнили принять таблетки — он это сделает или нет? Фармацевтическая компания очень хотела бы знать — она их уже произвела, но прибыли за них не получит, если 100,000 человек забудут за ними прийти.
Медсестра сделала опечатку в личном деле пациента из Сев. Африки: какой шанс, что мы таким образом пропустили случай эболы? А если гипотетически в округе уже известны 10 случаев, а если 100? Таких задач у нас по паре штук в месяц.

Амбициозные и долгосрочные задачи выходят за пределы медицинской практики. В этих случаях мы отталкиваемся от клинических данных как абстрактной основы для отличения людей друг от друга. Достаточно много отличительных признаков = успех почти любой задачи классификации. Мы можем определять, какой студент колледжа бросит курс на середине (и давать таким людям поменьше стипендий), по каким причинам семья отказалась от прививок детям (и как правильно проводить пропаганду), насколько лояльны работники компании к начальству (и как повышать их мотивацию). Есть и более амбициозные\завиральные темы. Таких проектов у нас порядка 30, некоторые из них мы постепенно раскручиваем.
------------------
* слово "традиционных"  в данном случае важно. Я имею в виду такие области деятельности, которые существуют давно, а вот численного моделирования или анализа данных было сравнительно мало. Медицина, а точнее клиническая практика. Политология. Теория образования.

А вот маркетингом, анализом социальных сетей, или кибернетикой мы не занимаемся, там слишком серьёзная конкуренция за лучшее знание контекста.
Subscribe

  • Teh Workshop, ещё одна модель из кирпичиков

    На этот раз нездорово большая, уже начинаются проблемы категории "сломалось под собственным весом". Кто угадает здание-прототип?…

  • (на всякий случай, а вдруг здесь лучше)

    Сказка про работника по имени Балдев (в ней нет попа, зато будет сорок фривольно одетых дев) Жил-был корпоративный Боб. Хороший парень, не…

  • (no subject)

    Удалить старый жж.... не удалять старый жж... непонятно. Сейчас даже фейсбук уже немножко устарел как главная площадка, но всё равно незаменим как…

  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 6 comments