
О.Ю. Колесниченко1, А.В. Мартынов2, В.В. Пулит2, Ю.Ю. Колесниченко3, В.В. Шакиров4, Л.С. Мазелис5, О.О. Варламов6, Л.О. Минушкина7, А.Ю. Сотник8, Т.Н. Жилина1, В.П. Дорофеев9, Г.Н. Смородин10, М.К. Жапаров11
1Институт социальных наук, ФГАОУ ВО «Первый МГМУ им. И.М. Сеченова» Минздрава России, Москва;
2СП.АРМ, Санкт-Петербург
3Uzgraph.ru, Москва
4 ФНЦ НИИ Системных исследований РАН, Отдел нейроинформатики, Москва
5ФГБОУ ВО «Владивостокский государственный университет экономики и сервиса», Владивосток
6ФГБОУ ВО «Московский государственный технический университет им. Н.Э. Баумана», Москва
7ФГБУ ДПО «Центральная государственная медицинская академия УД ПРФ», Москва
8ЗАО Фирма ЦВ «ПРОТЕК», Москва
9Московский физико-технический институт, Долгопрудный
10ФГБОУ ВО «Санкт-Петербургский государственный университет телекоммуникаций им. М.А. Бонч-Бруевича», Санкт-Петербург
11Университет имени Сулеймана Демиреля, Каскелен, Казахстан
На данном этапе Искусственный интеллект уже не является только обсуждаемой темой. Это вполне реальные технологии, преимущественно основанные на искусственных нейронных сетях. Для их обучения используется Принцип Павлова, сформулированный В.Л. Дунином-Барковским. Математики павловское учение с подкреплением называют Deep Reinforcement Learning. ИИ разделяют на компьютерное зрение (Computer Vision), т е. распознавание и генерацию изображений; распознавание и синтез речи (Speech Recognition and Synthesis); обработку естественного языка (Natural Language Processing, NLP); графовый логический ИИ, миварную логическую технологию. Все это по отдельности узконаправленный ИИ. А общий интеллект, равный человеку, пока не создан. Такой ИИ должен включать в себя все технологии. С учетом социальной и лингвистической природы появления интеллекта, разработчики очень много внимания уделяют отшлифовке алгоритмов NLP и мультиагентной среды. К сожалению, параллельно с прогрессом в развитии нейросетей, появилось такое явление, как состязательные атаки, которые используя тот же механизм обучения заставляют натренированную нейросеть делать ошибки. Этот факт подвергает сомнению будущее нейросетей в повседневной медицине. Среда для ИИ – это Большие данные и датасеты. Европейские эксперты уже озадачились регулированием Больших данных с точки зрения безопасного развития как медицины, так и фармацевтической области. Несмотря на сложности и отсутствие четких правил, ИИ активно внедряется в частный сектор медицины, создав уже три новые бизнес-модели.
Modern Advanced Artificial Intelligence for Smart Medicine
O.Yu. Kolesnichenko1, A.V. Martynov2, V.V. Pulit2, Yu.Yu. Kolesnichenko3, V.V. Shakirov4, L.S. Mazelis5, O.O. Varlamov6, L.O. Minushkina7, A.Yu. Sotnik8, T.N. Zhilina1, V.P. Dorofeev9, G.N. Smorodin10, M.K. Zhaparov11
1 Institute of Social Sciences, Sechenov First Moscow State Medical University, Moscow
2 SP.ARM, St. Petersburg
3 Uzgraph.ru, Moscow
4 Scientific Research Institute of System Studies of RAS, Department of Neuroinformatics, Moscow
5 Vladivostok State University of Economics and Service, Vladivostok
6 Bauman Moscow State Technical University, Moscow
7 Central State Medical Academy at the Department of Presidential Affairs, Moscow
8 ZAO (CJSC) Firm CV PROTEK
9 Moscow Institute of Physics and Technology, Dolgoprudny
10 Bonch-Bruevich St. Petersburg State University of Telecommunications, St. Petersburg
11 Suleyman Demirel University, Kaskelen, Kazakhstan
Artificial Intelligence is no longer just the topic of discussion. Today this technology is mostly based on Artificial Neural Networks. Pavlov Principle formulated by W.L. Dunin-Barkowski is used for their training. Mathematics compared Pavlov's doctrine with Deep Reinforcement Learning. AI technologies are divided into Computer Vision, images recognition and generation; Speech Recognition and Synthesis; Natural Language Processing; Graph Logic AI, MIVAR logic technology. All of this separately is Narrow AI. Artificial General Intelligence, equal to human, hasn’t been created yet. AGI should include all mentioned technologies. Given social and linguistic nature of the intelligence emergence, developers are paying attention to NLP algorithms and multi-agent environment. Simultaneously with the development of neural networks, adversary attacks emerged, which using the same learning mechanism force a trained neural network to make mistakes. This fact calls in question the future of neural networks in medicine. Big Data and data sets are the environment for AI. European experts have already begun to regulate Big Data for safe Health Care and drugs creation. Despite the difficulties and lack of clear rules, AI is actively being introduced into the private medicine. Due to AI the three new business models have already been created.
От Искусственного интеллекта к искусственной жизни
Технологии Искусственного интеллекта (ИИ) в настоящее время достаточно хорошо развиты на так называемом «рефлексном» уровне (в западном варианте – Narrow Artificial Intelligence (NAI), то есть узконаправленный ИИ). Этот уровень включает все алгоритмы обработки данных, в том числе Больших данных. Наиболее распространены и популярны в использовании такие алгоритмы (компьютерные программы), как искусственные нейронные сети (ИНС).
Желание делать алгоритмы все более сложными, приближая их к уровню человеческого интеллекта, заставляют исследователей разбираться, как живой мозг решает задачи и хранит много информации. Пока что, несмотря на появление достаточно сложных компьютерных технологий, приблизиться к производительности мозга человека не удалось. Память в живом мозге заключена в сформировавшихся связях между нейронами. Американские нейробиологи Томас Бартол и Терренс Сейновски в своих исследованиях обнаружили, что синапс нейрона может трансформироваться в 26 различных состояний, меняя свой размер от меньшего к большему и наоборот, что назвали «синаптической пластичностью» [1]. На один нейрон может приходиться до 104 синапсов. А количество нейронов в мозге исчисляется примерно в 1010. Получается очень объемная и пластичная природная нейронная сеть, не лимитированная по возможностям запоминать информацию в течение всей жизни человека.
ИНС «тренируют» с применением метода машинного обучения (Machine Learning, если сеть содержит более 3 слоев – Deep Learning). Самое популярное понятие в обучении – Deep Reinforcement Learning, обучение с подкреплением, что адресует все технологии машинного обучения нейросетей к учению русского физиолога Ивана Петровича Павлова. Например, нейромедиатор дофамин, служащий фактором подкрепления в природных мозговых процессах, взят компанией Google в качестве названия для среды Deep Reinforcement Learning (Google Open Source, Dopamine 2.0). Понимание процесса обучения (когда обучающаяся система должна усвоить правила получения вознаграждения) заботит в равной степени как нейробиологов, так и разработчиков ИИ. Предполагают, что схема обучения AGREL (Attention-Gated Reinforcement Learning), в которой задействованы механизмы обратной связи и сигналы об ошибках, отражает пластичность синапсов и реализуется в головном мозге [2]. Для ИНС биологические правила пластичности мозговых процессов описываются математическими формулами, используется упрощенный метод обратной связи «Backpropagation» (the backward propagation of errors). Если процесс обучения ИНС корректируется человеком, то такой метод называется «обучение с учителем» (Supervised Learning).
Внедряясь в биологические процессы, математики создали концепцию эволюции искусственной жизни [3]. В алгоритмы мультиэволюционной архитектуры (Multi-Level Evolution /MLE/ Architecture) закладываются многоуровневые процессы от выбора материалов, из которых будет изготавливаться роботизированная система, до подбора ее конфигурации под конкретные задачи (рис. 1). По сути это систематизация в единой базе данных всех видов робототехники. Работать с такими базами будут универсальные дизайнеры роботов, а инструментом их работы станут ИНС. Примечательно, что появляется термин «генотип робота». Для медицины такой подход может способствовать формированию гибкого производства роботов, по требованию и персональному дизайну для конкретного отделения больницы, вида операции или узкой задачи. Перспективы подобной архитектуры видятся следующими: доступ человека к процессу дизайна online через облачные технологии, а затем автоматизация дизайна нейросетями без участия человека.
Рисунок 1. Схема мультиэволюционной архитектуры создания робота (Multi-Level Evolution /MLE/ Architecture), адаптировано с источника [3]
Конструкторы ИНС, работающие в режиме online уже существуют. Например, ресурс http://Fabrik.CloudCV.org. Также в режиме online можно задавать математические конструкции в программе «Conway's Game of Life» (Игра «Жизнь»). Эта программа была создана английским математиком Джоном Конвеем еще в 1970 г. В ней заложена логика «мертвого» и «живого». По прописанным правилам клетки в условной виртуальной среде могут жить, размножаться и умирать. Кстати, если набрать в поисковой системе Google фразу «Conway's Game of Life», то в правом верхнем углу экрана эта игра запустится сама. На современном этапе появилась новая версия искусственной жизни, названная «Lenia» [4]. Математические правила эволюции прописаны в среде Python. Удалось получить более 400 разных искусственных форм, развившихся из простых фигур в процессе работы алгоритма (фильм доступен по ссылке https://vimeo.com/277328815). Математиками показана возможность самоорганизации и эволюции форм, созданных искусственно по определенным правилам и формулам (рис. 2). Значит и в сфере создания ИИ возможно через математику сделать нейросеть, обладающую свойствами самоорганизации и эволюции, то есть природоподобную.
Рисунок 2. Сходство между земными и искусственными формами жизни Lenia, иллюстрация из источника [4]. I.1 – Трилобит Bohemoharpes ungula, вымерший класс морских членистоногих, палеозой; I.2 – Lenia-форма Orbium bicaudatus; II.1 – диатомовая водоросль Triceratium moronense; II.2 – Lenia-форма Trilapillium inversus; III.1 – личинка морской звезды Asterias rubens; III.2 – Lenia-форма Asterium inversus; IV.1 – митохондрия; IV.2 – Lenia-форма Hydrogeminium natans
Павлов как он есть
Основоположник российской школы ИИ, научный руководитель проекта iPavlov.AI (http://ipavlov.ai) В.Л. Дунин-Барковский описал универсальный «Принцип Павлова» для создания ИИ [5, 6]. Принцип Павлова звучит так: «Сеть нейронов, каждая из связей между которыми постепенно изменяется как функция локально доступных компонент сигналов ошибки и активности, соединяемых связью нейронов, приходит в процессе функционирования сети к безошибочной работе». Под «нейронами» понимается математическая функция (нейрон – функциональный математический элемент). В.Л. Дунин-Барковский сформулировал этот принцип, исходя из учения физиолога И.П. Павлова об условных рефлексах (в процессе жизни у организма с нервной системой появляются новые рефлексы) и новых данных по глубокому обучению ИНС (эффективность схем с использованием «мелкозернистых» вычислительных устройств типа GPU и др.). ИНС в процессе обучения могут менять связи внутри себя, что обусловливает приобретение нейросетями способности реагировать на вход информации правильным выводом. Работая с нейросетями В.Л. Дунин-Барковский с соавторами заключили, что представления И.П. Павлова нашли воплощение в создании современных нейроподобных когнитивных искусственных систем. Понимание работы ИНС возвращает ученых к тем выводам о работе мозга, которые в свое время делал физиолог И.П. Павлов.
Общий ИИ (Artificial General Intelligence, AGI), то есть ИИ равный человеку, пока еще умозрителен. Ключевым условием возникновения AGI является обучение машины языку, рассматривая язык как интерфейс для общения на социальном уровне [7, 8]. Для формирования реакций на окружающую среду ИИ должен иметь разные сенсорные и моторные функции. В.Л. Дунин-Барковский называет такую конфигурацию «Адаптивный Интегратор ИИ Компетенций», где через адаптацию происходит интеграция всех возможных блоков машины. Блоки эти могут быть разными. Сегодня существуют следующие:
-
компьютерное зрение (Computer Vision), распознавание образов (например, медицинских изображений), генерация изображений;
-
распознавание и синтез речи (Speech Recognition and Synthesis), включает распознавание по губам (элементы компьютерного зрения), Visual Speech Recognition;
-
обработка естественного языка (Natural Language Processing, NLP);
- графовый логический ИИ (Logical type of AI), включает миварную логическую технологию ИИ (МИВАР – Многомерная Информационная Варьирующаяся Адаптивная Реальность, Multidimensional Informational Variable Adaptive Reality), Мивар-Сеченов.
Принципиальной концептуальной разницы между миварными графами и ИНС нет, так как оба подхода отражают связь двух точек между собой и далее образование сложных сетей из простых связей. Мозг человека можно условно назвать сложным динамическим графом. На рис. 3 изображены граф миварной сети [9], ИНС с Backpropagation и схема натуральных нейронов. Миварная сеть подразумевает создание правил и ограничений, что близко к нейромедиаторной регуляции, где одни медиаторы задают правила через активацию, а другие устанавливают ограничения через торможение. В настоящее время наравне с рядом российских проектов по созданию ИИ (iPavlov, Botkin.AI), в Сеченовском Университете начата работа над разработкой миварных сетей для ИИ «Мивар-Сеченов» [10].
Рисунок 3. Изображение миварной графовой сети – 3A [9], искусственной нейросети с обратной связью Backpropagation – 3Б [5], схематическое изображение натуральных нейронов и их связи – 3В [цит. по Proneuroscience.ru, Droualb.faculty.mjc.edu].
3А
3Б
3В
ИИ ходит, видит, пишет, читает и говорит, но пока не человек
Выпущенная в Гарвардском Университете книга Майкла Томаселло (директора Института эволюционной антропологии им. Макса Планка / Max Planck Institute for Evolutionary Anthropology) «Натуральная история человеческого мышления» (A Natural History of Human Thinking, Michael Tomasello, 2014 г.) очень привлекла внимание разработчиков ИИ. В книге обсуждаются эволюционные причины появления интеллекта и языка и их связь – человеческое мышление берет начало от появления языка. В написанных впоследствии профессором Квиннипэкского университета Адамом Катцом (Adam Katz, Quinnipiac University) комментариях к этой книге подчеркивается, что язык, способность говорить друг с другом, конечно, определяет уровень интеллекта. Но не менее важны такие социальные поведенческие явления, как совместные коллективные действия, совместное внимание к какому-то предмету, возможность что-то делать вместе, видеть вещи одинаково при взаимодействии, иметь какие-то коллективные намерения, обучаться через подражание. Это социальное взаимодействие предшествует развитию языка.
В связи с пониманием социальной, а не лингвистической первопричинности появления интеллекта, разработчики очень много внимания уделяют отшлифовке алгоритмов мультиагентной среды [11-17]. Агентов (объектов виртуальной среды) методом Deep Reinforcement Learning обучают ходить, бегать, прыгать, делать сложные движения, ориентироваться на местности, подражать движениям и предсказывать траекторию начатого движения (рис. 4). Агент взаимодействует со средой, получая от нее подкрепление. Для генерации движений объектов используют рекуррентную нейронную сеть (Recurrent Neural Network; RNN), в которой связи между элементами образуют направленную последовательность – последовательные пространственные цепочки. Также популярна генеративно-состязательная сеть (Generative Adversarial Network, GAN), которая представляет собой комбинацию двух нейросетей. Одна из них генерирует образы, а другая отсеивает отбракованные (обучение без учителя, Unsupervised Learning). GAN может предсказывать траекторию начатого движения по 3D изображению человека. ИНС способна усложнять виртуальную среду для агента, заставляя его при этом найти решение в преодолении сложностей, что ведет к совершенствованию способностей агента (например, алгоритм POET, см. подпись к рис. 4). А специалисты английской компании DeepMind уже работают над достижением кооперации агентов в виртуальной среде – футбольной игре двух команд из агентов, которые демонстрируют связанное выполнением единой задачи поведение [18]. Для этого используют методы Deep Reinforcement Learning и Population Based Training (PBT), тренируя одновременно несколько нейросетей.
Рисунок 4. Образцы работы алгоритмов ИНС в процессе обучения движению агентов в виртуальной среде и предсказанию движений человека. 4А – среда Multi-Agents Marathon Environment, Deep Reinforcement Learning [11]; 4Б – самосборка агентов в сложные объекты и преодоление препятствий, Deep Reinforcement Learning, Dynamic Graph Network [12]. 4В – агент Manipulator, Deep Reinforcement Learning, DeepMind Control Suite [13]; 4Г – среда, усложняющая путь для агента, Evolution Strategy, The Paired Open-Ended Trailblazer (POET) [14]; 4Д – предсказание направления движений, Deep Learning motion synthesis models, Normalized Power Spectrum Similarity (NPSS), Verso-Time Label Noise-Recurrent Neural Network model (VTLN-RNN) [15]; 4Е – архитектура для предсказания направления движений Spatio-Temporal Motion Inpainting Generative Adversarial Network (STMI-GAN) architecture [16]; 4Ж – предсказание направления движений по видео, Hierarchical Prediction Network (HPNet), Recurrent Neural Networks for predictive learning [17].
Обучение алгоритмов языку идет по разным направлениям и имеет весьма продвинутые результаты. Так, калифорнийская компания OpenAI, которую возглавляет Илья Суцкевер (Ilya Sutskever), применяет для распознавания текстов RNN [19]. Разработчики OpenAI единицей распознавания сделали морфемы (корень, приставка. суффикс). Целью моделирования текста является предсказание обученной нейросетью последовательности морфем, что успешно достигается. Оказалось, что при таком подходе нейросеть может изобретать новые слова. С помощью модификации RNN для обучения с памятью с длительным запоминанием зависимостей – модель LSTM (Long Short-Term Memory), удалось добиться семантического эффекта, то есть понимания алгоритмом смысла текста и эмоций [20]. Однако глубокие способности нейросети понимать текст имеют обратную сторону «медали» – зависимость от особенности тренировочного датасета. Например, если датасет был с торгового портала Amazon, то обзор книг и отзывы – это не тот датасет, который поможет понять, например, общение врача и пациента. Для достижения понимания медицинских текстов необходимо специально создавать тренировочные датасеты из записей врачей.
Обработка естественного языка (Natural Language Processing) включает в себя широкий спектр разнообразных задач: понимание и генерация текста, перевод, ответы на вопросы, создание кратких обзоров (обобщение), оценка семантического сходства текстов, понимание эмоций (sentiment analysis), классификация документов. Особое место занимают задачи моделирования языка (прогнозирование следующего слова в контексте), моделирования маскированного языка (прогнозирование пропущенного слова в предложении) и прогнозирования следующего предложения. Моделирование языка выполняет, например, модель BERT (Bidirectional Encoder Representations from Transformers, нейросетевой трансформер с последовательным кодированием).
Для тренировки и проверки качества нейросетей класса NLP созданы разные англоязычные эталонные датасеты-шаблоны (бенчмарки) [21, 22]. Например, RACE, Story Cloze, CoQA, LAMBADA, GLUE (список датасетов: http://nlpprogress.com). Тест для оценки общего понимания языка «The General Language Understanding Evaluation» (GLUE; https://gluebenchmark.com) является одним из лучших и помогает избежать тренировки моделей на размеченном вручную тексте, что занимало бы много времени и ресурсов. Исчерпывающе многозадачных (все задачи NLP сразу) вариантов тренировки (как последовательно, так и одновременно) нейросетей пока нет. Современный подход позволяет делать первичную тренировку на шаблоне без человека (Unsupervised pre-training), а затем быстро проводить тонкую ручную подстройку (Supervised fine-tuning). К сожалению, списка русскоязычных шаблонов текстов для тренировки нейросетей в открытом доступе для исследователей нет. Такие компании, как Яндекс, Сбербанк и т.д. тренируют нейросети на своих закрытых датасетах. Особенно следует отметить отсутствие медицинских текстовых датасетов-шаблонов, что критически тормозит разработку ИИ для «умных» больниц.
Команда Google работает над созданием Общего лингвистического интеллекта (General Linguistic Intelligence, GLI) [23]. GLI определяют как способность нейросети быть мультизадачной и комплексно использовать натренированные навыки для новых задач без потерь в семантике (понимание смысла), лексике (знание слов языка), синтаксисе (распознавание структуры предложения). Усложнение задач для ИНС сопровождается так называемым «катастрофическим забвением» прежних навыков во время дообучения на новых датасетах, что является существенным препятствием на пути создания Общего ИИ (AGI). Ведь для AGI требуется, чтобы агенты обладали GLI на уровне рассуждений и самостоятельно взаимодействовали со средой с помощью лингвистического интеллекта. Многообещающей моделью для создания GLI является модель BERT, другой моделью служит RNN ELMo (Embeddings from Language Models) [23-25]. Создана модификация BioBERT (Bidirectional Encoder Representations from Transformers for Biomedical Text Mining), это биомедицинская модель интеллектуального анализа текста [26]. Нейросеть BioBERT натренирована на больших корпусах английских биомедицинских текстов, включая PubMed. Примечательно, что в англоязычной современной культуре Bert и Elmo – это персонажи из шоу для детей «Улица Сезам» (Sesame Street).
Машинный перевод в условиях глобализации стал критическим навыком для ИНС. На московском конгрессе «ИТ в Медицине-2018» (ITMCongress.ru) эксперт Европейской Федерации Медицинской Информатики, генеральный секретарь Международного фонда HL7 Катерин Хронаки (Catherine Chronaki, The European Federation for Medical Informatics, HL7 International Foundation) выступила с докладом, в котором озвучила два новых тренда в медицине: международное резюме пациента (International Patient Summary), оно будет содержать унифицированную информацию про человека и храниться в глобальной базе данных; и API (программный интерфейс приложения, Application Programming Interface), технология доступа к любым открытым базам данных в мире, включая стандарт обмена медицинской информацией Fast Healthcare Interoperability Resources (FHIR-API) для массовых трансграничных медицинских консультаций. И если первый тренд касается создания англоязычной унифицированной базы данных для удобства путешествующих по миру людей, то второй тренд связан со сложностью прочтения данных о пациенте, записанных на не английском языке. В переводе с языка на язык помогут нейросети. В настоящее время существуют ИНС, способные в рамках единой модели транслировать на английский с 102 языков и обратно с английского на 102 языка мира [27]. Для таких ИНС используют кросс-лингвистический универсальный кодировщик, который предложения на разных языках кодирует в общую базу независимо от принадлежности к языку [28].
Генерация речи – следующий шаг после понимания текста. Для медицины данный раздел нейросетей относится к социальной робототехнике – роботам, которые ухаживают за больными, служат им компаньонами. В компании Facebook AI Research создали ИНС Neural Text To Speech (TTS), которая сохраняет персональные характеристики голоса, делая при этом перевод с языка на язык [29]. Голос, говорящий на одном языке, может быть воспроизведен без изменений, но при этом говорить он будет уже на другом языке. Обучение такой нейросети основано на анализе фонем (звуковых единиц языка) независимо от языка. Делая фонетические вложения (embedding), нейросеть затем конструирует из встроенных звуковых единиц разные языки (пока показана взаимозаменяемость фонем для английского, немецкого и испанского языков). Для озвучивания речи приспосабливают и состязательные сети GAN, которые чаще используются для генерации изображений [30]. В выполнении задачи генерации звука GAN используют спектрограммы.
Когда человек слушает речь, его мозг «обрабатывает» звуковые сигналы целыми предложениями. Отсутствие контекста в виде завершенного предложения затрудняет понимание речи и ее эмоционального окраса. Учитывая это, разрабатывается сверточная ИНС (Temporal Convolutional Network), которая обучается на встраиваемых звуковых целых предложениях, а не коротких словах и отдельных звуках [31]. Такой подход позволяет распознать эмоции (рис. 5).
Рисунок 5. Распознавание текста при помощи компьютерного зрения; 5А – несколько итераций при обучении нейросети до получения результата; 5Б – разбивка фразы на отдельные символы и кластеризация символов [32]. Встраивание звуковых речевых предложений; 5В – процесс разделения встроенного предложения на звуковую и лингвистическую компоненты; 5Г – качество распознавания эмоций при кластеризации (радость и отвращение), встраивание слов (слева) и целых предложений (справа) [31].
Распознавание образов (Computer Vision) является неотъемлемой частью ИИ. Эту технологию применяют и для понимания текстов без предварительного обучения с разметкой текста [32]. Сверточная нейросеть (Fully-Convolutional Network) узнает написанные буквы (Visual Text Recognition); для такого метода подходят сканированные страницы текста (см. рис. 5), что представляет интерес в аспекте чтения рукописных медицинских документов. Существует американская база данных MNIST (сокращение от Modified National Institute of Standards and Technology), которая содержит более 70 тыс. образцов рукописного написания цифр и используется как стандарт для калибровки и обучения нейросетей, выполняющих задачу распознавания изображений. Эти Большие данные получены из Бюро переписи населения США и студенческих работ американских университетов. Для постановки задачи распознавания рукописных медицинских документов в России необходимо создать подобную базу данных из образцов написания букв на русском языке и цифр.
Рисунок 6. Примеры распознавания и генерации изображений нейросетями. 6А – генерация GAN лиц в разных вариациях, нейросеть сама вставляет в белое поле свои вариации лица [34]; 6Б – генерация GAN лиц двух блогеров из Youtube по звуковому датасету (слева настоящие изображения двух блогеров, далее слева направо по 4 изображения, сгенерированных нейросетью по голосу этих блогеров [33]; 6В – пример состязательных атак на нейросети (Adversarial Attacks); левый столбец изображений нормальной рентгенограммы грудной клетки; правый столбец – пневмоторакс; первый верхний ряд – нейросеть правильно (зеленая маркировка) показывает нулевую вероятность не нормы и 99%-ю вероятность пневмоторакса; второй ряд – нейросеть заражена и ее выводы диаметрально противоположны при неизмененной рентгенограмме на выходе; третий ряд – нейросеть заражена встроенными подобными изображениями, но сохраняет правильность трактовки основных изображений; четвертый нижний ряд – нейросеть заражена изображениями иного рода, вывод нейросети противоположен правильному ответу [36].
По звуковой речи нейросеть может генерировать изображения лиц [33]. Правда, ИНС ограничена датасетом, на котором ее обучали (рис. 6). GAN может не только генерировать изображения, неотличимые от реальных, но и перерисовывать их (рис. 6, видео по ссылке https://sites.google.com/view/iclr19-dsgan/) [34]. По мере развития технологий распознавания и генерации изображений, появились и хакерские технологии. Об этом написали специалисты Массачусетского Технологического Института (Massachusetts Institute of Technology) и Гарвардской медицинской школы (Harvard Medical School) в журнале Science [35, 36]. Технология состязательных атак на нейросети (Adversarial Attacks) подрывает уже почти сложившуюся нейросетевую медицинскую визуализацию в радиологии, патологии, дерматологии и офтальмологии. В модель нейросети могут намеренно вводиться вирусные состязательные изображения или мелкий цифровой пиксельный шум, что заставит модель учесть эти данные и сделать ошибку в отношении уже полученного опыта на тренировочном датасете. Это можно образно сравнить с выражением «ложка дегтя в бочке меда». При этом часть изображения может стать невидимой, либо на картинке добавится новый объект, либо внешне не измененная картинка не будет читаться машиной, так как на уровне цифрового кода она содержит вирус (см. рис. 6). Насколько сеть зависит от своего первичного датасета, видно на рис. 7. После обработки Deep Dream Generator ультразвукового изображения, нейросеть увидела на нем мартышку, так как эта нейросеть обучена на изображениях с включением животных.
Рисунок 7. Серошкальное ультразвуковое изображение подпеченочной кишечной инвагинации (слева); то же изображение после обработки ИНС Deep Dream Generator (справа)
Алгоритмы машинного нейросетевого распознавания изображений с применением Deep Learning широко используются на практике для рентгеновских снимков, изображений магнитно-резонансной томографии и ультразвуковых изображений: BayLabs (https://baylabs.io), Arterys (https://arterys.com), Enlitic (https://www.enlitic.com), Zebra Medical Image (https://www.zebra-med.com), Butterfly Network, Inc. (https://www.butterflynetwork.com), CureMetrix (http://curemetrix.com) и другие (CBInsights, 2017), а в России успешные примеры – CoBrain (http://cobrain.io) и «Третье мнение» (https://3opinion.ru). Распознавать изображения машина может и без нейросетей. Например, алгоритм Uzgraph базируется на представлении изображения как комбинации точек и векторов (трехмерный векторный анализ) и выдерживает даже такие искажения, как поворот анализируемого снимка на 45, 90 и 180 градусов [37].
Медицинская среда для работы ИИ: Большие данные и бизнес-модели
Внедрение ИИ в медицину касается всех сфер этой области и шире, поэтому спектр обсуждаемых проблем может быть бесконечным. Главная среда для работы ИИ – это Большие данные. В 2019 г. Европейское агентство лекарственных средств совместно с главами национальных агентств по лекарственным средствам стран Евросоюза (European Medicines Agency, Heads of Medicines Agencies) опубликовали доклад по Большим данным в отрасли «HMA-EMA Joint Big Data Taskforce Summary Report» [38]. Европейские эксперты выражают опасения в отношении влияния Больших данных на разработку лекарств и ведение пациентов с разными болезнями. А ведь пока нет ни четкого определения, ни понимания Больших данных при одновременном критическом росте записываемых в информационные системы медицинских данных, и не только в рамках медицинских организаций, а вплоть до трансграничных потоков (например, сервисы Apple). HMA-EMA дали определение Большим данным – чрезвычайно большие наборы данных, сложные, многомерные, неструктурированные и неоднородные, быстро накапливающиеся, которые могут быть проанализированы с помощью специальных компьютерных технологий (включая ИИ) для выявления закономерностей, тенденций и ассоциаций. Большие данные в медицине разделили на шесть областей: геномика; протеомика; клинические исследования; данные по потокам пациентов и лекарств (электронные медицинские карты, учет лекарственных средств); данные о побочных эффектах лекарств (spontaneous adverse drug reports, ADRs); социальные сети; и данные с мобильных приложений (m-Health).
Существующие нормативы в регулировании разработки, испытаний и оборота лекарств связаны с данными, полученными на рандомизированных выборках с обязательным присутствием контрольной группы. В клинических исследованиях сравниваются группы пациентов, оцениваются статистические различия и формируются клинические подходы, основанные на доказательствах. Большие данные вносят полный беспорядок в эту отлаженную систему контроля и регулирования. Нет чистоты данных, нет контрольной группы, нет четких условий при сравнении; работают уже не статистические закономерности, а кибернетические модели. Однако именно постоянно генерируемые Большие данные и диктуют свою политику. Вопрос не стоит так, чтобы отказаться от Больших данных. Напротив, проблема заключена в том, что нужно вырабатывать новые регламенты и правила для работы с накапливающимися датасетами с целью безопасности пациентов.
Среди основных рекомендаций HMA-EMA необходимо выделить следующее:
-
использовать технологии и данные, соответствующие глобальным стандартам для облегчения взаимодействия, а также общеизвестные форматы файлов и открытые исходные коды; минимизировать разработку новых стандартов, при этом создать стандарты качества данных;
-
сформулировать стратегии управления данными (Data Governance) и создать структуры, платформы и сети для обмена данными и доступа к ним, развивать культуру обмена данными;
-
разработать единые принципы обезличивания данных;
-
установить правила проверки аналитических подходов при внедрении результатов в жизнь, создать рекомендации по приемлемости доказательств, полученных на Больших данных, обеспечив гибкость в их пересмотре с учетом быстрого обновления технологий;
-
поддерживать продвижение новых аналитических подходов, таких как ИИ, машинное обучение нейросетей, обработка естественного языка;
- обеспечить учебные программы и подготовку кадров, имеющих соответствующие новые навыки для работы с Большими данными и в области науки о данных (Data Science); разработать стратегию найма новых специалистов.
Целесообразное направление развития ИИ связано с поиском оптимальных вариантов решения конкретных задач, когда нужны превосходящие человека вычислительные возможности, учет множества факторов влияния и состояния ресурсной базы, выбор последовательности шагов, обеспечивающих достижение оптимального результата. Для медицины ИИ будет ценен в диагностике, выборе лечебного стандарта и лечебного учреждения, подборе схемы приема лекарственных препаратов, мониторировании состояния пациента, планировании закупок препаратов.
Можно определить три наиболее интересных практических направления в области машинного обучения нейросетей и Больших данных для «умной» медицины и предложить их для разработчиков и исследователей в качестве приоритетных тем.
-
Создание ИИ-системы по принципу Интернета вещей для контроля внутрибольничной инфекции, с использованием электрохимических датчиков и беспроводной связи.
-
Сбор банка фотографий пациентов с эндокринологическими заболеваниями, чтобы обучить на таком датасете нейросеть, которая сможет генерировать по заданным условиям (повышенному или пониженному уровню гормона) лицо пациента с клиническими признаками заболевания и будет полезна как для подготовки врачей, так и в клинической практике.
-
Формирование текстовых массивных медицинских датасетов на русском языке, включая рукописные тексты, в открытом доступе для обучения алгоритмов по обработке естественного языка.
Uber medicine | Retail clinics | Network clinics |
Бизнес-модель: напрямую соединяет с помощью логистики передвижения транспорта нуждающихся в медицинских услугах и врачей, готовых оказать медицинские услуги именно там и тогда, где и когда они востребованы. | Бизнес-модель: возвращает средневековую практику медицинского консультирования в местах большого скопления людей (на рынках); посетитель в крупных сетевых аптеках и супермаркетах не отрываясь от повседневных дел может получить очную медицинскую услугу. | Бизнес-модель: стремится к повсеместному территориально-географическому присутствию, чтобы для жителя каждого района, города или области высококвалифицированная медицинская помощь была территориально доступна. |
Ориентирована на повышение доступности медицинской помощи на основе Интернет-технологий. | Ориентирована на расширение охвата населения медицинскими услугами. | Ориентирована на пожизненное ведение пациентов с разными заболеваниями. |
Сегмент первичной медико-санитарной и неотложной медицинской помощи. | Сегмент первичной консультативной медицинской помощи и профилактики заболеваний. | Сегмент амбулаторной и стационарной медицинской помощи. |
Ключевая технология: мобильные приложения с ИИ. | Ключевая технология: | Ключевая технология: |
дисконтные карты с аналитикой Больших данных. | телемедицинские облачные центры. | |
Вектор воздействия: сокращение времени ожидания прибытия врача, особенно в неотложных ситуациях. | Вектор воздействия: | Вектор воздействия: |
повышение ответственности людей за свое здоровье через стимулирование к прохождению обследования и лечения. | повышение качества оказания всех видов медицинской помощи, особенно стационарной. |
Источники:
- Bartol TM, Bromer C, Kinney J, Chirillo MA, Bourne JN, Sejnowski TJ et al. Nanoconnectomic upper bound on the variability of synaptic plasticity. eLife J. 2015; 4:e10778. DOI: 10.7554/eLife.10778.
- Pozzi I, Bohté SM, Roelfsema PR. A biologically plausible learning rule for Deep Learning in the brain. arXiv:1811.01768v1 [cs.NE] 5 Nov 2018.
- Howard D, Eiben AE, Kennedy DF, Mouret J-B, Valencia P, Winkler D. Evolving embodied intelligence from materials to machines. Nature Machine Intelligence. 2019; 1: 12-19. DOI.org/10.1038/s42256-018-0009-9.
- Chan BWC. Lenia – Biology of Artificial Life. arXiv:1812.05433v2 [nlin.CG] 21 Dec 2018.
- Дунин-Барковский ВЛ, Соловьева КП. Принцип Павлова в проблеме обратного конструирования мозга. XVIII Международная конференция Нейроинформатика-2016. Сборник научных трудов, Часть 1. Москва, Национальный исследовательский ядерный университет «МИФИ», 2016; 11-23.
- Dunin-Barkowski W, Solovyeva K. Pavlov Principle and Brain Reverse Engineering. IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology, CIBCB-2018. Saint Louis, Missouri, USA. 2018; Paper #37: 1-5. DOI: 10.1109/CIBCB.2018.8404975.
- Shakirov VV, Solovyeva KP., Dunin-Barkowski WL. Review of State-of-the-Art in Deep Learning Artificial Intelligence. Optical Memory and Neural Networks. 2018; 27 (2): 65-80. DOI: 10.3103/S1060992X18020066.
- Dunin-Barkowski WL., Shakirov VV. A Way toward Human Level Artificial Intelligence. Optical Memory and Neural Networks. 2019; 28 (1): 21-26. DOI: 10.3103/S1060992X19010041.
- Varlamov OO. Wi!Mi Expert System Shell as the Novel Tool for Building Knowledge-Based Systems with Linear Computational Complexity. The International Review of Automatic Control (IREACO). 2018; 11 (6): 314-325. DOI.org/10.15866/ireaco.v11i6.15855.
- Varlamov OO, Chuvikov DA, Adamova LE, Kolesnichenko OYu, Petrov MA, Zabolotskaya IK, Zhilina TN. Logical, Philosophical and Ethical Aspects of AI in Medicine. International Conference on Computer Science and Information Technology (ICCSIT-2018), International Journal of Machine Learning and Computing. 2019. В печати.
- Booth Jo, Booth Ja. Marathon Environments: Multi-Agent Continuous Control Benchmarks in a Modern Video Game Engine. arXiv:1902.09097v1 [cs.AI] 25 Feb 2019.
- Pathak D, Lu C, Darrell T, Isola P, Efros AA. Learning to Control Self-Assembling Morphologies: A Study of Generalization via Modularity. arXiv:1902.05546v1 [cs.LG] 14 Feb 2019.
- Tassa Y, Doron Y, Muldal A, Erez T, Li Y, Lillicrap T et al. Deepmind control suite. arXiv:1801.00690v1 [cs.AI] 2 Jan 2018.
- Wang R, Lehman J, Clune J, Stanley KO. Paired Open-Ended Trailblazer (POET): Endlessly Generating Increasingly Complex and Diverse Learning Environments and Their Solutions. arXiv:1901.01753v3 [cs.NE] 21 Feb 2019.
- Gopalakrishnan A, Mali A, Kifer D, Lee Giles C, Ororbia AG. A Neural Temporal Model for Human Motion Prediction. arXiv:1809.03036v4 [cs.CV] 6 Dec 2018.
- Hernandez-Ruiz A, Gall J, Moreno-Noguer F. Human Motion Prediction via Spatio-Temporal Inpainting. arXiv:1812.05478v1 [cs.CV] 13 Dec 2018.
- Qiu J, Huang G, Lee TS. A Neurally-Inspired Hierarchical Prediction Network for Spatiotemporal Sequence Learning and Prediction. arXiv:1901.09002v1 [cs.NE] 25 Jan 2019.
- Liu S, Lever G, Merel J, Tunyasuvunakool S, Heess N, Graepel T. Emergent Coordination Through Competition. arXiv:1902.07151v2 [cs.AI] 21 Feb 2019.
- Sutskever I, Martens J, Hinton GE. Generating Text with Recurrent Neural Networks. 28th International Conference on Machine Learning (ICML-11). 2011; 1017-1024.
- Radford A, Jozefowicz R, Sutskever I. Learning to Generate Reviews and Discovering Sentiment. arXiv:1704.01444v2 [cs.LG] 6 Apr 2017.
- Radford A, Narasimhan K, Salimans T, Sutskever I. Improving Language Understanding by Generative Pre-Training, 2018. URL: https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_unde...
- Radford A, Wu J, Child R, Luan D, Amodei D, Sutskever I. Language Models are Unsupervised Multitask Learners, 2019. https://github.com/openai/gpt-2.
- Yogatama D, De Masson d'Autume C, Connor J, Kocisky T, Chrzanowski M, Kong L et al. Learning and Evaluating General Linguistic Intelligence. arXiv:1901.11373v1 [cs.LG] 31 Jan 2019.
- Wang A, Cho K. BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model. arXiv:1902.04094v1 [cs.CL] 11 Feb 2019.
- Houlsby N, Giurgiu A, Jastrzebski S, Morrone B, De Laroussilhe Q, Gesmundo A et al. Parameter-Efficient Transfer Learning for NLP. arXiv:1902.00751v1 [cs.LG] 2 Feb 2019.
- Lee J, Yoon W, Kim S, Kim D, Kim S, So CH et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. arXiv:1901.08746v3 [cs.CL] 3 Feb 2019.
- Aharoni R, Johnson M, Firat O. Massively Multilingual Neural Machine Translation. arXiv:1903.00089v1 [cs.CL] 28 Feb 2019.
- Lample G, Conneau A. Cross-lingual Language Model Pretraining. arXiv:1901.07291v1 [cs.CL] 22 Jan 2019.
- Nachmani E, Wolf L. Unsupervised Polyglot Text To Speech. arXiv:1902.02263v1 [cs.LG] 6 Feb 2019.
- Engel J , Agrawal KK, Chen S, Gulrajani I, Donahue C, Roberts A. GANSynth: Adversarial Neural Audio Synthesis. arXiv:1902.08710v1 [cs.SD] 23 Feb 2019.
- Haque A, Guo M, Verma P, Fei-Fei L. Audio-Linguistic Embeddings for Spoken Sentences. arXiv:1902.07817v1 [cs.SD] 20 Feb 2019.
- Gupta A, Vedaldi A, Zisserman A. Learning to Read by Spelling: Towards Unsupervised Text Recognition. arXiv:1809.08675v2 [cs.CV] 9 Dec 2018.
- Duarte A, Roldan F, Tubau M, Escur J, Pascual S, Salvador A et al. Wav2Pix: Speech-conditioned Face Generation using Generative Adversarial Networks. arXiv:1903.10195v1 [cs.MM] 25 Mar 2019.
- Yang D, Hong S, Jang Y, Zhao T, Lee H. Diversity-sensitive conditional generative adversarial networks. arXiv:1901.09024v1 [cs.LG] 25 Jan 2019. URL: https://sites.google.com/view/iclr19-dsgan/.
- Finlayson SG, Bowers JD, Ito J, Zittrain JL, Beam AL, Kohane IS. Adversarial attacks on medical machine learning. Science, 2019; Vol. 363 (6433):1287-1289. DOI: 10.1126/science.aaw4399.
- Finlayson SG, Chung HW, Kohane IS, Beam AL. Adversarial Attacks Against Medical Deep Learning Systems. arXiv:1804.05296v3 [cs.CR] 4 Feb 2019.
- Kolesnichenko Yu, Kolesnichenko O, Smorodin G. 3-Dimensional Vector Analysis of 2-Dimensional Ultrasound Diagnostic Images. 21st Conference of Open Innovations Association FRUCT, University of Helsinki, Finland, 2017; 428-434.
- HMA-EMA Joint Big Data Taskforce, Summary report. Heads of Medicines Agencies EU, European Medicines Agency.EMA/105321/2019.13 February 2019, 48.