Текст произведения
(PDF):
Читать
Скачать
Положительная рецензия представлена В. И. Пионтковским, доктором ветеринарных наук, профессором, научным сотрудником Инновационного научно-образовательного центра Костанайского государственного университета им. А Байтурсынова. В последние годы исследование токсоплазмоза при- обретает все большее значение и на национальном, и на международном уровне. Широкое распространение токсоплазмоза у человека с возрастанием удельного веса этой патологии в различных возрастных группах, а также у сельскохозяйственных животных, в том числе крупного рогатого скота, овец, свиней, кур, обусловли- вает актуальность изучаемой проблемы [1, 2, 3]. Токсоплазмоз - протозойная болезнь человека, домашних и диких млекопитающих и птиц, вызыва- ется внутриклеточным паразитом Toxoplasma gondii (токсоплазма) из типа простейших [4]. Основным переносчиком токсоплазм являются животные из семейства кошачьих, в клетках их кишечника пара- зит проходит полный цикл развития. Заражение про- исходит при неправильной уборке за животными и несоблюдении правил гигены, при употреблении в пищу продуктов, содержащих ооцисты [5]. Болезнь характеризуется природной очаговостью и регистрируется во всех странах мира. По оценкам специалистов около 30-50 % населения мира инфи- цировано паразитом, и это наиболее распространен- ная инфекция среди людей [6]. Использование ряда лекарственных препаратов направлено на подавление биохимических реакций в организме паразита, в частности на ингибирование ключевого фермента в синтезе пуринов и пиримиди- нов - дигидрофолатредуктазы (ДГФР, англ. DHFR). Среди химиотерапевтических средств против токсо- плазмоза эффективным считается хлоридин (наибо- лее часто употребляемый синоним - пириметамин), селективно ингибирующий ДГФР простейших [4]. В качестве критерия активности того или иного пре- парата обычно используют концентрацию полумаксимального ингибирования IC50 (half-maximal inhibi- tory concentration), концентрацию препарата, тормо- зящую рост токсоплазмы на 50 %. В обзоре [6], характеризующем состояние с анти- токсоплазмоидными лекарствами за период с 2006 по 2016 г., отмечено, что, несмотря на появление ряда новых препаратов, нынешняя химиотерапия токсо- плазмоза все еще неудовлетворительна. С учетом тя- жести токсоплазмоза, побочных эффектов современ- ных лекарств необходимы дальнейшие усилия для разработки новых вариантов лечения T. gondii. Цель и методика исследований Целью нашего исследования было изучение воз- можности прогнозирования активности больших объемов органических соединений разных классов в отношении ингибирования роста T. gondii с исполь- зованием показателя lgIC50. Затратность и трудоемкость экспериментальных различных видов биологической активности, пер- спективным является QSAR (Quantitative Structure Activity Relationships). Методология QSAR сводит- ся к установлению корреляционных соотношений структура - активность, при этом параметры биоло- гической активности рассматриваются как функция от структуры вещества. Количественные соотноше- ния между параметрами структуры химических со- единений и параметрами биологической активности могут быть выявлены с помощью различных мето- дов математического моделирования с привлечением соответствующих компьютерных программ. В процессе моделирования-прогнозирования вы- деляются следующие этапы. Первоочередной и глав- ной задачей вычислительного эксперимента являет- ся представление химического объекта (молекулы вещества) в виде системы описателей молекулярной структуры - дескрипторов, адекватных целям иссле- дования. Затем формируется набор веществ, предпо- ложительно обладающих искомыми свойствами. На- бор делится на тренировочную и контрольную вы- борки. На тренировочной выборке строится модель, т. е. с помощью различных математических методов осуществляется корреляция выбранных дескрипто- ров с исследуемым биологическим свойством, в на- шем случае - с антитоксоплазмоидной активностью. Прогностические возможности модели проверяются на контрольной выборке. Определяются статистиче- ские параметры, характеризующие качество модели- рования, обычно используются коэффициент корре- ляции R или R2 и стандартное отклонение s. Высокие значения коэффициента корреляции свидетельству- ют о прогностических свойствах моделей и о пер- спективности использования данных дескрипторов для виртуального скрининга новых препаратов. Ряд работ последних лет, посвященных модели- рованию и прогнозированию антитоксоплазмоидной активности химических соединений с использовани- ем различных дескрипторов и методик QSAR, дает представление о современном состоянии проблемы [7-12]. В большей части исследований противо- плазмоидная активность препаратов по отношению к T. gondii отождествляется с ингибированием актив- ности фермента ДГФР. В работе [7] группой исследователей представ- лена модель 46 производных триазина, для которых проведена корреляция между ингибирующей актив- ностью фермента ДГФР и стерическими и электро- статическими свойствами молекул в качестве де- скрипторов с использованием метода сравнитель- ного анализа молекулярного поля (CoMFA). Лучшая вычислительная модель для диапазона полумаксиисследований побуждают развивать расчетные мемальной ингибирующей концентрации IC50 от 0,002 тоды оценки биологической активности. Среди расчетных методов, привлекаемых для прогнозирования до 58,8 мкМ, имела R2 = 0,986, при перекрестной проверке R2 = 0,724, стандартную ошибку s = 0,164. Чуксе и др. [8] также было предпринято моделиро- вание ингибирующей активности производных триа- зина по отношению к ДГФР. Дескрипторами служили плотность электронов на конкретных атомах, энергия связи, молекулярные орбитали и др. Чтобы разрабо- тать модель с хорошей прогнозирующей способно- стью, авторы подвергли свои квантово-химические вычисления с использованием ступенчатого регрес- сионного анализа перекрестной проверке. Для набо- ра из 32 производных 4,6-диамино-2,2-диметил-1,2- дигидро-1,3,5-триазина были построены пять моде- лей. В алгоритм расчета при каждом моделировании последовательно добавлялся один из дескрипторов. Статистические параметры прогнозирования посте- пенно улучшались: R2 от 0,361 до 0,767, s от 1,15 до 0,75. Отбросив одно вещество, авторы достигли более высоких показателей: R2 = 0,830 и s = 0,646. Работа [9] посвящена изучению ингибирующей активности 46 соединений на основе пиразолопири- мидина, влияющих на кальцийзависимую белковую киназу, которая является перспективной лекарствен- ной мишенью для лечения токсоплазмоза. Лучшие модели, основанные на дескрипторах CoMFA имели R2 = 0,968, s = 0,81 и R2 = 0,970, s = 0,76. Авторами предложены четыре новых производных для даль- нейшего лабораторного исследования. но для всего набора веществ R2 = 0,916, для модели с валидным критерием - R2 = 0,806. Модели, создан- ные на дескрипторах программы Dragon, показали R2 = 0,952 для всей модели и R2 = 0,963 для модели с валидным критерием. На основе полученных моде- лей было предложено три вещества с высокой актив- ностью, для двух соединений биологическая актив- ность подтвердилась после их синтеза. Публикация приведенных выше работ указывает на актуальность и востребованность подобных ис- следований. Следует отметить, что значимые показа- тели качества моделей достигнуты на небольших по объему и однородных по составу наборах соедине- ний. Применимость моделей на гомогенных наборах веществ для прогнозирования ограничена кругом со- единений, подобных использованным. В наcтоящем исследовании данные об антиток- соплазмоидной активности химических соединений и их структуры в виде смайлов (smiles) получены на сайте ChEMBL [13], где содержатся химические базы данных из биологически активных молекул с лекарственно-подобными свойствами. Сайт поддер- живается Европейским институтом биоинформатики (EBI) Европейской лаборатории молекулярной био- логии (EMBL). Были отобраны 340 индивидуальных соединений В 2017 г. Захиди и Вижулатха [10] исследовали с точно установленными значениями IC50 и лежащие выборку из уже известных 167 ингибиторов ДГФР токсоплазмы с применением 3D-QSAR дескрипто- ров. Набор был случайным образом разделен на тре- нировочную выборку (90 соединений) и контрольную в диапазоне молекулярных масс 185-894. Все нестандартные способы выражения концентраций при- ведены в наиболее часто используемую [13] наномо- лярную (nM) концентрацию и прологарифмированы. выборку (77 веществ). Наилучшая модель для фар- 50 Диапазон значений lgIC - 1,00-6,85. макофоров получена с коэффициентом корреляции R2 = 0,9009 и стандартным отклонением s = 0,3026. Исследовательской группой [11] изучен ингиби- рующий потенциал 19 производных 7,8-диалкил-1,3- диаминопирроло [3,2-f] хиназолина со значениями Структура соединений была представлена в виде числовых описателей - дескрипторов структуры, вычисляемых с помощью компьютерной програм- мы Dragon 7. Для расчетов использовали 667 де- скрипторов, имеющих ненулевые значения для всех 50 pIC от 9,244 до 5,839. Лучшие модели CoMFA и соединений и коэффициент взаимной корреляции CoMSIA (метод сравнительного анализа молекуляр- ного подобия) показали R2 = 0,96 и 0,93 соответ- ственно. После перекрестной проверки (скользяще- го контроля) получены показатели R2 = 0,64 и 0,72 соответственно. Прогностическая способность этих моделей оценивалась по внешней проверке с исполь- зованием контрольной выборки из пяти соединений с прогнозируемыми коэффициентами корреляции R2 = 0,92 и 0,94. Авторами исследования [12] рассмотрена взаи- мосвязь структуры и активности ряда ингибиторов ДГФР с помощью двумерных QSAR-методов. Дву- мерные количественные модели были основаны на не более 0,97. Расчеты выполнены с помощью разработанной нами [14] компьютерной программы PROGROC (PROGgram RObustness Calculation), которая была успешно применена для прогнозирования некоторых параметров биологической активности [15], в част- ности токсичности органических соединений для Tetrahimena pyriformis [16]. Программа основана на алгоритмах, позволяющих использовать число де- скрипторов, превышающее количество веществ без предварительного отбора. Качество прогнозирова- ния характеризовалось коэффициентом корреляции R между прогнозируемыми и экспериментальными топологических дескрипторах, рассчитанных прозначениями lgIC50 и стандартным отклонением s. граммами PaDEL и Dragon. Модели продемонстрировали приемлемую прогностическую способность. Для дескрипторов, рассчитанных в PaDEL, получе- Результаты исследования В ходе вычислительного эксперимента было по- лучено несколько моделей при различных способах Таблица Показатели корреляции между экспериментальными и вычисленными значениями lgIC50 при различных соотношениях числа веществ в тренировочной и контрольной выборках Table The correlation between the experimental and calculated values of lgIC50 at different ratios of the number of substances in the training and control sets Число веществ, трен./контр. Number of compounds, train. / contr. R, трен. R, train. s, трен. s, train. R, контр. R, contr. s, контр. s, contr. 150/190 0,9672 0,29 0,9625 0,34 170/170 0,9718 0,27 0,9656 0,33 190/150 0,9755 0,25 0,9692 0,31 8 lgIC50, расчет lgIC50, calculated 6 4 2 0 0 2 4 6 8 lgIC50, эксперимент lgIC50, experimental - тренировочная выборка; × - контрольная выборка - training set; × - control set Рис. 1. Корреляция между экспериментальными и вычисленными значениями lgIC50 по молекулярным дескрипторам Fig.1. Correlation between the experimental and calculated values of lgIC50 by molecular descriptors разбиения всего набора из 340 соединений на кон- трольную и тренировочную выборки, статистиче- ские параметры моделей приведены в таблице. Качество моделей весьма высокое, тем более что в контрольной выборке представлено от 44 до 56 % от всего набора веществ, тогда как при моделировании биологического отклика обычно доля контрольной выборки составляет не более 20-25 %. Результаты прогнозирования для модели с равны- ми объемами тренировочной и контрольной выборок приведены на рис. 1. Гистограмма распределения частот ошибок про- гнозирования lgIC50 приведена на рис. 2. Вид гисто- граммы приближается к нормальному закону распределения, что может свидетельствовать об отсутствии грубых ошибок в исходных экспериментальных данных биологической активности использованного набора, а также о непротиворечивости полученной модели. Наиболее жесткая проверка адекватности кор- реляционных моделей и дескрипторов в QSАR- исследованиях осуществляется путем «перекрест- ной проверки» - «удаление одного из» (англ. leave- one-out) или скользящего контроля. Из исследуемого набора поочередно извлекается каждое вещество, модель строится по оставшимся веществам, затем выполняется оценка свойства удаленного вещества. Статистические параметры моделей при этом имеют самые низкие значения R и большие стандартные от- клонения s, что отмечается в публикациях [11]. Та- ким образом максимально выявляются возможности метода для оценки неизвестных значений новых ве- ществ. Адекватность нашей модели также проверя- лась с помощью скользящего контроля (рис. 3). По- сле скользящего контроля получены показатели: R = 0,9309 и s = 0,41. Учитывая, что разброс экспериментальных данных по IC50, полученных в различных лабораториях, может достигать нескольких порядков 60 50 40 частота frequency 30 20 10 0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 Ошибка прогнозирования lgIC50 Predictive error lgIC50 Рис. 2. Гистограмма распределения частот ошибок прогнозирования lgIC50 Fig. 2. Histogram of the frequency distribution of prediction errors lgIC50 8 6 lgIC50, расчет lgIC50, calculated 4 2 0 0 2 4 6 8 lgIC50, эксперимент lgIC50, experimental Рис. 3. Корреляция между экспериментальными и вычисленными значениями lgIC50, скользящий контроль Fig. 3. Correlation between experimental and calculated values of lgIC50, sliding mode control [13], достигнутое нами значение стандартного откло- нения s = 0,41 можно считать вполне приемлемым для компьютерного скрининга неизученных веществ, а также для уточнения экспериментальных данных. Сравнение результатов нашего исследования с данными в приведенных выше публикациях [6-12] показывает, что значения статистических параме- тров находятся на уровне лучших результатов других авторов, а полученные после скользящего контро- ля - превышают таковые в публикациях. Учитывая разнородность состава и большой объем набора со- единений в нашем исследовании, можно констатиро- вать, что выбор дескрипторов и алгоритма вычисле- ний является удачным и может быть применен для прогнозирования антитоксоплазмоидной активности органических соединений разных классов. Выводы Сформирован набор из 340 органических со- единений, обладающих установленной антитоксоплазмоидной активностью. Набор может быть ис- пользован в дальнейших исследованиях по QSAR моделированию и прогнозированию новых препара- тов. Показано, что использование большого набо- ра дескрипторов, генерируемых программой Dra- gon, и разработанного нами алгоритма программы PROGROC позволяет устанавливать корреляции меж- ду структурой соединений и их антитоксоплазмоид- ной активностью с высокими и статистически значи- мыми параметрами. Результаты вычислительного эксперимента по- казывают перспективность использования данных дескрипторов для виртуального скрининга новых антипаразитарных препаратов. Предложен подход к отбору эффективных антитоксоплазмоидных ле- карств из большого массива органических соедине- ний разных классов.