Российская наука, несмотря на все трудности, связанные с политической ситуацией, продолжает вносить свой вклад в развитие мировой хемоинформатики. Недавно ученые из Института общей и неорганической химии им. Н.С. Курнакова РАН (ИОНХ РАН), а также их коллеги из НИУ «Высшая школа экономики», МГУ им. М.В. Ломоносова и Венского университета представили самую крупную базу данных растворимости органических соединений в неводных растворителях — BigSolDB 2.0. Этот проект включает более 100 тысяч экспериментальных значений и предлагает онлайн-приложение для интерактивного доступа к информации.
Растворимость — это не просто химическое свойство, а своего рода «алхимический камень» для материаловедов и фармацевтов. В условиях, когда предсказание растворимости в неводных растворителях остаётся сложной задачей, новые методы машинного обучения становятся настоящим спасением. Однако для их эффективного применения требуется, как минимум, обширная база данных, и именно такую задачу решает BigSolDB 2.0.
«Мы проанализировали 1595 рецензируемых научных статей и извлекли из них 103 944 экспериментальных данных о значениях растворимости для 1448 органических соединений в 213 различных растворителях, в температурном диапазоне от 243 до 425 K. Особое внимание было уделено качеству данных — мы проводили тщательную проверку и стандартизацию всех записей, устранение дубликатов и валидацию источников», — прокомментировал работу один из авторов, младший научный сотрудник лаборатории кристаллохимии и Центра цвета ИОНХ РАН Лев Краснов.
Все молекулярные структуры представлены в машиночитаемом формате SMILES, а значения растворимости приведены в логарифмических единицах (LogS), что делает базу оптимальной для использования в алгоритмах машинного обучения. Кроме того, разработано онлайн-приложение для интерактивного поиска и визуализации данных по химической структуре или названию соединения.
Созданная база данных решает критическую проблему недостатка комплексных наборов данных для растворимости органических веществ, которая ранее ограничивала развитие методов машинного обучения в этой области. Большинство предыдущих исследований были сосредоточены только на водной растворимости, тогда как BigSolDB 2.0 охватывает широкий спектр органических растворителей.
В представленной базе данных среди наиболее распространенных растворителей выделяются низкомолекулярные спирты, вода, этилацетат, ацетон и ацетонитрил. Это особенно важно для разработки многих химических и технологических процессов, где точное знание растворимости критично для выбора растворителей в синтезе, разработки лекарственных препаратов и создания эффективных методов экстракции и кристаллизации.
Исследование выполнено при поддержке Минобрнауки России в рамках государственного задания.
«`