КОМБИНИРОВАННЫЙ ПОДХОД К РЕКОНСТРУКЦИИ АССОЦИАТИВНЫХ СЕТЕЙ: ОБЪЕДИНЕНИЕ GRAPHSAGE И СТАТИСТИКИ СОВМЕСТНОЙ ВСТРЕЧАЕМОСТИ
Исследование посвящено разработке гибридного подхода к предсказанию молекулярно-генетических взаимодействий, объединяющего графовые нейронные сети (ГНС) и анализ совместной встречаемости сущностей в научной литературе. Эффективность метода продемонстрирована на примере ассоциативной сети Escherichia coli, реконструированной с использованием системы ANDSystem и ее модуля ANDDigest. Результаты показали значительное улучшение точности предсказания взаимодействий относительно соответствия топологии исходного графа по сравнению с использованием только ГНС. Комбинация подходов позволила улучшить F1-меру с 0.815 до 0.97, а также снизить значение функции потерь с 0.405 до 0.08. Оценка на экспериментально подтвержденных «белок–белок» взаимодействиях также продемонстрировала высокую эффективность модели (F1-мера 0.9799, коэффициент корреляции Мэттьюса 0.9597). Предложенный метод может найти применение при анализе сложных биологических систем, планировании экспериментов и оптимизации биотехнологических процессов.
Работа выполнена за счет финансирования Курчатовского геномного центра ФИЦ ИЦиГ СО РАН, соглашение с Министерством образования и пауки РФ № 075-15-2019-1662. Вычисления проводились с использованием ресурсов ЦКП «Биоинформатика».
Список литературы
- Bornmann L., Haunschild R., Mutz R. Growth rates of modern science: a latent piecewise growth curve approach to model publication numbers from established and new literature databases // Humanities and Social Sciences Communications. 2021. № 8. P. 224.
- Kitano H. Systems biology: a brief review // Science. 2002. V. 295, № 5560. P. 1662-1664.
- Zhou J., Cui G., Hu S., Zhang Z., Yang C., Liu Z., Wang L., Li C., Sun M. Graph neural networks: A review of methods and applications //AI Open. 2020. V. 1. P. 57-81.
- Scarselli F., Gori М., Tsoi А. С., Hagenbuchner М., Monfardini G. The graph neural network model // IEEE Transactions on Neural Networks. 2008. V. 20, № 1. P. 61-80.
- Колчанов H.A., Игнатьева E.B., Подколодная О. А., Лихошвай В. А., Матушкин Ю.Г. Генные сети // Вавиловский журнал генетики и селекции. 2013. Т. 17, № 4/2. С. 833-850.
- Zitnik М., Agrawal М., Leskovec J. Modeling polypharmacy side effects with graph convolutional networks // Bioinformatics. 2018. V. 34, № 13. P. i457-i466.
- Ivanisenko T.V., Demenkov P. S., Kolchanov N.A., Ivanisenko V.A. The new version of the ANDDigest tool with improved Al-based short names recognition // International Journal of Molecular Sciences. 2022. V. 23, № 23. P. 14934.
- Von Mering C., Jensen L. J., Snel B., Hooper S. D., Krupp M., Foglierini M. et al. STRING: known and predicted protein-protein associations, integrated and transferred across organisms // Nucleic Acids Research. 2005. V. 33, Suppl. 1. P. D433-D437.
- Ivanisenko V.A., Saik O.V., Ivanisenko N.V. et al. ANDSystem: an Associative Network Discovery System for automated literature mining in the field of biology // BMC Systems Biology. 2015. V. 9, Suppl. 2. P. S2.
- Ivanisenko V.A., Demenkov P. S., Ivanisenko T.V., Mishchenko E.L., Saik O.V. A new version of the ANDSystem tool for automatic extraction of knowledge from scientific publications with expanded functionality for reconstruction of associative gene networks by considering tissue-specific gene expression // BMC Bioinformatics. 2019. V. 20. P. 5-15.
- Hamilton W.L., Ying R., Leskovec J. Inductive representation learning on large graphs // Advances in Neural Information Processing Systems. 2017. V. 30.
- Blount Z.D. The unexhausted potential of E. coli // eLife. 2015. V. 4. P. e05826.
- Pontrelli S., Chiu T.Y., Lan E.I., Chen F.Y., Chang P., Liao J.C. Escherichia coli as a host for metabolic engineering // Metabolic Engineering. 2018. V. 50. P. 16-46.
- Choi K.R., Jang W.D., Yang D., Cho J.S., Park D., Lee S.Y. Systems metabolic engineering strategies: integrating systems and synthetic biology with metabolic engineering // Trends in Biotechnology. 2019. V. 37, № 8. P. 817-837.
- Hermjakob H., Montecchi-Palazzi L., Lewington C., Mudali S., Kerrien S., Orchard S., Vingron M., Roechert B., Roepstorff P., Valencia A., Margalit H., Armstrong J., Bairoch A., Cesareni G., Sherman D., Apweiler R. IntAct: an open source molecular interaction database // Nucleic Acids Research. 2004. V. 32, Suppl. 1. P. D452-D455.
- Wren J.D., Garner H.R. Shared relationship analysis: ranking set cohesion and commonalities within a literature-derived relationship network // Bioinformatics. 2004. V. 20, № 2. P. 191-198.
- Ivanisenko T.V., Saik O.V., Demenkov P. S., Ivanisenko N.V., Savostianov A.N., Ivanisenko V. A. ANDDigest: a new web-based module of ANDSystem for the search of knowledge in the scientific literature // BMC Bioinformatics. 2020. V. 21. P. 1-21.
- Loshchilov L, Hutter F. Decoupled Weight Decay Regularization // International Conference on Learning Representations (ICLR). 2019.