Вы здесь

МЕТОД ПРЕДСКАЗАНИЯ КОЛИЧЕСТВА БЕЛКА В КЛЕТКАХ ДРОЖЖЕЙ НА ОСНОВЕ ИХ ГЕНОМНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Авторы:

Вензель А.С.1,2,3, Иванисенко Т.В.1,2,3, Деменков П.С. 1,2,3, Иванисенко В.А.1,2,3 , Лашин С.А.1,2,3, , Иванисенко В.А.1,2,3

УДК:

575.112

DOI:

10.24412/2073-0667-2024-4-17-26

Аннотация:

В работе представлен новый метод предсказания количества белка в клетках пекарских дрожжей Saccharomyces cerevisiae, основанный на анализе их биологических последовательностей с использованием предобученных языковых моделей. Для обработки последовательностей были применены модели семейства ESM2 для аминокислотных последовательностей и модель GENA-LM для нуклеотидных последовательностей генов, что позволило получить информативные векторные представления входных данных. В работе оценивается влияние различных архитектур и размеров предобученных языковых моделей на точность предсказания. Предложенный метод имеет потенциал для применения в биотехнологии, оптимизации процессов биосинтеза и компьютерном дизайне штаммов-продуцентов с повышенной экспрессией генов целевых белков. Результаты исследования могут способствовать более глубокому пониманию механизмов регуляции генетической экспрессии и открывают перспективы для предсказания количества белков в других микроорганизмах.

Работа поддержана бюджетным проектом ИЦиГ СО РАН № FWNR-2022-0020.

Список литературы

Vogel С., Marcotte Е.М. Insights into the regulation of protein abundance from proteomic and transcriptomic analyses // Nat Rev Genet. 2012. T. 13. № 4. C. 227-232.
Schwanhausser В. и др. Global quantification of mammalian gene expression control // Nature. 2011. T. 473. № 7347. C. 337 342.
Rives А. и др. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences // Proceedings of the National Academy of Sciences. 2021. T. 118. № 15. C. e2016239118.
Ji Y. и др. DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome // Bioinformatics. 2021. T. 37. № 15. C. 2112-2120.
Ferreira M. и др. Protein Abundance Prediction Through Machine Learning Methods // Journal of Molecular Biology. 2021. T. 433. № 22. C. 167267.
Lin Z. и др. Evolutionary-scale prediction of atomic-level protein structure with a language model // Science. 2023. T. 379. № 6637. C. 1123-1130.
Fishman V. и др. GENA-LM: A Family of Open-Source Foundational DNA Language Models for Long Sequences // 2023.
Cherry J.M. и др. SGD: Saccharomyces Genome Database // Nucleic Acids Research. 1998. T. 26. № 1. C. 73 79.
Huang Q. и др. PaxDb 5.0: Curated Protein Quantification Data Suggests Adaptive Proteome Changes in Yeasts // Molecular & Cellular Proteomics. 2023. T. 22. № 10.
Schmirler R., Heinzinger M., Rost B. Fine-tuning protein language models boosts predictions across diverse tasks // Nat Commun. 2024. T. 15. № 1. C. 7407.

Ключевые слова:

количество белка, дрожжи, трансформер, ESM2, машинное обучение.

Номер журнала:

4(65) 2024 г.

Год:

2024

Адрес:

1 Институт цитологии и генетики СО РАН, 630090, Новосибирск, Россия 2 Курчатовский геномный центр ИЦиГ СО РАН, 630090, Новосибирск, Россия 3 Новосибирский государственный университет, 630090, Новосибирск, Россия

Библиографическая ссылка:

Вензель А. С., Клименко А. И., Иванисенко Т. В., Деменков П. С., Лашин С. А., Иванисенко В. А. Метод предсказания количества белка в клетках дрожжей на основе их геномных последовательностей //"Проблемы информатики", 2024, № 4, с.17-26. DOI: 10.24412/2073-0667-2024-4-17-26. - EDN: HIAEDZ

Мы используем файлы cookies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cookies.

Вы здесь

МЕТОД ПРЕДСКАЗАНИЯ КОЛИЧЕСТВА БЕЛКА В КЛЕТКАХ ДРОЖЖЕЙ НА ОСНОВЕ ИХ ГЕНОМНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Форма поиска