ВЫЧИСЛИТЕЛЬНЫЙ КОНВЕЙЕР ПО РАСПОЗНАВАНИЮ САЙТОВ СВЯЗЫВАНИЯ ТРАНСКРИПЦИОННЫХ ФАКТОРОВ В БАКТЕРИАЛЬНЫХ ГЕНОМАХ DE NOVO
Задача поиска сайтов связывания транскрипционных факторов (ССТФ) в бактериальных геномах является одним из важнейших этапов их изучения и последующего использования в задачах биотехнологии и микробиологии. Характерная длина ССТФ – {5-20} пар нуклеотидов, и каждый транскрипционный фактор обладает способностью связываться с набором сайтов, сходных по последовательности. Поэтому поиск таких коротких последовательностей, имеющих достаточное, т. е. не случайное, сходство т. н. мотивов лежит в основе аннотации бактериальных геномов сайтами связывания. В статье описаны набор вычислительных конвейеров по поиску мотивов, которые принимают на вход данные бактериального генома и его первичной аннотации. Предлагаемые конвейеры, использующие два разных подхода (полногеномный поиск и филогенетический футпритинг) к поиску мотивов, предоставляют исследователю исчерпывающий набор настроек для получения на выходе максимально полной аннотации сайтами как всего генома, так и более детально – регуляторного района выбранного гена. Представленные конвейеры реализованы как с использованием современной платформы Nextflow, так и скриптами на языке программирования Python. Разработанная нами индексируемая база метаданных для известных бактериальных геномов с использованием встраиваемой СУБД SQLite позволяет существенно ускорить извлечение данных для дальнейших расчетов.
Данная работа была поддержана Бюджетным Проектом FWNR-2022-0020.
Список литературы
- Seemann Т. Prokka: rapid prokaryotic genome annotation // Bioinformatics. 2014. V. 30. N. 14. P. 2068-2069.
- Pachkov M., Balwierz P. J., Arnold P., Ozonov E., Nimwegen E. SwissRegulon, a database of genome-wide annotations of regulatory sites: recent updates // Nucleic Acids Research. 2012. 11. V. 41. N DI. P. D214-D220. https://academic.oup.com/nar/article-pdf/41/Dl/D214/3645388/ gksll45.pdf.
- Robison К., McGuire А. М., Church G. М. A comprehensive library of DNA-binding site matrices for 55 proteins applied to the complete Escherichia coli K-12 genomellEdited by R. Ebright // Journal of Molecular Biology. 1998. V. 284. N 2. P. 241-254. Access mode: https://www.sciencedirect.com/ science/article/pii/S002228369892160X.
- Dudek C.-A., Jahn D. PRODORIC: state-of-the-art database of prokaryotic gene regulation // Nucleic acids research. 2022. V. 50. N. DI. P. D295-D302.
- Liu B., Zhang H., Zhou C., Li G., Fennell A., Wang G., Kang Y., Liu Q., Ma Q. An integrative and applicable phylogenetic footprinting framework for cis-regulatory motifs identification in prokaryotic genomes // BMC genomics. 2016. V. 17. P. 1-12.
- Tagle D. A., Koop B. F., Goodman M., Slightom J. L., Hess D. L., Jones R. T. Embryonic e and 7 globin genes of a prosimian primate (Galago crassicaudatus): Nucleotide and amino acid sequences, developmental regulation and phylogenetic footprints // Journal of molecular biology. 1988. V. 203. N. 2. P. 439-455.
- Yang J., Chen X., McDermaid A., Ma Q. DMINDA 2.0: integrated and systematic views of regulatory DNA motif identification and analyses // Bioinformatics. 2017. V. 33. N 16. P. 2586-2588.
- Bailey T. L., Johnson J., Grant С. E., Noble W. S. The MEME Suite // Nucleic Acids Research. 2015. 05. V. 43. N. Wl. P. W39-W49. https://academic.oup.com/nar/article-pdf/43/Wl/W39/ 17435890/gkv416.pdf.
- Sayers E. W., Bolton E. E., Brister J. R., Canese K., Chan J., Comeau D., Connor R., Funk K., Kelly C., Kim S., Madej T., Marchler-Bauer A., Lanczycki C., Lathrop S., Lu Z., Thibaud-Nissen F., Murphy T., Phan L., Skripchenko Y., Tse T., Wang J., Williams R., Trawick B., Pruitt K., Sherry S. Database resources of the national center for biotechnology information. Nucleic Acids Research. 2021. 12. V. 50.N DI. P. D20-D26. https://academic.oup.com/nar/article-pdf/50/Dl/D20/42058080/ gkablll2.pdf.
- Mukhin A. M., Kazantsev F. V., Klimenko A. L, Lakhova T. N., Demenkov P. S., Lashin S. A. The Web Platform for Storing Biotechnologically Significant Properties of Bacterial Strains // International Conference on Parallel Computing Technologies / Springer. 2021. P. 445-450.
- Taboada B., Estrada K., Ciria R., Merino E. Operon-mapper: a web server for precise operon identification in bacterial and archaeal genomes // Bioinformatics. 2018. 06. V. 34. N. 23. P. 4118-4120. https://academic.oup.com/bioinformatics/article-pdf/34/23/4118/48921148/ bioinformatics\_34\_23\_4118.pdf.
- Ma Q., Liu B., Zhou C., Yin Y., Li G., Xu Y. An integrated toolkit for accurate prediction and analysis of cis-regulatory motifs at a genome scale. Bioinformatics. 2013. 07. V. 29. N 18. P. 2261-2268. https://academic.oup.com/bioinformatics/article-pdf/29/18/2261/50782707/ bio informatic s\_ 29\_18\_ 2261.pdf.
- Bailey T. L. STREME: accurate and versatile sequence motif discovery // Bioinformatics. 2021. 03. V. 37. N 18. P.2834-2840. https://academic.oup.com/bioinformatics/article-pdf/37/ 18/2834/50579626/btab203.pdf.
- Di Tommaso P., Chatzou M., Floden E. W., Barja P. P., Palumbo E., Notredame C. Nextflow enables reproducible computational workflows // Nature biotechnology. 2017. V. 35. N. 4. P. 316-319.
- Li G., Ma Q., Мао X., Yin Y., Zhu X., and Xu Y. Integration of sequence-similarity and functional association information can overcome intrinsic problems in orthology mapping across bacterial genomes // Nucleic acids research. 2011. V. 39. N. 22. P. el50-el50.
- Li G., Liu B., Ma Q., Xu Y. A new framework for identifying cis-regulatory motifs in prokaryotes // Nucleic acids research. 2011. V. 39. N 7. P. e42-e42.
- Mao X., Ma Q., Zhou C., Chen X., Zhang H., Yang J., Mao F., Lai W., Xu Y. DOOR 2.0: presenting operons and their functions through dynamic and integrated views // Nucleic acids research.2014. V. 42. N. D1. P. D654–D659.
- Peltek S., Bannikova S., Khlebodarova T. M., Uvarova Y., Mukhin A. M., Vasiliev G., Scheglov M., Shipova A., Vasilieva A., Oshchepkov D., Bryanskaya A., Popik V. The Transcriptomic Response of Cells of the Thermophilic Bacterium Geobacillus icigianus to Terahertz Irradiation // International Journal of Molecular Sciences. 2024. V. 25. N 22.
- Diesh C., Stevens G. J., Xie P., De Jesus Martinez T., Hershberg E. A., Leung A., Guo E., Dider S., Zhang J., Bridge C., et al. JBrowse 2: a modular genome browser with views of synteny and structural variation // Genome biology. 2023. V. 24. N 1. P. 74.
- Pratt H., Weng Z. LogoJS: a Javascript package for creating sequence logos and embedding them in web applications // Bioinformatics. 2020. 03. V. 36. N 11. P. 3573-3575. https://academic.oup. com/bioinformatics/article-pdf/36/11/3573/50670952/bioinformatics\_36\_11\_3573.pdf