ОПТИМИЗАЦИЯ КОЛИЧЕСТВА БАЗ ДАННЫХ ПРИ ОБРАБОТКЕ БОЛЬШИХ ДАННЫХ

Авторы: 
А. Р. Ахатов, А. Ренавикар*, А. Э. Рашидов, Ф.М. Назаров
УДК: 
004.658.4
DOI: 
10.24412/2073-0667-2023-1-33-47
Аннотация: 

Сегодня многим организациям и компаниям все чаще необходимо использовать большие данные для увеличения доходов, усиления конкурентоспособности, изучения интересов клиентов. Однако большинство подходов к обработке и анализу больших данных в реальном времени основаны на взаимодействии нескольких серверов. В свою очередь, использование нескольких серверов ограничивает возможности многих организаций и компаний из-за стоимостных, управленческих и других параметров. В этом исследовательском документе представлен подход к обработке и анализу больших данных в режиме реального времени на одном сервере на основе распределенного вычислительного механизма, и он основан на исследованиях, которые приводят к эффективности с точки зрения стоимости, надежности, целостности, независимости от сети и управляемости. Также с целью повышения эффективности подхода была разработана методика оптимизации количества баз данных на одном сервере. В этой методологии используются функции масштабирования MinMaxScaler, StandardScaler, RobustScalcr, MaxAbsScalcr, QuantilcTransformcr, Power Transformer вместе с алгоритмами линейной регрессии машинного обучения, регрессии случайного леса, множественной линейной регрессии, полиномиальной регрессии, регрессии лассо. Полученные результаты были проанализированы и определена эффективность алгоритма регрессии и масштабирующей функции для экспериментальных данных.

Список литературы:
1.     Alabdullah B., Beloff N., White M. Rise of Big Data — Issues and Challenges. 2018 // 21st Saudi Computer Society National Computer Conference (NCC) 25-26 April 2018, DOI: 10.1109/NCG.2018.8593166.
2.    Big Data — Global Market Trajectory and Analytics. Global Industry Analysts. Inc., 2020.
3.    Technology and Media, Big Data Analytics Market, Report ID: FBI 106179, Jul, 2022.
4.    Amonov M. T.: The Importance of Small Business in a Market Economy // Academic Journal of Digital Economics and Stability, 2021. V. 7. P. 61-68.
5.    Akhatov A.R., Rashidov A.E. Big Data va unig turli sohalardagi tadbiqi // Descendants of Muhammad Al-Khwarizmi, 2021. N 4 (18). P. 135—44.
6.    Sassi I., Anter S., Bekkhoucha A. Fast Parallel Constrained Viterbi Algorithm for Big Data wi Applications to Financial Time Series // International Conference on Robot Systems and Applications, ICRSA 9 April 2021, P. 50-55. DOI: 10.1145/3467691.3467697.
7.    Alaeddine B., Nabil H., Habiba Ch. Parallel processing using big data and machine learning techniques for intrusion detection // I AES International Journal of Artificial Intelligence (I J-AI), September 2020. V. 9. N 3. P. 553-560. DOI: 10.11591/ijai.v9.i3.pp553-560.
8.    Akhatov A.R., Nazarov F.M., Rashidov A.E. Increasing data reliability by using bigdata parallelization mechanisms // ICISCT 2021: Applications, Trends and Opportunities, 3-5.11.2021, DOI: 10.1109/ICISCT52966.2021.9670387.
9.    Landset S., Khoshgoftaar T.M., Richter A.N., Hasanin T. A survey of open source tools for machine learning wi big data in the Hadoop ecosystem // Journal of Big Data (2015). 2:24, DOI: 10.1186/s40537-015-0032-l.
10.    Oussous A., Benjelloun F.-Z., Lahcen A. A., Belfkih S. Big Data technologies: A survey // Journal of King Saud University — Computer and Information Sciences2018. N 30. P. 431-448. DOI: 10.1016/j.jksuci.2017.06.001.
11.    Tang B., Chen Z., Hefferman G., Wei T., He H., Yang Q. A Hierarchical Distributed Fog Computing Architecture for Big Data Analysis in Smart Cities // ASE BigData and Socialinformatics, ASE BD and SI 2015, DOI: 10.1145/2818869.2818898.
12.    Chen P., Chun-Yang Z. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data // Information Sciences, 10 August 2014. V. 275. P. 314-347. 10.1016/j.ins.2014.01.015.
13.    Kunanets N., Vasiuta О., Boiko N. Advanced Technologies of Big Data Research in Distributed Information Systems // International Scientific and Technical Conference on Computer Sciences and Information Technologies, September 2019. P. 71-76. DOI: 10.1109/STC-CSIT.2019.8929756.
14.    Smeliansky R. L. Model of Distributed Computing System Operation wi Time // Programming and Computer Software, 2013. V. 39. N 5. P. 233-241. DOI: 10.1134/S0361768813050046.
15.    Akhatov A., Nazarov F., Rashidov A. Mechanisms of information reliability in big data and blockchain technologies // ICISCT 2021: Applications, Trends and Opportunities, 3-5.11.2021, DOI: 10.1109/ICISCT52966.2021.9670052.
16.    B.M. Alom, Henskens F., Hannaford M. Query Processing and Optimization in Distributed Database Systems // IJCSNS International Journal of Computer Science and Network Security, Sept. 2009. V. 9. N 9. P. 143-152.
17.    Fabian P., Alfonsa K. Efficient distributed query processing for autonomous RDF databases // International Conference on Extending Database Technology, EDBT 2012. DOI: 10.1145/2247596.2247640.
18.    Ali A., Hamidah I., Izura U. N., Fatimah S. Processing skyline queries in incomplete distributed databases // Journal of Intelligent Information Systems, 2017. N 48. P. 399-420. DOI: 10.1007/sl0844- 016-0419-2.
19.    Reyes-Ortiz J.L., Oneto L., Anguita D. Big Data Analytics in the Cloud: Spark on Hadoop vs MPI/OpenMP on Beowulf // Procedia Computer Science, 2015. N 53. P. 121-130. DOI: 10.1016/j.procs.2015.07.286.
20.    Reis Marco Antonio de Sousa, de Araujo Aleteia Patricia Favacho. ArchaDIA: An Architecture for Big Data as a Service in Private Cloud // CLOSER 2019 — 9th International Conference on Cloud Computing and Sendees Science, P. 187-197, DOI: 10.5220/0007787801870197.
21.    Sandhu A.K. Big Data wi Cloud Computing: Discussions and Challenges // Big Data Mining And Analytics, 2022. V. 5. P. 32-40. DOI: 10.26599/BDMA.2021.9020016.
22.    Nagarajan R., Thirunavukarasu R. Big Data Analytics in Cloud Computing: Effective Deployment of Data Analytics Tools // IGI Global, 2022, 17 pages, DOI: 10.4018/978-1-6684-3662- 2.ch011.
23.    Wu C. Research on Clustering Algorithm Based on Big Data Background // Journal of Physics: Conf. 2019. Ser. 1237. P. 22-131. DOI: 10.1088/1742-6596/1237/2/022131.
24.    Kurasova O., Marcinkevicius V., Medvedev V., Rapecka A., Stefanovic P. Strategies for Big Data Clustering // IEEE 26th International Conference on Tools wi Artificial Intelligence, 2014. P. 739-747. DOI: 10.1109/ICT AI.2014.115.
25.    Garlasu D., Sandulescu V., Halcu I., Neculoiu G., Grigoriu O., Marinescu M., Marinescu V. A Big Data implementation based on Grid Computing // Conference: Roedunet International Conference (RoEduNet), 2013 11th, DOI: 10.1109/RoEduNet.2013.6511732.
26.    Yuanyuan J. Smart grid big data processing technology and cloud computing application status quo and challenges // 2022 IEEE 2nd International Conference on Power, Electronics and Computer Applications (ICPECA), 21-23 January 2022, DOI: 10.1109/ICPECA53709.2022.9719287.
27.    Akhatov A.R., Sabharwal M., Nazarov F.M., Rashidov A.E. Application of cryptographic methods to blockchain technology to increase data reliability // 2nd International Conference on Advance Computing and Innovative Technologies in Engineering 2022, 28-29 April, DOI: 10.1109/ICACITE53722.2022.9823674.
28.    Bollegala D. Dynamic Feature Scaling for Online Learning of Binary Classifiers // Knowledge¬Based Systems, July 2014, DOI: 10.1016/j.knosys.2017.05.010.
 

Ключевые слова: 
большие данные, обработка в реальном времени, распределенный вычислительный движок на одном сервере, архитектура, машинное обучение, алгоритмы регрессии, масштабирование.
Номер журнала: 
1(58) 2023 г.
Год: 
2023
Адрес: 
Самаркандский государственный университет, 140101, г. Самарканд, Узбекистан *NeARTech Solution, 411033, Пупа, Индия
Библиографическая ссылка: 
Ахатов А. Р, Репавикар А., Рашидов А. Э., Назаров Ф. М. Оптимизация количества баз данных при обработке больших данных //"Проблемы информатики", 2023, № 1, с.33-47. DOI: 10.24412/2073-0667-2023-1-33-47.