АНАЛИЗ АЛГОРИТМОВ КОДИРОВАНИЯ КАТЕГОРИАЛЬНЫХ ДАННЫХ
EDN: ALXCCT
Известно, что эффективность искусственного интеллекта, признанного наиболее полезным инструментом во всех сферах, тесно связана с рядом факторов. Один из ключевых факторов — необходимость преобразования входных данных в формат, понятный алгоритмам ИИ, поскольку они основаны на математических операциях. Однако часто встречаются данные, на которых невозможно напрямую выполнять арифметические действия. Удаление таких данных может негативно повлиять на результат, поэтому требуется их преобразование в числовую форму. Существуют различные методы кодирования категориальных данных, и выбор наилучшего из них представляет собой сложную исследовательскую задачу. В данной работе проводится анализ 12 методов преобразования текстовых данных. Рассматриваются преимущества и недостатки каждого подхода, а также проводится их сравнительный анализ с выводами.
Ключевые слова: искусственный интеллект, кодирование категориальных данных, методы кодирования данных.
Список литературы
1. Nazarov, F. М., O’G’Li, У. S. S., & O’G’Li, Е. В. S. Algorithms То Increase Data Reliability In Video Transcription // 2022 IEEE 16th International Conference on Application of Information and Communication Technologies (AICT), 2022. 1-6. DOI: https://doi.org/10.1109/AICT55583.2022. 10013558.
2. Rashidov, A., Akhatov, A., Aminov, I., Mardonov, D., & Dagur, A. Distribution of data flows in distributed systems using hierarchical clustering // In A. Dagur, D. K. Shukla, N. F. Makhmadiyarovich, A. A. Rustamovich, & J. J. Sindorovich, Artificial Intelligence and Information Technologies. 2024. 1st ed., P. 207-212. CRC Press. DOI: https://doi.org/10.1201/9781032700502- 34.
3. Zaynidinov, H., Xuramov, L., & Khodjaeva, D. Intelligent algorithms of digital processing of biomedical images in wavelet methods // In A. Dagur, K. Singh, P. S. Mehra, & D. K. Shukla, Artificial Intelligence, Blockchain, Computing and Security. 2023. Vol. 2. 1st ed., P. 648-653. CRC Press. DOI: https://doi.org/10.1201/9781032684994-105.
4. Nazarov, F. M., Yarmatov, S., & Xamidov, M. Machine Learning Price Prediction on Green Building Prices // 2024 International Russian Smart Industry Conference (SmartlndustryCon), 2024. P. 906-911. DOI: https://doi.org/10.1109/SmartIndustryCon61328.2024.10515790.
5. Rashidov, A., Akhatov, А., & Nazarov, F. The Same Size Distribution of Data Based on Unsupervised Clustering Algorithms // In Z. Hu, Q. Zhang, & M. He (Eds.), Advances in Artificial Systems for Logistics Engineering HI. 2023. Vol. 180, P. 437-447. Springer Nature Switzerland. DOI: https://doi.org/10.1007/978-3-031-36115-9_40.
6. Rustamovich, A. A., Mekhriddin, N., Fayzullo, N., & Sabharwal, M. Intelligent system of labor market regulation based on the evolutionary modeling of employment // 2022 4th International Conference on Advances in Computing, Communication Control and Networking (ICAC3N), 2022. P. 2534-2539. DOI: https://doi.org/10.1109/ICAC3N56670.2022.10074149.
7. Rashidov, A., Akhatov, A., & Mardonov, D. The Distribution Algorithm of Data Flows Based on the BIRCH Clustering in the Internal Distribution Mechanism // 2024 International Russian Smart Industry Conference (SmartlndustryCon), 2024. P. 923-927. DOI: https://doi.org/10.1109/ SmartIndustryCon61328.2024.10516193.
8. Rashidov Akbar Ergash o’g’li, S. J. S. o’g’li. Selecting Methods Of Significant Data From Gathered Datasets For Research. 2024. DOI: https://doi.org/10.5281/ZEN0D0.10781255.
9. Rashidov, A., & Madaminjonov, A. Sun’iy intellekt modelini qurishda ma’lumotlarni tozalash bosqichi tahlili: Sun’iy intellekt modelini qurishda ma’lumotlarni tozalash bosqichi tahlili // Modern problems and prospects of applied mathematics, 2024. N 1 (01). [El. Res.]: https://ojs.qarshidu. uz/index.php/mp/art icle/view/473.
10. Rashidov A., Axatov A., & Nazarov F. ICHKI TAQSIMLASH MEXANIZMIDA MA’LUMOTLAR OQIMLARINI BOSHQARISH ALGORITMI. 2024. DOI: https://doi.org/10. 5281/ZEN0D0.11475559.
11. Ahatov A. R., Ashvini R., Rashidov A. E. Ugli, Nazarov F. M. Optimizaciya kolichestva baz dannyh pri obrabotke bol’shih dannyh. 2023. DOI: https://doi.org/10.24412/2073-0667-2023-l- 33-47.
12. Akhatov A. & Rashidov A. Big Data va unig turli sohalardagi tadbiqi // Descendants of Muhammad Al-Khwarizmi, 2021. № 4 (18), P. 135-44.
13. Bolikulov, F., Nasimov, R., Rashidov, A., Akhmedov, F., & Cho, Y.-I. Effective Methods of Categorical Data Encoding for Artificial Intelligence Algorithms // Mathematics, 2024. N 12 (16), P. 2553. DOI: https://doi.org/10.3390/mathl2162553.
14. Rashidov, A., Akhatov, A., & Nazarov, F. The Same Size Distribution of Data Based on Unsupervised Clustering Algorithms. In Z. Hu, Q. Zhang, & M. He (Eds.) // Advances in Artificial Systems for Logistics Engineering III. 2023. Vol. 180, P. 437-447. Springer Nature Switzerland. DOL https://doi.org/10.1007/978-3-031-36115-9_40.
15. Hancock, J. T., & Khoshgoftaar, T. M. Survey on categorical data for neural networks // Journal of Big Data, 2020. N 7 (1), P. 28. DOL https://doi.org/10.1186/s40537-020-00305-w.
16. Larionov, M. Sampling Techniques in Bayesian Target Encoding (Version 2). arXiv. 2020. DOI: https://doi.org/10.48550/ARXIV.2006.01317.
17. Potdar, K., S., T., & D., C. A Comparative Study of Categorical Variable Encoding Techniques for Neural Network Classifiers // International Journal of Computer Applications, 2017. N 175 (4), P. 7-9. DOL https://doi.org/10.5120/ijca2017915495.
18. Sun, W., Cai, Y., & Liu, Y. MSR14 Comparisons of Encoding Techniques for Categorical Features in Linear Regression Models // Value in Health, 2022. N 25 (7), S520. DOL https://doi. org/10.1016/j.jval.2022.04.1221.
19. Uyar, A., Bener, A., Ciray, H. N., & Bahceci, M. A frequency based encoding technique for transformation of categorical variables in mixed IVF dataset // 2009 Annual International Conference of the IEEE Engineering in Medicine and Biology Society, 2009. P. 6214-6217. DOL https://doi. org/10.1109/IEMBS.2009.5334548.
20. Seger, С. An investigation of categorical variable encoding techniques in machine learning: Binary versus one-hot and feature hashing. 2018. [El. Res.]: https://api.semanticscholar.org/ CorpusID:250534659.
21. Akhatov, A., Rashidov, A., & Renavikar, A. Optimization of the database structure based on Machine Learning algorithms in case of increased data flow. In A. Dagur, K. Singh, P. S. Mehra, & D. K. Shukla, Artificial Intelligence, Blockchain, Computing and Security, 2023. Vol. 2, 1st ed., P. 675-680. CRC Press. DOI: https://doi.org/10.1201/9781032684994-109.
22. Jawthari, M., & Stoffova, V. Effect of Encoding Categorical Data on Student’s Academic Performance Using Data Mining Methods. 2020. P. 521-526. DOI: https://doi.org/10.12753/2066- 026X-20-068.