Автоматическое обнаружение сбоев в системах хранения данных с использованием журналов системного программного обеспечения

Успенский М. Б.

Читать статью полностью

  Автоматическое обнаружение сбоев в системах хранения данных с использованием журналов системного программного обеспечения(1,02 MB)

Аннотация

Статья посвящена вопросам обнаружения сбоев в процессе работы систем хранения данных (СХД) с использованием алгоритма, основанного на классификации фрагментов журналов, генерируемых системным программным обеспечением СХД, при помощи алгоритмов машинного обучения. В статье описывается процесс предварительной обработки текстов системных журналов, порядок определения и расчёта диагностических признаков, выбор и применение алгоритмов классификации и приводятся результаты применения алгоритма.

Ключевые слова:

системы хранения данных – data storage systems; обнаружение сбоев – failure detection; классификация текста – text classification; машинное обучение – machine learning

Список литературы

1. Nagaraj, K. Structured comparative analysis of systems logs to diagnose performance problems / K. Nagaraj, C.E. Killian, J. Neville // USENIX Conference on Networked Systems Design and Implementation, 2012. – P. 353–366.

2. A search-based approach for accurate identification of log message formats / S. Messaoudi [et al.] // Proceedings of the 26th Conference on Program Comprehension. – 2018. – P. 167–177.

3. Pande, A. WEAC: Word embeddings for anomaly classification from event logs / A. Pande, V. Ahuja // IEEE International Conference on Big Data. – 2017.

4. Towards automated log parsing for large-scale log data analysis / P. He [et al.] // IEEE Transactions on Dependable and Secure Computing. – 2018. – No. 15. – P. 931–944.

5. Detection of early-stage enterprise infection by mining large-scale log data / A. Oprea [et al.] // 45th Annual IEEE/ IFIP International Conference on Dependable Systems and Networks. – 2015. – P. 45–56.

6. Tools and Benchmarks for Automated Log Parsing / J. Zhu [et al.] // 41st IEEE/ACM International Conference on Software Engineering: Software Engineering in Practice. – 2019. – P. 121–130.

7. LogMine: Fast Pattern Recognition for Log Analytics / H. Hamooni [et al.] // Proceedings of the 25th ACM International Conference on Information and Knowledge Management. – 2016. – P. 1573–1582.

8. Detecting Anomaly in Big Data System Logs Using Convolutional Neural Network / L. Siyang [et al.] // IEEE 16th Intl Conf on Dependable, Autonomic and Secure Computing. – 2018. – P. 413–422.

9. Logstash [Электронный ресурс]. – Режим доступа: https://www.elastic.co/products/logstash [дата обращения 20.10.2019], свободный. – Загл. с экрана.

10. Experience Report: Log Mining Using Natural Language Processing and Application to Anomaly Detection / C. Bertero [et al.] // IEEE 28th International Symposium on Software Reliability Engineering. – 2017.

11. The Syslog Protocol [Электронный ресурс]. – Режим доступа: https://tools.ietf.org/html/rfc5424 [дата обращения 20.10.2019], свободный. – Загл. с экрана.

12. The BSD syslog Protocol [Электронный ресурс]. – Режим доступа: https://tools.ietf.org/html/rfc3164 [дата обращения 20.10.2019], свободный. – Загл. с экрана.

13. The Common Log Format (CLF) for the Session Initiation Protocol: Framework and Information Model [Электронный ресурс]. – Режим доступа: https://tools.ietf.org/html/rfc6872 [дата обращения 20.10.2019], свободный. – Загл. с экрана.

14. Makanju, A. A Lightweight Algorithm for Message Type Extraction in System Application Logs / A. Makanju, A. Nur Zincir-Heywood, E. Milios // IEEE Transactions on Knowledge and Data Engineering. – 2012. – No. 24. – P. 1921–1936.

15. An Evaluation Study on Log Parsing and It’s Use in Log Mining / P. He [et al.] // 46th Annual IEEE/IFIP International Conference on Dependable Systems and Networks. – 2016.

16. Jivani, A. G. A Comparative Study of Stemming Algorithms / A.G. Jivani // International Journal of Computer Technology and Applications. – 2016. – No. 2. – P. 1930–1938.

17. Salton, G. Term-weighting approaches in automatic text retrieval / G. Salton, C. Buckley // Information Processing & Management. – 1988. – No. 24. – P. 513–523.

18. Nembrini, S. The revival of the Gini importance? / S. Nembrini, I. Koenig, M. Wright // Bioinformatics. – 2018. – No. 21 (34). – P. 3711–3718.

19. Де Прадо, М. Л. Машинное обучение: алгоритмы для бизнеса / М. Л. Де Прадо. – СПб.: Питер, 2019. – 432 с.

20. Comparative Study on Classic Machine learning Algorithms, Part-2 [Электронный ресурс] / D. Varghese // Режим доступа: https://medium.com/@dannymvarghese/comparative-study-on-classic-machine-learning-algorithmspart-

2-5ab58b683ec0 [дата обращения 20.10.2019], свободный. – Загл. с экрана.

21. Comparative Study on Classic Machine learning Algorithms [Электронный ресурс] / D. Varghese // Режим доступа: https://towardsdatascience.com/comparative-studyon-classic-machine-learning-algorithms-24f9ff6ab222 [дата обращения 20.10.2019], свободный. – Загл. с экрана.

22. Оценка классификатора (точность, полнота, F-мера) [Электронный ресурс]. – Режим доступа: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html [дата обращения 20.10.2019], свободный. – Загл. с экрана.