Современные информационные системы используют различные программно-аппаратные комплексы, зачастую связанные с автоматизацией взаимодействия элементов функциональной системы. В обозримой системе такими элементами служат удаленные объекты мониторинга телекоммуникационных устройств. Целью исследования является изучение процесса обогащения и корреляции, влияние этих процессов на предоставление услуг, возможность улучшения качества и реализация более быстрого решения вопросов по выявлению и устранению неисправностей на сети. Разработка шлюза выполнена в Java. Протестирована на выборке аварийных сообщений сети, в дальнейшем произведен анализ работы шлюза.
Разработанный шлюз обогащения и корреляций наполняет каждое аварийное сообщение необходимой информацией, выявляя и собирая её из всех имеющихся источников, что в дальнейшем дает возможность более точно и корректно определять причины и места возникновения неисправности, что в свою очередь позволяет более быстро реагировать на случившуюся аварию и оперативно направлять необходимых специалистов, уменьшает время простоя, соответственно улучшая качество предоставляемых услуг.
На сети оборудования телекоммуникаций возникает множество аварийных сообщений, на которые формируется большое количество билетов по неисправностям, среди которых необходимо корректно определить первопричину возникновения аварий, тем самым уменьшить временные и ресурсные затраты на восстановление качественной поставки услуг. В связи с этим возникла необходимость разработки дополнительной функциональности программного шлюза для аварийных сообщений оборудования телекоммуникаций, позволяющая уменьшить количество билетов по неисправностям, благодаря объединению аварий в один билет с первопричиной.
Целью данного исследования является проверка целесообразности и функциональности разработанного шлюза. В ходе исследования были решены следующие задачи:
- Разработка шлюза
- Сбор данных.
- Анализ данных.
- Выделение необходимых параметров.
- Разработка настроек для сопоставления параметров.
- Разработка настроек для объединения неисправностей.
- Запуск шлюза.
- Тестирование
- Осуществление обогащения аварий данными из внешних источников с помощью запроса по ключевым меткам.
- Изучение аварийных сообщений, их взаимосвязи по нескольким параметрам.
- Сопоставление взаимосвязей между аварийными сообщениями для выявления основной неисправности.
- Объединение аварий в один билет по неисправностям, согласно ранее выполненным пунктам.
- Убедиться в корректности настроек шлюза и правильном формировании основного (первопричинного) билета неисправностей.
Механизм работы шлюза при корреляции
Для успешной корреляции основывающейся на системе инвентаризации необходимо выполнение всех условий по обогащению аварии. Для корреляции сообщений используются внешние источники данных:
- внешняя база данных «Внешние справочники».
- система инвентаризации сетевых ресурсов, которая определяет взаимосвязь объектов.
На основании полученных данных из системы инвентаризации шлюз определяет иерархию аварийных сообщений.
Для каждого приходящего аварийного сообщения получаем список каналов из системы инвентаризации, происходит процесс обогащения, при этом сравниваются каналы двух аварийных сигналов и выявляет среди них тот, через который проходят другие каналы (далее нижележащий). Авария с этим каналом становится главной и на неё открывается билет. Аварии с каналами, проходящими через нижележащий канал и принадлежащими к одной схеме, помечаются как сопутствующие и прикрепляются к основной аварии. В билете по неисправностям сопутствующие аварии отображаются в отдельной закладке. Объекты считаются взаимосвязанными, если один из типов каналов, заведенных в системе инвентаризации сетевых ресурсов:
- соединяет объекты напрямую;
- проходит через один объект, заканчивается на другом объекте.
- Процедура обработки корреляции при поступлении аварийного сообщения
При поступлении аварийного сообщения шлюз:
- отрабатывает аварии согласно списка для обогащения (справочник «Обогащение»).
- получает необходимые параметры аварийного сообщения из внешних справочников.
- отслеживает взаимосвязи и находит основную аварию.
После обогащения аварий мы получаем список каналов для аварии, где каждый канал имеет свойство "TERMINATING". Если TERMINATING равен «1», то это указывает, что канал заканчивается на этом устройстве; если «0», - то проходит через него. Далее сверяем списки каналов, сравнивая аварии между собой.
Для каждой аварии указывается время ожидания закрывающего сообщения, в течение которого авария может быть скоррелирована.
- выявляем аварию, у которой "TERMINATING" = «1», далее TERMINATING. В случае если "TERMINATING" = «0», далее THROUGH.
- если все каналы "TERMINATING" первой аварии имеются в списке каналов "TERMINATING" второй аварии, то они являются авариями одного канала. Такие аварии равнозначны. Та авария, у которой список каналов "TERMINATING" больше, может быть основной. Одна авария указывается у второй в поле «Remote» (Remote - поле, в котором указана авария дальнего конца).
- если у второй аварии канал "TERMINATING" находится в списке каналов "THROUGH" первой аварии, то вторая авария является сопутствующей для первой. Если у первой аварии канал типа "TERMINATING" найден в списке каналов "THROUGH" второй аварии, то первая авария является сопутствующей для второй.
- если авария не проходит ни по какому из сценариев выше, то она попадает в список основных аварий.
При данном методе для каждой аварии на сети, при обогащении заполняются полные сведения. Что позволяет увидеть более широкую и четкую картину, выявить на основании этих данных взаимосвязанность аварий, определить среди множества аварий первопричинную аварию, если таковая имеется. Это позволяет не тратить время на незначительные аварии, являющиеся лишь следствием первопричинной аварии.
Данные были собраны на сети оборудования телекоммуникаций. Обработаны посредством разработанного шлюза: обогащены за счет внешних источников информации (справочники, система инвентаризации, система управления неисправностями, система мониторинга) и скоррелированы. В основу исследования взяты только аварийные сообщения сети, заданные справочником «Обогащение».
Мы провели исследование и обнаружили, что разработанный шлюз, уменьшил количество создаваемых билетов по неисправностям, за счет группирования аварий в один билет по взаимосвязанным данным параметров каждой аварии. Данный результат подтвердил целесообразность разработки дополнительной функциональности программного шлюза.
Разработанный шлюз, при успешной работе обогащения и корреляции формирует меньшее количество билетов по неисправностям, основным билетом поглощается большое количество сопутствующих аварий, что позволяет более точно локализовать основную аварию и исправить её, не тратя время и ресурсы, на менее значимые сопутствующие аварии, возникшие из-за основной. Однако для шлюза важны корректные данные внешних источников, так как неточность данных оказывает сильное негативное влияние на процесс выявления взаимосвязей. Преимуществом является возможность более персонализированных настроек для определенных групп объектов, но для этого требуется дополнительная настройка правил внутри шлюза. В дальнейшем можно реализовать и дополнительное рассмотрение менее связанных параметров на сети с целью выявления первопричин аварий, усовершенствовать механизм.
Разработка дополнительной функциональности программного шлюза для аварийных сообщений оборудования телекоммуникаций успешно протестирована и показала свою эффективность. В связи с этим рекомендуем её во всех подобных системах для выявления первопричин аварии на сети.