Skip navigation

Надеждност и достъпност на мрежовите услуги в TCP/IP архитектура

Networkworld България - брой 5, 2008 г. / Корпоративни мрежи
2563 прочитания, 0

За потребителя мрежовите услуги в архитектурата TCP/IP при равни технически параметри са сравними от гледна точка на достъпност, надеждност, възстановяемост и обслужваемост. Достъпността (availability) се разглежда като способност на услугата или компонентите й да изпълняват функциите си в определен период от време, надеждността (reliability) означава способност на услугата или компонентите да изпълняват функциите си при определени условия на експлоатация, а възстановяемост е способността на услугата или компонентите да възстановяват експлоатационните характеристики, частично или напълно изгубени при възникване на проблем. Обслужваемостта пък е характеристика, свързана с процесите на профилактика и ремонт.

От гледна точка на доставчика услугите като продукт са процес, който е резултат от съчетаване и трансформация на входни услуги с променливи и параметри, които са обект на управление и преобразуване.

MTBF, MTTF и MTTR

Параметърът, които се използва за оценка на достъпността, се определя от израза:

A = MTBF /(MTBF + MTTR)

където MTBF (Mean time between failures ) е усреднено за достатъчен брой събития време между отказите и е сбор от MTTF (mean time to failure) - усреднено време до отказа, и MTTR (mean time to repair) - усреднено време за възстановяване.

MTBF = MTTF + MTTR

Отказът се дефинира като отсъствие на възможността на компонент, подсистема или система да изпълнява функциите, за които е предназначен, като най-често е в резултат на една или повече неизправности.

Приносът на мрежовото оборудване и комуникационната свързаност за достъпността на услугите може да се изчисли на базата на няколко компонента. В случая е нужно наличие на данни за достъпността на всички устройства в даден мрежов сегмент (гарантирани от производителя), оценка за паралелното или последователното им свързване, както и наличието на сценарии за доставка на пакетите през алтернативни устройства и маршрути. “Увеличаването на достъпността на всеки елемент от мрежата повишава нейната достъпност като цяло”, споделя Евгени Хубенов, експерт мрежова администрация в ITD Network.

Достъпността обикновено се дефинира в терминологията на деветките (например три деветки достъпност са определя с 99,9%).

Времето за годишен престой представлява по-интуитивен параметър за разбиране и оценка на достъпността:

Достъпност:Време за престой
90% (1-девятка)36,5 дена за година
99% (2-деветки)3,65 дена за година
99.9% (3-деветки)8,76 часа за година
99.99% (4-деветки)52 часа за година
99.999% (5-деветки)5 минути за година
99.9999% (6-деветки)31 секунди за година

 

Резервирането е метод за повишаване на достъпността за сметка на апаратен излишък, като той може да включва устройства или комуникационна свързаност, работещи паралелно в структурата на мрежата.

При това необходимото количество устройства се определя от израза:

n = ln ( 1-As)/ln (1-Ao)

където, As e достъпността на услугата, Ao - достъпността на отделното устройство в групата за резервиране

или

As = 1 - (1-Ao)^n

На практика двойното резервиране и едновременната работа в паралел удвоява и броя на деветките, ако не се отчита начина на включване на резерва, или поемане на функциите от дефектиралото устройство.

Дефинирани са различни съставящи елементи на MTBF, като MTBSA (mean time between system aborts - усреднено време между системните сривове), MTBCF (mean time between critical failures - усреднено време между критическите откази) и MTBUR (mean time between unit replacement - усреднено време между смяна на оборудване).

MTBCF има по-големи стойности от MTBF и се използва за компоненти, които не подлежат на възстановяване и подмяна, а се заменят с по-добри. В практиката MTBF най-често има експлоатационен характер - например подмяна повреден порт на комутатор с друг от същото устройство, а MTBCF е свързан с повече услуги като цяло (например замяна на повреден комутатор с по-производителен и съвременен).

“В условията на пазара мрежовите услуги се предлагат в среда на силна конкуренция, така, че като цяло не е възможно и оправдано пълно или многократно резервиране дори и в критичните точки, което би повишило значително цената на мрежовите услуги”, анализира Хубенов.

Това е причината качествените мрежови услуги да се осигуряват на практика от отказоустойчиви (Fault Tolerant) системи с "разумна резервираност". Тези системи съдържат излишък от мрежови устройства (или трафичен капацитет – който в общия случай резервира оборудването в мрежата на доставчика) в критични точки със съществено значение за услугите като цяло или оборудване, осигуряващо значителна част от общия брой на услугите.

Модулната организация на апаратната част e друг подход за постигане на по-висока достъпност. Тя осигурява възможност за "гореща" или бърза подмяна на повредени модули, с минимално необходим апаратен излишък, съобразен с вероятността за аварийното му използване при необходимост.

Резултат от конкретно решение е структурата на мрежата, комбинираща достъпността на отделни устройства, както и паралелно и паралелно-последователно включени групи от устройства. „Логическата и физическата структура на мрежата се усложнява не само от резервирането, но и от това, че тя осигурява услуги, различни от обикновения транспорт на пакети, така, че макар и детерминирана като система, поведението и може да бъде случайно в определени моменти и да се наруши достъпността на някои услуги”, коментира Евгени Хубенов.

Това е особеност на мрежите от архитектурата TCP/IP, които са съставени от свързани мрежи. Те са обект на различна администрация в отделните части на мрежата, със съответното влияние в друга зона на администрация, въздействие на конфигурационни параметри върху различните услуги едновременно, централизиране на администрирането на услугите или зависимостта им от едно и също приложение, което може да изиграе роля на „ефекта на пеперудата“. Като пример за този ефект може да се посочи ситуацията, в която се налага смяна на повредена мрежова карта или възстановяване на данни за сървър, различна представа за допустимото време на престой в различни звена на един и същи доставчик или различни доставчици на елементите на услугата. В процеса на разработка на услугите е времето, в което тези „слаби“ места или неподходящо композирани процеси се оптимизират, което по правило дава съществен принос към общата достъпност.

В терминологията на ITIL подобни компоненти се наричат Single Point of Failure (SPOF), и за тяхното определяне, оценка и прогнозиране се дефинира методика за анализ на отказите (Component Failure Impact Analysis, CFIA). Основните цели на методиката CFIA са определяне на точките на отказ и влиянието им върху достъпността, връзката между отказите и обслужващия ги персонал, прогнозиране и документиране на вариантите за възстановяване.

Възстановяване на услугите

„Другата важна дейност, свързана с достъпността на мрежовите услуги, е възстановяването на услугите в планираното им качество след инциденти и проблеми – изтъква експертът мрежова администрация в ITD Network. - Инцидент е всяко събитие, което не е част от нормалното функциониране на услугата. То е с потенциални или реални възможности за оказване на влияние върху качеството или да доведе до пълното прекъсване на нейното предоставяне.” Проблемът може да е с известна или неизвестна причина за един или група от инциденти. Инцидентите и проблемите се решават във времето за възстановяване (MTTR) и са „зона за отговорности“ на екипите, занимаващи се с техническото обслужване. В ITIL и в ISO 20000 тези дейности са дефинирани като процеси, наречени Incident Management и Problem Management. Те са част от IT Operations Management процесите, които представляват ежедневните рутинни дейности свързани с функционирането на мрежовите услуги с планираното качество. В трета версия на ITIL са въведени и дейностите по обслужването на събития Event management.

Цитирането на процеси, общи за ISO 20000 и ITIL или работещи модели за решаване на технически проблеми в MTTR – ITIL и ITU по-нататък, само помага за разбиране на същността, сложността и спецификата на задачите, които се решават за постигане на достъпност и надеждност на мрежовите услуги, които трябва да се решат, независимо от избрания модел.

За обслужване и управление на събитията в мрежата всеки доставчик организира система за мониторинг, която следи общо за техническите параметри, свързани с качеството на услугите,и генерира известявания за събития – явления, които могат да имат отношение към качеството на услугите.

„Ценността на подобен подход е в няколко компонента – анализира Евгени Хубенов. - Ранното откриване на инциденти, повишаването на рационалността на мониторинга с въвеждане на автоматизирани процедури и ранното известяване за необходимостта от обновяване на процедури или ресурси, дават основа за автоматизиране на експлоатационни процедури.

Необходимата информация за мониторинг и управлението на събитията може да се доставя по няколко различни начина. Сред най-срещаните са: snmp известявания и следене на стойностите на MIB достъпни параметри, syslog за интегриране на данни от различни типове мрежови устройства с цел последваща обработка, автоматизирани тестове на услуги и качества на мрежовата свързаност – ICMP.

Степенуване на събитията свързани с отпадане на оборудването

„Важно е да се знае, че потокът от събития е голям и е необходимо изясняване кои събития подлежат на мониторинг и обработка - споделя Евгени Хубенов. - Всички събития, могат да се разделят на различни групи. Първите са информационни и като пример за тях може да се посочи нормалното извършване на конфигурационни или други процедури в мрежата. Втория тип събития са свързани с отклонението на параметри от нормалните им нива или доближаване на критични стойности (околна температура, натоварване на процесор и др.), които могат да инициират инциденти. Третия вид са критичните събития, които са еднозначно свързани с инцидент или проблем”, допълва експертът мрежова администрация в ITD Network.

„В отговорностите на мрежовата администрация е да се извърши филтриране на събитията – в мрежовите устройства, там където това е възможно, и на мястото, където се агрегират за обработка данните от мониторинга на всички мрежови устройства – продължава своя анализ Хубенов. - Принципът на Парето на практика се реализира с филтрация по определени признаци и това се явява първата стъпка към класификацията на събитията.” Класификацията на събитията означава те да се отнесат към определена категория за известяване. То трябва да се прави в реално време, защото някои от тези процеси са значими и критични за всички услуги. При проблеми с високо ниво на важност се генерира понякога група от свързани събития. В подобни процеси е добре да се извърши степенуване по важност като по този начин се намали броя на известяванията.

„Съществуват достатъчен брой добре работещи програми за мрежово управление, но свързването на известяването с механизма за по-нататъшна оценка и действията на техническия персонал е специфично за всеки доставчик на услуги”, споделя експертът мрежова администрация в ITD Network.

Човешкият фактор

Според Хубенов трябва да се има предвид, че човешкият фактор е също от особена важност, поради факта, че той задължително се включва при обработка на събитията. Този компонент от процесите по осигуряване на надеждност и достъпност на мрежовите услуги е носител както на психофизиологични особености, така също генерира решенията, свързани с проблема. Известяванията, които операторът получава трябва да включват формата на първичните данни и да се асоциират с източника еднозначно, за да се намали времето на превръщане на полученото известяване в информация в пълния контекст на събитието.

Информацията е знание

Следващата стъпка при процесите, свързани с осигуряване на надеждността на услугите е превръщането на информацията в знание. С това се цели събирането на данни за случващото се на базата на квалификация и предишен опит (наблюдения и информация от предишни събития или описание на събития от този клас в предварително изготвени процедури). „На базата на достатъчно знание за протичащите процеси операторът предприема и необходимите действия, свързани с решаването на проблема, с определено разбиране на същността на процесите – изтъква Евгени Хубенов. - Понякога се налага корекция на действията, ако те не дадат очакваните резултати и работа по нова вероятна причина за проблема. Специфично за мрежовите услуги, е че за изясняване на причината за проблема често се налага партниране доставчик-потребител (доставчик-доставчик), а това означава свързване на информацията по инцидента с информационната фирмена система и установяване на контакт с партниращата страна”, допълва още експертът мрежова администрация.

Trouble ticket

Както ITIL, така и препоръката на ITU X.790 „Trouble Management function for ITU-T applications“ разглеждат обработката на проблем като обект с определени параметри и множество стабилни състояния, изменящи се във времето. Типичната информация, която най-често получаваме от доставчика на мрежови услуги при наличие на проблем, че е по проблема е отворен „Trouble ticket“. Това означава, че е регистриран (създаден) такъв обект със съответните атрибути, от определен клас. Той дава информация за това, че по него се работи, състоянията му се следят, а клиентът получава номер на проблема като референция към обекта, който може да се разглежда и като структура от променящи се данни, свързани с работата по проблема. Такъв обект естествено се привързва към другите информационни системи във фирмата-доставчик на услугата, доколкото техническите проблеми имат и финансови измерения или изискват последваща намеса на мениджмънта. На практика при обработка на проблеми в мрежите се възприемат част от състоянията и граф, описващ прехода от едно в друго състояние. За препоръката на ITU например някои състояния са:

  1. Отворен или активен процес (open/active) - започнали са действия по отстраняване на проблема, при което той може да се възлага на различни лица или между доставчици;
  2. На опашка (queued) – не е инициирана работа по отстраняване на проблема;
  3. Отложен, отсрочен (deferred) – действията по проблема са отсрочени;
  4. Затворен (closed) – завършено е напълно отстраняването на проблема, което при някои доставчици на услуги изисква потвърждение от клиента и данните могат да се регистрират в доклад и съхранят за другите информационни системи във фирмата.

Организацията на работа по обслужване на техническите проблеми трябва да използва оптимално съществуващите специалисти, с които разполага доставчикът на услуги, съобразено с тяхната квалификация, като се запази малко времето за възстановяване на работоспособността на мрежата и услугите MTTR. Обслужването на проблемите най-често е двузвенно или тризвенно. Първото ниво от това обслужване е на входна филтрация и диспечиране (Help Desk или Service Desk по ITIL), като то разполага с регистрация и анализ на проблема, свързването му с предварително изготвени процедури, събиране на необходимата начална информация, прилагане на процедурите и правилното адресиране и ескалиране към следващото ниво, ако не може да бъде решен. Клиентът със своите забележки или рекламации по качеството на услугата е само един от източниците на информация, първото ниво следи и известяванията от системата за мониторинг и работи превантивно по тях.

Ефективността на многозвенен модел може да се оцени на базата на следните изрази:

 

Нека броят на нивата на обслужване за конкретност е четири n=0...3

In , Un, n=0..2 e брой на общите и нерешените проблеми на съответното ниво

L0,L1,L2,L3

Rn = Un/In – коефициент на ескалиране на проблема равен на отношението на проблемите, които дадено ниво но обслужване не може да реши Un, към тези, които решава In

 

Qn = 1 - Rn - коефициент на решаване на проблемите на съответното ниво

От така дефинираните променливи се вижда, че:

I1=U0 I2=U1 I3=U2

R01 = U1/I0 = R0.R1 R23=R2.R3

Или броят на проблемите, зададени на дадено ниво равен на броя на нерешените и ескалирани проблеми от предишното ниво на техническа поддръжка, а коефициентът на ескалиране на група от две съседни нива и произведение от коефициентите на ескалиране на всяко ниво.

Резултатът може да се обобщи за четири нива:

Q0-3 = 1 – U3/I0 = 1 – R0.R1.R2.R3

При пример за едно средно ниво на ескалация на проблемите на първите две нива се получава:

R0=R1=20%

Q12 = 1 – R0.R1 = 96%

При високо ниво на ескалация (нискоквалифициран персонал в първите нива) се получава:

R0=R1=80%

Q12 = 1 – R0.R1 = 36%

 

Увеличаването на броя на нивата на повече от три не води до съществено увеличение на общия коефициент на решаване на проблемите при сравнително висока квалификация и достатъчен брой специалисти на съответното ниво. Освен това ескалирането на проблема увеличава MTTR по чисто технологични причини. Тези проблеми, които остават след намесата на всички нива, свързани с техническото обслужване имат природа и същност, които не могат да получат решение в рамките на времето за възстановяване MTTR.

Въвеждането на нови услуги, разширяването на мрежата и въвеждане на нова техника, като непрекъснат процес поставя въпроса за повишаване на нивото на подготовка за решаване на проблемите на специалистите от всички нива на техническо обслужване. Опростен модел на ескалирането на проблемите, при недостатъчни възможности (квалификация, достъп, право на решение) може да се получи от допускането, че за сравнително малък интервал от време нивото на ескалация може да се апроксимира с линейно-намаляваща функция:

delta R / R = -t / T

R (0) = R0 ,

където R0 e в границите от 0 до 1 при неквалифициран персонал

Решението е функцията:

R(t) = R0 + exp ( -t / T )

където Т е константа на повишаване на уменията за обслужване на проблемите, която като цяло зависи от всички нива в обслужването:

1/T = 1/T0 + 1/T1 + 1/T2 + 1/T3

Когато се въвеждат нови услуги, вниманието за намаляване на времето за усвояване на уменията по отстраняване на техническите проблеми е важно за успеха на услугата като цяло. Агресивно пазарно поведение с нови услуги предполага грижи за непрекъснато обучение на техническия персонал и осигуряването му с помощни програмни средства за мониторинг и ранно откриване на проблеми.

„По-големите фирми са консервативни по отношение на разширяването на набора от услуги, които предлагат, особено в зона на администрация на повече доставчици с различна националност – анализира Евгени Хубенов. - При такива услуги, в дефинирането на проблема и декомпозирането му в определена зона на администрация се налага още в началния период да се включат специалисти с висока квалификация и права. При локализиране на проблема неговото отстраняване и проверката за качеството се възлага на специализираните звена”, коментира още експертът мрежова администрация в ITD Network.

Работата за повишаване на достъпността и на надеждността на мрежовите услуги обикновено остава скрита за потребителя и клиента. Тя може да се разглежда на различни слоеве – от планирането, прилагането и подобряването на собствени процедури и процеси или в различна степен свързани с препоръки в тази област ( ITU, RFC), през добра работна практика (ITIL), до обобщеното разглеждане като процес (ISO20000) и поставянето му на общата информационна шина на вътрешно фирмената организация (в условията на „тихо набиращата обороти“ архитектура, ориентирана към услугите - SOA), обединяваща не бизнес приложения изобщо, а информационна инфраструктура.

(03.11.2008)

КОМЕНТАРИ

Трябва да сте регистриран потребител, за да коментирате статията
"Надеждност и достъпност на мрежовите услуги в TCP/IP архитектура"



    

© Ай Си Ти Медиа ЕООД 1997 - 2012 съгласно общи условия за ползване