Този сайт използва бисквитки (cookies). Ако желаете можете да научите повече тук. Разбрах
Skip navigation

Машинно обучение на системите за съхранение

Networkworld България - брой 6, 2016 г. / Нови технологии
Един от сценариите за внедряване на машинно обучение в дисковите масиви е осигуряване качество на обслужването на ниво приложения.
467 прочитания, 0

Една от перспективните области на приложение на машинното обучение е съхранение на данни. Умните устройства за съхранение все още изостава от концепцията на бъдещето, или „Следващото голямо нещо“, което се чака с нетърпение от експертите. Такива устройства ще могат да „разбират“ поведението на приложенията на базата на специфични фактори, да определят нивото на изискванията към достъпността и надеждността на системите за съхранение и автоматично да се настройва според необходимия клас решения.

Говорейки за машинното обучение (МО), много хора имат предвид редица „забавни“ сценарии, от които произтича малка практическа полза. По принцип става дума за генератори на текстове, които при проверка се оказват безсмислени, за автоматизирани сценарии за кино, имитация на живописния стил на старите майстори и други съмнителни проекти. Информационният шум около такива дейности формира лъжлива представа за машинното обучение и изкуствения интелект, а в същото време съществуват съвсем конкретни области за тяхното приложение в науката, техниката и информационните технологии.

Прочетете още: Какво отличава флаш продуктите за съхранение на данни

На първо място машинното обучение помага на инженерите да автоматизират една или друга интелектуална дейност, тъй като компютърът е способен да обработва голям обем данни за кратко време и бързо да приема конкретни решения. Безусловно няма да премахнем длъжността на „блюстител на закона“ и да я заменим с изкуствен интелект, но е напълно възможно да се въведе нужният алгоритъм за точно разпознаване на лицата на заподозрени в голяма тълпа от хора на оживена улица.

За съжаление, а може би за щастие не става дума за самостоятелно творчество на машината в непрограмирана предварително ситуация. Системата се оказва безполезна, ако наличните данни са недостатъчно или засеченото събитие не съответства с някакъв предшестващ аналог. Освен това универсални алгоритми не съществуват – всеки от тях решава една определена задача.

Умни устройства за съхранение

Една от перспективните области за приложение на машинното обучение е съхранението на данни. Изчислявайки потенциалните направления на новия технологичен пробив в областта на съхранението, експертите посочват технологиите RAIN, SSD, NVMe, облачни инфраструктури и програмируеми системи за съхранение (SDS), но дори не споменават машинното обучение на дисковите масиви. Това вероятно се дължи на факта, че подходящите методи не са проучвани и не са усвоени от лидерите на пазара.

Разпространението на флаш-дисковете и развитието на програмно дефинираното съхранение са важни фактори, но те вече не са новост. За разлика от посочените технологии, умните устройства за съхранение остават концепция от бъдещето, онова Next Big Thing, което чакат експертите.

Какво ще вършат умните устройства? Теса призвани не само да съхраняват информация, но и да изпълняват интелигентни аналитични действия, да осигуряват работата на микроуслуги и еластична мащабируемост. В идеалния случаи такива устройства трябва да притежават способност да сменят своите роли в зависимост от контекста и при необходимост да се обединяват за изпълнение на съвместна задача.

Умните устройства ще могат да „разбират“ поведението на приложенията на базата на специфични фактори, да определят нивото на изискванията към достъпността и надеждността на системите за съхранение и автоматично да се настройва според необходимия клас решения. Устройства от новия тип ще помагат за решаване на редица проблеми, възникващи в умните градове, предприятия и пространства.

Какви основни сценарии за използване на машинното обучение има днес и какви ще са умните устройства за съхранение в бъдеще? Да се спрем по-подробно на тях.

Схема за реализация на функциите QoS на базата на алгоритъма за машинно обучение Random Forest в модула QoSmic

Сценарии на приложение

Първият и един от основните е прогнозен анализ на базата на анализа на поведението на системата за съхранение. Съответният алгоритъм е призван да осъществява анализ на системните дневници и историята на събитията, като предупреждава за възможни проблеми в клъстерите за съхранение. Рано или късно ще бъде достатъчен прост гласов въпрос към системата в предприятието, за да получим моментално данни за състоянието на инфраструктурата, да се анализира текущото натоварване, да се заделят и разпределят нужните за служителите ресурси.

Не е изключено при запазване на текущите темпове на развитие на мобилните технологии и автоматизацията след 5 до 7 години средствата за управление на инфраструктурата да се научат да разбират естествен език. И днес са достъпни аналогии на Microsoft IFTTT, които реагират адекватно на задачата „Прехвърли всички мои съобщения от Twitter във Facebook“. Ако говорим за конкретни примери, съществен напредък по пътя към умния център за обработка на данни е направила компанията Nimble Storage с продукта InfoSight.

Вторият важен сценарий е промяната в движение на параметрите за съхранение с модификация на настройките на системата за съхранение като цяло и на отделни компоненти в частност. Много производители с променлив успех са разработили различни видове „автопилот“, който на базата на анализ на наличните данни и поведенческите характеристики би могъл автоматично да промени параметрите на системите за съхранение, например да избере оптимални настройки за преобладаващия тип натоварване.

Експериментално поле за реализация на такъв алгоритъм станаха флаш дисковете. Предвид спецификите на NAND Flash при разработката на решения за SSD в едно такова решение е невъзможно да се съчетае голям обем, висока надеждност и максимален брой презаписи, затова се налагат известни компромиси. Настройките на устройството и неговото поведение може да се променят чрез задаване параметри на регистрите (регистрите може да са над 1000 в 3D NAND и до 100 в равнинна памет). Подходящ пример за машинно обучение на автоматична модификация на параметрите на различни регистри е решението на технологичния стартъп NVMdurance.

Третият пример за приложение на машинно обучение в системите за съхранение е осигуряването качество на обслужване (QoS) на ниво приложения. Все повече разработчици стигат до извода, че традиционният подход „едно приложение за един LUN“ не е оптимален и се налага преразгледането му. Действително, нередки са случаите, в които от един том в даден хост си взаимодействат много приложения, различни по функции и натоварване. Лъвският дял от тези приложения не са критични за дейността на предприятието, т.е. ресурсите на системата се изразходва нерационално.

Как да не се загубим в „гората от случайности“

За решаване на тези проблеми са реализирани проекти, в рамките на които разпознаване на приложения и на тяхното натоварване се осъществява по характерни входно/изходни операции (I/O). В сферата на Data Mining има няколко алгоритъма, подходящи за подобна идентификационна задача - например Random Forest, или „случайна гора“. Този метод е базиран на изграждането на голям брой (ансамбъл) от „дървовидни“ решения (тяхното количество е параметър в метода). В сравнение с други аналогични алгоритми Random Forest имат следните предимства:

  • висока скорост на обучение;
  • неитеративно обучение (алгоритъмът завършва с фиксиран брой операции);
  • мащабируемост (способност за обработка на Големи обеми данни);
  • високо качество на получените модели (сравнимо с невронните мрежи и комплексите от невронни мрежи);
  • малък брой настройвани параметри.

Random Forest е вероятностен алгоритъм. Когато към системата за съхранение се обръща неизвестно приложение, той оценява вероятността за съвпадение на това приложение с откривани преди това в системата. Алгоритъмът има и недостатъци. Един от тях е склонността към преобучаване на зашумени данни. Впрочем този а проблем се решава с помощта на специализирани филтри като FCBF например.

Реализация на функциите на QoS на базата на Random Forest има в модула QoSmic, разработен от компанията RAIDIX. Принципът му на работа е доста прост. Всички заявки към дисковата система преминават през модула за разпознаване на приложения (вж. схемата). Модулът работи в два режима:

- Обучение: системата за съхранение изучава характеристиките на новото приложение, което по план ще разпознава в QoS или проактивно четене.

- Разпознаване: приложенията ще се идентифицират в реално време, а информация за тях ще се използва от модулите QoS и Prefetch.

В определен времеви период (например 20 секунди) заявките се събират в модула за разпознаване, а след това дневникът се анализира и на базата на събраните сведения се изграждат сигнатури за вход/изход. В режима на обучение сигнатурите се маркират с името на приложението, а в режим на разпознаване се предават към съответстващия модул за идентификация.

За идентификация на приложения е достатъчно да се знаят 4 характеристики: дължина на заявката, тип на заявката (четене или запис), преместване (адресно пространство), време на постъпване на заявката. На базата на тези параметри се изграждат сигнатурите I/O.

Първоначално при идентификация на приложенията акцентът се поставя върху търсенето на известни „шаблони“ (последователности от дължини на заявки, пристигащи една след друга). Този подход се представи отлично при сравнителните тестове (benchmark), в софтуерни приложения за резервно копиране и антивирусни програми. При тестването на различни алгоритми за машинно обучение първоначално приложенията се идентифицират с ниска вероятност, но с добавяне в сигнатурата за вход/изход на специални атрибути точността на идентификация успя да достигне 99,9%.

В някои системи основен критерий за идентификация е адресното пространство. При QoSmic се предполага, че с едно пространство могат да работят няколко приложения; по този начин разпознаване по местоположение не се осъществява. Ключов критерий за идентификация се оказва разпределение по дължина на заявките, постъпващи от конкретно приложение.

Разработеният метод за идентификация притежава висока точност и скорост, а това позволява употребата му за автоматично задаване на приоритет на критично важни приложения и и да им се гарантира нужната пропусквателна способност независимо от натоварването от страна на останалите работещи приложения. Високото ниво на точност се достига благодарение на определени атрибути, т.е. параметри във входно/изходната сигнатура, а това позволява формиране на достатъчно точен статистически профил на различните приложения, с висока точност откриване на работещото и отличаването му от нископриоритетното.

Без съмнение, администраторът е длъжен да вземе предвид необходимостта от периодично преобучаване на системата. Не трябва да се пренебрегва, ако твърде често излиза съобщение „не успя да определи“ или приложението не е определено правилно. В процеса на обучение самият алгоритъм може да подскаже, че получените сигнатури са недостатъчно за точна идентификация.

От обучение към работа

Автоматичното определяне на работещото приложение на инициатора позволява прилагане на технологията QoSmic във всяка система за съхранение, в която има модул QoS, отговарящ за различни нива на качеството на обслужване. Същият способ за осигуряване на QoS може да бъде реализиран по различен начин. Например в решения на Fujitsu или Oracle нивото QoS се определя ръчно от администратора. Тези системи за съхранение създават профили на базата на съотношението на операциите четене-запис и типовете натоварване, при това се не се разпознават конкретни приложения.

Подобна идея за приложение на машинно обучение е представена в патента US8762583 на компанията EMC. Тя предполага използване на невронна мрежа, за се определи оптималният способ за обработка на входящите заявки за вход/изход. Този подход може да бъде използван и в модула QoS за балансиране на натоварването на системата.

По този начин методите за машинно обучение могат с успех да се ползват в системите за съхранение, без да се предизвиква допълнително закъснение и намалена производителност. В резултат тясно място в системата за съхранение се оказва не изчислителният модул, а скоростта на четене от самите дискове, т..е ограничаване на оборудването.

Ролята на „науката за данни“ и самите специалисти по анализ на данните (data scientist) в администрирането на ИТ инфраструктурата може след време да се намали съществено. Възможно е в бъдеще да не останат изобщо администратори, тъй като по-нататъшното развитие на алгоритмите за машинно обучение и изкуствен интелект ще сведе до минимум участието на човека в управлението на инфраструктурата.

(04.01.2017)

КОМЕНТАРИ

Трябва да сте регистриран потребител, за да коментирате статията
"Машинно обучение на системите за съхранение"



    

© Ай Си Ти Медиа ЕООД 1997 - 2017 съгласно общи условия за ползване