в гостях у хаски

интернет-провайдеры, телекоммуникации, домашние сети, слухи, скандалы, реклама, маркетинг

Previous Entry Share Next Entry
Админ виноватый. Версия 2.0
dobriy_samarit
Основные события истории произошли в феврале 2017 года. Записано со слов очевидцев, без имён и названий.

Все началось за несколько месяцев до указанных событий. Итак, время осень, в компании идет техническая интеграция самой сети под стандарты всемогущего холдинга. Все остальные интеграции давно уже пройдены и забыты.

Осталось только она одна, а, именно, компания начинает постепенно переводить абонентов с мелких цисок и экстрмов, которые распиханы по различным узлам в городе, на несколько больших сервисных маршрутизаторов. А, если быть точнее, на Huawei ME60.

EpHuUFwl6Kc.jpg

Под кат.


Переводят район за районом, по 10-20 тычас абонетов за раз. Естественно, после каждого такого перевода, всплывает просто тонны всякой дряни, багов, недочетов и т.д. Контакт-центр компании начинают атаковать уйма абонентов, у которых ничего, естественно, после такого перевода не работает. Техническая поддержка ничего сделать не может, ибо их просто не обучили, не рассказали, как это устранять. И, более-менее хоть кто-то что-то знал, как это решать - были администраторы сети, на которых естественно все это и посыпалось.

Хочу отметить, что во время таких переводов, страдали не только физические лица, но и юридические. Коих на обычной домашней сети тоже было много. Как можно догадаться, юрики - это вам не обычные домашние хомячки, которые пожалуются в КЦ, их успокоят и все. Нет, они будут выносить мозг своим менеджерам, а те, в свою очередь, вынесут мозг остальным.

Так было примерно до первого месяца зимы, когда во время провидения различных плановых работ со стороны админов, не был допущен человеческий фактор. Еще бы, под такой нагрузкой его не допустить. В результате было затронуто большое количество b2b-клиентов, которые остались без своих услуг. Причем, это повторялось несколько раз подряд. И страдало тогда по крайне мере около 4 тыс юр.лиц.

Для B2B клиентов, простой даже пару минут уже критичен, учитывая какие крупные клиенты подключены. Так вот, после сей аварии собралось все руководители, которые хоть как-то причастны к этой заварухи филиала, плюс подключился центральный офис. И все они разом поклялись провалиться им на месте перед директорами B2B-сектора, что таких ситуаций больше не будет. Мы примем все меры и тд и тп…

И что же вы думали? Ага, щас не будет, проходить чуть больше месяца. Вечерком, когда уже нет большинства ответственных лиц, а в офисе остался один администратор, который занимается обслуживанием этих B2B-клиентов, происходит следующие:

Один из крупных маршрутизаторов, занятый в организации ядра инфраструктуры сети для B2B-клиентов, дает сбой. Причем, такой что разваливается вся сеть, тут же начинаются звонки всем подряд, в попытках хоть кому-нибудь то дозвонится, чтобы что-то начать делать.

В системе заявок админ уже видит наплыв дерьма, Кое как дозванивается до более опытных инженеров, которые, рвя волосы на своей  жопе голове, пытаются решить один вопрос:

А кто же поедет поднимат маршрутизатор?

Туда, с горем по полам, отправляют человек с резервной копией настроек для сего чуда. И он там отплясывает, поднимая его. К слову сказать, там был Mikrotik, а некоторых версия Router OS, есть баги. Которые, к сожалению, и отправили данную железку отдыхать. А в это время "герой" истории, про которого дальше пойдет речь, тот самый администратор по обслуживанию b2b, уходит домой. Рабочие время закончилось.

Но уходит и понимает, что его на следующую смену ждет просто тонна дерьма, в виде заявок. Ибо, ночью, естественно, техпо оформит еще больше заявок. Плюс, надо закрыть старые и плюс еще операционная деятельность. В общем веселье одно.

А ночной админ обработать их просто не может. Первое, у него и своей работы хватает, а второе, в схемах подключения юр.лиц черт ногу сломает. Ибо без бутылки водки или чьей-то помощи, там просто не разобраться. Даже опытные люди иногда сидят и минут по 20 тупят, пытаясь въехать в чем дело.

Наступает новый день и новая смена того самого админа. Приехав на смену он садится и в режиме нон-стоп отрабатывает все обращения от этих клиентов. Отработав достаточное количество этих обращений, админ понимает, что, а списочек-то не заканчивается. Заявки все идут и идут. Еще через какое-то время приходит понимание, того в чем все-таки дело.

А дело вот в чем, после поднятие Mikrotik’а, на нем стали неправильно обрабатываться маршрутизация. И путь решения был -  надо было перезапустить каждый интерфейс, на котором навешан подсеть (Для тех, кто не в курсе на Mikrotik’е IP-шник(подсеть) можно навесить на любое подключение, будь то vlan, EoIP-туннель, bridge, просто физический интерфейс и все это будет интерфейсом). Таких интерфейсов на нем оказалась тьма-тьмущая. И что бы упростить сие задачу был написан простенький скрипт на коленках, что бы передернуть их, но…

Мозг админа поплыл , под тонной нагрузки, которую он испытывал в тот момент. И он забыл, что среди всего там был интерфейс управления данной железкой. И ,конечно же, скрипт его вырубил. Админ понял это минуты через 2, что у него железка отсохла, но в нужный момент вспомнил, что есть резервный на всякий случай. И при помощи него через пару минут все работало как часы. Это, конечно, заметили, но все же…

Увы, и ах, судьба-злодейка решила, что админ мало глупостей натворил и надо еще. Герой, после первого своего косяка, продолжил делать свою работу. Обращения оставались и их надо было все-таки доделать. И тут прилетает ему странное обращение, вроде работает, а вроде и нет. MAC адреса до маршрутизатора доходят и вроде даже как бы в ARP таблице запись о нем есть…

И админ решает убрать эту запись, для проверки. Придет ли новая или нет. Но, как уже было сказано ранее, у админа уже мозг кипел и ошибается командой. И, вместо того чтобы убрать одну запись, он очищает всю табличку. Ее размер был порядка 1500 сессий.

Маршрутизатор без всяких вопросов выполняет эту команду. В итоге ARP-таблица очищается, в центральном офисе фиксируют массовое отключение клиентов. А это, о Боже, целая авария. Соединение якобы падает, на самом-то деле таблица ARP заново заполняется, но не полностью. Вместо 1500 возвращается около 1200 сессий. То есть, по факту потеряло 300 клиентов. Кто же знал, что такая идеальная железка, как ALCATEL-LUCENT 7750 SR не до конца обработает траффик и не занесет всех работающих клиентов обратно в таблицу. И всем остальным придеться перезагружать свои железки.

Забудем ненадолго про этого админа. И вспомним одну вещь, время года зима. Даже конец зимы. В филиале этом происходят кадровые перестановки, меняются директора. Кто-то ждет своего повышения. А теперь давайте угадаем, в какой день должны были повысить одного и технических руководителей на должность выше? Правильно, в тот день, когда случилась вся эта заварушка. Об этом админ и все остальные узнают, когда начнутся разборки.

А пока на ушах стоит центральный офис, пытаясь понять, что же, блять, случилось?

Опять тонна обращений. Через час узнают истинную причину - что это админ виноват, который все это и допустил. В общем человеческий фактор… А раз он есть, то в центральном офисе жаждут крови, им все, равно как и почему, главное наказать и сделать так что бы не было больше такого. И с этого момента на него летит этот снежный ком, который все больше и больше набирает обороты.

Одновременно, достается руководителю того админа, и тому руководителю, которого ждало повышения. Ему радостно сообщают, что он - говнюк ему его не видать… Весело правда? А далее добираются до самого админа, админ пишет объяснительные. И наступает молчание.

Человек, которого ждало повышения очень сильно раздосадовался этим фактом и приказывает вышвырнуть админа из компании. А непосредственному начальнику его, дают последнее предупреждение. И админ уходит, слава Богу, без каких-либо дополнительных санкций против него. При похожих ситуациях, когда страдало и больше юр.лиц, и лица признанные виновными в этом ограничивались минус премией. А тут было все более жестко, сыграла роль, что обещание провалиться сквозь землю не было выполнено. И, естественно, не полученная должность.

С админа вины никто не снимает, есть человеческий фактор, который дал такую картину.


  • 1
Классика жанра.
А что изменилось за сто лет?

Все люди бляди,
Весь мир бардак!
Один мой дядя
И тот мудак

Силу в кулак, волю в узду, в работу впрягайся с маху.
Выполнил план - посылай всех в пизду, не выполнил - сам иди на хуй

Владимир Маяковский

"Один из крупных маршрутизаторов, занятый в организации ядра инфраструктуры сети для B2B-клиентов, дает сбой."

В этой роли Микротик что ли выступал? Что-то у меня как-то не вяжется "крупный маршрутизатор" и Микротик.

крупный микротик

В истории не сказано, что последовало за обещанием горе начальника, не получившего должность. Если он не принял никаких организационных мер после своего обещания, чтобы проблему локализовать и не допустить повторения, то его правильно не повысили.

прошу прощения, отключилось уведомление о пришедших комментариях...
глючит ЖЖ, что б его...

Бедный одмин поплыл под нагрузкой, бедняжечка, а на самом деле голову надо по назначению использовать, а не херачить без разбору, да и косяки этого не до одмина, устраняли явно другие люди, а не как написанно выше

можете свою версию рассказать, если знаете

Для тех кому лень читать целиком: Парень положил интерфейс управления, а потом почистил арпы на центральной железке. И все это ровно в тот день, когда его руководителя должны были повысить

Кажется это следующий уровень после закрытых аплинков. Растет однако :D

всё правильно сделал (с)

  • 1
?

Log in

No account? Create an account