ネットワークインフラにおけるデータセンター・ネットワークの運用・保守について

時間:2022-10-31

インターネットサービスの急速な発展に伴い、データセンターのインフラも急速に進化続けています。それに従ってこの巨大なデータセンター・ネットワークをどのように管理するかが課題になっています。 この記事では現在新世代の25/100Gデータセンター・アーキテクチャの運用.保守に直面する課題を分析しながら、運用・保守における各ステップに採用される技術のアップグレードについて意見を解説いたします。読者の皆様に役に立つことができれば幸いです。

 

一、新時代には新技術が必要になる

 

クラウドコンピューティング、AI、ビッグデータなどの急速な発展に伴い、オンライン教育、ライブコンシューマーなど、いくつかの新しいビジネス形態が生み出されています。ビジネス応用の革新は、インフラの継続的な開発・改良に繋がっています。

 

インフラには、主に情報インフラ、融合インフラ、革新インフラ3つの内容があります。この記事では情報インフラを代表するデータセンター(通信ネットワークや計算力基盤)をメインとして話しましょう。

前回の技術特集のライブイベントでは、データセンター・ネットワーク・アーキテクチャの進化を解説し、次世代データセンター・アーキテクチャの設計アドバイスも紹介しましたが、本日は次世代データセンター・ネットワークの運用・保守技術についてお話します。

 

まず、運用.保守もアーキテクチャと同様に、更新と進化が必要だと考えておりますが、その理由は2つあります。

 

1.サービスによる駆動

25/100Gのデータセンターでは、ハイパフォーマンスコンピューティングやハイパフォーマンスストレージなど、RDMA技術を使った多くのサービスが展開されています。 これらのサービスは、遅延やパケットロスの影響を受けやすいため、ネットワーク機器の状態に対してより高度な監視が求められるので、従来のSNMP技術が新たな運用・保守手段に置き換わる可能性があります。

 

2.技術による駆動

メインになる25Gデータセンターは、シングルチップ方式のボックス型スイッチを採用されています。

使用されたチップが変わることで運用.保守技術も変わります。 具体的には、IFA(In-band Flow Analyzer)を使った可視化な運用保守など、新しいチップでもたらす技術利益を得られます

上記の分析に基づいて新世代のデータセンターには新しい運用・保守技術が必要だと考えております。

 

二、ネットワーク運用・保守における全プロセスの技術向上

 

多くの企業のネットワーク・アーキテクチャと運用・保守プロセスについて調査・分析を行う上で共通の課題をまとめましたので、ご参考ください。

 

一般的な運用・保守プロセスは「デリバリー」「ネットワーク構成管理」「ネットワーク監視」「故障問題の特定」「故障対応」の5つのステップがあります。それぞれのプロセスにおいて、どのような課題があるのかを分析してみましょう。

■デリバリー

よく知られているのがCLIを使ったSSHやTelnetなど構成管理ですが、 しかし、様々なネットワーク機器に対して同じ操作を繰り返すとより時間とリソースの無駄、効率もよくないです。

■ネットワーク監視

RDMAが展開される前は、ネットワーク機器の監視にはSNMPプロトコルを使用することが主流でしたが、RDMAの適用が進むにつれ、ネットワーク機器の稼働状況をより高度かつタイムリーに把握する必要がある一方で、SNMPの1分単位のタイムリーさや監視できる次元・粒度がやや不十分と思われます。

■故障問題の特定

問題の特定とは例えばパケットロスが発生したことが分かって、どのパケットが、どこで、なぜロスされたかを分析しなければならないです。 従来は、これらの情報を特定するための技術的な手段がありませんでした。 ECMPのネットワークやネットワーク機器自体がブラックボックス化しているため、問題の特定はおろか、転送されるパケットの物理的なルートをさらに知らないです。

■障害対応

現在の運用・保守のほとんどは、応急処置のような流れでまず業務側が不具合を報告して運用・保守チームがそのCASEを受付して対応します。その対処方法は、運用・保守エンジニアの経験に依存する必要があります。 人工知能が急速に発展している時代に、まだマニュアルに頼って解決しているのでは、なんだかスマートではないかと感じております

 

以上に基づき、運用・保守プロセス全体に対して技術アップグレードを実施しました。

コストと効率を考え、運用・保守の各プロセスに新しい技術を適用することで新しい時代の新しい問題を解決しています。

 

?1.PNG

図1 運用保守プロセスと運用保守新しい技術の関係

ここでは、広大なデータセンター・ネットワークをより効率的に管理するために、さまざまな運用保守プロセスにどのような新しい運用保守技術を採用すべきかについて分析していきます。

 

三、デリバリー

Zero-configuration Automatic Manage (ZAM)

 

前述したように、初期化ネットワーク・デリバリーにおける効率化には課題がありますが、この作業の効率化のためにどのような技術が適用できるのでしょうか。

この問題を解決するには、ZAM(Zero-configuration Automatic Management)が有効です。

納品されたスイッチを設置後に、電源が投入されると、コンフィグレーションが初期状態を認識され、自動的にZAMモードになり、DHCPの2つのOptionフィールドを通じてTFTPサーバのアドレスとダウンロードしたスクリプトファイルを取得します。独自のSNコードで設備のバージョン、パッチ、データ構成を取得してから自動的に再起動し数分間でネットワーク機器の納品を完了することができます。

 

ネットワーク・デリバリーにZAM技術を利用することで、手作業によるバージョン更新や時間設定を減らしながら精度率を向上させ、短時間納品を実現することができます。

?2.PNG

                    図2 ZAMの技術プロセス

 

四、ネットワークの構成と管理

 

Ansible

 

ネットワークを利用するサービスが常に変わるので複雑で多様なニーズに対応する満たすために、ネットワークに対して変更調整を行うことがよくあります。変更調整には運用と保守エンジニアが同時に多数のネットワーク機器を操作する必要があります、このときにエンジニアより命令を発行するために一つ一つの機器にログオンすると、繰り返す作業が多くて、効率がよくないです。また手作業による設定ミスも避けることが困難であります。そのため一括構成できる便利な運用と保守管理ツールが必要です。

コミュニティには、Puppet、SaltStack、Ansibleなど、保守エンジニアスタッフが特定の作業を一括して行い、繰り返し作業を減らすのに役立つオープンソースの運用保守管理ツールが数多く存在します。 これら3つのツールを比較すると、Ansibleがより軽量で使いやすいと感じました。

 

?3.PNG

図3運用保守ツールの比較

上記の比較表から、Ansibleの技術的な特徴が容易に理解できます。

■クライアントレス

これはAnsibleが広く使われている最大の理由の一つで、管理対象機器(スイッチなど)にSSHとPython 2.5以上をサポートすればよく、Ansibleのクライアントへの追加適応は必要ないです。

■モジュール化

Ansibleはサーバークライアントがないとも言えます。特定のモジュールを呼び出すことで特定のタスクを実行できます。

■セキュリティ

OpenSSHを使った実装で、リモート転送時のデータを暗号化されます。

■Playbooksよりタスクのサポート

これが Ansible の最大の特徴であり、Playbook より複雑なタスクを分けて、バッチで実施することができます。 Playbookも分かりやすいYAML 構文で記述されているため、操作が簡単です。

 

五、ネットワークの粒度監視

 

gNMI

(gRPC Network Management Interface)

ネットワークの状態監視といえば、SNMPの技術が思い浮かびます。 確かに、SNMPは従来なネットワーク監視ツールとして長年使われてきましたが、ハイパフォーマンスコンピューティングやビッグデータ、AIなどのサービスを耐えられないです。

 

まず、ビジネスの特性やニーズの観点から、広帯域のサービスではマイクロバースト現象が現れるため、機器の稼働状況をリアルタイムに把握できるようにする必要があります。 例えば、RDMAサービスでは、キー情報の監視や、キューなどのリアルタイムステータスデータをキャッシュする必要があります。

そこで、gRPCでネットワーク機器に対して高度な監視を実現することをお勧めです。

?4.PNG

図4 gRPC実行プロセス

gRPCは、HTTP2.0ベアラをベースにGoogleが公開した高性能オープンソースソフトウェアフレームワークで、複数のプログラミング言語をサポートし、ネットワーク構成や管理を行うことができるのが特徴です。 gRPC は ProtoBuffer (PB) を使用してデータのシリアライズとデシリアライズのカプセル化を行い、データ転送プロトコルとして HTTP 2.0 を使用しています。

gRPCの転送効率が良いのも、この2つのコア技術によるものです。

Protocol Buffers:効率的なデータフォーマット、バイナリコードの転送、低消費電力と高速転送。

HTTP2.0:コネクションの多重化、バイナリフレーム伝送、先頭部分の圧縮

ネットワーク監視の分野では、gRPCを利用するお客様が増えてきています。gRPCによる運用・保守のインターフェースを統一し、設備のパフォマンス特性を揃えて効率を上げ、よりネットワークの状態を高度的に感知し、故障の早期発見と未然防止を図ることができますgRPCについて詳しく過去の技術特集の記事を参照してください。

 

六 故障問題の特定

インバンドフロー解析

(IFA、In-band Flow Analyzer)

 

ネットワークの運用・保守で最も厄介なのは、障害問題の特定です。

例えばRDMAは遅延やパケットロスに対して非常に敏感であるという特徴があり、ひとたびパケットロスが発生すると、サービスのパフォーマンスを大きく低下させ、大きな影響を与えることになります。 そのため、エンドツーエンドの遅延を感知するだけでなく、異常なジッターを検出し、どのホップで異常が発生しているかを知る必要があります。

 

現在のマルチコアスケールアウトネットワークアーキテクチャでは、多数のECMP(Equivalent Multi-Path)が存在し、各サービスフローが各ホップでどの物理ポートに転送されるかはチップハッシュの結果を調査する必要があるため保守スタッフがすぐ分からないです。一瞬でサービスフローがどのホップでどの物理ポートに転送するのを分かるが望ましいです。

 

上記の要件に基づき、IFA技術は、大多数の運用保守エンジニアに利点をもたらしています。 特定のトラフィックフローの経路や転送遅延などの情報を正確に把握し、UDPメッセージにカプセル化してサーバーに送信し、解析するために使用することができます。

?5.PNG

                          図5IFA技術原理

具体的な実装

●イングレスのファーストホップ装置で指定セッションを識別してサンプリング通過後、INTヘッダーの挿入を開始します。

●機器ID、送受信ポート、タイムスタンプなどを含む、後続の転送ノードによるメタデータの挿入。

●エンドホップ機器はUDPパケットを再構築し、サンプリングしたパケットをUDPのペイロードにカプセル化し、UDPパケットを監視サーバに転送します。 テキストを入力します。

IFAは、日常的にルーチンに起動できるように配置できるし障害に対応してオンデマンドで起動することも可能です。

鋭い読者の中には、RDMAサービスはパスやパケットロスに敏感だから、パスの変化やタイムオーバーの閾値を設定してそれらのメッセージをサーバーにアップロードし、分析すればいいのでは、と思う人もいるだろう。

 

?6.PNG

                図6ネットワークパケットの分析技術プロセス

 

すべてのパケットをサーバーに送信される場合確かにサーバーのコストを増加させる全体のネットワークTCOの最適化また、IFA技術を着実に適用することにも影響があります。

 

そこで、トラフィックがサーバーに到達する前に、正常な経路や遅延のあるパケットをフィルタリングし、異常なパケットだけを解析しサーバーに送ります。これによってサーバーへの負荷を大きく軽減することができます。 このフィルタリング処理には、プログラマブルチップを採用されるスイッチの使用を推奨します。ハイパフォーマンスなハードウェアを利用することで利益の最大化にも繋がります。

 ?7.PNG     

             図7プログラム可能なネットワーク可視化ソリューション

 

七 .故障対応

インテント型ネットワーク

(IBN、Intent-based Network)

障害対応に関しては、まず現在の運用・保守モデルを分析する必要があります。 障害対応の一般的な流れは、まず業務側から障害報告が提出され、運用・保守チームがシステム上でCaseを受信して問題を特定し、原因を分析して解決するという応急処置の運用保守です。 業務の緊急性から、運用・保守業務に対して大きなプレッシャーになります。

 

Intent Networkに基づくインテリジェントな分析プラットフォームは、現在の運用・保守モデルを変え、リアクティブをプロアクティブにするのに役立ちます。

?8.PNG

図8インテリジェントな分析プラットフォーム

このプラットフォームには、データ収集プラットフォーム、AIエンジン、ビッグデータ分析プラットフォーム、インテリジェントアナライザーなど、複数のモジュールが組み込まれています。 ネットワークやアプリケーションの可視化、問題分析、障害予測などの機能を実現できます。

問題分析機能により、アクセス、アプリケーション、ネットワーク要素など、主に3つのタイプの障害を特定することができます。 また、問題分析に基づき、プラットフォームがチューニングや対処の提案を行い、迅速な問題解決とサービス復旧をサポートします。

 ?9.PNG 

図9 IBNに基づく自動故障診断

IBNについては、今後、別途特集記事で紹介いたします。

 

ハ、まとめ

これまでご覧になって、新世代のデータセンター運用・保守技術についてご理解いただけたと思います。

RuijieNetworksのデータセンターENA(Easy Network Architecture)ソリューションは、シングルコアプロセッサとマルチプレーナーネットワークインフラを採用され、全体の運用・保守プロセスの進化を目指し、アーキテクチャと運用・保守ともに継続的に進化していきます。

Ruijieのデータセンタースイッチ製品がこの記事で述べた運用・保守に関する特性は、すべて備えおります。Ruijieのスタッフの長期にわたる業務シナリオに対して深く観察、研究しそして高品質な製品仕上げるために努力続ける成果はすべてRuijie製品に現れます。ユーザーのペインポイントを見抜き、シンプルな方法でユーザーの成功をアシストすることが、技術開発の鍵であることをよく理解しております。 また、「技術の特集」の読者の皆様にも、ご意見を共有していただき、共に発見し、共に議論し、共に成功することを期待しております。

お問い合わせ

個人情報の取り扱いについて をご確認いただき、よろしければ「個人情報の取り扱いについて同意する」にチェックをして、内容を送信してください。
必須
確認画面