Linux Secure Virtual Hosting Extension

Linux Secure Virtual Hosting Extension

[目次]

コンセプト
機能概要
技術解説
Reference
Footnote
Acknowledgement
Appendix

DoS 攻撃／侵入に対する汎用的な防御手段を提供すること

サーバに対する全ての資源浪費型 DoS 攻撃を完全に防御する汎用手法は存在し得ないが、被害を最小限することは「あらかじめサービスを隔離し、サービス間の資源使用の干渉を防ぐこと」で実現可能である。例えば、同一ホストでウェブサービスとメールサービスを提供しておりウェブサービスに DoS 攻撃を受けた場合、メールサービスに影響を与えないようにすることを目的としている(ウェブサービスはあきらめる)。本拡張は、一つのホスト内に複数の隔離環境を提供し、隔離環境を超えた資源のオーバユースおよび各種アクセスを防御する機能を提供する。

本拡張では論理的に各サービスを囲む保護壁を作成し、この保護壁の提供する資源制御および強制アクセス制御をカーネル内で実現する(図1)。その際、既存のアプリケーションがそのまま使えるようにする。

本拡張を用いた OS を用いて同一のホスト上で複数のサービスを提供することによるメリットは以下の通りである。

DoS 攻撃を受けた場合、通常のホストでは操作不能となる場合でも本拡張を施した OS では制御するための計算機資源を確保することができる。そのため、バックアップ系に切り替り、監視したりするなどの対応が可能となる。
侵入された場合、通常のホストに侵入された場合と比べ、そのホストに対する破壊活動を小さく抑えられる(カーネルの設定変更や他の隔離空間のプロセスへのアクセス等はできない)。

また、デメリットとしては以下のものがあげられる。

各隔離環境で使える計算機資源の上限が決められるため、低負荷時でも計算機資源の利用率は変らない(利用率が固定のため、過負荷時にはメリットになる)。

[概要]

標準の Linux では隔離環境を提供する機能は chroot(2) 程度しか存在しないが(注1)、本拡張では、FreeBSD で実装されている jail (注2)相当の機能を実装するとともに、jail が未対応の部分にも対応することによって同等以上の隔離環境(仮想ホスト環境)を提供している。資源制御については CPU 時間と物理メモリ予約機能を追加し、システム運用者が各隔離環境が使う計算機資源の上限を設定することが可能となっている。
つまり、

保護壁 = 隔離環境(仮想ホスト環境) + 計算機資源

となっており、この保護壁はアプリケーションからは通常のホスト(実際には仮想ホスト)として見える。ただし、仮想ホスト環境と計算機資源は直交する概念であり、必ず一対一に対応づけなければならないものではない。本 OS でも一つの計算機資源に複数の仮想ホスト環境が作るなどの柔軟な運用を可能としている。

図1. 方式概要

資源予約での制御対象は

CPU 時間 (%)
物理メモリ(ページ数)

である。また、強制アクセス制御の対象は

socket 通信 (注3)
(PF_INET:保護壁に割当てられた IP アドレス以外の bind(2)/connect(2)は禁止, INADDR_ANY は自動的に書換え)
(PF_PACKET:保護壁に割当てられた IP アドレス/ネットマスクでフィルタリング)
シグナル
SysV IPC (注3)
(名前／資源空間の分離)
ファイルシステム
(chroot(2)利用)
Unix98 PTY
Procfs (注3)
(各種情報のフィルタリング)
...

であり、基本的にシステムコールの処理時に実施される。プロセスは自分以外のものに対するアクセスは全てシステムコールを利用しなければならないため、システムコール処理時に制御することはリーズナブルである。強制アクセス制御のルールは以下のものが自動的に適用される。

保護壁外のプロセス
- 全てにフルアクセス可能。
- 利用できる資源は「全資源量から各保護壁が利用している総和を差し引いた残り」が全て利用可能。
保護壁内のプロセス
- 同保護壁内にのみアクセス可能。他の保護壁内および保護壁外へのアクセスは不可能。
- 利用できる資源は「保護壁に割当てた量」が利用可能。

これを示したのが図2である。

図2. カーネル内論理モデル

[保護壁の生成]

プロセスはサブツリー単位で保護壁にマップ(閉じ込める)され、さらにマップされたプロセスからforkされた子プロセスは同保護壁内にマップされる。また、資源も同様にプロセスサブツリー単位で割当てられる (注4)。

一番最初のプロセスを保護壁にマップするためには新しく追加したシステムコール crow_create_reserve(2) および jail(2)を用いる。 crow_create_reserve(2) は当該プロセスおよびそこから fork される全てのプロセスの CPU 資源およびメモリ資源の上限をカーネルに要求するシステムコールであり、jail(2) は当該プロセスおよびそこから fork される全てのプロセスを保護壁にマップするようカーネルに要求するシステムコールである。これらのシステムコールを用いて設定されたパラメータはカーネル内のプロセスの情報を保持するデータから参照可能であり、CPU スケジューラ, VM および各システムコール処理ルーチンに使用される。

プロセスは当然自分で前述のシステムコールを使って保護壁を作成することができるが、アプリケーションを無改造で使うために、ユーティリティプログラムを用意している。ユーティリティプログラムは前述のシステムコールを用いて保護壁を設定した後、execve(2) を使ってターゲットのプログラムを起動する。

図3. 保護壁の生成の仕組

[保護壁の破壊]

カーネル内で保持している保護壁の情報はリファレンスカウンタを持っており、保護壁に属する全てのプロセスが消滅した時点で自動的に破壊される。

また、設計方針上、設定した保護壁の設定変更はできない。設定を変更したい場合には、一度保護壁を破壊してから再度生成するという手順を踏む必要がある。

[CPU 時間予約を実現する CPU スケジューラ]

(a) 通常の CPU スケジューリング

Linux の CPU スケジューラは schedule() 関数で実現されており、タイマ割り込みや再スケジュール要求等をトリガに起動される。その際、プロセスとスレッドの区別はしていない。 schedule() は RUN QUEUE に繋がっている実行可能(RUNNING)な各プロセスの優先度を goodness() 関数を用いて計算し、その中で一番優先度が高いプロセスに実行権を渡す(図4参照)。実行可能なプロセスがない場合には idle タスク (task[0] として常に存在している, 図4の init_task) に実行権を渡す。

goodness()によりプロセスの優先度計算方法は以下の通りである。

goodness()
{
    if (リアルタイムプロセスである) {
        priority += 1000 + プロセスの優先度;/*このプロセスが選択される*/
        return priority;
    }
    if (以前のタイムスライスの残りがある) {
        priority += 残りの ticks;
    }
    if (このプロセスのメモリマップが直前に実行されたプロセスのメモリ
        マップと同じ) {
        priority += 1;
    }
    priority += プロセスの優先度;
    return priority;
}

図4. 通常のスケジューリング

(b) CPU 時間予約対応の CPU スケジューリング

それに対して、本拡張での CPU スケジューリングは RUN QUEUE からのプロセスの選び方が異なる。本スケジューラは (*rk_schedule_hook)() == rk_schedule_cpu() で実現されており、 schedule()から呼ばれる。図5にその様子を示す。

CPU予約のパラメータであるパーセンテージは"周期 p[ms]" と"処理時間 c[ms]" に分解される。具体的に周期はデフォルト 1000[ms]とし、処理時間 c は指定されたパーセンテージと周期を掛け合わせ 100 で除算したものとする。ただし、小さいタイムスケールでのスケジューリング精度をあげるため、周期が10[ms](注5)を下回らない程度に正規化(公約数で除算)する。また、予約していない全てのプロセスは残りのCPU時間を共有する。

例) CPU 30% で予約した場合、

    {p =  1000 [ms], c =  300[ms]} =(正規化)=> {p = 100 [ms], c = 30 [ms]}

が、実際に使われるパラメータとなる。

スケジューラはまず、第一段階として、RUN QUEUE から goodness() を用いて次候補プロセスを選択する。
第二段階として、スケジューラは直前に実行していたプロセスがCPU予約しているプロセスサブツリーに属している場合、そのプロセスの実行 ticks を計測(注6)し、(CPU予約に対する) 処理時間のアカウンティングを行う。本スケジューラはこの値をCPU予約に対して実行された時間として扱う。RUN QUEUE にプロセスがある場合でも、この時間を使いきった CPU 予約を持つプロセス(正確にはプロセスサブツリーに属するプロセス)には実行権は渡されない。
次に、次候補プロセスがCPU予約しているプロセスサブツリーに属している場合、指定された予約パラメータに基づいてハードウェアタイマをセットし、アカウンティングを開始する。さらに、選択されたプロセスが、CPU予約を行っていたプロセスサブツリーに属している場合、そのプロセスサブツリーの中から実行すべきプロセスを選び直す。選び方は Round Robin アルゴリズムを用い、当該プロセスサブツリー中で RUN QUEUE に入っているものを均等に実行権を渡すよう(実際にはRUN QUEUE のつなぎ直しを行っている)になっている。

図5. CPU時間予約時のスケジューリング

※補足

CPU 予約は上限を 80 % とした Admission Control を行っており、予約は First Come First Serve(早い者勝ち)で獲得できる。
各プロセスの CPU 予約時間にはそのプロセスが発行したシステムコールの処理時間(I/O処理等)は含まれない。

[物理ページ予約のためのページング処理]

Linux ではプロセスに対するメモリ管理は主にページングで実現されており、デマンドページング、コピーオンライト、スワップ処理機能が提供されている。つまり、プロセスが使うデータが物理ページ上に存在するか、スワップエリアに存在するかはページング処理の結果、言い換えると犠牲ページの決定アルゴリズムで決まることになる。犠牲ページの決定アルゴリズムは LRU (Least Recently Used)を採用されている。 Linux 2.2 系カーネルのページング機構は、ページアウト処理が必要になった際に、使用物理ページ数が多いプロセスを見つけ出し、そのプロセスの物理ページを LRU (注7)で選択しスワップアウトする。さらに空きページが必要な場合には同様の処理を必要な量の空きページができるまで繰り返す。処理内容を以下に示す。

swap_out()
{
    for (counter=nr_tasks/(priority+1); counter; counter--) {
        int max_cnt = 0;
        struct task_struct *pbest;
        for (init 以外の全てのプロセス) {
            if (最近スワップアウトされていない &&
                使用物理ページ数 > max_cnt) {
                max_cnt = 使用物理ページ数;
                pbest = 当該プロセス
            }
        }
    }
    pbest のスワップアウト処理;
}

本拡張では、プロセスサブツリー毎に利用できる物理ページの予約を、予約されたページ数だけページアウトさせないという処理で実現している。具体的には犠牲ページを決める際、あらかじめアカウンティングしてあるプロセスサブツリーが現在利用している物理ページ数と予約されたページ数の差を用いて、ページアウトされるプロセスおよびページ数を決定する。処理内容は以下の通り。

swap_out()
{
    for (counter=nr_tasks/(priority+1); counter; counter--) {
        int max_cnt = 0, swap_cnt;
        struct task_struct *pbest;
        for (init 以外の全てのプロセス) {
            swap_cnt = 関連する全プロセスの使用物理ページ数 - 予約ページ数;
            if (swap_cnt < 0) swap_cnt = 0;
            if (最近スワップアウトされていない &&
                swap_cnt > max_cnt) {
                max_cnt = swap_cnt;
                pbest = 当該プロセス
            }
        }
    }
    pbest のスワップアウト処理;
}

ここで実現している予約はページ数のみであり、mlock(2)で提供されているような特定の仮想アドレス空間とマッピングされた物理ページの予約ではない。この方式を採用した理由は、非リアルタイムアプリケーションには LRU によるページ選択で十分であることと、アプリケーションの改造が不要であることがあげられる。

[仮想ホスト(jail)環境の実現方式]

仮想ホスト(jail)環境は、システムコール処理による強制アクセス制御によって提供される。

動作の仕組みについて説明する。まず最初に、最初のプロセスが jail(2) を発行することによって、そのプロセスに仮想ホスト(jail)環境の情報がカーネル内のプロセス情報に設定することが必要である(図3の手順)。この情報を設定することによって、設定以降、そこから fork(2)や execve(2) されるプロセスは全て同じ情報を持つことになり、カーネルはその情報を用いてアクセス制御することができる。設定すべきパラメータは以下の通りである。

仮想ホスト用 IP アドレス
chroot(2) 先のディレクトリ
仮想ホスト用ホスト名
利用したい uid の最小値および最大値
利用したい gid の最小値および最大値

ここで、仮想ホスト(jail)環境の識別子として IP アドレスを用いている。

次に、仮想ホスト(jail)環境の情報が設定されたプロセスがシステムコールを発行した場合、カーネルはその情報を参照しながらシステムコール処理を行う。具体的には、カーネルは、システムコールを発行したプロセス自身の仮想ホスト(jail)環境内のプロセスないしは計算機資源に対するアクセスである場合には通常の処理を行い、そうでない場合には各システムコール毎に必要な処理(EPERM を返す, ソケット情報の書き換えなど)を行う。

次に、本実装で行っている制御について述べる。以下にカーネルの機能から見た対応のリストの通りである。

socket 通信
シグナル
SysV IPC
ファイルシステム
Unix98 PTY
Procfs
その他

これらは実際の処理の内容から、単純なアクセス制御とシステムコール固有の処理の二つに分類できる。分類と具体的な処理内容を以下に挙げる。

単純なアクセス制御
- シグナル制御:
  signal(2), waitpid(2) など
- ネットワーク設定:
  ioctl(2) の設定系
- カーネルモジュール関連:
  create_module(2), delete_module(2), init_module(2), query_module(2)
- スペシャルデバイスへのアクセス:
  /dev/* へのシステムコール (但し, /dev/null, /dev/zero, /dev/tty*, /dev/pty* は除く)
- その他:
  ioperm(2), iopl(2), setpriority(2), stime(2), adjtimex(2), ...
システムコール固有の処理
- socket 通信
  - PF_INET
    保護壁に割当てられた IP アドレス以外の bind(2) / connect(2)は禁止
    127.0.0.1/INADDR_ANY は仮想ホストの IP アドレスに自動で書換え
  - PF_PACKET
    パケットキャプチャ時に、保護壁に割当てられた IP アドレス/ネットマスクでフィルタリング
- SysV IPC
  - IPC, Semaphoe, Shared Memory の名前/資源空間を仮想ホスト用に個々に用意し、そこにのみアクセスできるようにする。
- ファイルシステム
  - chroot(2)を用いた隔離
  - NAMED デバイスのマウント制御(sysctl で許可/不許可を設定)
- Procfs
  - マウント
    仮想ホスト内からのマウントは強制的に Read-Only にする。(mount)
  - /proc/<pid>/*
    仮想ホスト内からのアクセス時は、当該仮想ホスト内に属するプロセスの情報のみ返す。(ls, ps 等)
  - /proc/net/*
    仮想ホスト内からのアクセス時は、当該仮想ホスト内に関する情報のみ返す。 (ifconfig, netstat -a 等)
- exec(2), set*id(2)系
  - uid 範囲のチェック
    (sysctl で ON/OFF を設定可能)
    (共有する uid の範囲も sysctl で設定可能)
  - gid 範囲のチェック
    (sysctl で ON/OFF を設定可能)
    (共有する gid の範囲も sysctl で設定可能)

システムコールによる制御を採用した理由は、プロセスは他のプロセスやカーネルにアクセスする時には必ずシステムコールを発行するため、ここで制御することによって、プロセスからの全ての行動を制御することができることと、それ以外ではオーバヘッドがないことが挙げられる。

[Footnote]

注1: User Mode Linux や Virtual private servers and security contexts を使えば可能であるが、これらはオーバヘッドが大きい。
注2: FreeBSD 4.0-RELEASE以降で実装されている隔離環境を提供する機能。ただし、SysV IPC などに対応していないため、動作可能なアプリケーションが限られる。
注3: 正確には強制アクセス制御ではない。
注4: 仮想ホストへのマップと資源の割当ては直交する機能であるので、実は一つの資源の割当てに対して複数の仮想ホストを作る、あるいはその逆も可能である。
注5: Linux を始め i386 の UNIX 系 OS ではカーネルのタイマ粒度が 10[ms]となっている。そのため、それより細かい粒度での制御はできない。
注6: Pentium 以上の x86 系 CPU では rdtsc 命令を使って計測する。PowerPC 系 CPU も同様なカウンタがあるので、それを読出して計測する。
注7: LRU は CPU の MMU の機能を利用して実現される。x86 の MMU でのサポートはアクセスビットのみであるため、厳密な LRU は実現できない。

[Reference]

Linux/RK: A Portable Resource Kernel in Linux
- Suichi Oikawa and Ragunathan Rajkumar, CMU, 1998 RTSS Work-in-progress Session
Effort toward a Resource kernel --- A Resource Monitor Approach ---
- Suichi Oikawa, CMU, 1998 RT-Mach Workshop
Wrapper型資源予約機構の評価と改良
- 梶原史雄,盛合敏, NTT, 2000 IPSJ 第61 全国大会
Understanding Linux Kernel
- Daniel P. Bovet and Marco Cesati, O'reilly, 2001
UNIX Internals; The New Frontiers
- Uresh Vahalia, Prentice Hall, 1996
Intel Architecture Software Developers Manual Vol1,2,3
- Intel Corp. 1999

[Acknowledgement]

CPU スケジューラは Resource Kernel の実装の一つである Linux/RK (TimeSys Linux 2.0) のコードをベースにしている。
Ext3fs 対応部分は ext3-0.0.7a をマージしている。
802.1Q VLAN 対応部分は vlan.1.0.1 をマージしている。

[Appendix]

/*
 * Functions for read ticks on x86 and PowerPC
 */
#if defined (__i386__)
static inline void
rk_rdtsc(unsigned long long *data_p)
{
        __asm __volatile(
                "rdtsc"
                :"=a"(*(int *)(data_p)), "=d"(*(((int *)data_p)+1)));

}
#elif defined (__powerpc__)
static inline void
rk_rdtsc(unsigned long long *data_p)
{
        asm volatile ("0:mftbu 4;mftb %1;mftbu %0;cmpw 4,%0;bne 0b":"=r" (*(int*)(data_p)),
                 "=r" (*(((int*)data_p)+1)): :"r4");
}
#else
#error No method provided.
#endif