AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.26, No.1


アフィン不変な相対位置記述のための力のヒストグラムの利用
The Use of Force Histograms for Affine-lnvariant Relative Position Description

Pascal Matsakis, James M. Keller, Ozy Sjahputera, Jonathon Marjamaa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 1, pp.1-18, January 2004

Keywords: Affine transformations, force histograms, spatial relations, descriptors, invariants, computer vision.

場所や大きさ、あるいは方位に依存しないオブジェクト認識にはアフィン不変な記述子が広く利用されてきた。たとえば、色、テクスチャー、形状の記述子については沢山の例が文献に存在する。しかし、コンピュータビジョンの課題では、画像中の1つのオブジェクトだけとか1つの領域だけを見ればよい訳ではなく、それらの空間的関連を見る必要がある。我々の以前の研究では、2つのオブジェクトの相対位置を定量的に表す方法として、力のヒストグラムを使えることを示した。本論文では、アフィン変換がその記述子に及ぼす影響について調べる。2つのオブジェクトがアフィン変換されると、一方のオブジェクトと他方のオブジェクトとの相対的な位置が変化する。1)印加親和性、2)変換前の(力ヒストグラムによる記述による)相対位置、3)変換後の相対位置などの間のリンクを解析する。ここで、これら要素のうちの2つだけでは3つめの状態は復元できない。さらに、2つの相対位置がアフィン変換によって関連しているかどうかを決定することが可能なことを示す。もし、関連が分からないとしても、未知変換の最良近似となる親和性が検索可能で、その近似精度が評価可能となる。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像森林化変換:理論、アルゴリズムおよびその応用
The Image Foresting Transform: Theory, Algorithms, and Applications

Alexandre X. Falcao, Jorge Stolfi, Roberto de Alencar Lotufo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 1, pp.19-29, January 2004

Keywords: Dijkstra's algorithm, shortest-path problems, image segmentation, image analysis, regional minima, watershed transform, morphological reconstruction, boundary tracking, distance transforms, and multiscale skeletonization.

画像森林化変換(image foresting transform (IFT))とは、結合性に基づく画像処理演算子を設計するためのグラフを利用した手法である。これによって、画素をノード(節)とし、アーク(弧)は画素間の近傍関係を表す、最小コスト経路の森林を定義することができる。従って、ごく自然に、正しく効率的な実装か実現できるだけでなく、異なる演算子同士の関連性が、より良く理解できる。ここでは、IFTの詳細な定義を与え、その計算手続き−Dijkstraアルゴリズムの一般化であるが−を、その正しさの証明とともに示す。また、実装化に関する事柄も議論し、いくつかの応用とともにIFTの用途を図示する。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


トレース変換から得られるアフィン変換不変な特徴量
Affine Invariant Features from the Trace Transform

Maria Petrou, Alexander Kadyrov

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 1, pp.30-44, January 2004

Keywords: Affine invariance, object identification, image databases.

画像解析やコンピュータビジョンにおいて、従来は人間の視覚にとって意味のあるものをベースとするオブジェクトの記述手法が採用されることが多かった。その例としては、細長さ、フラクタル性、コンパクト性などがあるが、オブジェクトの形状を与える名称についてはほとんど提案がなかった。しかし、一旦、人間中心の見方を脱すれば、オブジェクトを記述する特徴量の数に制限は無くなる。それらは単なる数値列だけである。トレース変換とはラドン変換の一般化したものであり、任意の画像変換に対して不変な画像特徴量を構成することが可能となる。本論文では、アフィン変換不変な特徴量を計算するための画像変換から計算可能な方法論と、これに適した関数を提案する。、これから構成した画像記述子の有用性を画像検索の実例で示し、他の最新の検索手法と比較する。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多視点パノラマ画像からのステレオ再構成
Stereo Reconstruction from Multiperspective Panoramas

Yin Li, Heung-Yeung Shum, Chi-Keung Tang, Richard Szeliski

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 1, pp.45-62, January 2004

Keywords: Multiperspective panorama, epipolar geometry, stereo, correspondence, tensor voting, plane sweep stereo, multibaseline stereo.

本論文では、360度のパノラマ画像を計算する新規な方法を紹介する。我々の手法は、平面的な同心円状の動きに限定させたカメラで撮影さえれた多量の画像を利用する。我々の手法では、通常の遠近を持った画像を再投影して多方位のパノラマ遠近画像を合成し、これから直接深さ情報を持った画像を算出する。本手法によるパノラマ画像では、回転角度、半径距離逆数、垂直高度の3次元の中を均質にサンプリングする。多視点パノラマ画像を利用することで、従来法による原画像で問題となる隣接画像間のオーバーラップ領域の制限が緩和される。この手法は異なる地点から撮影した画像による単一遠近画像のステレオマッチングの制約条件であるエピポーラ性とは異なる。この多視点パノラマでは、エピポーラ幾何の1次近似である、水平線から成っている。従って、従来のすべてのステレオアルゴリズムを多視点パノラマに応用できる。本論文では、2つの構築アルゴリズムを紹介する。その1つ目は円筒状にカメラを掃引(sweep)する方法で、少数の多視点遠近画像を利用して、高密度の3Dが再構成できる。第2のアルゴリズムでは、第1の手法と異なって、多数の多視点遠近画像パノラマ画像を利用するだけでなく、これらの画像が近似的に水平エピポーラ幾何を保存していることを利用する。この手法では新規で効率的な多数の1D画像の基線を使ったマッチング法を利用し、次に深さ面を抽出するためにテンソル投票を実行する。実験によってこの手法は、同様な高品質の深さマップが得られ,視野情報の内挿のような応用に利用可能であろう。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スマートな非線形拡散:確率的手法
Smart Nonlinear Diffusion: A Probabilistic Approach

Yufang Bao, Hamid Krim

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 1, pp.63-72, January 2004

Keywords: Nonlinear diffusion, stochastic flow, particle system.

本論文では非線形な拡散方程式を使った画像フィルターの確率的解釈を提案する。これは進化/平滑化に関する問題と、ランダム処理に内在する遷移確率分布密度を追跡する問題とを関連づけることによって達成される。たとえばPerona-Malik方程式の解釈によって、代わりに、もっと深い洞察が可能となるだけでなく、十分な柔軟性によって、非線形の拡散問題のようなさらに未解決の問題の解釈が可能となる。特に、制約条件を除去した上にその方程式の利点を挙げると、既存の方式よりも高効率であることが実証された新方式を提案できる。さらに大きな利点は、データを加工することなく、積年の課題であった非線形な進化方程式の計算をどこで止めるかという停止基準を示すことができる。具体的な画像強調とセグメンテーションの実証例がされている。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


偏向画像対からの透明表面のモデル化
Transparent Surface Modeling from a Pair of Polarization Images

Daisuke Miyazaki, Masataka Kagesawa, Katsushi Ikeuchi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 1, pp.73-82, January 2004

Keywords: Shape, computer vision.

ここでは透明な表面形状を測定するために偏向フィルターを利用する方法を提案する。一般的に物体表面から反射した光は部分的に偏向している。偏向度合いは入射角度に依存し,従って表面の法線に依存する。従って、表面各点の偏向度合いを測定することで表面の法線が得られる。残念なことに、偏向角度と表面の法線は1対1には対応しない。正確な表面法線を求めるには、曖昧性問題を解く必要がある。本論文では特に2つのオブジェクトの偏向度合いを比較することで、表面の法線の曖昧性が解決できることを示す。つまり、垂直方向と微小角度ずれた方向の。さらにオブジェクトの幾何学的特長量について議論し,同一点の2組の偏向データのマッチング方法を論じる。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所的解読による再構成を利用した超解像の原理的限界
Fundamental Limits of Reconstruction-Based Superresolution Algorithms under Local Translation

Zhouchen Lin, Heung-Yeung Shum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 1, pp.83-97, January 2004

Keywords: Superresolution, reconstruction-based algorithms, conditioning analysis, fundamental limits, magnification factor.

超解像とは元々読み取られた画像よりも高解像で復元する技術である。このような手法による解像度の改善は、現実的にはきわめて限られている。そのため、以下の課題研究の重要性が増す;“超解像には原理的な限界が存在するのか?”本論文では、超解像アルゴリズムの主要な方式である、再構成に基づくアルゴリズムに着目する。これは画像形成プロセスをシミュレートすることで超解像画像を計算する方法である。低解像画像の局所的解釈ができたと仮定したとき、合成画像であっても実画像であっても、再構成アルゴリズムの明白な限界を決定しようとする最初の論文である。線型の摂動理論を利用して、係数行列の条件解析から超解像限界を求める。さらに、限界を求めるのに十分な数の低解像画像がいくらであるかを決める。この解析結果を検証するため、合成画像と実画像の両方の実験を行った。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サイズ一定化を目的とするカメラ画像の遠近変換とアフィン変換を利用した動的ズーム制御
Reactive Control of Zoom while Fixating Using Perspective and Affine Cameras

Ben Tordoff, David Murray

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 1, pp.98-112, January 2004

Keywords: Terms--Active vision, zoom control, fixation, tracking, self-calibration, perspective projection, affine projection.

オブジェクトが動くとき、これを追跡する作業はカメラマンの重要な仕事であるが、その際、オブジェクトのサイズが一定になるような追跡方法について考察してみた。本論文は、動くオブジェクトのサイズを一定に保つように、レンズのズームを制御するための動的制御法を備えた応答カメラについて述べる。第1の方法は遠近投影を仮定し、焦点距離と画像の深さに比を保つようにする方法である。応答カメラは回転だけが可能であり、静的な背景に対して撮影された点を追跡することで、自己較正が可能である。動きアルゴリズムから平面状の構造を抽出し、前景の深さ情報を算出する。前景と背景の区別には、観察されている2つの異なる中間的画像が、背景と前景のどちらに属するかを決める。サイズ設定点は、観測された平面状構造の変換によって更新されていく。この平面を利用する方法は実画像で実演することができる。しかし、シミュレーション画像からの推察によれば、これを実際の画像やノイズレベルから想定すると、3Dに拡張することには問題がある。第2の方法はアフィン変換を想定している。カメラの自己較正は想定してないので、ズームカメラの動きは自由である。サイズ一定化は変換によって更新されるが、この場合は因子分析によって復元されるアフィン変換によってなされる。投影行列の解析によってアフィン変換の底の相対サイズを異なる方位画像として色々な方法で得られるため、これらの底を1に規格化できる。いろんな手法が比較され、動的カメラで得られた実画像で最高のものを我々の制御可能なズームレンズに組み込み、見て動かすとか、連続的操作に適している。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクト認識のためのカラー不変量からのロバストヒストグラム構成
Robust Histogram Construction from Color Invariants for Object Recognition

Theo Gevers, Harro Stokman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 1, pp.113-118, January 2004

Keywords: Object recognition, color invariants, noise robustness, histogram construction, noise propagation, kernel density estimation, matching.

効果的なオブジェクト認識体系は測光色の不変量のヒストグラムを底とする表現やマッチングを基本としている。しかしこの欠点は、ある種の色不変量はセンサーノイズによって不安定なことである。このような不安定な色のノイズの影響を抑えるために、本論文では色々なカーネル密度推定器によってヒストグラムが計算される。可変カーネル密度推定を基本に沿って行うためには、センサーノイズのカラー不変変数を介しての伝播モデルを提案する。その結果、各色ごとに付随する不変値の不確定性が求まる。この付随不変量は、ロバストなヒストグラム構成の目的で可変カーネルのパラメータ化に利用できる。経験的には、ここに提案する密度推定器と従来のヒストグラム手法を比較し,オブジェクト認識目的には本方式の利点が確認された。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単純閉曲線への位相的に忠実なフィッティング
Topologically Faithful Fitting of Simple Closed Curves

Daniel Keren

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 1, pp.118-123, January 2004

Keywords: Implicit fitting, topologically faithful fitting, Jordan-Schoenflies theorem.

曲線を直接表現(陰関数)するよりも、間接表現するほうが便利なことがあるが、その例としては曲線の内側と外側の判定などがある。しかし、特別な場合は別として、位相情報を保存することが保証されているような間接表現曲線の作り方は知られていない。その結果、曲線に対して、点が内外どちらに存在するかの判定を誤ることもあるであろう。本論文は、平面の自己同形写像(homeomorphic mapping)を利用してこの問題を解決する方法を示す。もしそのような写像が、曲線を単位円に写像するのであれば、単位円の内側の点だけがその曲線の内側であることになる。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンライン手書き文字体系の認識
Online Handwritten Script Recognition

オンライン手書き文字体系の認識

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 1, pp.124-130, January 2004

Keywords: Document understanding, handwritten script identification, online Fi document, evidence accumulation, feature design.

手書き文字の自動認識は、多言語の自動筆記や、特定の綴りの文書をウェブから検索する場合に有用である。手書き文字入力の可能な携帯デバイスの普及に伴い、手書きデータを効率的に解析し検索するための用途が拡大してきた。本論文はオンライン手書き文書体系(単語や行)を6つの主要な文字に分類する方法を提案している;アラビア文字、キリル文字,梵字、漢字、ヘブライ文字、ローマ字。分類には11個の空間的時間的特長量を単語のストロークから抽出した。提案したシステムは、全体として87.1%の単語レベルの正解率を示した。これは13,379単語の5重交差検定によって求めた。分類精度は、テストサンプルが5つに増えると精度は95%に上昇し、平均7単語のテキスト行全体をテストサンプルとすると95.5%となった。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2次元PCA:外観に基づく顔表現と顔認識
Two-Dimensional PCA: A New Approach to Appearance-Based Face Representation and Recognition

Jian Yang, David Zhang, Alejandro F. Frangi, Jing-yu Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 1, pp.131-137, January 2004

Keywords: Principal Component Analysis (PCA), Eigenfaces, feature extraction, image representation, face recognition.

本論文では、2次元主成分分析 (2DPCA)と呼ばれる画像表現のための新しい手法を開発した。PCAと異なり、2DPCAは1次元ベクトルではなく2次元行列に基づいている。したがって画像行列は、特徴量抽出に先立ってベクトルに変換する必要が無い。その代わり原画像から直接画像共分散行列を作ることができ、その固有ベクトルは画像特徴量の抽出に利用できる。2DPCAを確かめ、その効力を評価するために、3つの顔画像データベース;ORL, AR, Yaleデータベースに対して行った。こら3つのすべてのデータベースに対する認識実験結果は、PCAよりも2DPCAの方が高かった。実験によれば、2DPCAはPCAに比べ、画像特徴量の抽出演算が高速であった。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.26, No.2


グラフカットによる最小化可能なエネルギー関数の性質
What Energy Functions Can Be Minimized via Graph Cuts?

Vladimir Kolmogorov,Ramin Zabih

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.147-159, February 2004

Keywords: Energy minimization, optimization, graph algorithms, minimum cut, maximum f1ow,Markov Random Fields

過去数年間、コンピュータビジョンのエネルギー最小化問題を解くためにグラフカットに基づくいくつかの新規なアルゴリズムが開発されてきた。これら手法はグラフの最小カットがエネルギー最小化となるようにグラフを構築する。しかし、このグラフ構築はかなり複雑で、特定のエネルギー関数だけがうまく当てはまるように特殊化されているため、今日までこの手法の利用は限られていた。本論文ではグラフカットによって最小化されるようなエネルギー関数の特徴付けをしよう。この結論はバイナリー(2値)変数を有する関数に限られている。しかし、この研究によって従来の成果を一般化することができるし、ステレオ問題、動きに関する問題、画像復元問題など、ラベル数の大きなコンピュータビジョンの問題に応用できる。我々はどのようなエネルギー関数がグラフカットによって最小化可能であるかの詳細な特徴づけをするが、そのとき対象とするエネルギー関数は、3個以下のバイナリー変数を有する関数の和で表せるものとする。また、このような最小化可能なエネルギー関数の汎用目的のための手法を示す。さらに、グラフカットによって最小化可能な任意のバイナリー変数のエネルギー関数の必要条件を示す。最後に、グラフカットによってバイナリー変数のエネルギー関数が持つべき必要条件を与える。グラフカットによってバイナリー変数のエネルギー関数を最適化しようとしている研究者は、我々の結論を利用して、適当なグラフを作ることができるかどうかが決定でき、我々の示す方法に従って適当なグラフが作れるであろう。このソフトウエアは自由に実装することが可能である。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ラベル無し集合からアトラス生成するための教師無し学習
Unsupervised Learning of an Atlas from Unlabeled Point-Sets

Haili Chui, Anand Rangaraian, Jie Zhang, Christiana Morison Leonard

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.160-172, February 2004

Keywords: Atlases, shapes,point-sets,correspondence,nonrigid,thin plate splines,deterministic annealing,clustering, deformation,mixture models,EM algorithm,unsupervised learning.

変形可能な形状モデル化の最も困難でやりがいのある課題の1つは、ラベル無し形状集合からの意味のある平均形状の推定である。ここに、新規なジョイントクラスタリングとマッチングアルゴリズムを利用して、ラベル無し点集合で表現される多数の形状から平均形状の算出してみよう。反復ブートストラップ法によって、多数の形状サンプル点集合が、3つの意味ある平均的形状へと非剛体整列によって非剛体的に変形する過程を示す。この過程は、原形状サンプル点集合の影響を受けない、完全対称性を持っており、そのため、本手法は医用画像のような多様な形状を持ったアトラス(地図)生成に特に有効である。本手法を応用して、手作業で分離した9個の2Dデータ集合と10個の海馬3D点集合の平均形状を合成した。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分的なグループ化条件が与えられた場合のセグメンテーション法
Segmentation Given Partial Grouping Constraints

Stella X.Yu,Jianbo Shi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.173-183, February 2004

Keywords: Grouping,image segmentation,graph partitioning,bias,spatial attention,semisupervised clustering, partially labeled classification

部分的なグループが予め知られている場合のデータクラスター化問題を考える。このような、バイアスの存在するグループ化問題を、制約付き最適化問題として、定式化する。ここで、データの構造的性質として、グループの良否を定義し,部分的グループ化の手がかりとして、グループ化の可能性を定義する。グループ化のスムーズさと、点データラベル化の正当性評価を実行して見て,疎な部分的グループ化情報が、未ラベル化データに効果的に伝播する様子を示す。特に正規化グラフカット基準を考慮することで、我々の定式化は制約付き固有値問題へとつながって行く。投影行列に対するRayleigh-Ritz 定理の一般化によって、固有値分解による緩和連続領域のグローバル(大局的)最適解が見つかる。これから、離散ラベル付け問題の近似グローバル最適解が効率よく求まる。我々は、顕著な特徴量やオブジェクトの場所を結んだ大雑把な簡略地図を元にして,これを実画像のセグメンテーションに応用した。この手法は画像構造と事前情報とを統合化を単一プロセスで可能とするだけでなく、オブジェクトの知識がなくても、これが背景から分離可能であることを実証した。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ノンパラメトリックな多重スケールにもとづくモデルと、いくつかの画像問題への応用
Nonparametric Multiscale Energy Based Model and Its Application in Some Imagery Problems

Max Mignotte

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.184-197, February 2004

Keywords: Nonparametric multiscale energy-based(or multiresolution example based)model, inpainting,Non Photorealistic Rendering(NPR),segmentation,contour -based shape recognition, shape indexing.

本論文では事例に基づくレンダリングとセグメンテーション法を案出するため、ノンパラメトリックな正則化エネルギー項の利用について調べる。本問題は多重解像エネルギー最小化の枠組みの中で記述し,WeiとLevoyによって提案されたテクスチャー生成問題多重スケール構造を利用してきた。このノンパラメトリックなエネルギー最小化の枠組みでは、計算上では効率的であるはずの、疎から密への再帰最適化手法によって、この階層的モデルに関連するコスト関数の最小化を図る。また、例に基づく正則化項の定式化によって直接的に2つの輪郭形状間の直感的な差異尺度を推測することができる。この尺度によって効率的に形状記述子を定義でき、輪郭にもとづく形状認識やインデックス問題に利用できる。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


漢字のオンライン認識:その最新状況
Online Recognition of Chinese Chariacters: The State-of-the-Art

Cheng-Lin Liu,Masaki Nakagawa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.198-213, February 2004

Keywords: online Chinese character recognition, state-of-the-art,pattern representation, character classification, model learning, contextual processing, performance evaluation

ペンコンピューティングやペン入力装置の増加によって、オンライン手書き認識は再び注目を集めつつある。漢字(日本以外の漢字も含む)の認識は西欧の手書き文字認識とは異なって特別の困難さがある。現状の技術的概観をするだけでなく、将来の研究を刺激することを念じ、本論文では、特に1990年代に注目してオンライン漢字認識を見直してみよう。1980年代と異なり、1990年代は、書き順とか、画数とか、分かち書きなどの手書き上の制限を更に取り除くことに注力された。また、手書き文字の対象も、実用的観点によって、普通の手書き書体から、くずれた書体へと変化した。このレビュー研究では、パターン認識、文字識別、学習/適応化、前後関係の利用、の観点からなされた。重要な結果について比較検討し,将来の研究の方向に着いて考察した。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Nystrom法によるスペクトル分類
Spectral Grouping Using the Nystrom Method

Charless Fowlkes, Serge Belongie, Fan Chung, Jitendra Malik

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.214-225, February 2004

Keywords: lmage and video segmentation, normalized cuts, spectral graph theory, clustering, Nystrom approximation

Spectral graph 理論(訳注:グラフの構造を「ラプラシアン行列(下記参照)」を用いて行列表現し,その固有値によってグラフの構造を特徴付けるという理論だそうです。http://monod.biomath.nyu.edu/rna/tutorials/spectral_analysis.html)は、画像セグメンテーションの問題に極めて有効であることが最近分かってきた。しかし、この手法は計算コストがかかることから、時空データや、高解像画像のような大規模な問題への「適用は遅れていた」。本論文の寄与は、スペクトル分割に基づくグループ化アルゴリズムによって計算必要量を減少させ、大規模なグループ化問題への適用を可能にしたことにある。この手法はNystrom法として知られている固有値問題の数値解に基づく方法である。この手法によってごく少数のサンプルだけで、外挿によって全体のグループ分けをすることができる。この結論から、我々は画素に比べてはるかに少数の整合性のあるグループが存在するという事実がわかる。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


航空ビデオ画像から合成される一般化された平行遠近画像のステレオモザイク法
Generalized Parallel-Perspective Stereo Mosaics from Airborne Video

Zhigang Zhu, R. Harison, Edward M. Riseman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.226-237, February 2004

Keywords: Mosaicing, stereo vision, visual representation, epipolar geometry, image registration, view interpolation, airborne video analysis.

本論文では自動的に、かつ、効果的に、航空機に搭載したビデオカメラから撮影された画像をシームレスにつなぎ合わせてステレオモザイク画像を合成する新規な方法を紹介する。平行な遠近画像を利用することで、完全に一般性を保った状態で幾何学的に位置あわせされたステレオモザイク画像が正確に構成される。ステレオモザイク画のための新規な平行光線内挿を提案し、明らかに視差がある場合でも、任意の情景画像でも有効である。平行遠近画像ステレオモザイク化手法は遠近ステレオ法に比べて深さ方向の精度が高いが,それは適応的な線画に基づく幾何学に基づいているからである。また、前回の平行遠近画像によるステレオ画像には一定の深さ誤差が混入していたが、ステレオモザイク化法における深さ誤差は、情景画像の絶対深さの線型関数であると結論付けられた。長時間のビデオ画像系列に対する結果も示されてる。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3D medial axis pointの形式的識別とその局所的幾何学
A Formal Classification of 3D Medial Axis Points and Their Local Geometry

Peter Giblin, Benjamin B. Kimia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.238-251, February 2004

Keywords: 3D medial axis, skeleton, shocks, curve skeleton, order of contact, local form, media topology, ridges, generalized axis.

本論文は、曲面に2点以上で接する最大半径球の中心場所の閉領域として定義されるmedial axisの、一般的構造を形式的に導くことで超グラフ骨格表現の新規な3D形状表現法を提案する。各骨格点をその接次数によって類別することで、medial axisが汎用的に5種類の点から構成されていること、これがさらにシート、曲線、点にまとめられる:1)シート(境界付き多様体)とは通常に接する2接球で(A_1)^2と記す(ここで(A_k)^nはn個の異なるn-重接球の意味)座のことである;2)3つのシートの交差点曲線と、3重接球中心の座は(A_1)^3と記され、3)主曲率の大きな方と一致するような接球半径を有する球の中心座であるシート境界;4)準接触球中心、(A_1)^4、および、5)通常に接している1つの球と、より高次に接している球の中心、A_1、A_3。3D medial axisの幾何は、この結果、自由端が1つの曲線A_3のシート(A_1)^2から構成され、これは曲面のリッジに対応し、一般化シリンダー記述が可能なもう1つ別の(A_1)^3をサポートする。A_3曲線は(A_1)(A_3)のみの端点を持ち,ここにおいて(A_1)^3 曲線と出会う。4つの (A_1)^3 曲線は (A_1)^4 点で出会う。この形式的結果から 3D形状のコンパクトな記述が可能となり,(A_1)^4と(A_1)(A_3)点から成るノードmedial axisハイパーグラフ表現に関連している。これは(A_1)^3と(A_3)のノードを結び、(A_1)^2シートのリンクグループ間を超リンク(hyper link)している。ノードにおける局所的幾何記述そのものは、2Dと同様に、形状の性質把握に十分である。このmedial axis ハイパーグラフと半径関数を一緒に考えることで、曲面を一点ずつ再構成する方法が導ける。このように、この情報表現は3D形状を完全に記述することができ、形状の認識、モーフィング、デザイン、変形などに利用するための理論的基礎となるものである。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ディジタル曲線測長器の比較評価
A Comparative Evaluation of Length Estimators of DigitaI Curves

David Coeurjolly, Reinhard Klette

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.252-258, February 2004

Keywords: Length estimator, digital geometry, curve length, multigrid convergence.

本論文は入力されたディジタル曲線の測長器に関する従来法の比較を目的としている。その評価には多重格子による収束法(理論的結果と収束に要する速度)と他の尺度を使っている。また、測長法として勾配を利用した新規な方法も提案し、これと以前提案した線分測長法と多角形法を組み合わせている。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


反復動作の解析:セグメンテーションとイベントの識別
Repetitive Motion Analysis: Segmentation and Event Classification

ChunMei Lu, Nicola J. Ferrier

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.258-263, February 2004

Keywords: Motion analysis, motion classification, event detection

人間の繰り返し動作を取得し、解析し、識別することによる体位ストレス評価は人間工学実践者にとって基本的に重要である。我々は自動的に複雑な動きを単純な線型運動モデルに分解する2閾値、多次元セグメンテーションアルゴリズムを紹介する。全運動を構成するモデル数とか課題実行に要するサイクルなどの事前情報は必要としない。減衰調和運動モデルのパラメータを利用して、各セグメントの簡潔な運動表現が得られた。モデルパラメータを入力し、これをもとにクラスター解析を行いイベント識別が行われた。実験結果は複雑な動作の解析手法の有効性を示している。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


FNSからHEIVへ:二つのビジョンパラメータ推定法の関連
From FNS to HEIV:A Link between Two Vision Parameter Estimation Methods

Woiciech Chojnacki, Michael J. Brooks, Anton van den Hengel, Darren Gawley

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.264-268, February 2004

Keywords: Statistical methods, maximum likelihood, (un)constrained minimization, fundamental matrix, epipolar equation

コンピュータビジョンにおいては画像に基づく正確なパラメータ決定問題がしばしば生じる。最近独立に開発されたこのようなパラメータ推定法にFNS と HEIVがある。FNSと、その核となる HEIVは、本質的には等価であり、共通の基本的方程式を異なる方法で解いている。ある一般的固有値問題を非縮退形式の探索によって解析が進められ、効率的にHEIVアルゴリズムの当該ケースを新規に導いている。本研究は、金谷の再正規化法やHartleyの正規化8点法を含む各種推定器が妥当であることを示し,これらとの関連付けを行い、さらに、従来法の拡張形式と見なすこともできる。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


接線ベクトルを利用した統計的パターン認識の適応性
Adaptation in Statistical Pattern Recognition using Tangent Vectors

Daniel Keysers, Wolfgang Macherey, Hermann Ney, Jorg Dahmen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.269-274, February 2004

Keywords: Statistical pattern recognition, adaptation, tangent vectors, linear models

接線を利用した統計的認識方法を解析的かつ実用的に実装化する。この結果できた適応への合理的な枠組みによって可変性を表現する接線ベクトルを効果的に予測できる。この枠組みによって、手書き文字認識と自動音声認識の2つの実世界のパターン認識結果を改善した。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


回転のみに基づく自己較正の誤差解析
Error Analysis of Pure Rotation Based self Calibration

Lei Wang, Sing Bing Kang, Heung-Yeung Shum, Guangyou Xu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.275-280, February 2004

Keywords: Self-calibration, rotating cameras, error analysis.

回転だけを利用した自己較正法は良く知られているが、これは固有のカメラパラメータを復元するための信頼性のある方法として示されてきた。しかし、実際のところ、この手の自己較正をするにあたり、回転だけの運動与えることはほとんど不可能である。本論文では、復元された、カメラの固有パラメータに、併進運動成分に伴う誤差の影響を解析した。我々は非縮退動きの一対の画像に対する閉形式の誤差表現を導いた。同時に、閉形式の解が存在しない多数の回転に対する誤差の影響も解析し、繰り返し実験による解析を行った。さらに、併進独立な解が、実用的条件下でも存在することを示す。我々の手法は、ある条件下での最小誤差の手法を選択する(もし多数の手法があったとして)ことにも使える。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2D形状識別ににおける隠れマルコフモデルの可能性検討
Investigating Hidden Markov Models' Capabilities in 2D Shape Classification

Manuele Bicego, Vittorio Murino

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 2, pp.281-286, February 2004

Keywords: Hidden Markov Models, 2D shape classification, mode selection, probabilistic learning.

本論文では平面状の形状を曲率係数で表したとき、その識別のための隠れマルコフモデル(HMM)の可能性を調べる。学習時には初期化とモデル選択に特別注意したが、その理由は学習時の影響が大きいことによる。異なるデータ集合によるテスト結果によれば、並進、回転、隠蔽、せん断変形やノイズの印加条件下で正確に識別できた。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.26, No.3


画像に基づく力の測定
Vision-Based Force Measurement

Michael A. Greminger, Bradley J. Nelson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.290-298, March 2004

Keywords: Force measurement, deformable templates, elasticity, nonrigid tracking.

本論文は、線形弾性を有するオブジェクトに加えられた力の分布を画像の輪郭データから測定する方法について示しす。力の測定は線形弾性物体に加えられた力の分布に線形比例して変形した輪郭形状が完全に復元した結果を利用して行われる。この結果から、線形弾性物体を支配する方程式によって変形するテンプレートのマッチング問題に展開できることがわかる。画像中の輪郭にテンプレートをマッチングさせるにはエネルギー最小法が利用される。この画像を使った力の測定法を我々は画像に基づく力の測定法(VBFM)と呼ぶことにする。VBFMはロバスト性が高まり、力の検出がきわめて重要なマイクロ操作や生物操作への応用可能性を持っている。VBFMの有効性はマイクロカンチレバーの梁とマイクログリッパーの両方で示された。カンチレバーに対しては±3 nN以下の感度で、マイクログリッパーについては±3mNの感度がVBFMによって達成された。本方式を実時間処理で応用するために、エネルギー最小化問題による効率の最大化法も考察した。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


筆者に依存しないオンライン手書き文字認識システム"frog on hand"
The Writer Independent Online Handwriting Recognition System frog on hand and Cluster Generative Statistical Dynamic Time Warping

Claus Bahlmann, Hans Burkhardt

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.299-310, March 2004

Keywords: Pattern recognition, handwriting analysis, Markov processes, dynamic programming, clustering.

本論文では筆者に依存しないオンライン手書き文字認識システム"frog on hand"の包括的報告を行う。本研究では、古典的な識別と、訓練手法に焦点をあてよう。これをクラスター生成による統計的ダイナミック時間ワープ法 (CSDTW)と呼ぶ。 CSDTWは一般的性があり、スケーラブルでサイズ可変で系列的(sequential)な対象に対してはHMMに基づいており、これによってクラスター分析と統計的系列的モデル化が統合される。これによって、音声認識や遺伝子処理、ロボティックスなどの系列的データに依存する一般的識別問題を扱うことができる。このような従来の手法と異なり、クラスタリングや統計的系列モデル化法は単一の特徴量空間に埋め込まれていることが多く,密接に関連した距離尺度を利用する。我々はCSDTMを使った"frog on hand"による文字認識実験をUNIPENオンライン手書き文字に適用して見よう。その結果認識精度は従来報告されている他の手書き文字認識システムに比べてきわめて高かった。最後に,"frog on hand"をLinux Compaq iPAQを内蔵しているデバイスに実時間実装したことを報告する。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルコフ編集距離
Markov Edit Distance

Jie Wei

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.311-321, March 2004

Keywords: Edit distance, Markov Random Field, dynamic programming, statistical dependency, text processing, pattern recognition.

編集距離の概念はもともとLevensteinによって何十年も前に開発された概念であるが、これによって2つの記号列間距離の測定が可能になる。これはエレガントなダイナミックプログラミング手続きによって計算できることが分かっている。この編集距離は表現効率と計算効率の点から広い応用範囲がある。より妥当な距離尺度とするために、正規化編集距離が提案された。この線に沿って多くのアルゴリズムや研究がなされ、その結果大変高効率の方式が最近達成されている。しかし、もともとの編集距離には基本的に理解の困難な問題がある。つまり、性質上、文脈非依存であること。これら演算子としては、挿入、削除、交換のようなものが可能であるが、文脈に関しては極めて有用な情報が包含されている対象記号列/パターンの系統的な局所挙動についての考察はなされてこなかった。本論文では、マルコフ確率場の成功に刺激されて、動的プログラミングの枠組み内でマルコフ編集距離(MED)と呼ばれる新規な距離を提案し、マッチング性能の向上のために局所統計依存性を利用した。この枠組みの中で2つの特殊距離尺度が開発された:対象パターン中の部分パターンが元のパターン中の部分パターンの入替えたものになっているような入替えMEDと、局所内容に基づく代入、挿入、削除の影響を受ける干渉MEDの2つについて。その後で、これら2つのMEDに基づく記号列マッチングの応用探索を行った。そこでは有望な実験結果が得られた。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔画像からの眼鏡の自動除去
Automatic Eyeglasses Removal from Face Images

Chenyu Wu, Ce Liu, Heung-Yueng Shum, Ying-Qing Xu, Zhengyou Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.322-336, March 2004

Keywords: Intelligent image editing, find-and-replace, eye region detection, eyeglasses localization, eyeglasses removal.

本論文では、入力された正面顔画像から自動的に眼鏡を取り除くための知的画像編集合成システムを紹介する。もちろん従来の画像編集ツールでも画素レベルの編集によって眼鏡を取り除くことは出来たが、取り除いた眼鏡部分を正しく埋め戻すことは困難な問題であった。我々の手法は眼鏡の存在する場所をオブジェクトレベルで自動的に同定し、1個の部品として取り除き,眼鏡を取り除いた領域を埋め戻す。本システムは眼鏡検出、眼鏡場所同定、眼鏡除去の3つの部分からなっている。まず最初に、目の領域検出、オフライン訓練、によって概略の目の場所が同定され、その結果として眼鏡領域が同定される。次にマルコフ連鎖モンテカルロ法によって事後確率グローバル最適化探索による眼鏡フレーム上のキーポイントを正確に同定する。その結果、新規なサンプルに基づく新規な手法が開発され,眼鏡が除去された画像が合成される。特に今回は、眼鏡顔画像と、眼鏡のない顔画像の対をデータベースから統計的解析と合成法によって学習した。十分な実験の結果、我々のシステムが効果的に眼鏡を除去していることがわかる。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ノイズのあるドキュメント中の印刷テキストと手書きテキストの同定について
Machine Printed Text and Handwriting Identification in Noisy Document Images

Yefeng Zheng, Huiping Li, David Doermann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.337-353, March 2004

Keywords: Text identification, handwriting identification, Markov random field, postprocessing, noisy document image enhancement, document analysis.

本論文ではノイズのある文書画像におけるテキストを同定する問題について述べる。とくに手書きテキストと印刷テキストの分離に焦点を当てる:1)文書中の手書き部分は、訂正であったり、加筆であったり、付加的情報であり、主要な文書内容とは別に処理する必要があり、2)印刷テキストと手書きテキストの分離に要求される手法はそれぞれ大きく異なる。我々が提案する新規な方法ではノイズを別のクラスとみなし、ノイズの分類を選択的特徴量で行うことである。訓練したFisher識別器を利用して印刷テキストと手書きテキストをノイズと区別し、さらに同定した内容の識別を詳細に行う。マルコフ確率場(MRF)に基づく手法を利用して印刷テキスト、手書き、ノイズの幾何学的構造をモデル化し、誤識別を修正する。実験から我々の手法のロバスト性と、ノイズの多い文書画像データでのページセグメンテーション率の向上が見られた。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


フリーズや壁紙の群に基づく周期パターン知覚のためのコンピュータモデル
A Computational Model for Periodic Pattern Perception Based on Frieze and Wallpaper Groups

Yanxi Liu, Robert T. Collins, and Yanghai Tsin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.354-371, March 2004

Keywords: Periodic pattern, frieze group, wallpaper group, symmetry group, lattice, tiles, motifs, gait analysis.

結晶学の群論の数学的理論に基づく、周期パターンの知覚のコンピュータモデルを紹介する。各N次元ユークリッド空間において、有限の対称群から無限の周期パターン構造を特徴づけすることができる。2次元空間では、1方向に繰り返すモノクロパターンを記述する7つのフリーズ模様群が存在し、2つの線型独立方向に繰り返し平面を埋め尽くす17個の壁紙パターン群が存在する。我々は潜在的に存在しているはずの格子を自動的に見つけることによって、与えられた周期パターンを“理解する”コンピュータアルゴリズムの集合を見つけ、対称群を同定し、表現モチーフを抽出した。さらにこのコンピュータモデルを、幾何学的AICを用いて準周期的パターンへと拡張した。このモデルは、パターンのインデックス抽出,テクスチャー合成、画像圧縮、歩行パターン解析などに利用できる。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状空間の測地経路を利用した平面形状の解析
Analysis of Planar Shapes Using Geodesic Paths on Shape Spaces

Eric Klassen, Anuj Srivastava, Washington Mio, Shantanu H. Joshi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.372-383, March 2004

Keywords: Shape metrics, geodesic paths, shape statistics, intrinsic mean shapes, shape-based clustering, shape interpolation.

平面状で閉じた曲線について、曲線の方向関数と曲率関数を利用した曲線の微分幾何表現を提案する。形状は無限次元空間の要素として表現でき、この要素対の差分は、この空間上で2点を結ぶ測地線長を利用して量子化される。形状空間への正接(tangent)を表現するためにフーリエ基底を利用し,次に測地線で結ばれる2地点の正接を解くために、勾配に基づく狙い撃ち法(当たりをつけて、幾つかの点に向けた仮の接線を設定し、評価する)を利用した。Surrey fishデータベースを使って本手法の応用実験を試みた:1)形状変化の内挿と外挿、2)形状に基づくオブジェクトの識別、3)形状空間での統計、4)Bayes法による低品質画像中の形状抽出。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


区分的ガウス混合モデルによる確率的時空ビデオモデル化
Probabilistic Space-Time Video Modeling via Piecewise GMM

Hayit Greenspan, Jacob Goldberger, Arnaldo Mayer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.384-396, March 2004

Keywords: Video representation, video segmentation, detection of events in video, Gaussian mixture model.

本論文では、統計的ビデオ表現とモデル化について述べる。ビデオの表現方法は、ビデオ画像系列中から意味のあるビデオオブジェクトを分離するが、これは後でインデックス付けしたり、検索するために有用である。ここに提案する方法は、ガウス混合モデル(GMM)を使った教師無しクラスタリングによって特徴空間の整合性のある時空領域を抽出し、これに対応するビデオ画像をビデオ領域から切り出す。このシステムの鍵となる特徴は、ビデオ入力信号を、個々の分離したフレーム系列としてではなく、単一の実体として扱うことである。空間と時間は均一に扱われる。この統計的なビデオの時空表現法は個々のGMM手法にも拡張されるが、ここでは連続するGMM系列がビデオ画像系列毎に抽出されるのであり、ビデオ系列全体に対して単一のグローバルモデルが抽出される訳ではない。この、個々のGMMの枠組みによって拡張ビデオ系列の解析と、非線型、非凸動きパターンの解析が可能となる。抽出された時空領域によってビデオ画像中の事象(イベント)の検出と認識が可能となる。ビデオコンテンツ中の動きのあるビデオ領域から、静的内容を切り出した結果と、ビデオコンテンツ編集結果を示す。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


信頼領域法を利用した実時間追跡
Real-Time Tracking Using Trust-Region Methods

Tyng-Luh Liu, Hwann-Tzong Chen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.397-402, March 2004

Keywords: Tracking, vision, iterative optimization, trust-region methods.

繰り返しによって最適化する方法は次の2つのクラスに分割することが可能である: 線分探索法と信頼領域法。線分を発見する方法は多くの画像応用問題に見られるが、信頼領域法についてはあまり注目されていない。線分探索法は、信頼領域法の特別な場合であるということから、実時間追跡において信頼領域法の枠組み確立を提案する。そのためには3つの鍵となる寄与が必要となる。第1に信頼領域追跡法は従来より効果的であり、線分探索法に基づく平均シフト追跡器による逐次的追跡結果と比べて効率が優れている。第2に、オブジェクトのカラー確率分布とエッジ密度情報を統合するための共分散楕円から2つの連動重み付き手法を利用した表現モデルを定式化した。その結果、このシステムは回転、連続空間での非均一スケール化について記述が可能となったが、特定の値を有する回転角度やスケールは必要ない。第3に、この枠組みは極めて柔軟性があり,色々な距離関数を扱うことができる。実験と比較研究によって、本手法の効率が実証された。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


勾配ベクトルフローによる高速な幾何学的動的輪郭抽出法
Gradient Vector Flow Fast Geometric Active Contours

Nikos Paragios, Olivier Mellina-Gottardo, Visvanathan Ramesh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.402-407, March 2004

Keywords: Boundary extraction, image segmentation, gradient vector flow, geodesic active contours, level set methods, additive operator splitting.

本論文では境界抽出のためにエッジを手がかりとする2方向の幾何学的フローを提案する。この目的のために、測地線actuve輪郭フローと、スネークのための勾配ベクトルフロー外力を組み合わせる。その結果得られた,運動方程式はレベルセット法によって定式化され、従って位相幾何学的な変化や重要な形状変形を扱うことができる。ロバストな挙動を示し、急速収束が可能なフローを実装化するための効果的な数値を利用した。実データ、合成画像による結果から、このフローの潜在能力が実証された。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


強いマルコフ確率場モデル
Strong Markov Random Field Model

Rupert Paget

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.408-413, March 2004

Keywords: Markov processes, contingency table analysis, nonparametric statistics, texture, model development.

強いマルコフ確率場(strong-MRF)モデルは、より一般的なマルコフ確率場ギッブスモデル(MRF-Gibbs model)の 部分モデルである。強いマルコフ確率場(strong-MRF)モデルでは、規定された近傍ではなく、マルコフ場についての系が定義されるが、部分近傍もまたマルコフ場である。強いマルコフ場系では、場についてもっと厳密な仮定が必要となるが,すばらしい数学的性質も持っている。数学的性質の1つは、強いMRFモデルを分布集団(lieque)全体の周辺分布に関して定義することが可能であることである。また、これが、分散分析(Analysis-of-Variance (ANOVA))-log線型性と等価であることを直接証明する。この証明によって、一般的ANOVA-log線型性を導く公式が得られた。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率論的動的サポートベクトル学習アルゴリズム
A Probabilistic Active Support Vector Learning Algorithm

Pabitra Mitra, C.A. Murthy, Sankar K. Pal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.413-418, March 2004

Keywords: Data mining, learning theory, query learning, incremental learning, statistical query model, classification.

本論文は確率論的にサポートベクトルマシン(SVM)を大規模データ用途への能動的学習戦略について述べる。学習戦略は確率論的問い合わせモデル(クエリー。query model)に基づいている。他方,ほとんどの従来の能動的SVMの学習クエリーは現状の境界超平面のどれに近いかによって判定するが、本提案システムでは現状の分離超平面と、新しく定義される適応的確信因子による分布によって決まる点集合に基づいている。確信因子はk近傍原理を利用した局所情報から推定される。この手法の有効性は実データ集合で、一般性、クエリーの複雑度、学習時間について実証された。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


空間分離画像のサンプリングについて
Sampling the Disparity Space Image

Richard Szeliski, Daniel Scharstein

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.419-425, March 2004

Keywords: tereo algorithms, matching cost, subpixel sampling, disparity space image, aliasing.

ステレオアルゴリズム設計の中心課題はマッチング演算にかかるコストの扱いである。多くのアルゴリズムは、整数差分に基づく強度差の2乗か、絶対値を使っている。本論文ではこのような手法の潜在的問題点を取り上げる。2つの対応画像の空間的な連続変位空間で注意深く解析し、対称的にマッチングされた内挿画像信号に基づく幾つかの新規な変形コストを提案する。ステレオ画像を較正用画像(グランドトゥルース)として、色々な変形コストによってその性能を評価した。その結果,適当なサンプリングではマッチング性能が向上した。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最小パラメータによる基礎行列の非線型推定
Nonlinear Estimation of the Fundamental Matrix with Minimal Parameters

Adrien Bartoli, Peter Sturm

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 3, pp.426-432, March 2004

Keywords: Structure-from-motion, bundle adjustment, minimal parameterization, fundamental matrix.

本論文の目的は最小の7個のパラメータを用いて非線型に基礎行列を推定するための非常に簡単な方法を示すことにある。最小パラメータ化する代わりに、我々が正規直交表現と呼ぶ、最新の特異値分解法に基づいている。この手法がどのように2方向からの画像の対応する点特徴量を効率よく束ねることが出来るかを示す。シミュレーション画像と実画像への実験によって、本手法が従来法より少なくとも高速演算可能であることを示す。しかし、冗長度のある手法に比べ、最小パラメータ法は局所最小値につかまりやすい危険性は持っている。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.26, No.4


類似性に基づいたロバストクラスタリング法
A Similarity-Based Robust Clustering Method

Rama Chellappa, David J. Kriegman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 4, pp. 434-448 , April 2004

Keywords: Robust clustering algorithm, fuzzy clustering, alternating optimization algorithm, total similarity, noise.

本稿では、類似性に基づいたクラスタリング法(Similarity-based Clustering Method, SCM)と呼ばれる、反復最適化クラスタリング手法を示す。この手法は効率的且つ頑健であり、近似的な密度分布関数の推定に関連する総合類似性目的関数に基づいたクラスタリングのためのものである。我々はSCMにおけるデータ点が、クラスタの妥当性を検証するための関数や分散共分散行列を使うことなく、局所最適なクラスタ数とその大きさを自己組織することが出来ることを示す。また提案手法はノイズやはずれ値に対しても頑健であり、影響関数と総合エラー感度解析に基づいている。それゆえSCMは以下の3つの頑健なクラスタリングに関する特徴を示す。クラスタに対する頑健性(クラスタ数及び初期推測)、2)クラスタの大きさに対する頑健性(様々な大きさのクラスタを検出する能力)、3)ノイズ及びはずれ値に対する頑健性。いくつかの数値データ、実データを用いてSCMがこれらの良い特徴を持つことを示す。また我々はSCMの計算複雑度についても解析した。いくつかの実験結果により、SCMの従来の手法と比較した際の優位性が示される。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


外観に基づいた顔認識とlight-field
Appearance-Based Face Recognition and Light-Fields

Ralph Gross, Iain Matthews, IEEE, Simon Baker

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 4, pp. 449-465 , April 2004

Keywords: Appearance-based object recognition, face recognition, light-fields, eigen light-fields, face recognition across pose

物体認識アルゴリズム開発における最も重要な判断は、アルゴリズムの基礎となるシーン測量もしくは特徴の選択だろうと思われる。外観に基づいた物体認識では、物体の画像における画素値となるように、特徴が選択される。この画素値は、物体から放出される光のうち、空間中の特定の線に沿う放射輝度に直接対応する。全ての実現可能性のある線に沿った放射輝度の組は、plenoptic関数もしくはlight-fieldとして知られている。本稿ではlight-fieldからの外観に基づいた物体認識の理論を展開する。本理論は即、姿勢変化下における顔認識アルゴリズムになる。このアルゴリズムは1つ以上且つ可能な限りの数の顔画像を使用し、どの画像からの画素情報も均等に扱われ、物体の(固有)light-fieldの推定に使用される。外観に基づいた顔及び物体認識において画素値が使われるのと同じように、この固有light-fieldは、基礎認識のための特徴の組として扱われる。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統計的学習理論を用いた動き推定
Motion Estimation Using Statistical Learning Theory

Harry Wechsler, Zoran Duric, IEEE, Fayin Li, Vladimir Cherkassky , IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 4, pp. 466-478 , April 2004

Keywords: Aperture problem, complexity control, condition number, image flow, model selection, motion estimation, robust learning, statistical learning theory, tracking, visual motion

本稿では、単一の動き推定及び追跡のための、統計的学習理論(Statistical Learning Theory: SLT)の新しい応用について述べる。動き推定に関する問題は、統計モデルの選択に関連する。これは即ち、幾多の可能な動きモデルや、与えられた有限なノイズを含むサンプルから(正解となる)単一のモデルを選択することである。SLTはVapnik-Chervonenkis (VC)理論としても知られ、実用的なモデル選択で成功を収めてきた、モデル選択のための解析的一般化を可能とする。本稿では、SLTに基づいたモデル選択アプローチの成功例について述べる。この応用は、画像測量(flow)の少数のデータセットから最適な動きモデルを推測するという興味深い問題に対するものである。合成画像及び実画像系列の両方に対する、動き内挿及び外挿の実験結果を示す。これらの実験結果は我々のアプローチの実現可能性と利点を示すものである。我々の実験結果は、Akaike's fpe, Schwartz' criterion (sc), Generalized Cross-Validation (gcv), そして Shibata's Model Selector (sms)のような従来のモデル選択法よりも、動き推定の応用に関して我々の方法が有利であることを示す。本稿ではまた、ペナルティ線形(リッジ回帰)定式化SLTに基づいたモデル選択を用いてaperture problem(訳者注:時系列画像系列において、点間の対応が決まらないと動きが認識できない問題)の扱い方も示す。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エッジ追跡による層別化動き分割と奥行き順位付け
Layered Motion Segmentation and Depth Ordering by Tracking Edges

Paul Smith, Tom Drummond, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 4, pp. 479-494 , April 2004

Keywords: Video analysis, motion, segmentation, depth cues

本稿では、動き分割のための新しいベイズ法のフレームワークを示す。このフレームワークでは、画像系列からフレームを分離してレイヤー化する。このレイヤーはそれぞれの動物体を表しており、フレーム間でエッジを追跡することで得られる。Cannyエッジ検出器を使用してエッジを抽出し、期待値最大化アルゴリズムを用いて、動きモデルをこれらのエッジにフィットさせ、それぞれのモデルに従うエッジの確率も計算する。これらのエッジは画像を類似色の領域に分割するためにも用いられる。このエッジ確率をマルコフ確率場形式の事前確率と共に用いて、各領域の最尤ラベルが計算される。それぞれの動きレイヤーの相対的奥行き順序の同定も、処理の統合部分として同様に決定される。二つのフレームを用いて二つの動き(前景と背景)を分離する例を用いて、このフレームワークの効率的実装を示す。更なるフレームへとエッジを追跡することで、この確率は更に正確で頑健な推測となり、画像系列全体を分割するだろう。二つ以上の動きの分割を扱うための、更なる拡張を示す。ここで期待値最大化法を初期化するための階層的方法を述べる。また最小記述長原理を用いて最良の動きレイヤー数を自動的に選択してもよいことも同時に示される。本稿では30以上の画像系列(2つ及び3つの動き)を用いた実験結果が示され、検討される。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚特徴と事後確率最大化推定を用いた、エラー耐性を有する手話単語検索法
Error-Tolerant Sign Retrieval Using Visual Features and Maximum A Posteriori Estimation

Chung-Hsien Wu, IEEE, Yu-Hsien Chiu, Kung-Wei Cheng

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 4, pp. 495-508 , April 2004

Keywords: Taiwanese Sign Language, alternative and augmentative communication, error tolerant retrieval, gesture feature.

本稿は、台湾語手話(Taiwanese Sign Language: TSL)からの手話単語検索に関する、高いエラー耐性を有する効率的なアプローチを提案する。このデータベースは、視覚的ジェスチャー特徴によりタグ付けされ、マルチリストコードツリーとして組織化される。これらの特徴はサインジェスチャーの視覚特性として定義され、これにより記号検索のために索引付けされ、擬人化されたインターフェースを用いて表示される。事後確率最大化推定を利用して、与えられた特徴系列に対する最尤手話単語を検索する。高効率かつ頑健な記号語検索のために相互情報量(mutual information criterion)に基づいたエラー耐性機構を提案する。TSL学習を助けるため、ユーザーフレンドリーな擬人化されたインターフェースも同時に開発された。このシステムの検索精度を調査するため、教育環境においていくつかの実験を行った。われわれのアプローチは、タスクにおいて動的計画法よりも優れ、ユーザーインプットエラーに対する耐性を示した。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多重光源検出
Multiple Light Source Detection

Christos-Savvas Bouganis, Mike Brookes , IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 4, pp. 509-514 , April 2004

Keywords: Computer vision, illuminant detection, Lambertian sphere limitations, image synthesis.

本稿では、V2Rアルゴリズムを紹介する。これは多重光源検出の新しい方法であり、ランベルト球を甦正オブジェクトとして使用する。本アルゴリズムは、球の画像を、仮想的な単一の光源に照らされる領域に分割し、光源ベクトルを推定するために隣接領域の仮想光を差し引く。また本アルゴリズムは、対応する仮想光の頑健な推定のために、該領域内の全ての画素値を利用する。光源検出問題が一意な解を持ち得ない様な環境について詳細に検討し、V2Rアルゴリズムがこの不定さを解消する仕方について説明を加える。V2Rアルゴリズムはクリティカルラインを同定する新しい手順を含む。このクリティカルラインは光源ベクトルおよび反対光対推定のために領域を結びつける。合成画像および実画像を用いて実験を行い、V2Rアルゴリズムの性能を最近の文献にある方法と比較した。この実験結果により、提案アルゴリズムが頑健で、大幅な精度向上をもたらすことが示される。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非厳密なグラフマッチングのための固有空間投影クラスタリング法
An Eigenspace Projection Clustering Method for Inexact Graph Matching

Terry Caelli, IEEE, Serhiy Kosinov

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 4, pp. 515-519 , April 2004

Keywords: Inexact multisubgraph matching, eigendecomposition, eigenspace projections, correspondence clustering, shape matching, random graphs.

本稿では、非厳密なグラフマッチング(グラフのペアの頂点組の間の対応付け)が、頂点の投影の、グラフ対の結合固有空間に対する再正規化と、合理的なクラスタリングを用いて、いかにして解かれるかを示す。この場合では、該正規化は、これらの結合性により定義される。この固有空間再正規化投影クラスタリング法(Eigenspace renormalization Projection Clustering: EPC)の重要な特徴は、比較するグラフの頂点数が一致しない場合でも、グラフマッチング可能であることである。Shockグラフに基づいた形状マッチングを用いてモデルを示し、併せて、ランダムグラフを用いてアプローチの評価を行う、より客観的な方法を探索する。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


隣接パターン分布を用いた劣化モデルパラメタの推定:最適化アプローチ
Estimating Degradation Model Parameters Using Neighborhood Pattern Distributions: An Optimization Approach

Tapas Kanungo, IEEE, Qigong Zheng

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 4, pp. 520-524 , April 2004

Keywords: Degradation models, parameter estimation, direct search algorithms, neighborhood pattern distributions.

合成トレーニングデータの生成やアルゴリズムの性能予測など、画像復元アルゴリズムの設計において、ノイズモデルは決定的な役割を果たす。ここに二つの推定シナリオがある。これらは相互に関連があるが、まったく別のものである。最初のシナリオは校正であり、入力画像である理想ビットマップ、および出力である劣化過程共に既知である。第二のシナリオは一般的な推定問題であり、劣化過程の出力である画像のみが与えられる。モデルの校正問題については、すでに研究者が検討を行ってきたが、一般推定問題に関しては文献に見られない。本稿では形態学的、二値、ページレベル画像の劣化モデルのためのパラメータ推定アルゴリズムをについて述べる。推定アルゴリズムへの入力は、1)劣化画像、2)フォントタイプに関する情報(イタリック、ボールド、serif, sans serif)である。我々のモデルを用いて劣化画像を合成し、合成劣化画像および与えられた劣化画像の局所隣接パターン分布が最も似ることになるパラメータ値を探すことで、最適パラメータを検索した。パラメータ空間は直接検索最適化アルゴリズムを用いて検索される。Kolmogorov-Smirnov test のp{¥hbox{-}}¥rm値を、隣接する二つのパターンの類似殿尺度として用いる。劣化文書画像における我々のアルゴリズムの実験結果を示す。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


クラスタに基づいたツリーを用いたFast N最近傍分類
Fast k-Nearest Neighbor Classification Using Cluster-Based Trees

Bin Zhang, Sargur N. Srihari , IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 4, pp. 525-528 , April 2004

Keywords: Nearest neighbor classification, nonmetrics, metrics, cluster tree.

殆どのfast k{¥hbox{-}}{¥rm{nearest}}最近傍アルゴリズムは、計算量を減らすために距離測量の尺度特徴を使っており、metric, non-metric両方の測量に対して効率的なアルゴリズムは稀である。我々はk{¥hbox{-}}{¥rm{NN}}分類を加速するための、クラスタに基づいたツリーアルゴリズムを提案する。このアルゴリズムは、尺度の形態および非類似性測量の特徴に関するあらゆる前提条件を持たない。早期の意思決定機構と、サーチパス選択のための最小の副次的作業は、アルゴリズムの高効率化に大きく寄与している。本アルゴリズムは、標準NISTおよびMNISTデータベースを用いた拡張可能な実験を経て評価されている。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and MachineIntelligence (IEEE) Vol.26, No.5


局所的な明度、色、テクスチャを用いた自然画像の境界検出の学習
Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues

David R. Martin, Charless C. Fowlkes, Jitendra Malik

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 5, pp. 530-549 , May 2004

Keywords: Texture, supervised learning, cue combination, natural images, ground truth segmentation data set, boundary detection, boundary localization.

本稿の目的は局所画像の測定によって自然画像における境界を正確に検出し特定することである。私たちは自然な境界における明度、色、テクスチャの特有な変化に適合する特徴量を定式化する。最適な方法でこれらの特徴量から得られる情報を統合するために、人間が正解を付した画像を用いて識別器を訓練する。この識別器の出力からそれぞれの画像の位置と方向における境界の事後確率が分かる。我々はprecision-recall 曲線を提案し、結果として検出器が従来の手法と比較して高い性能を発揮することを示す。主要な結論は次の2点である。1) 特徴の組み合わせは単純な線形モデルによって適応的に行われる 2) 適切で明確なテクスチャの処理が自然画像の境界検出に必要である。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ショックグラフの編集による形状認識
Recognition of Shapes by Editing Their Shock Graphs

Thomas B. Sebastian, Philip N. Klein, Benjamin B. Kimia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 5, pp. 550-571 , May 2004

Keywords: Shape deformation, shock graphs, graph matching, edit distance, shape matching, object recognition, dynamic programming.

本稿ではシルエットに基づく物体認識のための新しい枠組みを示す。主要なアイディアは、2つの形状間の距離を一方の形状をもう一方の形状に合わせるために必要な最小限の変形量として算出することである。変形空間は極めて高次元であるため、次のような手続きによって実用的な探索を可能とする。1) ショックグラフのトポロジーに基づいた形状に対して同値類を定義する。2) ショックグラフの遷移に基づく変形路に対する同値類を定義する。3) ショックグラフを縮退させることで、変形路の複雑化を防ぐ。これらの処理によって探索空間を大きく絞ることができるものの、まだ多くの変形路が考えられる。そこで我々は多項式時間で最適な変形路を見つけるショックグラフのための編集距離アルゴリズムを採用する。提案手法は多様な形状に対して直感的な修正を可能とし、また視覚的変形の広い範囲においてロバストである。99と266の形状を有する2つの異なるデータベースにおいてカテゴリーマッチで非常に高い認識率(上位3形状において100%)を示した。これはこの枠組みが形状に基づく認識の応用において有用であることを示している。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔認識のための分数乗多項式モデルを用いたガボールベースカーネル主成分分析
Gabor-Based Kernel PCA with Fractional Power Polynomial Models for Face Recognition

Chengjun Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 5, pp. 572-581 , May 2004

Keywords: Face recognition, fractional power polynomial models, Gabor wavelet representation, Gabor-based kernel PCA method, kernel Principal Component Analysis (PCA).

本稿では、顔画像のガボールウェーブレット表現と顔認識のためのカーネル主成分分析(PCA)の統合による新しいカーネルPCAを提案する。初めにガボールウェーブレットは照明と表情の変化による多様性に対処するため、空間周波数、空間座標、方向から選択的に決定した望ましい特徴を抽出する。より高い顔認識性能を実現するため、カーネルPCAを分数乗多項式モデルを含むように拡張する。しかしながら分数乗多項式は半正定値のグラム行列を定義しない可能性があるため、必ずしもカーネル関数を定義しない。広く使われるカーネル関数(多項式カーネル、ガウシアンカーネル、シグモイドカーネル)のひとつシグモイドカーネルについて言えば、実際に半正定値のグラム行列を定義しない。それでもやはり、サポートベクターマシーンを構築する場合と同様にシグモイドカーネルは実用面で有用とされている。実数のカーネルPCAの特徴を引き出すために、正の固有値に対応するカーネルPCAの固有ベクトルのみを使用する。分数乗多項式モデルを用いたガボールベースカーネルPCAの実行可能性については、FERET とCMU PIE のデータベースにおけるデータセットを用いた正面と角度の付いた顔画像を認識する試験において、実行可能であることが示されている。FERET のデータセットには200人の顔の600の正面画像が含まれており、PIEのデータセットには68人の2つの異なる表情(通常時と笑顔)について、5つを超える角度(左右、左右の斜め前方、正面)で680の画像が収められている。分数乗多項式モデルを用いたガボールベースカーネルPCA の有効性は、絶対的な性能と他のPCA(通常のPCA、多項式カーネルを用いたカーネルPCA、分数乗多項式モデルを用いたカーネルPCA、ガボールウェーブレットに基づくカーネルPCA、多項式カーネルを用いたガボールウェーブレットに基づくPCA)に対する相対的な性能の観点から示される。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3次元線群のマッチングのためのアルゴリズム
Algorithms for Matching 3D Line Sets

Behzad Kamgar-Parsi, Behrooz Kamgar-Parsi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 5, pp. 582-593 , May 2004

Keywords: Line matching, motion estimation, object recognition, pose estimation, 3D registration.

2つの線群のマッチングはシーン抽出、物体認識、動き推定など多くのコンピュータビジョンにおける問題への応用が可能な基本的な道具である。線群は無限長の線または有限長の線分から成る。線群のマッチングには線長に応じて次の3つの基本的なケースがある。1)有限と有限 2)有限と無限 3)無限と無限。ケース2は今まで文献で扱われてこなかった。ケース1、ケース3に対する3次元線群のマッチングのアルゴリズムは完全に満足のいくものはなく、特別な条件下で問題を解く、またはおおよその解を与える、または収束しない、または軸変換に対して不変でない、といったものである。本稿では、これらすべてのケースを一般的な状態で厳密に解くアルゴリズムを提案する。このアルゴリズムは理論的に収束し軸変換に不変である。人工的に生成した3次元画像及び実際に存在する3次元画像に対して実験を行い、その結果を報告する。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


境界推定及び多重スケール解析のためのテンソル投票の1次増分
First Order Augmentation to Tensor Voting for Boundary Inference and Multiscale Analysis in 3D

Wai-Shun Tong, Chi-Keung Tang, Philippos Mordohai, Gerard Medioni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 5, pp. 594-611 , May 2004

Keywords: Tensor voting, first order voting, boundary inference, discontinuities, multiscale analysis, 3D perceptual organization.

多くのコンピュータビジョンの応用では、信頼性の高い境界検出のアルゴリズムが求められている。外れ値、データの欠損、方向の不連続性、物体の重なりの存在により、境界検出はとりわけ難しい。私たちはテンソル投票の枠組みを補強することでこの問題を解決することを提案したが、それは1次の表現と投票を伴う2次特性に限定したものであった。そこで新たに1次投票領域と3次元曲面、体積境界、3次元曲線の終端点に対する投票の機構を定義する。境界推定は自動スケール選択という第二の困難な問題に対しても有用である。私たちは最細部を知覚することのできる最小のスケールを自動的に推定するアルゴリズムを提案する。このアルゴリズムは連続性が保証されるまでスケールの増加を続ける。それ故、提案手法は特徴を過剰に平滑化することがない、もしくはモデルの不適合が発生するまで境界と不連続性の取り扱いを遅らせることがない。曲線・曲面・体積・境界中のデータの知覚可能な構成を実現する統合された表現により、平滑化された特徴、境界、外れ値の相互作用を適応させる。我々は種々のデータセットに対する結果を示し、改良された表現形式の有用性を示す。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


回帰及び分割ノードを持ったモデル木のトップダウン導出
Top-Down Induction of Model Trees with Regression and Splitting Nodes

Donato Malerba, Floriana Esposito, Michelangelo Ceci, Annalisa Appice

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 5, pp. 612-625 , May 2004

Keywords: Inductive learning, linear regression, model trees, global and local effects, regression and splitting nodes, SMOTI.

モデル木は多重回帰モデルを葉に関連付ける回帰木を拡張したものである。本稿ではモデル木のデータ駆動型の構成法を提案し、これを逐次モデル木導出(Stepwise Model Tree Induction; SMOTI)法と呼ぶ。この手法の特徴は次の2つのタイプのノードを持つ木を導出することである。1つは単回帰のみの性能を有する回帰ノード、もうひとつは特徴空間を分割する分割ノードである。各葉に関連付けられた多重線形モデルは根から葉への経路に沿って求まる単回帰を結合することで逐次構築する。この手法では、葉における単回帰が局所的な効果のみである一方、内部回帰のノードは多重モデルの定義に寄与し、大局的な効果を持つ。人工的に生成したデータセットに対する実験結果では、SMOTIはM5'とRETISの2つのモデル木導出システムよりも正確さで高い性能が示された。また回帰木とモデル木の研究によく用いられるベンチマークのデータセットに対する実験結果では、SMOTI はRETIS よりも正確さで高い性能を発揮したが、M5'との比較では統計的に重要な結論を引き出すことができなかった。SMOTI が導出するモデル木は一般に単純で解釈が容易であり、しばしば興味深いパターンを生む。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像中の輪郭の統計モデル
A Statistical Model for Contours in Images

Francois Destrempes, Max Mignotte

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 5, pp. 626-638 , May 2004

Keywords: Contours in images, edge-detection, parameter estimation, unsupervised statistical segmentation, Markov Random Field model.

本稿では、異なる実験により有効性の確認されたグレイスケールの画像中の勾配ベクトル場の統計モデルについて述べる。さらにこの統計モデルを尤度に用いる画像中の輪郭の大局的制約マルコフモデルを示す。このモデルはパラメータ推定のための反復条件付き推定(Iterative Conditional Estimation; ICE)の処理手順に従う。このモデルは模擬焼きなまし法(Simulated Annealing; SA)、反復条件付き最大化(Iterated Conditional Modes; ICM)アルゴリズム、または事後境界最頻値(Modes of Posterior Marginals; MPM)モンテカルロ(Monte Carlo; MC)法を用いて分割される。これはエッジ検出のための3変数の独自の教師なし統計手法を作り出す。この推定・分類手法に対し合計160の画像について検証実験を行った。この検証実験により、そのモデルと推定が対数尤度比率に基づくエネルギー項を要する応用に対し有効であることを示す。さらにエッジ検出において我々のモデルは、準自動の輪郭抽出、形状の局所化、非写実的解釈に利用できる。より一般的には輪郭の統計的尤度を要する様々な問題に有用であろう。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像の偏光解析法と統計的解析法を用いた表面反射の拡散成分と反射成分の分離
Separation of Diffuse and Specular Components of Surface Reflection by Use of Polarization and Statistical Analysis of Images

Shinji Umeyama, Guy Godin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 5, pp. 639-647 , May 2004

Keywords: Probabilistic independence, mutual information, independent component analysis, diffuse reflection, specular reflection, polarization-based methods.

不透明物体の画像はその表面への入射光の反射の観測により形成される。2色の反射モデルは表面反射を拡散と反射の2つの成分の和として記述する。反射成分は拡散成分に比べ通常強度が高く、大きく偏光している。一方、拡散成分は弱く、物体の重なる輪郭を除いて偏光しない傾向にある。したがって、偏光器を回転させながら物体を観察すると、おおよそ定常的な拡散成分と強度の変化する反射成分が得られる。本稿では、異なる方向の偏光器を通して観測した画像に独立成分分析を適用することで、表面反射の拡散成分と反射成分が2つの独立成分として分離できることを示す。我々は人工的に作ったデータに対する分離シミュレーションの結果を示すとともに、いくつかの実データに対する分離実験の結果も示す。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2つの視点からの幾何形状の不変当てはめ
Invariant Fitting of Two View Geometry

P.H.S. Torr, A.W. Fitzgibbon

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 5, pp. 648-650 , May 2004

Keywords: Least squares approximation, least squares method, 3D/stereo scene analysis, motion, camera calibration.

本稿では円錐の当てはめに関するBooksteinとSampsonの手法の拡張について述べる。この円錐の当てはめは、基本行列{¥bf {E}}が決定できる校正がなされている場合、または基礎行列{¥bf{F}}を見つける校正がなされていない場合において、エピポーラ形状を決定することを目的とする。ここでは関係の当てはめが、ユークリッド変換に対して不変であることを前提条件とする。また適切な係数の正規化はひとつであり、この正規化は二次形式を生じさせ、{¥bf {E}}または{¥bf {F}}または任意のホモグラフィ{¥bf {H}}を見つける固有ベクトル法が使用できる。結果この方法は、同形変換に不変であるHartleyの前提条件法のようなエピポーラ形状を推定する従来手法に対して、安定性が改善されるという特長を持つ。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


有限混合モデルの再帰的な教師なし学習
Recursive Unsupervised Learning of Finite Mixture Models

Zoran Zivkovic, Ferdinand van der Heijden

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 5, pp. 651-656 , May 2004

Keywords: Online (recursive) estimation, unsupervised learning, finite mixtures, model selection, EM-algorithm.

有限混合密度を多変量データのモデルに使用する場合、変数の数の選択と初期化という2つの未解決問題が存在する。本稿では混合のパラメータの決定と変数の数の選択を同時に行うオンライン(再帰的)アルゴリズムを提案する。提案手法は多くのランダムに初期化された変数から始まる。事前確率は最大構造化モデルのバイアスとして与えられる。確率的近似再帰的学習アルゴリズムは最大事後(MAP)解を探索し、不適切な変数を切り捨てる。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


適応的擬似等角カーネル最近傍識別
Adaptive Quasiconformal Kernel Nearest Neighbor Classification

Jing Peng, Douglas R. Heisterkamp, H.K. Dai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 5, pp. 656-661 , May 2004

Keywords: Classification, nearest neighbors, quasiconformal mapping, kernel methods, feature space.

最近傍識別は局所的に一定なクラスの状態確率を仮定している。この仮定は高次元では次元の呪いのため不適切なものとなる。これらの状態のもとで最近傍決定則を用いた場合、大きな偏りが発生する。そこで我々はこの偏りの最小化を試みる適応的な最近傍識別法を提案する。本手法では擬似等角変形のなされたカーネルを用いて、より均一なクラス確率を示す近傍を算出する。結果として、識別性能の向上が期待できる。本手法の有効性の検証と、多種のデータセットに対して他の手法との比較を行う。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


物体認識のための画像の最適線形表現
Optimal Linear Representations of Images for Object Recognition

Xiuwen Liu, Anuj Srivastava, Kyle Gallivan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 5, pp. 662-666 , May 2004

Keywords: Optimal subspaces, Grassmann manifold, object recognition, linear representations, dimension reduction, optimal component analysis.

線形表現は画像解析に頻繁に用いられるものの、その性能は特殊な応用を除いてめったに最適になることがない。本稿では外観ベースの物体認識に使用する画像の最適な線形表現を探索する確率的勾配アルゴリズムを提案する。最近傍識別器を用いて、認識評価関数を特化し、性能を最大化する線形表現を見つける。このGrassmann manifold の最適化問題を解くために、intrinsic flowsを用いた確率的勾配アルゴリズムを紹介する。いくつかの実験結果により、このアルゴリズムを説明する。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


外部可視性のVC次元
VC-Dimension of Exterior Visibility

Volkan Isler, Sampath Kannan, Kostas Daniilidis, Pavel Valtr

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 5, pp. 667-671 , May 2004

Keywords: VC-dimension, sensor placement, sampling, visibility.

本稿では、ひとつのカメラから可視であるすべての点で構成されるサブセットの2次元多角形と3次元多面体から生起するセット・システムのVapnik-Chervonenkis (VC)次元について論じる。過去に、カメラを穴のない多角形の中のどこにでも配置できるなら、平面可視システムのVC次元は23であることを示した。そこで本稿では外部可視性について考えることとし、カメラは多角形の外部に拘束されており、全境界を観察しなければならないものとする。ここではカメラが多角形を内包する円(VC次元=2)、または多角形の凸面の外側(VC次元=5)にあるケースの結果を示す。本稿の3次元における主要な結果は、外部可視性の観点から、多面体を含む曲面にカメラが配置されたならVC次元は際限がなくなることである。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.26, No.6


大きな画像歪みと光源変化におけるポイント・マッチング
Point Matching under Large Image Deformations and Illumination Changes

Bogdan Georgescu, Peter Meer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 6, pp. 674-688 , June 2004

Keywords: Correspondence problem, optical flow, color distribution matching, motion tracking, wide-baseline stereo.

画像パッチ間の変換がホモグラフィで表現されるような一般的な点対応問題を解くために、一次差分技術の拡張的な使用に基づく解法を提案する。我々は単一のロバストなM推定フレームワークにおける伝統的な工学的フロー手法と局所色分布のマッチング法についてまとめる。これらの分布は5D結合空間または色空間における空間適応カーネルで計算される。推定過程は局所的な情報のみを使ったガウシアン・ピラミッドの第3レベルから開始され、2つの画像間の光源変化も考慮される。2つの要素のみで達成可能なレベルよりはるかに大きな変形に対してもサブピクセルレベルのマッチングの精度が達成される。応用として、上記点対応アルゴリズムが物体の適用追跡で使われる。

HI

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動きに基づく動きボケの修正
Motion-Based Motion Deblurring

Moshe Ben-Ezra, Shree K. Nayar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 6, pp. 689-698 , June 2004

Keywords: Sharpening and deblurring, inverse filtering, motion, motion blur, point spread function, resolution, hybrid imaging.

カメラの動きによる動作ボケは画像品質を大きく低下する。カメラ動作の経路は任意な経路なので、動作ブレした画像の修正は難しい問題である。この問題を扱った従来手法は動作ブレした画像のブラインド修復(条件がよく分からない状態で適当な仮定の下に修正する方法)、安定したレンズを用いた光学訂正、動作における露光時間を制限する特殊なC-MOS・センサーを利用した方法などが含まれる。この論文では、画像積分におけるカメラ自身の動作を測定できるハイブリッド・カメラを構成する空間解像度と時間解像度間の基本的なトレード・オフを利用する。必要とされる動作情報は積分間のカメラ経路を示す点広がり関数(psf)を計算するために使われる。このpsfは画像を修正するために使われる。ハイブリッド法によって動きを修正する方法の実現性を確かめるために、我々はプロトタイプカメラを実装した。このプロトタイプ・システムは長い露光と複雑なカメラ動作経路を用いた場合の屋外と屋内の違いを評価する。結果、最小限の準備で動作ブレ問題に対してハイブリッド画像が従来手法を凌ぐことを示す。個々のオブジェクトが異なる速度で動き、カメラがグローバルな動きを持つような場合にも適用性が拡張された場合において、簡単な考察と結論を述べる。

HI

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


センサー統合手法による検出と処理手続き決定木
Integrated Sensing and Processing Decision Trees

Carey E. Priebe, David J. Marchette, Dennis M. Healy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 6, pp. 699-708 , June 2004

Keywords: Classification, clustering, adaptive sensing, sequential sensing, local dimensionality reduction.

我々は適応時系列検出に対する手法と分類設定における処理手続きを紹介する。センサー最適化に対する我々の目的は最終的な性能(この場合では、誤分類率)の測定である。統合された検出と処理手続き決定木(Integrated Sensing and Processing Decision Trees :ISPDT)と名づけた我々の手法は、測定可能な属性の小さいサブセットのみが、いつでも観測可能であるセンサーと処理容量の制限において適応時系列検出を最適化する。我々の決定木は木の葉での分類だけに集中するならば、早い段階で測定基準分割に基づく局所次元削減を引き起こすことによる誤分類率を最適化する。我々はISPDT手法と理論上の説明、シミュレーション、実験結果を示す。

HI

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


HMMsと統計的言語モデルを用いた筆記制限のない手書きテキスト・オフライン認識
Offline Recognition of Unconstrained Handwritten Texts Using HMMs and Statistical Language Models

Alessandro Vinciarelli, Samy Bengio, Horst Bunke

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 6, pp. 709-72 , June 2004

Keywords: Offline cursive handwriting recognition, statistical language models, N¥hbox{-}{¥rm{grams}}, continuous density Hidden Markov Models.

この論文は広い語彙の筆記制限のない手書きテキスト・オフライン認識に対するシステムを示す。データについて設けられた唯一の仮定は英語で書かれていることである。これによって我々のシステムの性能を改善するために統計的言語モデルの適用ができる。いくつかの実験は一人、及び複数の筆者のデータ両方を用いて実行した。様々なサイズの語彙(10,00から50,000ワードまで)が使われた。言語モデルの使用はシステムの精度を改善するために示される(語彙が50,000ワードを含む時、誤り率は一人の書き手データに対して50パーセント以下、複数の書き手データに対して25パーセント以下まで減少する)。ここでは手法を詳細に説明し、同じ問題を扱った文献で示された他の手法と比較する。筆記制限のないテキスト認識を正確に扱う実験設定を提案する。

HI

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最小限データによる円運動の幾何構造
Circular Motion Geometry Using Minimal Data

Guang Jiang, Long Quan, Hung-Tat Tsui

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 6, pp. 721-731 , June 2004

Keywords: Structure from motion, minimal data, turntable, circular motion, vision geometry, single axis motion.

円運動または一軸上の運動はコンピューター・ビジョンと3Dモデル獲得のためのグラフィックで広く使われている。この論文は4つの画像における二点だけの最小集合から校正されていない円運動の幾何構造を回復するための新しく、簡単な手法を示す。この問題は従来、3つの画像の基本行列と3焦点テンソルを計算することによってか、5つかそれ以上の画像で追跡された点の円錐をフィッティングすることによって解かれてきたが、そのデータ数は最小ではなかった。二つの異なった空間の点に対しての円運動下で異なった画像における追跡点の2つの集合はホモグラフィによって関連付けられることがはじめて分かった。次に、我々は4つの画像における最小の2点から平面のホモグラフィを計算する。その次に、我々はこのホモグラフィの複素共役固有ベクトル唯一のペアが円運動の平行面の円点画像であることを示す。結果として、全ての他の運動と構成パラメタが率直に、このホモグラフィから計算される。実画像列における実験は新しい手法の簡単さ、精度、ロバスト性を実証する。

HI

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線形次元削減(Linear Dimensionality Reduction : LDR)の不等分散拡張を経た線形次元削減:チェルノフ基準
Linear Dimensionality Reduction via a Heteroscedastic Extension of LDA: The Chernoff Criterion

Marco Loog, Robert P.W. Duin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 6, pp. 732-739 , June 2004

Keywords: Linear dimension reduction, linear discriminant analysis, Fisher criterion, Chernoff distance, Chernoff criterion.

我々は固有ベクトルを使った多クラスデータに対する不等分散線形次元削減(LDR)技術を提案する。この技術はチュルノフ基準と呼ばれるものを活用する不等分散の2クラス技術に基づき、よく知られた線形判別分析が都合よく拡張される。フィッシャー基準に基づく従来法は不等分散データをうまく扱うことができない。2クラスの場合において、クラス間散布は(共)分散における差を捕まえるために一般化される。クラス間散布の古典的な発想はクラス平均間のユークリッド距離に結び付けられる。この観点から、我々の提案する不等分散基準を導出するならば、クラス間散布はチェルノフ距離基準を使うことによって一般化される。最終的に、2クラスからの結果を使って、チェルノフ基準の多クラス拡張が提案される。この基準はクラス共分散行列と同様のクラス平均を与える分離情報と結合する。拡張された実験と類似の次元削減技術との比較が示される。

HI

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


削減された多変量多項式パターン分類器のベンチマーク
Benchmarking a Reduced Multivariate Polynomial Pattern Classifier

Kar-Ann Toh, Quoc-Long Tran, Dipti Srinivasan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 6, pp. 740-755 , June 2004

Keywords: Pattern classification, parameter estimation, pattern recognition, multivariate polynomials, and machine learning.

次元が削減された多変量多項式モデルを用いた新規手法が、簡潔性と使いやすさが問題となるような生物学的決定関数に対して開発されてきた。しかし、我々は削減されたモデルをWebのデータに適用してみて、いくつかの一般的に使われるデータ集合に対する良い分類精度を持っていることに驚かされた。この論文で、我々は多クラス問題を処理するために一出力モデルから多出力モデルへの拡張を行う。本手法は、特徴量が少なく、例の数が大きな問題に対しては特に適している。この多項式モデルの基本的な要素は指数項と積の項を用いた新しい特徴量とオリジナルの特徴量の組み合わせ特徴量と、オリジナルな特徴量の和による新しいパターン特徴量の構成に要約される。その後、最小二乗推定を一般化する線形性がこれらの構成された特徴を使って構築される。再構成された特徴量の項数は完全な多変量多項式の場合には指数法則を持つ代わりに、多項式の次元に応じて線形に変化する。本手法はMATLABコードでたった数行のコードに簡単に表現できる。我々は42個のデータ集合を使ってこの削減モデルにおける拡張実験を行った。我々の結果は文献からのいくつかの共通に使われているアルゴリズムの最良の結果と比較し、これよりもはるかに良い結果を示した。分類精度と効果の特徴の両方がこの削減モデルと対比して示される。

HI

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


5点からなる相対的カメラ位置(姿勢)問題への効率的な解法
An Efficient Solution to the Five-Point Relative Pose Problem

David Nister

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 6, pp. 756-777 , June 2004

Keywords: Imaging geometry, motion, relative orientation, structure from motion, camera calibration, ego-motion estimation, scene reconstruction.

ポーズ問題に関連した古典的5点問題の効率的アルゴリズムの解を示す。問題は5つの一致点を与えられた二つの校正された観測点間の関連付けられたカメラ・ポーズに対する可能な解を見つけることである。アルゴリズムは閉じたフォームにおける10次多項式の係数を計算すること、次にそのルートを見つけることから成る。問題自体の複雑性を持ちながら計算上の実装を考慮する必要のある、初めての問題である。我々はアルゴリズムの数値精度についても調べた。我々はまた、ノイズの存在下での過剰決定ケースと、さらに最小決定ケースでの性能について研究する。この結果は、よく知られた8、7点による姿勢決定法や6点による決定法と比較される。このアルゴリズムは遅延量の少ない実時間動作を推定するためのロバストな仮説検定フレームワークで使われる。実時間システムは画像入力のみが利用され、その結果は主要な学会で実演された。

HI

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テンソル投票法による分割された色とテクスチャー記述推定
Inference of Segmented Color and Texture Description by Tensor Voting

Jiaya Jia, Chi-Keung Tang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 6, pp. 771-786 , June 2004

Keywords: Image restoration, segmentation, color, texture, tensor voting, applications.

劣化した2D画像から失われた色とテクスチャー情報を自動的に推定するためのロバストな合成方法を提案する。同じ手法をオクルージョン(隠蔽)や、欠落、ノイズのある距離データや3Dデータに対して一般化した。この手法はテクスチャー情報を適応的N次元テンソルに変換し、続いて行われる投票によって、N次元テクスチャー空間での最適色を反復処理無しで決定する。上記の2ステップ手法を提案する。最初に我々は不十分な幾何情報、色情報、テクスチャー情報を入力情報として分割を実行し、2Dまたは3Dどちらかのテンソル投票法によって分割境界を推定し、パターン境界を外挿する。失われた色は分割領域毎にN次元テンソル投票法を使って合成される。入力における特徴量のスケールの差異は我々のテンソル・スケール分析によって自動的に適合される。さまざまな難しい入力条件下における結果によって、我々のテンソル投票法アプローチの有効性が実証された。

HI

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


連結成分輪郭と欧米式大文字の特徴を基にしたエッジを使った自動筆者識別
Automatic Writer Identification Using Connected-Component Contours and Edge-Based Features of Uppercase Western Script

Lambert Schomaker, Marius Bulacu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 6, pp. 787-798 , June 2004

Keywords: Writer identification, connected-component contours, edge-orientation features, stochastic allograph emission model.

この論文では、オフライン筆者識別の新しい技術が大文字手書きサンプルにおける連結成分輪郭を使って示される。我々のモデルにおいて、筆者は大文字集合に対する連結成分の種類を作る確率的パターン生成器によって特徴付けられると考える。100人の独立な学習集合から作成したCo^3sのコードブックを使うならば、Co^3sの確率密度関数PDFは150人の未知の筆者を含む独立なテスト集合に対して計算される。結果は大文字の単一文を元にして個々の筆者を識別した場合にCO^3PDFの高い検出感度を示した。ここで提案される自動的手法は、一方の画像による確率的手法と、他方の個々の文字における異文字特徴を手動で計測する2つの異なる方法のギャップを埋めることになる。Co^3PDFと、これと独立な方向性に基づくエッジと湾曲率PDFを結合した方法は非常に高い正解識別率を生み出した。

HI

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


レベルセット動的輪郭分割におけるノイズモデルの影響
Influence of the Noise Model on Level Set Active Contour Segmentation

Pascal Martin, Philippe Refregier, Francois Goudail, Frederic Guerault

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 6, pp. 799-803 , June 2004

Keywords: Segmentation, level-set methods, active contours, minimum description length.

我々は指数型分布族に従う異なったノイズモデルに対する最尤法に基づく領域スネークのレベルセット(レベル集合)法の実装を解析する。我々はこのアプローチがノイズののった画像における分割結果を改善することを示し、正規化項が情報理論に基いたアプローチを使って効果的に決定されることを実証する。たとえば、最小記述長原理である。最適化のための基準はユーザによって調整されるフリーパラメタを必要とせず、単純でない連結成分が含まれるオブジェクトとにも適応した。

HI

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自己適応正規化
Self-Adaptive Regularization

Walter Vanzella, Felice Andrea Pellegrino, Vincent Torre

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 6, pp. 804-809 , June 2004

Keywords: Image regularization, Mumford-Shah, variational methods.

Mumford-Shah汎関数を最小化することによって、しばしば、画像g(x,y)は正規化され、更に復元もされる。正規化された画像u(x,y)の特性は平滑化と忠実性を制御する¥alphaと¥gammaの2つのパラメタ値に依存する。¥alphaと¥gammaが画像全体で一定であり、拡張フィルタがノイズ除去のために使われる時、詳細情報は失われる。この論文では、二つのパラメタ¥alphaと¥gammaが自己適応するかどうかが示される。事実、¥alphaと¥gammaは一定ではないが、画像特徴の局所的なスケールとコントラストに自動的に適応する。この方法で、すべてのスケールのエッジが検出され、境界は十分に特定され、維持される。3面の交差点を保持するためには¥alpha と ¥gamma は局所的に小さくなり、正規化された画像u(x,y) は鮮鋭ではっきりした交差点を保持する。この方法で正規化された画像は、画像セグメンテーションやオブジェクト認識のような以後の処理が継続する場合に適している。

HI

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テンプレート・アップデート問題
The Template Update Problem

Iain Matthews, Takahiro Ishikawa, Simon Baker

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 6, pp. 810-815 , June 2004

Keywords: Template tracking, the Lucas-Kanade algorithm, active appearance models.

テンプレート追跡は1981のLucas-Kanadeアルゴリズムに遡る。しかし、ほとんど注目されなかった一つの疑問点は、追跡されるオブジェクトの良いモデルを残したまま、テンプレートをどのようにアップデートするかである。我々はnaiveアルゴリズムで強調された”drifting”を避けたテンプレート・アップデートアルゴリズムを提案する。

HI

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.26, No.7


局所色対称性からの着目
Focus-of-Attention from Local Color Symmetries

Gunther Heidemann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 817-830 , July 2004

Keywords: Focus-of-attention, color vision, symmetry, saliency maps, object recognition

本論文では、局所色対称性のための連続値測度を導入する。新しいアルゴリズムは、Reisfeldらが提案した濃度値に基づく対称写像の方式を拡張したものである。カラーを使用することで、コントラストだけでは検出することが困難であったオブジェクトの注視点の検出が容易になる。注視点の検出の目的はオブジェクト認識システムのためである。したがって、注視点には安定性、識別性、ユーザビリティの3つを満足することが要求される。これらの基準で提案アルゴリズムの評価を行い、濃度値に基づく対称性測度の手法および他の2つの手法との比較を行う。安定性に関しては、雑音、オブジェクトの回転、および明るさの変化に対するテストを行う。注視点の識別性の尺度としては、注視点を中心とした窓の主成分と、自然画像の大規模データベースからランダムに選択した点を中心とした窓の主成分との比較を行う。最後にユーザビリティに関しては、オブジェクト認識タスクとして評価する。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多重解像度ヒストグラムと認識への利用
Multiresolution Histograms and Their Use for Recognition

Efstathios Hadjidemetriou, Michael D. Grossberg, Shree K. Nayar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 831-847 , July 2004

Keywords: Multiresolution histogram, scale-space, image sharpness, Fisher information, shape feature, texture feature, histogram matching, histogram bin width, feature parameter sensitivity, feature comparison

画像明度のヒストグラムは認識に利用されたり、また映像データベースから画像やビデオの検索に利用されたりしている。しかしながら、単解像度ヒストグラムでは空間的な画像の変動を符号化できないという欠点がある。これを解決するための方法としては、多重解像度ヒストグラムを構成するために1枚の画像から複数の解像度ヒストグラムを求めることが考えられる。多重解像度ヒストグラムは、普通のヒストグラムがもつ望ましい特性の多くをもちあわせており、その中には処理が速いことや、空間使用効率がよいこと、剛体運動に対して不変なこと、更に雑音に対して頑健であることが含まれる。加えて、多重解像度ヒストグラムでは空間情報の符号化を直接行う。本論文では、連続する画像の解像度の違いを利用した多重解像度ヒストグラムに基づく、単純で新しいマッチングアルゴリズムについて述べる。提案アルゴリズムは、広く使われている5つの画像特性で評価を行う。そして、提案する単純な特性を利用した方が、より複雑な特性を利用した場合よりも性能が優れていることを示す。更に、提案アルゴリズムが最も高効率で頑健であることを示す。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般的視覚センサのための姿勢復元に関して
On Pose Recovery for Generalized Visual Sensors

Chu-Song Chen, Wen-Yan Chang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 848-861 , July 2004

Keywords: Computer vision, camera pose estimation, generalized imaging device (GID), perspective n point problem (PnP), nonperspective n point problem (NPnP)

ロボットやマシンビジョンのための画像技術の発展に伴い、ロボットナビゲーションや画像ベースのレンダリングのために新しい画像装置が開発されてきた。しかしながら、画像解像度や視野などの設計基準を満足するために、これらの装置が遠近法の法則に従うようには必ずしも設計されていない。したがってイメージング・レイが共通の点を通らない可能性がある。このような一般的な画像装置は遠近法に従ったものでない可能性があるため、装置の姿勢を従来技術で推定することは困難である。本論文では、一般的な画像装置の姿勢を推定するための方式を提案する。本論文では、姿勢の推定を非遠近法n点問題(nonperspective n point problem: NPnP)として定式化する。特に厳密解 n=3 の場合については包括的に研究を行った。また、n>3においては、初期姿勢推定の処理と直交反復処理を組合せることで最小2乗法により近似解を見つけることができる。本手法は、非遠近法の画像装置だけでなく、遠近法に従った画像装置にも適用することができる。そして実験の結果から、提案方式ではNPnP問題を厳密に解くことができることを示す。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時間変化する照明下での肌色に基づく映像切り出し
Skin Color-Based Video Segmentation under Time-Varying Illumination

Leonid Sigal, Stan Sclaroff, Vassilis Athitsos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 862-877 , July 2004

Keywords: Color video segmentation, human skin detection, dynamic Markov model.

本論文では、映像における実時間肌切り出しのための新方式を述べる。この方式は、追跡中の照明変化が大きい場合でも肌切り出しを可能にする。肌色(HSV)ヒストグラムの時間変化を予測するために、2次のマルコフモデルを利用している。ヒストグラムは、その時間における切り出し部分とマルコフモデルの予測からのフィードバックに基づいて動的に更新される。各フレームにおける肌色分布の変化は、色空間における平行移動、スケーリング、回転のパラメータで表される。ヒストグラムの整形および再標本化によって、その分布の幾何学的パラメータにおける変化が結果として伝播される。離散時間の動的マルコフモデルのパラメータは最尤推定を用いて推定し、その値は時間とともに変化する。動的肌切り出しの新アルゴリズムの精度については、静的な色モデルの場合の精度との比較を行う。切り出し精度については、予備実験及び一般映像から得られたラベル付けされた正解映像を用いて評価を行った。21個のテスト映像のうち17個で、切り出し精度を24パーセントまで向上することができた。1つを除いたすべてのテスト映像において、静的な切り出し手法の精度に匹敵する背景識別率にともない提案システムの肌色識別率は向上した。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


表面再構成のための高次非線形事前確率
Higher-Order Nonlinear Priors for Surface Reconstruction

Tolga Tasdizen, Ross Whitaker

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 878-891 , July 2004

Keywords: Surface reconstruction, robust estimation, anisotropic diffusion, level sets

雑音や不完全なレンジデータを伴う表面再構成問題に対して、ベイズ推定手法は表面の質全体を向上することができる。表面推定のためのベイズ手法は尤度と事前確率に依存し、尤度により表面推定は入力データに束縛され、一方、事前確率は表面が滑らかもしくは連続的であることを保証する。本論文では、表面再構成のための新しい高次非線形事前確率を導入する。提案する事前確率では、結合部位や雑音を含む表面を滑らかにすると同時に形状や幾何学的特徴を保存しており、それは異方性拡散のような画像処理におけるエッジ保存方式の一般化になっている。厳密解を得るためには、従来の数値計算手法では困難な4次の偏微分方程式(partial differential equation: PDE)を解く必要がある。提案手法は2つの2次偏微分方程式のカスケード方式を解く方法であり、それはもとの4次偏微分方程式を解く場合と類似したものになっている。この方式は、表面の画像処理の一般化には表面の法線をフィルタリングする必要があるという実験結果に基づいている。本方式では、法線処理のために1つの偏微分方程式を解き、また法線にもとづいて表面を再修正するために1つの偏微分方程式を解いている。更に、レベル集合を用いて随伴表面の変形を行っている。したがって提案アルゴリズムでは、非常に複雑な形状を任意でかつ変化するトポロジーに適応させることができる。本論文では数学的定式化を行い、数値計算アルゴリズムについて述べる。また距離データと医療データに適用した実験結果も示す。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


1次元オブジェクトによるカメラ較正
Camera Calibration with One-Dimensional Objects

Zhengyou Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 892-899 , July 2004

Keywords: Camera calibration, calibration taxonomy, calibration apparatus, 1D objects, singularity, degenerate configuration

カメラ較正はコンピュータビジョンや写真測量の分野で広く研究されており、その中には3D装置に関する方式(互いに直交する2つないし3つの平面、もしくは単純に平行移動した平面など)、2次元オブジェクトに関する方式(動きが未知の平面パターン)、および0次元特徴量に関する方式(未知のシーン点を用いた自動較正)がある。本論文では1次元オブジェクト(直線上に並んだ点)を用いた新しい較正方式を提案する。特に、自由に動かせる1次元オブジェクトではカメラ較正を行うことはできないが、1点を固定すれば較正を行うことができることを示す。1次元オブジェクトのように観測点が6個以上得られれば、closed-formの解が得られる。更に精度を高めるために、最尤推定基準に基づく非線形技術を用いて推定の改善を行っている。また特異性に関しても検討を行ってきた。理論的な側面に加えて、較正を行う複数のカメラが互いに別々に設置されるとき、また較正オブジェクトを同時に見る必要がある場面など実用の面においても提案方式は有力な方式である。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最適特徴選択のための高速分岐限定アルゴリズム
Fast Branch & Bound Algorithms for Optimal Feature Selection

Petr Somol, Pavel Pudil, Josef Kittler

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 900-912 , July 2004

Keywords: Subset search, feature selection, search tree, optimum search, subset selection, dimensionality reduction, artificial intelligence

本論文では、分岐限定法を用いた最適な特徴部分集合の選択のための新しい探索法を導入する。基準値を推定するための単純なメカニズムにより、計算を遅くする原因となる評価値を避けることで計算時間を大幅に減少することができる。本論文では、再帰的および非再帰的基準の利用に適した予測メカニズムの2つの実現方法をそれぞれ提案する。いずれのアルゴリズムも、他の分岐限定アルゴリズムを用いた場合よりも数倍高速に最適解を見つけることができる。探索問題の性質上、アルゴリズムの計算効率は重要であるため、分岐限定アルゴリズムの探索性能に影響を与えるような他の要因についても調査する。分岐限定アルゴリズムの計算速度が、特徴間の多様性、異なる部分集合に関する特徴の不変性、および特徴集合のサイズに依存する基準関数に強く依存することを一連の総合基準を用いて示す。探索がかなり高速化される(線形時間で終了する)ような場合を明らかにし、更に最悪条件の場合も明らかにする。そして確率距離基準を用いて行った3つの実データ集合の実験結果により提案法を検証する。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人肌を表現するパラメータを復元するのためのスペクトルフィルタ最適化
Spectral Filter Optimization for the Recovery of Parameters which Describe Human Skin

Stephen J. Preece, Ela Claridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 913-922 , July 2004

Keywords: Color, image analysis, spectral filters, optimization, skin color, medical imaging.

本論文では、正常な肌組織を特徴付ける組織構造パラメータに関連する誤差を最小化するようなスペクトルフィルタを求めるための手法を提案する。肌の配色の物理モデルを用いることで、肌のデジタル画像からこれらのパラメータを復元することができる。画像データと組織構造パラメータとの関係は、画像空間からパラメータ空間へのマップ関数として定義される。この関数の精度は光フィルタの選び方で決まる。最適フィルタを求めるための最良基準は、微分幾何学の方法論と統計的誤差解析を結びつけることで定義する。最適フィルタに関する誤差の大きさが、人肌の配色の3パラメータモデルにおける典型的なRGBフィルタの場合の半分になることを示す。最後に、この汎用的な方式を適用可能な他の医療画像についても検討する。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ポリゴンのための新しい凸測度
A New Convexity Measure for Polygons

Jovisa Zunic, Paul L. Rosin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 923-934 , July 2004

Keywords: Shape, polygons, convexity, measurement.

凸推定は形状の解析で一般に利用されている。本論文では、ポリゴンに分割した平面領域のための新しい凸測度を定義し、その評価を行う。新しい凸測度は“境界に基づく”測度として理解することができ、“面積に基づく”凸測度と呼ばれるものよりも境界の欠陥に対して敏感である。形状の凸包のユークリッド周囲長と形状のユークリッド周囲長の比として定義した凸測度と比較した場合、新しい凸測度は特に孔ありの形状に対して利点をもつ。新しい凸測度には次のような好ましい特徴がある:1)推定した凸測度は常に(0,1)の範囲の値をとる、2)推定した凸測度は形状が凸であるとき、かつそのときに限って1になる、3)推定した凸測度には0に近い任意の値をとるものが存在する、4)新しい凸測度は相似変換に関して不変である、5)新しい凸測度を計算するのに単純で高速な計算方法がある。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線画における矢印検出の新方式
A New Way to Detect Arrows in Line Drawings

Laurent Wendling, Salvatore Tabbone

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 935-941 , July 2004

Keywords: Arrow symbol recognition, geometric properties, criteria aggregation, Choquet integral

本論文では線画における矢印検出の新方式を提案する。ショケ積分を用いて得られた一連の基準を与える。これらの基準は矢印の幾何学的特徴から定義する。そして2種類の線画文書に適用した実験結果を示し、提案方式の有効性を示す。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ミラーピラミッドを用いた多視点パノラマカメラ
Multiview Panoramic Cameras Using Mirror Pyramids

Kar-Han Tan, Hong Hua, Narendra Ahuja

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 941-946 , July 2004

Keywords: Panoramic cameras, mirror pyramids, catadioptric systems, omnidirectional imaging and video capture, multiview panoramic imaging, stereoscopic cameras.

ミラーピラミッドは、対称軸の周囲に錐体を形成するように配置された平面鏡で構成されている。通常のカメラをミラーピラミッドの周囲に配置することで、カメラの鏡像の視点をピラミッド内部に、かつパノラマ視野になるようにバーチャルカメラを効果的に形成するための方向を指し示す光軸上の1点に位置づけることができる。ミラーピラミッドに基づくパノラマカメラには好ましい特性が多く、それには単一視点画像処理、高解像度、ビデオレートキャプチャが含まれる。また多視点パノラマビデオレート画像を同時に処理できるようコンパクトに設計すれば、1つのミラーピラミッドの内部に複数の視点を置くことも可能である。ミラーピラミッドカメラの基本的なアイデアに関しては、Nalwa [本文リファレンス4] が最初に述べている。本論文では、多視点パノラマカメラの一般的クラスを解析するとともに、これらのカメラの設計方法を述べ、更に単一ピラミッドの多視点設計を確認するたの試作を用いて行った実験結果を示す。まず撮像幾何を含めたミラーピラミッドについて解説し、概念を説明するシミュレーションによりピラミッド内部の視点の配置とカメラの視野(field of view: FOV)との関係を調べる。また、ミラーピラミッドに基づく多視点パノラマカメラにおいて、センサ性能を最大にするための方法についても説明する。更に2視点用の試作を用いた実験で得られた画像についても示す。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


光コヒーレント偏光測定画像のためのコントラスト定義
Contrast Definition for Optical Coherent Polarimetric Images

Fran?ois Goudail, Philippe R?fr?gier

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 947-951 , July 2004

Keywords: Image processing, contrast definition, detection, segmentation, active contours, polarimetric imaging.

本論文では、レーザ投影像や合成開口レーダのようなコヒーレント波で形成された偏光測定画像について検討する。これらの画像において偏光測定の特性が異なる領域間のコントラストの定義を与え、最尤推定に基づく検出および分割アルゴリズムの性能がコントラストパラメータの全単写関数になることを示す。これにより、コントラストパラメータの値を単に指定することでアルゴリズムの性能を特徴付けることが可能になる。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像識別のためのガウシアンMRF回転不変特徴量
Gaussian MRF Rotation-Invariant Features for Image Classification

Huawu Deng, David A. Clausi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 951-955 , July 2004

Keywords: Markov random field (MRF), Gaussian MRF (GMRF) model, isotropic, anisotropic, least squares estimate (LSE), discrete Fourier transform (DFT), rotational invariance, texture analysis, classification.

マルコフ確率場(Markov random field: MRF)モデルに基づく特徴量はテクスチャの回転に敏感である。本論文では、回転不変テクスチャ特徴量を訂正するための異方性循環ガウシアンMRF (anisotropic circular Gaussian MRF : ACGMRF)モデルについて述べる。最小2乗推定法の特異問題を解決するために、近似最小2乗推定法の開発および実装を行う。回転不変特徴量は離散フーリエ変換を用いることでACGMRFのモデルパラメータから得られる。そしてACGMRFモデルが既存の3方式の統計的な改良方式となっていることを明らかにする。その3つの方式とは、ラブラシアン・ピラミッド、等方性循環GMRF (isotropic circular GMRF : ICGMRF)、およびグレーレベルの共起確率特徴である。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ステレオビジョンを用いたテレビ会議のための視線補正
Eye Gaze Correction with Stereovision for Video-Teleconferencing

Ruigang Yang, Zhengyou Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 7, pp. 956-960 , July 2004

Keywords: Stereoscopic vision, eye-gaze correction, model-based tracking, head tracking, pose determination.

テレビ会議においては視線を合わせることに欠けるが、このことがビデオコンテンツの有効性を低下させている。視線の補正を行うための装置が市場に出されているが、それは高価でかさばるものである。一般の人がテレビ会議を利用する状況に一歩近づけるためのソフトウェアに基づく解決方法を研究者は提供しようと試みてきた。本論文では、グラフィクス・ハードウェア(アイコンタクトを維持するバーチャルビデオ)を用いて領域知識(個人顔モデル)と組合せたステレオ解析に基づく新方式を提案する。個人顔モデルにおける3Dステレオ顔追跡は、2つの視点が一致する初期点を計算するために用いる。それ以降の一致点についてはテンプレート/特徴マッチングを行っているときに追加される。そして視点を統合するために、視点モーフィング技術を用いてすべての一致点をまとめる。現段階の提案システムでは、視線補正を行ったビデオストリームを1GHzのPCで毎秒5フレームで生成することが可能である。

Is

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.26, No.8


適応的電磁誘導による埋設ターゲット検出のための最適実験理論の応用
Application of the Theory of Optimal Experiments to Adaptive Electromagnetic-Induction Sensing of Buried Targets

Xuejun Liao, Lawrence Carin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 961-972 , August 2004

Keywords: Optimal experiment, sensing, adaptive processing.

過般型電磁誘導(Electromagnetic-induction: EMI)センサーは、埋設された伝導性、且つ/若しくは、鉄製のターゲットの検出と特徴づけのためのものとみなされる。このセンサーはロボットに設置されることになるだろう。ここで我々は最適適応的サーチ戦略の設計について検討する。周波数依存磁気双極子モデルにより、EMI周波数帯でのターゲットの特徴づけを行う。このサーチの目的は、ベクトルθとして表される双極子モデルパラメタの正確な特徴づけである。ターゲットの位置と方位はθのサブセットとして与えられる。センサーの位置と動作周波数はパラメタベクトルpで、測量は(p,O)ベクトル対で、それぞれ表される。ここでOは観測データを示す。パラメタpは、与えられた測量に対して一定であるが、測量系列という観点では適応的に変化するだろう。局所最適測量系列においては、以前のデータ、即ち(p_n,O_n)_n=1,Nに基づいて、最適化されたセンサパラメタ群、つまりθに対するp_N+1をもとめる。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


混合グループランク:識別器組み合わせにおける優先と確信度
Mixed Group Ranks: Preference and Confidence in Classifier Combination

Ofer Melnik, Yehuda Vardi, Cun-Hui Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 973-981 , August 2004

Keywords: Classification, classifier combination, ensemble methods, sensor fusion, biometrics, face recognition, mixed group ranks, logistic regression, Borda count, highest rank, voting methods.

識別器の組み合わせには、複数の識別器からの結果を組み合わせることによる性能向上の可能性がある。生体測定学などの非常に多数のクラスを持つドメインについて、ランクベースの識別器の組み合わせ機能に求められる、数学的特性の自明なフレームワークを示す。このフレームワークは組み合わせルールの連続であり、ボルダ方式(Borda Count), ロジスティック回帰、及び最高ランク組み合わせ法を極端な例として含む。本フレームワークは、直感的には、特定の識別器の一般的な優先と、(ランクが示す)ある特定の結果の確信度を優先させるという二つの相補的なコンセプトを、整合的なランク解釈によって保たせながら、如何にバランスされるかを表すものである。混合グループランク(Mixed Group Ranks: MGR)は新しい組み合わせ機能であり、その他の機能を一般化することで優先と確信度をバランスさせることができる。非常に多数のクラスを持つデータと、FERET顔認識研究からの多数の識別器を用いた複数の実験により、MGRが効率的な組み合わせアプローチであることを示す。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


過少標本問題における一般化判別分析のための最適化基準
An Optimization Criterion for Generalized Discriminant Analysis on Undersampled Problems

Jieping Ye, Ravi Janardan, Cheong Hee Park, Haesun Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 982-994 , August 2004

Keywords: Classification, clustering, dimension reduction, generalized singular value decomposition, linear discriminant analysis, text mining.

本稿で示される判別分析のための最適化基準は、古典的な線形判別分析(Linear Discriminant Analysis: LDA)の拡張であり、散布行列が特異であるときに擬似逆行列を用いることで得られる。この基準は、典型的なLDAの限界を克服して、データ次元と標本規模の相対的な大きさにかかわらず適用可能である。一般化特異値分解(Generalized Singular Value Decomposition: GSVD)テクニックを適用することによって、最適化問題は解析的に解くことができる。そしてその結果として擬似逆行列が与えられ、データ次元がデータポイントの数を超える過少標本問題のために用いられる。本稿で提案される基準はこの手順を理論的に正当化する。 本稿ではGSVDベースのアプローチのための近似アルゴリズムも示す。 それぞれのクラスターのsubclustersを見つけることにより計算複雑性を減少させ、そしてsubclusterの重心を用いてクラスターの構造を把握する。この簡略化された問題は、GSVDを効率的に適用できる、小さい行列を与える。最大7,000次元のテキストデータを用いて行われた実験により、近似アルゴリズムが厳密なアルゴリズムに近い結果を与えることを示す。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化特異値分解を用いた判別分析の一般化
Generalizing Discriminant Analysis Using the Generalized Singular Value Decomposition

Peg Howland, Haesun Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 995-1006 , August 2004

Keywords: Linear discriminant analysis, latent semantic indexing, principal component analysis, generalized singular value decomposition, QR decomposition, trace optimization.

判別分析は何十年間もクラス分離性を維持する特徴を抽出するために用いられてきた。 これは一般に、クラスター内およびクラスター間でのばらつきを表す共分散行列に関する最適化問題として定義される。 これらの行列の1つが非特異であるという必要条件は、この方法の適用を、ある特定の相対的な次元を持つデータセットに限定させてしまう。 我々は多くの最適化基準を調査し、一般化された特異値分解を、非特異必要条件の回避のために使用することによって、この方法の適用性を拡張する。標本の大きさが標本データの次元より小さいときでさえ、適用できる判別分析の一般化が本研究の成果である。 我々は代表サンプルを用いた分類結果を用い、本アプローチの有効性を他の方法と比較し、それにより示される本方式の利点を指摘することで本稿を締めくくる。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Cannyエッジ検出器に類似する基準を用いた特徴検出のための、調整しやすいフィルタの設計
Design of Steerable Filters for Feature Detection Using Canny-Like Criteria

Mathews Jacob, Michael Unser

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 1007-1019 , August 2004

Keywords: Steerable, feature, edge, detection, ridge, contours, boundary, lines.

我々はCannyエッジ検出器に類似する基準の最適化に基づいて、調整しやすい機能のクラスからの二次元特徴検出器の設計のための一般的なアプローチを提案する。 これまでの検出器の設計とは対照的に、我々のアプローチは真に2Dであり、closed-form表現のフィルタを与える。 これにより、典型的な勾配もしくはHessianベースの検出器よりも高い方位選択性を持つ検出器も得られる。 エッジおよび稜線検出のための検出器設計とあわせて本方式を説明する。 これらの新しい特徴検出器の性能改良を示すいくつかの実験結果を示す。計算効率の高い特徴方位推定のための局所最適化アルゴリズムを提案する。 また、我々は物体形状に適応可能な特徴検出のコンセプトを導入し、それを画像コーナーの検出のために用いる。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複素拡散プロセスによる画像強調
Image Enhancement and Denoising by Complex Diffusion Processes

Guy Gilboa, Nir Sochen, Yehoshua Y. Zeevi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 1020-1036 , August 2004

Keywords: Scale-space, image filtering, image denoising, image enhancement, nonlinear diffusion, complex diffusion, edge detection, shock filters.

本来実数による拡散方程式によって生成された線形と非線形のスケール空間は、自由シュレーディンガー方程式を含むことによって複素数の拡散プロセスに一般化される。複素数の拡散方程式の線形の場合のための基本解が展開される。その性質を解析することで、一般化拡散プロセスが、通常及び逆拡散の特性を結合することを示す。我々はこの虚数部が、複素数の拡散係数が実軸に接近する時間までに大きさを調整されて、きれいに整えられた二次の導関数であることを証明する。この観察に基づいて、我々は画像処理で有用な非線形の複素数のプロセスの2つの例を開発する。即ち、画像強調のための正規化ショックフィルターと輝度傾斜保持ノイズ除去プロセスである。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


座標フレーム間エラー最小化による3Dシーンのマルチビュー位置合わせ
Multiview Registration of 3D Scenes by Minimizing Error between Coordinate Frames

Gregory C. Sharp, Sang W. Lee, David K. Wehe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 1037-1050 , August 2004

Keywords: Registration, global registration, range images, multiple views, graph analysis.

本稿は撮影方向が未知の奥行き画像の大規模マルチビュー位置合わせ問題を扱う。計算負荷を減らすために、我々は隣接ビューの位置合わせというローカルな問題を、蓄積された誤差の分布という大域問題から切り離して考える。我々は大域問題を、隣接するビューのグラフの上の最適化問題として定義する。そしてそのグラフがどのようにして、各サイクルにおける最適変換パラメタがclosed-formで解けるようなサイクル組に分解されるかを示す。ビューグラフ全域にわたるサイクル組の解を統合するために用いることができる反復的手順を説明する。本方式は誤差分布を扱うが、ビュー間の点対応は必要なく、一対毎に隣接ビューの位置あわせを扱う他のいかなる方法や自動距離測量とも組み合わせることができる。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ノイズを伴う大きな低ランク行列における欠損コンポーネントの復元
Recovering the Missing Components in a Large Noisy Low-Rank Matrix: Application to SFM

Pei Chen, David Suter

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 1051-1063 , August 2004

Keywords: Imputation, missing-data problem, rank constraint, singular value decomposition, denoising capacity, structure from motion, affine SFM, linear subspace.

コンピュータビジョンで、「失われたデータ」で行列演算を必要とすることがよくある。例えば動きからの構造推定(Structure from Motion: SFM)問題で、隠蔽あるいは追跡失敗でデータが欠損する場合などである。(ノイズが無い場合)仮に行列が低ランクであるなら、欠損データ値を回復することにより、我々はこのような問題に取り組むことができる。欠損データ値を補間することはデータ補完(問題)として知られている。この補完は、顔及び物体形状の識別のための種々のsubspaceテクニックや、オンライン“recommender”システム、そして多種多様な他のアプリケーションにも同じく応用可能である。しかし反復型の補完は、データを大幅に誤って「復元」することもある。 本稿で我々は、顕著な数の欠損値を持つ特別な行もしくは列を演算に含めることが、いつ欠損値の復元品質を低下させるかを特定することに関して、最も信頼性の高いデータを復元する方法を示す。我々が提案するアプローチは、様々な補完方法に適用可能だが、本稿ではSFM問題だけを扱う。 提案方法の性能をSFMのためのJacobs法とShum法と比較する。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サポートベクトル追跡
Support Vector Tracking

Shai Avidan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 1064-1072 , August 2004

Keywords: Support vector machines, optic-flow, visual tracking

サポートベクトル追跡(Support Vector Tracking: SVT)は、サポートベクトルマシン(Support Vector Machine: SVM)識別器をオプティックフロー(optic-flow)ベースの追跡器に統合する。 連続フレーム間の強度の相違を最小にする代わりに、SVTはSVM識別スコアを最大にする。 連続したフレーム間の大きな動きを扱うために、我々はサポートベクトルからピラミッドを構築し、識別段ではcoarse-to-fineアプローチを用いる。 画像系列中の車追跡に対してSVTを用いた結果を示す。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


階層両眼視からの隠蔽を伴う表面復元
Surfaces with Occlusions from Layered Stereo

Michael H. Lin, Carlo Tomasi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 1073-1078 , August 2004

Keywords: Binocular stereo vision, energy minimization, graph cuts, hybrid system, smooth surfaces, surface fitting, boundary localization, sharp discontinuities, quantitative comparison.

シーン構造を滑らかな表面パッチの集合として推定する新しい両眼立体視アルゴリズムを提案する。それぞれのパッチが内包する視差は、連続値スプラインによりモデル化され、パッチの大きさは画像の画素レベル分割により表される。パッチの視差と大きさは、反復型エネルギー最小化フレームワークにより交互に推定される。滑らかな表面を含むシーンにおいては、提案アルゴリズムは最先端の技術による結果をも顕著に上回ることを実験により示す。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ画像における移動陰影と物体検出のための物理モデル
Physical Models for Moving Shadow and Object Detection in Video

Sohail Nadimi, Bir Bhanu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 1079-1087 , August 2004

Keywords: Detecting moving objects, dichromatic reflection model, physics-based segmentation, shadows in video, spatio-temporal albedo ratio.

現在の移動物体検出システムの典型的なものは、移動物体による陰影を、その移動物体の一部として検出する。本稿では、屋外環境で移動物体陰影を移動物体から分離する問題を扱う。これまでの研究と異なり、我々のアプローチは、カメラ位置、地表/物体の外形など、いかなる幾何的条件にも依存しない。本アプローチは新しい時空間アルベドテストと二色反射モデルに基づき、また太陽と空の照明を説明する。我々が行ったいくつかのビデオ画像系列における実験の結果は、陰影が異なった表面上にあるとき、様々な表面材質を表すことを示している。これらの結果により、我々のアプローチが、多種多様な背景及び物体(前景)材質と照明に対して頑健であることが示される。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


三次元モノクロ多値画像におけるISO表面の曲率推定と形状記述子の計算
On Curvature Estimation of ISO Surfaces in 3D Gray-Value Images and the Computation of Shape Descriptors

Bernd Rieger, Frederik J. Timmermans, Lucas J. van Vliet, Piet W. Verbeek

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 1088-1094 , August 2004

Keywords: Principal curvatures, surface area, local surface measures, gradient structure tensor, Knutsson mapping.

本稿では、モノクロ多値画像における、isoグレーレベル表面の新しい曲率推定方法を示す。我々の方法は、標準的なisophote曲率推定方法が失敗する場合でも成功する。この方法は表面の分割もパラメトリックモデルの仮定も用いない。 我々の推定方法は表面の方位場で働く。 この方位場と局所構造記述は勾配構造テンソルから得られる。推定方位場は非連続のmodπを持っている。この推定方位場はKnutsson mappingを通じて連続表現にマッピングされる。表面の主曲率、及び座標不変特徴はマッピングされた表現において計算される。これらの曲率から、表面形状を記述するための曲げエネルギー(bending energy)が局所的に計算される。大規模な評価により、我々の曲率推定法がノイズに対しても頑健であり、物体のスケールに依存せず、更に相対誤差が小さいままであることが示される。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状認識のための高効率の計算可能なウェーブレットアファイン不変関数
Computationally Efficient Wavelet Affine Invariant Functions for Shape Recognition

Erdem Bala, A. Enis Cetin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 1095-1099 , August 2004

Keywords: Affine transformation, decimated wavelet transform, shape recognition, computational efficiency.

物体認識のためのアファイン不変関数が物体境界線のウェーブレット係数から作られる。これまでの研究で、undecimated二分割ウェーブレット変換(dyadic wavelet transform)がアファイン不変関数を作るために用いられた。decimatedウェーブレット変換に基づいたアルゴリズムを、アファイン不変関数を計算するために開発する。結果として認識性能を劣化させること無く、計算複雑性を削減している。 実験結果も併せて示す。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


頑健な外観フィルタによる、高速な隠蔽物体の追跡
Fast Occluded Object Tracking by a Robust Appearance Filter

Hieu T. Nguyen, Arnold W.M. Smeulders

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 8, pp. 1099-1104 , August 2004

Keywords: Object tracking, occlusions, appearance tracking, robust Kalman filter.

テンプレートマッチングを使った画像系列中の物体追跡のための新しい方法を提案する。テンプレートを更新するために、外観特徴が一時的に頑健なカルマンフィルターによって平滑化される。更新されたテンプレートの部分的な隠蔽に対する耐性は、正確な検出とよりひどい隠蔽への対応を可能にする。特に光度測定不変(photometric invariant)のカラー特徴が用いられるときには、照明状態の突然の変化も扱うことができる。この方法は少数のパラメタだけを必要とし、そしてリアルタイムで物体を追跡するのに充分なほどの高速計算が可能である。

TS

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.26, No.9


結合特徴選択と識別器設計のためのベイズ法
A Bayesian Approach to Joint Feature Selection and Classifier Design

Balaji Krishnapuram, Alexander J. Hartemink, Lawrence Carin, Mario A.T. Figueiredo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1105-1111 , September 2004

Keywords: Pattern recognition, statistical learning, feature selection, sparsity, support vector machines, relevance vector machines, sparse probit regression, automatic relevance determination, EM algorithm.

本論文では最適非線形識別器と識別課題に最も関連の深い予測変数(または特徴)の部分集合を同時に学習するベイズ法を用いる。このアプローチは基底関数と特徴の利用において、分布の広がりを助長する裾の広い事前確率を用いる。これらの事前確率は訓練データのもとで良好な識別をもたらす尤度関数を正規化する役割を持つ。我々は多様なパラメータを持った最大事後確率(MAP)点推定を効率的に計算するため期待値最大化(EM)アルゴリズムを導出する。このアルゴリズムは最新技術のスパースベイズ識別器の拡張であり、サポートベクターマシーンのベイズ法版として見ることができる。カーネル識別器を用いた実験による比較を通じて、人工的に生成したデータセット、及びベンチマークのデータセットに対して次元数の小さい特徴選択と優れた識別性能を実証する。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


FloatBoost学習と統計的顔検出
FloatBoost Learning and Statistical Face Detection

Stan Z. Li, ZhenQiu Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1112-1123 , September 2004

Keywords: Pattern classification, boosting learning, AdaBoost, FloatBoost, feature selection, statistical models, face detection

FloatBoostと呼ばれる新しい学習手法が最小誤り率を達成するブースト識別器を学習する目的で提案されている。FloatBoost学習はマージンの指数関数を最小化する古典的なアダブーストではなく、誤り率を直接最小化するアダブーストの個々の繰り返しの後にバックトラックする機構を有している。本論文の第二の効用は事後確率の適切な近似を用いた最良の弱識別器を学習する新しい統計モデルを提供することである。これらの新規の手法はアダブーストよりも少ない数の弱識別器で、訓練とテストの両面でより低い誤り率を示すことを広範囲の実験により実証する。FloatBoost学習を、提案するピラミッド構造を有する検出器とともに顔検出に適用し、初めて実時間多視点顔検出システムを作成したことを報告する。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像におけるエネルギー最小化のための最小カット最大フローアルゴリズムの実験比較
An Experimental Comparison of Min-Cut/Max-Flow Algorithms for Energy Minimization in Vision

Yuri Boykov, Vladimir Kolmogorov

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1124-1137 , September 2004

Keywords: Energy minimization, graph algorithms, minimum cut, maximum flow, image restoration, segmentation, stereo, multicamera scene reconstruction

文献[15], [31], [19], [8], [25], [5]の発表の後、グラフ上の最小カット最大フローアルゴリズムは低レベルの画像におけるエネルギー最小化、または最小化近似を行う有用な手段として次第に広まってきた。これらの組み合わせ最適化に関する文献には、異なる多項式時間の複雑度を有する多くの最小カット最大フローアルゴリズムが示されている。しかしながら、これらのアルゴリズムの実用性はこれまで主にコンピュータビジョンの領域外で研究されてきた。そこで本論文では、画像に適用した際の最小カット最大フローアルゴリズムの性能の実験比較を目的とする。我々が最近開発した新しいアルゴリズムと同様に、いくつかの標準的なアルゴリズムについて計算時間を比較する。これらのアルゴリズムにはGoldberg-Tarjanのpush-relabel法、Ford-Fulkersonの増大路に基づくアルゴリズムが含まれる。我々は多くの典型的なグラフを対象に画像復元、立体視、画像分割の課題に対してベンチマーク比較を行う。多くの場合において我々の新しいアルゴリズムは他のどの手法に比べても数倍の速さで動作する。これはほぼ実時間処理が可能な速さである。この最小カット最大フローアルゴリズムのプログラムは研究目的ならば請求すれば入手することができる。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効果的なジャンプ拡散法による距離画像の分割
Range Image Segmentation by an Effective Jump-Diffusion Method

Feng Han, Zhuowen Tu, Song-Chun Zhu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1138-1153 , September 2004

Keywords: Energy minimization, jump-diffusion, range segmentation, Markov chain Monte Carlo, data clustering, edge detection, Hough transform, change point detection.

本論文ではベイズ統計の枠組みでの距離画像とその反射画像の分割のための効果的なジャンプ拡散法を提案する。このアルゴリズムは平面、円錐、滑らかな曲面、乱雑な物体(木や茂み)のような多種の大きさと形からなる未知数の物体または表面で構成される複雑な実世界の風景(屋内及び屋外)に対して動作する。ベイズ統計の枠組みにおいて定式化すると、事後確率は有限数の様々な次元の部分空間を持つ解空間に分布している。このアルゴリズムは可逆ジャンプ(reversible jumps)と解空間を横断する確率的な拡散の両方を持つマルコフ連鎖をシミュレートする。可逆ジャンプ は曲面モデルの入れ替え、物体の数の変更のように異なる次元の部分空間の間の遷移を実現する。確率的なLangevin方程式はそれぞれの部分空間の間の拡散を実現する。 効率的な計算を実現するため、このアルゴリズムはハフ変換、境界検出、データクラスタリングを通じて複数スケールでのいくつかの重要な確率を事前に計算する。後者のものは高速混合のためのマルコフ連鎖に使われる。100個の1次元の模擬データセットを用いた実験を通じて、精度と速度の両面からアルゴリズムの性能分析を行った。その際、同じパラメータ設定のもと3つの距離画像のデータセットに対してアルゴリズムを適用した。結果、手作業の分割と比較して満足のいく性能が得られた。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


混合モデルを用いた特徴選択とクラスタリングの同時実行
Simultaneous Feature Selection and Clustering Using Mixture Models

Martin H.C. Law, Mario A.T. Figueiredo, Anil K. Jain, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1154-1166 , September 2004

Keywords: Feature selection, clustering, unsupervised learning, mixture models, minimum message length, EM algorithm.

クラスタリングはデータセットの群構造を発見するための、通常教師なし学習に分類される手法である。クラスタリングのアルゴリズムは多数存在するものの、特徴選択の重要な問題、すなわちデータのどの特性をクラスタリングアルゴリズムに用いるかについては、めったに論じられることがない。クラスタリングは教師あり学習と異なりデータに対するクラスのラベルが存在しないため、明確な基準がなく特徴選択が難しい。またクラスタ数の決定も重要な問題で、これは特徴選択の問題と相互に影響を与える。本論文では特徴隆起(feature saliency)のコンセプトを提案し、混合モデルに基づいたクラスタリングにおいてこれを評価するため、EMアルゴリズムを導入する。最小メッセージ長モデル選択基準の使用により、不必要な特徴の隆起をなくすように操作することで、結果的に特徴選択を行う。この選択基準とアルゴリズムは特徴隆起とクラスタ数の同時推定に拡張される。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


4次元テンソル投票を用いた2視点のエピポーラ形状推定と動き分割の同時実行
Simultaneous Two-View Epipolar Geometry Estimation and Motion Segmentation by 4D Tensor Voting

Wai-Shun Tong, Chi-Keung Tang, IEEE Computer Society, Medioni Medioni, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1167-1184 , September 2004

Keywords: Epipolar geometry, motion segmentation, nonstatic scene, robust estimation, higher dimensional inference.

本論文では、動的なシーンからの2視点のエピポーラ形状推定と動き分割の同時実行問題を解決する。n個の等しい物体を含むノイズの乗った画像の組のセットが与えられた条件下で、未知のn個のエピポーラ形状の推定と静止状態と動きのマッチングの組をn個の独立な動きに分割する従来にない効果的でロバストな4次元テンソル投票手法を提案する。等方性の直交する4次元の結合画像空間を考えることにより、採択に必要となるテンソル投票がたかだが2つとなり、非常に高いSN比(5まで)が許容される。エピポーラ形状を多角形に拡張すると、一連の動きから厳密な動きが抽出される。たった2つの較正されていないフレームが必要であり、ピンホールカメラモデルが作られる以上に、画像間のアフィンカメラモデルやホモグラフィックモデルのような前提条件の単純化を必要としない。我々の新規の手法は4次元の結合画像空間における局所形状平滑化制約の伝播で成り立ち、それは独立の動きに相当する基本行列の抽出のため、大局的に一様に強制される。提案手法と他のいくつかの代表的な手法との比較実験から、提案手法が動的なシーンに対してより良い性能を発揮することを示す。また、従来解決が困難であったデータセットに対する結果を示す。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハングル文字認識のための階層的で確率的な相対位置モデルの使用
Utilization of Hierarchical, Stochastic Relationship Modeling for Hangul Character Recognition

Kyung-Won Kang, Jin H. Kim

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1185-1196 , September 2004

Keywords: Pattern recognition, handwritten character recognition, stochastic relationship modeling, hierarchical character representation, Hangul character recognition.

構造的文字認識では、文字は通常ストロークのセット及びそれらの位置関係として捉えられる。それ故、ストロークとその相対位置は効果的な文字表現のための適切なモデルであるといえる。そこで我々は、文字の階層的な特性を用いることで、ストロークとその相対位置を確率的に表現するモデル化の方法論を提案する。文字は構成要素の多変量のランダムな変数として定義され、その確率分布は訓練データによって学習される。確率分布が高次元であることによる学習の困難性(次元の呪い)を克服するため、要素と部分要素への再帰的な分解の概念を適用することで、確率分布を分解し、より低次元の確率分布で近似する。提案手法に基づいて、ハングル文字の手書き認識システムを開発する。一般のデータセットに対する認識実験によって、提案した相対位置のモデリング手法の効果を検証する。従来報告されている最良のシステムと比較して、認識精度が5.5%増加した。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


直交Pillarベクトルを用いたオンライン動的サンプリングの収束と適用
Convergence and Application of Online Active Sampling Using Orthogonal Pillar Vectors

Jong-Min Park, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1197-1207 , September 2004

Keywords: Active learning, machine learning, pattern classification.

直交Pillarベクトルを用いた多次元空間における能動的な境界サンプリング手法の収束とその適用について解析する。能動的な学習手法は機械学習におけるパターン認識のための最適な決定境界の算出を容易にする。この手法による結果を、決定境界の超平面でランダムサンプリングする標準的な能動的学習手法と比較する。この比較はシミュレーションとUCIベンチマークデータセットからの実データへの適用を通じて行われる。決定境界は確率的オラクルを持った多次元空間の非分離の線形決定超平面としてモデル化される。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複雑環境での複数の人間の追跡
Tracking Multiple Humans in Complex Situations

Tao Zhao, Ram Nevatia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1208-1221 , September 2004

Keywords: Multiple-human segmentation, multiple-human tracking, visual surveillance, human shape model, human locomotion model.

複雑環境において複数の人間を追跡することは困難な問題である。我々のアプローチでは、多様なモデルの形式の適切な知識を用いてこの難問題に取り組む。人間の動きは大局的な動きと手足の動きに分解できる。第一のパートでは楕円型の人間の形状モデルを用いて、複数の人間を抽出し、その大局的な動きを3次元空間で追跡する。実験によりこの方法は、重なりによる遮蔽、影、反射のある状況下で少数の人間が一緒に動く場合に適用可能であることを示す。第二のパートでは、歩行、走行、起立といった移動動作のモード、及び3次元における姿勢を事前の移動動作モードにおける推測によって求める。カメラと地面形状の条件により、個々の部位の制約が決まる。ロバストな結果がいくつかの困難な問題に対して示される。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分空間法を用いた顔認識のための統一的なフレームワーク
A Unified Framework for Subspace Face Recognition

Xiaogang Wang, Xiaoou Tang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1222-1228 , September 2004

Keywords: Face recognition, subspace analysis, PCA, LDA, Bayesian analysis, eigenface.

PCA、LDA、ベイズ解析は部分空間法を用いた顔認識の3大手法である。本論文ではこれらの手法を同じフレームワークの下に統合できることを示す。まず初めに固有の差異、変形の差異、ノイズの3つ要素の顔の差異をモデル化する。統一フレームワークはこの顔の差異モデルとこの3要素の詳細な部分空間分析で構成される。我々は異なる部分空間法間の元来の関係と顔の差異からの識別情報の抽出への固有の寄与について説明する。このフレームワークを基にPCA、ベイズ、LDAを3ステップとして用いた統合的な部分空間分析法を開発する。3つの部分空間の次元を軸に取ることで3次元パラメータ空間を構成する。このパラメータ空間を探索することで、標準的な部分空間法よりも良好な認識性能を実現する。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


異なる大きさの画像の分類のための位置不変ウェーブレット特徴の導出
Extraction of Shift Invariant Wavelet Features for Classification of Images with Different Sizes

Chi-Man Pun, Moon-Chuen Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1228-1233 , September 2004

Keywords: Shift invariance, wavelet packet transform, normalization, image classification.

異なる大きさの画像の分類のための位置不変ウェーブレット特徴の効果的な導出法を提案する。特徴導出過程は適応的な位置不変ウェーブレットパケット変換による正規化を含んでいる。エネルギー指標はこれらの不変ウェーブレット係数のサブバンドのために計算される。削減されたエネルギー指標の部分集合は異なる大きさの画像の分類のための特徴ベクトルとして選択される。実験により、提案手法は98.5%という高い分類精度を実現し、他の2つの画像分類方法よりも高い性能を発揮することを示す。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


較正のされたまたはされていない遠近法のもとでの画像のパラメータの観点での3次元モデルの最小表現
Minimal Representations of 3D Models in Terms of Image Parameters under Calibrated and Uncalibrated Perspective

Vincenzo Caglioti

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1234-1238 , September 2004

Keywords: Object recognition, indexing, 3D point sets, perspective, uncalibrated perspective, minimum-dimensional representations, curved objects.

指標付けは物体認識のよく知られたパラダイムである。指標付けでは個々の3次元モデルは3次元モデルのすべての可能な画像に相当する画像のパラメータのベクトルによって想定される値の集合として表現される。Jacobs [12]の提起した開問題は遠近法下でのそのような集合の最小の次元に関するものである。本論文では較正されたまたは較正されていない遠近法のもとで、点集合でモデル化された3次元表現の集合の次元は2であることを証明する。また、2次元表現は3次元の曲線にも見られる。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚追従するEye-in-Hand型カメラの位置ずれ推定を改善する簡単な技法
A Simple Technique for Improving Camera Displacement Estimation in Eye-in-Hand Visual Servoing

Graziano Chesi, Koichi Hashimoto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1239-1242 , September 2004

Keywords: Computer vision, visual servoing, camera displacement estimation.

視覚追従するEye-in-Hand型カメラの対応点からの位置ずれの推定を改善する簡単な技法を提案する。既存の手法を上回る精度を実現するためのアイディアは、追加情報を引き出す故に、静止状態の空間の点に相当するカメラの動作の間、点修正を配慮することにある。これはまず、物体のユークリッド構造を推定し、次にこの推定からカメラの位置ずれを推定することで行われる。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非線形次元削減のための高次元データの距離保存射影
Distance-Preserving Projection of High-Dimensional Data for Nonlinear Dimensionality Reduction

Li Yang, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 9, pp. 1243-1246 , September 2004

Keywords: Pattern recognition, statistical, feature evaluation and selection, pattern analysis.

高次元データを順次低次元空間にマッピングする距離保存手法を提案する。この方法では個々のデータの最近傍及びいくつかの近傍データとの距離を正確に保存する。データの本来の次元は内点距離の保存を試行し推定する。この方法にはユーザが選択可能なパラメータは存在しない。これは複数のクラスタにデータ点を拡散されたときにデータを射影することに成功する。実験の結果、高次元データの射影の有効性を示す。

th

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.26, No.10


動きアルゴリズムからの時系列構造のためのドリフトの検出と除去
Drift Detection and Removal for Sequential Structure from Motion Algorithms

Kurt Cornelis, IEEE, Frank Verbiest, Luc Van Gool

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1249-1259 , October 2004

Keywords: Geometric correction, registration.

拡張画像やビデオ画像系列から動きアルゴリズムによる逐次構造を抽出する場合、ドリフトによって誤りが集積する問題は、通常では情景画像中の一視点表現のはずが、3D再構成のために別個の特徴点追跡の問題となることによる。このドリフトを取り除くための最後の一括処理(bundle)の調整は、コスト関数に変換され3D-3D構造間の対応関係に翻訳し直さなければならない。しかも、一連のデータの調整は非線形最適化の手法であるから、グローバル最適化の実問題において誤差が収束するためには、供給される初期解からドリフトが除かれている必要がある。ドリフトは取り除かれる前に、ドリフトであることが検出される必要がある。これは短期の画像系列から再構成される3D構造では、ドリフトの長期変動を受けないことから達成可能である。ドリフト検出問題は、同一情景中の投影変換の様子だけが異なる部分の同定問題に凝縮される。ドリフトの検出後、それ以後の処理画像や適応化した一括処理(bundle)からこの影響が除かれ,ドリフト検出による対応点データを利用して前の画像からドリフトが除かれる。現実のビデオに対するいくつかの実験の結果、このドリフト検出と除去の長所を実証した。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


幾何学的不変量を使った反射屈折性(Catadioptric)カメラの校正
Catadioptric Camera Calibration Using Geometric Invariants

Xianghua Ying, Zhanyi Hu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1260-1271 , October 2004

Keywords: Camera calibration, catadioptric camera, geometric invariant, omnidirectional vision, panoramic vision.

反射屈折性(Catadioptric)カメラは、反射鏡を視野の拡大に利用しながら単一効率的視点を確保した撮像機器である。本論文では、幾何学的不変量を利用した反射屈折性(Catadioptric)カメラの新規な校正方法を提案する。空間の直線や球は反射屈折系画像平面中の円錐曲線に投影される。我々は直線の投影によって3つの不変量が形成され、球の投影では2つの不変量しか形成されない。これらの不変量から反射屈折系カメラ固有のパラメータに対する制約方程式が導ける。従ってこの新規な方法では2種の変数がある。最初の方法は直線の投影を利用し、2番目のものは球の投影を利用する。一般的に、このカメラの校正には2つの直線か、3つの球の投影で十分である。本論文での一つの重要な結論は、球の投影に関する手法は直線の投影に比べ、ロバスト性が高く、精度も高いと言うことである。本手法の性能は、シミュレーション結果と実画像による実験の両方で実演することが出来る。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カメラ応答関数の空間をモデル化する
Modeling the Space of Camera Response Functions

Michael D. Grossberg, IEEE Computer Society, Shree K. Nayar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1272-1282 , October 2004

Keywords: Radiometric response function, camera response function, calibration, real-world response curves, empirical modeling, high-dynamic range, recovery of radiometry, nonlinear response, gamma correction, photometry, sensor modeling.

多くのビジョン研究には情景放射の精密な測定が必要である。情景の放射と撮像系の画像強度に関する関数はカメラ応答とよばれる。我々はすべてのカメラが共有する応答の性質を解析した。このことから、どんな応答関数でも満足すべき制約条件を見つけた。これらの制約はすべてのカメラ応答の理論空間を形成する。我々は実世界カメラ応答関数の多様なデータベースを収集した。このデータベースを使い、実世界の応答は理論的に可能な空間の一部分しか占めてないことがわかる。この理論的制約と実世界のデータとを一緒にして、低パラメータ実験モデル応答を生成した。この応答モデルによって、標準チャートを使った少数の測定データから、内挿によって正確で完全な応答データを作ることが出来た。また、異なる露出条件で撮影した任意の情景画像から、正確にカメラ応答を推定できることを示す。両方のモデルのデータベースは、http://www.cs.columbia.edu/CAVEからダウンロード可能である。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


陰多項式による2D曲線と3D曲面の安定なフィッティング
Stable Fitting of 2D Curves and 3D Surfaces by Implicit Polynomials

Amir Helzer, Meir Barzohar, David Malah, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1283-1294 , October 2004

Keywords: Implicit polynomials, zero-set sensitivity, curve and surface fitting, stable fitting.

本研究は2Dと3Dの陰多項式(implicit polynomials)を2D曲線と3D曲面にそれぞれフィッティングさせることを扱う。この多項式のゼロ集合(zero-set)はIP係数によって決定されデータを記述する。ここの論文で提案されている多項式フィッティングの目的は、多項式が係数の誤差の影響を軽減することにある。係数値の誤差は、フィッティング問題を数値的に計算するための結果かもしれないし、係数の量子化の影響かもしれない。このような影響を軽減するによってフィッティングがきっちりし、ノイズデータのときに、提案する2つのアルゴリズムの安定性が従来の3Lとか、gradient-oneアルゴリズムと比較して改善したことを実証しよう。提案するアルゴリズムはゼロ集合が、係数の小変動にどの程度敏感に影響するかの解析を行い、1つのアルゴリズムの最大誤差境界を最小化し、2つ目のアルゴリズムに対して、誤差分散を最小化することによって導いた。シミュレーション結果によれば提案手法のフィッティング誤差は顕著に減少したが、上記既存法と比較して、特に複雑で高次の項が多いノイズの多いデータに対して効果的であった。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


任意に歪んだ文書の画像復元
Image Restoration of Arbitrarily Warped Documents

Michael S. Brown, IEEE, W. Brent Seales, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1295-1306 , October 2004

Keywords: Manuscript restoration, document deskewing, image restoration, cultural heritage digitization.

ひずんだ文書の画像復元のための枠組みを示す。この画像復元の目的は、かつて平面的だった文書が未知の任意の変形を受けたものの復元である。この復元を完遂するために、歪んだ文書の3D形状をまず平面に延ばし、文書の形状に起因する画像の変形を補正する非線形画像変換を決定する。我々の枠組みは図書館、博物館での古くてひどく痛んだ文書の撮影時のテジタル化で利用されることを意図している。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


幾何学的推論のための不確定性のモデル化とモデル選択
Uncertainty Modeling and Model Selection for Geometric Inference

Kenichi Kanatani, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1307-1319 , October 2004

Keywords: Statistical method, feature point extraction, asymptotic evaluation, geometric AIC, geometric MDL.

まず最初に画像特徴点に基づく幾何学的推論のための統計的手法の意味を調べる。画像処理演算のための特徴の不確定性の起源をたどり、幾何学的フィッティングとか幾何学的モデル選択に関連する漸近的解析の意味合いを議論し、標準的統計解析と幾何学的推論問題の間には対応関係が存在することを指摘する。そして、“幾何学的AIC”とか、“幾何学的MDL”を、赤池のAICとかRissanenのMDLの対応するコンセプトとして導く。実験から、2つの基準は退化(degeneracy)の検出に関して対照的性質を持っていることを示す。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


CPM:荷電粒子による形状復元とセグメンテーションのための変形モデル
CPM: A Deformable Model for Shape Recovery and Segmentation Based on Charged Particles

Andrei C. Jalba, Michael H.F. Wilkinson, IEEE, Jos B.T.M. Roerdink, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1320-1335 , October 2004

Keywords: Deformable model, charged-particle system, electrostatic field, Coulomb force, segmentation, shape recovery, skeleton.

新規で物理学的動機から発想した形状復元やセグメンテーションのための変形可能なモデルを紹介する。このモデルは荷電粒子モデル(CPM)と呼ぶことにするが、古典的電磁力学に着想を得、静電場中を動く荷電粒子のシミュレーションに基礎を置いている。この荷電は静電場によって注目オブジェクトの境界の方向へ引っ張られる。静電場の源泉は勾配の大きさの画像である。この電場はスネークモデルにおけるポテンシャル力と同様の働きをする一方、内部の相互作用は反発性のクーロン力でモデル化される。我々は本モデルの柔軟性と潜在力を広範な条件;マニュアルの初期化条件での形状復元、自動セグメンテーション、スケルトン計算、の中で実証する。この提案モデルとアクティブ輪郭線モデルの比較解析を行い、後者の特別な問題例では、我々のモデルがはるかに優れていることを示す。このモデルは容易に3Dに拡張可能で、ノイズの大きな画像とも相性は良い。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ監視のための時間に依存した本質的な画像の照明正規化
Illumination Normalization with Time-Dependent Intrinsic Images for Video Surveillance

Yasuyuki Matsushita, IEEE, Ko Nishino, IEEE, Katsushi Ikeuchi, IEEE, Masao Sakauchi, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1336-1347 , October 2004

Keywords: Intrinsic images, reflectance, shadow removal, illumination normarization, video surveillance, robust tracking.

天候、一日の時間、などの照明条件の変動は実世界の情景のビデオ監視システムを構築する上で困難な課題である。特に投影された影は問題を生じ、固定視点からのオブジェクト追跡する際に、オブジェクトが影の内側にいるか外側にいるかによって見かけが変化する。本論文ではこのような見かけ上の変動を、画像系列から影を除去することで対処する。これは前処理段階で処理され、その結果ロバストなビデオによる監視が可能になる。このために、真の画像という考え方にもとづく枠組みを提案する。従来の、真の画像を導くという考え方と異なり、単一の反射像を仮定するのではなく、画像系列から経時変化する反射画像と対応する照明画像を導く。得られた照明画像を利用して、陰の影響を取り除くため、入射光の分布に関する正規化を入力画像系列に施す。さらに、実時間処理の可能性を有する照明の正規化という体系を提案するが、これには固有空間を利用し、天候や、一日の時刻や、影の外形に基づく影内挿法によって、照明の変動を捕まえる。本論文はシミュレーション結果と共に枠組みの理論を記述し、実際の情景データ集合に対してオブジェクト追跡の有効性を示す。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テクスチャー付きの動き解析と合成:粒子と波
Analysis and Synthesis of Textured Motion: Particles and Waves

Yizhou Wang, Song-Chun Zhu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1348-1363 , October 2004

Keywords: Textured motion, generative model, texton, statistical learning, object tracking, stochastic gradient.

自然の情景は、降る雪、うねる水、踊る草のような、多量の粒子や波動成分の動きで特徴付けられる多様なテクスチャー付きの動き現象を含んでいる。本論文ではこれらの動きパターン表現を生成するモデルを提案し、ビデオ画像系列を観察して生成表現を推論するためのマルコフ鎖モンテカルロアルゴリズムを研究する。我々の生成モデルは3つの部分から成っている。第1の要素は測光モデルで、画像を一般的で過完備(overcomplete)した辞書から選択された画像基底の線形重ね合わせる。この辞書にはGaborおよび LoG底を点/粒子の要素として持っており、フーリエ底を波の要素として持っている。これらの底には入力画像のトークン(底)表現を、102 次元で圧縮して競わせる。第2の要素は、空間的に近傍のトークン(底)をグループ化し、動きの軌跡をいくつかの動き要素に分類する(これをモトン(moton)と呼ぶ)。モトンは時—空表現において変形可能なテンプレートであり、落ちてくる雪とか、飛ぶ鳥などの動く要素を表現する。第3の要素は粒子や波やそれらの相互作用の動きを特徴付ける動的モデルである。たとえば、川の中を流れているオブジェクトの動きである、葉やボールは波の動きとの相関が必要である。これら動くオブジェクトの軌跡は、連動マルコフ鎖(coupled Markov chains)で表現される。この動的モデルには統計的表現をとることができて、モトンの誕生と死(源泉/沈み込み)を表す。我々の場合は学習と推論に確率論的勾配アルゴリズムを採用する。入力ビデオ画像系列が与えられると、アルゴリズムは次の2つのステップを繰り返す:1)多数の逆マルコフ鎖のジャンプによってモトンとその軌跡を計算し、2)幾何学的変形と運動力学を支配しているパラメータを学習する。学習したモデルから新規なビデオ画像系列が合成され、モデルパラメータを編集することで、合成されるモデルが制御可能であることを実証する。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


投影モーメント不変量
Projective Moment Invariants

Tomas Suk, Jan Flusser, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1364-1367 , October 2004

Keywords: Projective transform, moment invariants, object recognition.

本論文は投影変換に関するモーメント不変量について詳述している。投影不変量は存在しないというのが一般的認識であった。我々は投影モーメント不変量が存在し、正だけでなく負の指数を有するモーメントの無限級数の形で存在することを示す。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大きなグラフのマッチングのための(部分)グラフ同型性アルゴリズム
A (Sub)Graph Isomorphism Algorithm for Matching Large Graphs

Luigi P. Cordella, Pasquale Foggia, Carlo Sansone, Mario Vento

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1367-1372 , October 2004

Keywords: Graph-subgraph isomorphism, large graphs, attributed relational graphs.

大きなグラフを扱うことに適したグラフ同型性と部分グラフ同型性このアルゴリズムの最初のバージョンは以前の論文で示されたが、この中では、小さいか中くらいのサイズのグラフ同型性の効率を調べた。このアルゴリズムは改良され、空間的複雑度が減少し、大きなグラフの場合には効率が向上した。この特徴量は処理時間と必要メモリーサイズという特定の参照項目に対して詳しく調べられた。人工的なデータと、技術図面という実際の用途で使われるデータの両方を含む公開のデータベースに対する処理結果を示し、特に大きなグラフの場合の本手法の有効性を確認した。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


色度とノイズ解析にもとづく反射成分の分離
Separating Reflection Components Based on Chromaticity and Noise Analysis

Robby T. Tan, IEEE, Ko Nishino, IEEE, Katsushi Ikeuchi, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1373-1379 , October 2004

Keywords: Reflection components separation, specular reflection, diffuse reflection, dichromatic reflection model, noise analysis, chromaticity, specular-to-diffuse mechanism.

コンピュータビジョンにおいて、多くのアルゴリズムは拡散型反射のみを考慮しており、鏡面反射は外れ値として扱っている。しかし、実世界において鏡面反射は避けられない。現実には拡散反射と鏡面反射の両方を持った多くの不均質な誘電体オブジェクトが存在する。この問題を解決するために、2つの反射成分を分離する手法を提案する。この方法は原理的には2次元最大色度強度空間の鏡面と拡散点の分布に基礎を置いている。空間と既知の照明色を利用することで、反射光成分の分離問題は、拡散色の最大化問題に単純化される。最大色度分散を正しく同定するためには、現実には避けられないノイズの予測が重要になる。従来法と異なり、提案手法はどんな表面荒れているものや光線方向のものでもロバストに反射成分を分離することができる。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像符号化問題としての動的外観自動生成モデル
Automatic Construction of Active Appearance Models as an Image Coding Problem

Simon Baker, Iain Matthews, IEEE, Jeff Schneider

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1380-1384 , October 2004

Keywords: Active Appearance Models, automatic construction, unsupervised learning, image coding, inverse compositional image alignment, quadratic smoothness priors.

動的外観自動生成モデルは入力学習画像中のメッシュ頂点の場所を見つける問題として認識されている。本論文ではエネルギー最小化画像符号化問題として再認識し、この解を得るため効率的な勾配降下アルゴリズムを提案する。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンラインやオフライン情報を利用した安定な実時間3D追跡
Stable Real-Time 3D Tracking Using Online and Offline Information

Luca Vacchetti, Vincent Lepetit, Pascal Fua, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 10, pp. 1385-1391 , October 2004

Keywords: Computer vision, real-time systems, tracking.

1台のカメラを使った3D中の剛体を効率的に追跡する実時間システムを提案するが、これは互いのカメラが大きくずれていても、見え方が異なっていても、部分的に隠蔽されていてもよい。オフラインのカメラ位置あわせ機能は市販品でも可能であるが、文献に紹介されたオンライン追跡システムはロバスト性が不足で、ドリフトやジッターに弱く、かつ、評価が定まっていなかった。これらの問題点を明らかにし、局所的データ単位(bundle)での調整による追跡問題を定式化した。これは、短いものも、広いものも、ベースラインマッチングをうまく扱える画像対応付けができる。それから、訓練段階において前フレームからの数少ないキーフレームから得られる情報を併合する。これが実時間追跡器であり、ジッターやドリフトが無く、広い視野の変化を扱える。

Ej

Copyright (c) 2004 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.26, No.12


ワイヤー状オブジェクトの形状ベースの認識
Shape-Based Recognition of Wiry Objects

Owen Carmichael, Martial Hebert

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 12, pp. 1537-1552 , Dec 2005

Keywords: Object recognition, edge and feature detection, classifier design and evaluation, shape.

物体が散乱した環境での、エッジ情報に基づいた複雑な形状のオブジェクト認識へのアプローチを示す。まず典型的な環境での目標オブジェクトの画像例を用いて、識別器カスケードを訓練し、画像中のエッジ画素が目的とするオブジェクトによるものなのか、他の撹乱オブジェクトによるものなのかを決めることができるようにする。新しい画像に対しては、この識別器カスケードはまず撹乱オブジェクトのエッジ画素を除外し、そして目標オブジェクトのエッジ画素をグループ化してオブジェクト全体を検出する。エッジ画素識別のために用いられる特徴は、局所化された低密度エッジ密度演算である。任意の画像平面外回転条件下における、様々な乱雑な室内シーンにおける複雑なオブジェクトの組の認識に対する、本方式の有効性を、実験により検証する。更にこの実験によって、本方法が訓練とテストの環境の差異に対して頑健であり、また、認識実行時に高効率であることを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


識別器の準教師付の学習:理論、アルゴリズム、そしてヒューマンインターフェースへの応用
Semisupervised Learning of Classifiers: Theory, Algorithms, and Their Application to Human-Computer Interaction

Ira Cohen, Fabio G. Cozman, Nicu Sebe, Marcelo C. Cirelo, Thomas S. Huang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 12, pp. 1553-1567 , Dec 2005

Keywords: Semisupervised learning, generative models, facial expression recognition, face detection, unlabeled data, Bayesian network classifiers.

自動識別は、どのようなパターン認識やヒューマンインターフェースででも必要とされる基本的なタスクの1つである。本稿で我々は、ラベル付、及びラベル無しデータで確率的識別器を訓練することを検討し、ラベル無しデータを識別性能向上のための学習に用いるための条件を与える新しい解析を示す。また、この条件が満たされない場合、ラベル無しデータの使用が、識別性能を低下させうることも併せて示す。この解析方法を特定のタイプの確率的識別器とベイズネットワークに実装することを検討し、ラベル無しデータで識別性能向上が可能な、新しい構造学習アルゴリズムを提案する。最後に、顔領域抽出と表情認識という、ヒューマンインターフェースとパターン認識に関連する二つのアプリケーションで、このアルゴリズムが如何に上手く働くかを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アクティブな変形可能パラメトリックモデルの周波数領域における公式化
Frequency Domain Formulation of Active Parametric Deformable Models

Luis Weruaga, Rafael Verdu, Juan Morales

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 12, pp. 1568-1578 , Dec 2005

Keywords: Active deformable models, snakes, frequency domain, Fast Fourier transform.

不良設定問題あるいは擬似物理系問題を解決することに対して、アクティブな変形可能モデルはコンピュータビジョンとコンピュータグラフィックスで非常によく用いられる簡明なツールである。この問題の典型的な定式化は空間領域で与えられ、二次線形システムをその原動力とする。そして剛性と弾性が特徴付けのための基本的なパラメタとして用いられる。本稿では、周波数領域分析に基づいた新しい定式化を提案する:単純な定式化と設計を実現するために、内部エネルギー汎関数とラグランジュ最小化は、完全に周波数領域で行なわれる。元来のアルゴリズムは、FFTアルゴリズムの効率的なハードウェアとソフトウェア計算による改善を特徴とするが、本方式は周波数ベースの実装により、元来のアルゴリズムとの比較で顕著な計算量の削減を達成する。この新しい定式化は、弾性と剛性ベースの元来の定式化から離れ、変形可能モデルを構築する可能性を認め、スチフネススペクトルに焦点を当てる。 シミュレーション例により、理論的な結果の妥当性を検証する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


フィッシャー情報とラオ計量を用いた画像構造の検出
Detection of Image Structures Using the Fisher Information and the Rao Metric

Stephen J. Maybank

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 12, pp. 1579-1589 , Dec 2005

Keywords: Analysis of algorithms, clustering, edge and feature detection, multivariate statistics, robust regression, sampling, search process.

多くの検出問題で、検出される構造はパラメタ空間内の点によってパラメタ化されている。 もし測定のための条件付き確率密度関数が知られているなら、有限数の点においてパラメタ空間をサンプリングし、対応する構造がデータによってサポートされているかどうか、それぞれの点をチェックすることによって、検出が達成される。標本の数、および隣接する標本間の距離は、パラメタ空間上のラオ計量を用いて計算される。ラオ計量はフィッシャー情報から得られ、このフィッシャー情報は条件付確率密度関数から得られる。誤検出の可能性があるため上界を算出する。低ノイズの場合、フィッシャー情報に対する漸近近似を作ることで計算は単純化される。線検出への応用を示す。フィッシャー情報への漸近近似、およびパラメタ空間の体積と標本数の算出のための式を与える。線検出のための時間計算複雑度を推定する。ハフ変換ベースの線検出方法と実験的な比較を行う。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対称性導関数と一般化構造テンソルによる認識
Recognition by Symmetry Derivatives and the Generalized Structure Tensor

Josef Bigun, Tomas Bigun, Kenneth Nilsson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 12, pp. 1590-1605 , Dec 2005

Keywords: Gaussians, orientation fields, structure tensor, differential invariants, cross detection, fingerprints, tensor voting, tracking, filtering, feature measurement, wavelets and fractals, moments, invariants, vision and scene understanding, representations, shape, tracking, registration, alignment.

我々は特徴抽出、マッチング、そしてパターン認識のための、密度方位(テンソル)場を作り、そしてフィルタリングのための複素微分演算子のセットを示す。我々が対称性導関数と呼ぶこれらの演算子についての、不変性特性に関する結果を示す。通常の導関数と対照的に、ガウシアンのすべての次数の対称性導関数は、特筆すべき不変性を示す。これらは、オリジナルの微分多項式を、偏導関数に対応する通常の座標x,yを用いた同じ多項式で置換することで得られる。更にガウシアンの対称性導関数は畳み込み演算に対して閉じており、またフーリエ変換に対して不変である。構造テンソルの対等は、曲線パターンの方向を表し、そして抽出する。これは以前にほとんど同一の方法で、調和座標においても同じことができることが示されていた。結果として、ガウシアンの対称性導関数を用いることで、複雑なパターンの位置、方位、および確信度、例えば、らせん、十字、放物線状の形状を、より高い解析的精度と計算効率を達成しつつモデル化することができる。ガウシアンとその導関数は画像処理で広範囲に利用されているため、今回の検討で明らかにされた特性は、局所的な方位ベースの特徴抽出のために実用面において重要である。これらの結果の有用性は2つのアプリケーションによって証明される:1)車両の衝突テストの長い画像系列における、クロスマーカーの追跡、2)ノイズが多い指紋の位置あわせ。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチクラス形状検出のためのcoarse-to-fine戦略
A Coarse-to-Fine Strategy for Multiclass Shape Detection

Yali Amit, Donald Geman, Xiaodong Fan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 12, pp. 1606-1621 , Dec 2005

Keywords: Shape detection, multiple classes, statistical model, spread edges, coarse-to-fine search, online competition.

多数の形状クラスから、インスタンスを認識し、位置を特定するという意味において、マルチクラス形状検出は2段階のプロセスとして定式化される。このプロセスでは、大域的な解釈の下準備として局所インデキシングを行う。このインデキシングでは、未検出を防ぐために、過検出を容認することでのみ、具体例(形状IDと姿勢)のリストが編纂され、制限される。姿勢間の予想される関係のような大域情報を用いて、後段で、あいまいさを削除する。これは計算の効率を考えてのことである。更にインデキシングそれ自体は、クラスと姿勢に対する同時coarse-to-fine探索として組織化される。この探索は、原画像のエッジマップのための、単純な(「純粋ベイズ法」)統計モデルから派生する尤度比検査への逐次近似として解釈することができる。多数のクラスと姿勢のための効率的な「仮説検証」を構築する鍵となるのは、局所OR 処理である。特に、広く拡散したエッジは、不正確であるが、共通の、そして局所的に不変の特徴を与える。必然的に識別と拡散パターン間のトレードオフが生じる。モデルベースの枠組みでこれらを数学的に解析し、提案手法の全手順をナンバープレート読み取り実験において例証する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


滑らかな湾曲オブジェクトのビジュアルハル(Visual Hull)
The Visual Hull of Smooth Curved Objects

Andrea Bottino, Aldo Laurentini

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 12, pp. 1622-1632 , Dec 2005

Keywords: Computer vision, aspect, aspect graphs, silhouettes, visual hull, smooth curved objects.

ビジュアルハルとは、オブジェクトの形とそのシルエット、もしくは影を関連づける幾何学的構成要素である。本稿では、滑らかなオブジェクト一般のビジュアルハル理論を展開する。オブジェクトのアスペクトグラフの視点空間を分割する表面を用いて、ビジュアルハルを構築できることを示す。この表面は交差点、および三重点に接する視覚事象(visual event)によって生成されるものである。これらの表面の接点におけるオブジェクト形状の解析により、ビジュアルハル構築に関係のない多くの表面を削る。ビジュアルハル計算のためのアルゴリズムを概説する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


間隔解析による大域収束型自動較正
Globally Convergent Autocalibration Using Interval Analysis

Andrea Fusiello, Arrigo Benedetti, Michela Farenzena, Alessandro Busti

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 12, pp. 1633-1638 , Dec 2005

Keywords: Image processing and computer vision, camera calibration, modeling from video, interval arithmetic, 3D/stereo scene analysis, self-calibration.

本稿では、一定の固有パラメタが未知の場合の移動カメラの自動較正問題を扱う。既存の自動較正技術は、一般的には正答への収束が保証されない数値的最適化アルゴリズムを用いている。この問題を扱うために、我々は間隔分岐限定法を用いて数値的最小化を行う方法を開発した。間隔解析の特性のおかげで、この方法は任意の精度で、数学的な確からしさで大域解に収束する。そしてユーザから必要とする入力情報は、点対応の組と捜索間隔のみである。コスト関数は基本行列のHuang-Faugeras制約に基づいている。最近提案されたバーンスタイン多項式フォームに基づく間隔伸張方法を、解の捜索を速めるために調査した。最後に実験結果を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


相関フィルタ:複雑な表中における低コントラスト文字列の抽出と位置決めのための、高精度アプローチ
Correlation Filter: An Accurate Approach to Detect and Locate Low Contrast Character Strings in Complex Table Environment

Yi Li, Zhiyan Wang, Haizan Zeng

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 12, pp. 1639-1644 , Dec 2005

Keywords: Document analysis, graphics recognition, pattern analysis, correlation theory.

オブジェクト検出の分野では、相関が広範囲に用いられてきた。本稿では、2つの種類の相関フィルタ、即ち最小平均相関エネルギー(Minimum Average Correlation Energy : MACE)および拡張最大平均相関高(Extended Maximum Average Correlation Height: EMACH)が、複雑な表形式の搭乗券のカラー画像における、汚れた文字列の抽出と位置決めのために、適応的位置あわせに適用される。変則表形式の搭乗券における、これらの文字列は、機械印刷ではあるが低コントラストで、表からはみ出ていることすらある。そのため従来のアルゴリズムを用いて検出と位置決めを行うことができない。我々の実験では、前処理段で背景を削除することで文字列が抽出される。そして幾何情報に基づき、二つの相関フィルタを予想されるフィールドに適用する。我々は2つの相関フィルタから結果を比較し、このアルゴリズムが高精度のアプローチであることを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像識別のための固有領域
Eigenregions for Image Classification

Clement Fredembach, Michael Schroder, Sabine Susstrunk

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 12, pp. 1645-1649 , Dec 2005

Keywords: Eigenregions, image classification, region analysis, image features.

ある特定のデータベースと識別タスクでは、画像特徴の代わりに領域特徴に基づく画像分析が、より正確な識別をもたらす。本稿で我々は固有領域を導入する。これは、たとえ領域が空間的に不整合であっても、画像領域の面積、位置、そして形状特徴をカバーする幾何的な特徴である。固有領域は主成分分析(Principal Component Analysis: PCA)を用いて計算される。非専門家により撮影された、13,500の実シーン写真の画像の分割により得られた77,000の異なる領域のデータベースで、固有領域は局所画像クラスの検出を顕著に向上させる。更に固有領域は、自然画像領域幾何における最大の分散が、その形状や位置ではなく、面積によるものであることを証明する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3D表面平滑化のための球面拡散
Spherical Diffusion for 3D Surface Smoothing

Thomas Bulow

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, No. 12, pp. 1650-1654 , Dec 2005

Keywords: Surface smoothing, diffusion, spherical harmonics.

表面平滑化のための拡散ベースのアプローチを示す。ここで表面は球面上で定義されたスカラー関数として示される。このアプローチは球面上のガウシアン平滑化と等価であって、反復的な平滑化を必要としないために計算効率が高い。更にこの方式は、よく知られている縮化問題に苦慮する必要がない。拡散条件下での重要な形状特徴(放物線状のカーブ)の進化が実証される。伸長され、中心からずれているオブジェクトの平滑化の作用を向上するために、拡散プロセスの非線形修正を導入する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[インデックス] [前の年] [次の年]