AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.25, No.1


EMアルゴリズムを用いた変換不変クラスタリング
Transformation-Invariant Clustering Using the EM Algorithm

Brendan J. Frey, Nebojsa Jojic

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 1, pp.1-17, January 2003

Keywords: Generative models, transformation, transformation-invariance, clustering, video summary, filtering, EM algorithm, probability model

クラスタリングは、画像やビデオ映像などのデータから便利な表現を導き出すための、シンプルかつ効果的な方法である。クラスタリングは、入力データを幾つかのプロトタイプの一つとして説明する。それぞれの入力データがランダムに変換されているような状態(例えば、画像やビデオ映像における、平行移動、回転、せんだん変換)では、多くのクラスタリング方法は、クラスタの中心を抽出する傾向がある。クラスタの中心は、興味深く潜在的に有用や構造よりも、加えられた変換による入力データの変動を表すものである。例えば乱雑な背景の前を人が歩いているビデオからの画像をクラスタリングした場合、異なるクラスタは、人の位置や乱雑な背景の配置などを表すよりも、異なる姿勢や表情を表していた方が便利だろう。ここで我々は、非線形変換多様体を離散点群により近似することにより、混合モデルに変換不変性を付加する方法について述べる。期待値最大化アルゴリズム(EMアルゴリズム)がどのようにして共同クラスタ学習に用いられるかを示し、同時に、それぞれの入力と関連する変換を推測する。我々は走査電子顕微鏡から得られたノイズを含む画像に対するフィルタリング、人間の顔のビデオ映像の、異なる識別カテゴリと姿勢カテゴリへクラスタリング、そしてビデオ映像からの邪魔な前景の除去に関して、この方法を他の方法と比較した。我々は同時にこの新しい方法が、初期条件に対して過敏ではなく、特別なデータを与えられた標準的な方法よりも上手く働くことを示す。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


USGSカラー地形図からの等高線と地理的特徴の抽出
Contour Line and Geographic Feature Extraction from USGS Color Topographical Paper Maps

Alireza Khotanzad, Edmund Zink

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 1, pp.18-31, January 2003

Keywords: Color map analysis, map segmentation, topographic map contour line extraction, USGS map analysis, aliasing and false colors

本稿では地形図をスキャンして得られたカラー画像から、等高線や他の地理的特徴を抽出する方法を示す。多くの出版元が地形図を出しているが、本研究ではUnited States Geological Survey(USGS)の地図に焦点をあてている。スキャニング過程での等高線などのエイリアシング(線のぎざぎざ)や色のずれ、そして地形図に特有の、狭い間隔や、交差、重なりを持つ特徴のために、等高線(USGSでは茶色で表される)をスキャン画像から抽出するのは困難である。またこれらの原因がクラスタリングなどのシンプルな方法を有効でなくしている。我々の提案方式は多段工程を導入することにより、これらの困難を克服している。最初に、RGB色空間における固有ベクトル直線当てはめを用いて、カラーエイリアシングや色ずれを内包するように設計されたカラーキーセットを生成する。次にRGBカラーヒストグラム解析を用いて、植生や、池、湖・海など領域特徴を抽出し、次段を簡略化する。そして、等高線を含む、道や川などに相当する線状の特徴を、valley-seekingアルゴリズムをオリジナルの地形図を変換したものに施すことにより抽出する。最後にA*探索アルゴリズムを用いてvalleyをリンクさせることにより、線状の特徴を形成し、交差特徴によるギャップを連結する。本アルゴリズムの性能を多数のUSGS地形図サンプルにおいて試験する。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


フラクタル次元計測のための、準最適な最小クラスタ体積被覆法による方法
Suboptimal Minimum Cluster Volume Cover-Based Method for Measuring Fractal Dimension

Charles R. Tolle, Timothy R. McJunkin, David J. Gorisch

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 1, pp.32-41, January 2003

Keywords: Fractal dimension, Fuzzy-C means, suboptimal cover, box counting, clustering, texture analysis

本稿ではフラクタル次元を算出するための新しい方法を示す。この方法はボックス次元の概念に基づく。しかし準最適な注目データ群の被覆の直接推定を含む。準最適な被覆を見つけることにより、本方式は標準的なボックスカウントアルゴリズムよりも良く、与えられた被覆サイズに対する必要な被覆要素数を推定することが出来る。更に、どのような被覆要素カウントのエラーの減少も、フラクタル次元の推定の精度を直接に高めることになる。一般的に、我々の方法は標準的なボックスカウントアルゴリズムの数学的双対である。ただしこのとき、注目データ群を被覆するために、どれだけの数のボックスが必要とされるかについての計算はしていない。これの代わりに、本方式では被覆に用いる要素の数を選び、その上で注目データセットを完全に被覆する最小の超楕円の配置を見つける。本方式は、最小クラスタ体積クラスタリングアルゴリズムと、ファジーC平均クラスタリングアルゴリズムの変形を含む。この最適でない被覆方法を用いたフラクタル次元推測器の変化について検討した。最後に、これらの方法を、フラクタル次元の算出について、標準的なボックスカウントアルゴリズムとウェーブレット分解法と比較した。この比較には一次元のcantor dust(訳者注:フラクタル画像の微細部分の離散的な小領域のこと)セットと標準Brownianランダムフラクタル画像を用いた。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


離散多重解像度確率場のクラスと、画像分割への応用
A Class of Discrete Multiresolution Random Fields and Its Application to Image Segmentation

Roland Wilson, Chang-Tsun Li

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 1, pp.42-56, January 2003

Keywords: Markov random fields, image segmentation, Bayesian estimation

本稿では、多重解像度アレイ上に定義された確率場モデルのクラスを、グレースケール画像とテクスチャ画像分割に用いている。このモデルの一形態の新規性は、各領域内部に顕著な特性の変化がある場合、未知数の領域を含む画像でも分割することが出来ることである。ここで用いられているアルゴリズムは確率論的なものだが、多重解像度表現ゆえに、計算速度は高速であり、広範な画像構成やテクスチャに関して、誤差率1ないし2%の高精度な解に収束するために必要とされる一画素当たりの繰り返し回数は僅か数回である。単純な境界過程に本方式を付加することで、低解像度においても高精度な解を、非常に小さい計算コストで得ることが出来る。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統計的エッジ検出:エッジキューの学習と評価
Statistical Edge Detection: Learning and Evaluating Edge Cues

Scott Konishi, Alan L. Yuille, James M. Coughlan, Song Chun Zhu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 1, pp.56-74, January 2003

Keywords: Edge detection, statistical learning, performance analysis, bayesian inference

我々はエッジ検出を統計的推論として定式化する。この統計的エッジ検出方法はデータ駆動型であり、モデルベースの他の標準的な方法とは異なる。エッジ検出フィルタのあらゆる組み合わせ(局所的なエッジキューの実装)に対して、ある画素が、エッジであるか否かの条件 に応答するフィルタの確率分布を学習するために予め分割された画像を用いる。エッジ検出はフィルター応答による尤度比テストを利用した識別問題として定式化された。この手法を有効に用いるためには、エッジ以外の部分である背景をモデル化する必要性がある。我々はこの条件付確率分布をノンパラメトリックに表現し、それぞれ100(Sowerby)、及び50(South Florida)の画像からなる異なる画像セットに関して、この方法を例証する。クロミナンスと多重スケール性を含む、複合的なエッジキューを、それらの同時分布を用いて結合させる。それ故、このキューの組み合わせは統計的に最適である。我々は複数のビジュアルキューの有効性を、Chernoff情報と受信動作特性(Receiver Operator Characteristic: ROC)曲線を用いて評価する。この結果は、画像の背景が顕著な乱雑性を持つ場合に、我々のアプローチがキャニーエッジ検出器を定量的に上回る結果を示すことを表している。本方式により異なるエッジキューの有効性を決定し、マルチレベル処理のアドバンテージ、クロミナンスの使用、そして異なるエッジ検出器の相対的有効性を定量的に計測することが出来る。更に、あるデータセットでのこれらの条件付分布に関する学習結果を、正解が未知の他のデータセットに適用した場合でも、僅かな性能劣化しか起こらないことを示す。これはここで示した我々の実験結果が、純粋にドメインに特化されたものではないことを示す。我々はこの方法を、エッジキューの空間的グルーピングに適用し、非極大抑制とヒステリシスに対する類似性を獲得している。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


信頼度推定による研磨工具の磨耗(Milling Tool Wear)のマルチレベル識別
Multilevel Classification of Milling Tool Wear with Confidence Estimation

Randall K. Fish, Mari Ostendorf, Gary D. Bernard, David A. Castanon

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 1, pp.75-85, January 2003

Keywords: Tool wear, confidence, normalized cross entropy, HMM, sparsely-labeled training, machining, milling

工業機械の操作に関する重要な問題は、使用する工具の磨耗(Tool Wear)の検出と識別である。この分野のこれまでの研究で、様々な特徴の組み合わせと二値識別器の有効性が示されている。それゆえ、本研究の目的は、金属研磨に用いられる工具の動的な特徴を利用した識別器の開発である。この識別器は以下の二点で、標準的な二値識別器を置換するものである。第一は、(量子化された)磨耗レベルに関する予測であり、第二は与えられた観測特徴系列中で、工具の磨耗に関する事後確率(もしくは信頼度)の勾配計測である。この識別器は、鋭い状態からなまった状態までの磨耗の進展と同じように、単一の切断路(cutting pass)のセンサーデータの変化を捉える。疎にラベル付けされたトレーニングデータによるパラメタ推測に関する他の選択肢についても提案し、評価する。本方式は、単一センサからの限定された特徴セットにおいてさえも、切断条件の様々な変化にわたり、高精度を達成している。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状の表現と自己類似性
Representation and Self-Similarity of Shapes

Davi Geiger, Tyng-Luh Liu, Robert V. Kohn

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 1, pp.86-99, January 2003

Keywords: Shape representation, self-similarity, variational matching, dynamic programming, MRF

コンパクトで情報量の多い形態で形状をあらわすことは、物体を認識し、識別せねばならない視覚系において重要な問題である。ここで我々は、自己類似性の調査とshape axis tree(SA-tree)の構築による、二次元形状のコンパクトな表現モデルを示す。我々のアプローチはこれらの方法の変形として定式化することが出来る。(もしくは等価的に、マルコフランダムフィールドの事後確率最大(MAP)推定となる。)我々は二次元形状と、その境界輪郭、そしてこの輪郭の二つの異なるパラメタ決定(一つは反時計回り、他方は時計回り)から検討を開始する。形状の自己類似性を計測するために、上記2つのパラメタ決定の照合により、輪郭に沿った1対1対応の2点間対応の最良の組みを導出する。この照合に用いたコスト汎関数は変化するかも知れず、またこの汎関数は、共円性、距離の変動、並行関係、そして領域均質性などの、採用された自己類似性クライテリアにより決定されるものである。輪郭点組の中間点の軌跡により、shape axisが形成され、それらは一意な自由木構造であるSA-treeに分類される。SA-treeは暗黙的に形状の(局所及び大局)情報をエンコードするため、形状認識や比較、そして検索などの様々な視覚タスクにおいて、他の様々な木構造のアルゴリズムと比較しても優れたロバスト性と効率を示す。動的計画アルゴリズムにより、最適解がO(N^4)において得られる。ここでNは輪郭のサイズである。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Light-fieldが与えられた場合、いつ、シーンの形状は一意なのか。:3D Visionの基本原理?
When Is the Shape of a Scene Unique Given Its Light-Field: A Fundamental Theorem of 3D Vision?

Simon Baker, Terence Sim, Takeo Kanade

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 1, pp.100-109, January 2003

Keywords: 3D shape reconstruction, stereo, shape-from-silhouette, the plenoptic function, light-fields, uniqueness

パッシブな三次元視覚アルゴリズムでは用いられることのない、測量の完全な組みとしては、plenoptic function(視線の集合)やlight-fieldがある。ここで我々はLambertianシーンのlight-fieldが、一意にその形状を決定する場合、そして逆に、形状が本質的に曖昧である場合、それぞれの簡潔な特徴付けを与える。特に、シーンを照らす光が一定の強度(及び色)で、拡張領域全域に渡り放射状に広がっている場合に限り、light-fieldから計算された両眼画像が曖昧であることを示す。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の識別器系における総和—投票の融合
Sum Versus Vote Fusion in Multiple Classifier Systems

J. Kittler, F.M. Alkoot

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 1, pp.110-115, January 2003

Keywords: Multiple classifiers, fusion rules, estimation error

我々の周囲には、ある物が、他の物に対して優れていることを示す、対立する実験証拠が溢れている。我々は、2クラス問題における、総和と多数決を組み合わせたルールについて検証する。ここでは、各エキスパートシステムは同等の長所を持ち、推測誤差は条件付独立で同一の分布を成すことを仮定している。解析的に見ると、ガウシアン推測誤差分布に関しては、総和は常に投票を上回っていることを示す。裾野の広い分布の場合では、投票が総和を上回ることを、シミュレーションを用いて示す。合成データにおける実験結果により、この理論的予測が裏付けられる。実データにおける実験結果は、おおまかにはこれらの結果を支持するが、それと同時に、条件付独立性や同一の誤差分布に関する通常の仮定の有効性、そして各エキスパートの共通ターゲット出力が完全には充たされないことも示している。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


曲線の整列について
On Aligning Curves

Thomas B. Sebastian, Philip N. Klein, Benjamin B. Kimia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 1, pp.116-125, January 2003

Keywords: Curve alignment, recognition, dynamic programming, prototypes, correspondence

我々は二つの曲線間の対応(整列)を見つけるための新しいアプローチを提案する。この対応は、両方の曲線を対称に扱う整列曲線(alignment curve)の考えに基づいている。そして長さと、曲率という、曲線にとって本質的な二つの特性を用いて、整列曲線に基づいた類似性指標を定義する。効率的な動的計画法により、整列する曲線のペアと閉じた曲線の両方の最適な対応を見つける。またこれは曲線の様々な変換に対して効率的である。最後に、この対応を、手書き文字認識、プロトタイプ形成、そして物体認識への応用において示す。またこの対応は潜在的にレジストレーションやトラッキングなどの他の応用に対しても有用である。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ランダムラインによる画像の円弧への投票
Polling an Image for Circles by Random Lines

Y.C. Cheng, Y.-S. Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 1, pp.125-130, January 2003

Keywords: Random sampling strategy, poll size determination, circle detection, RANSAC, Hough transform

入力画像中の二つのエッジ画素により構成されるサブセットを検索するように設計された新しいランダムサンプリング戦略を、同軸変換を用いたRANSAC円弧検出のためのサンプリング過程として提案する。提案する戦略は、従来のランダムサンプリング戦略を上回る、以下に示す利点を持つことを示す。第一に投票サイズは原則的な方法に従って計画することができる。第二に、投票サイズが決定されると、サンプリング過程により円弧が失われる確率は、ノイズに関係なく相対的に一定に保たれる。第三に、実際に取得されるサブセットの数は、複雑度が画像に自動的に調整される。上記の利点と合致する実験結果を示す。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


検証ベースの複数閾値探査による適応的局所閾値処理と、網膜画像の血管検出への応用
Adaptive Local Thresholding by Verification-Based Multithreshold Probing with Application to Vessel Detection in Retinal Images

Xiaoyi Jiang, Daniel Mojon

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 1, pp.131-137, January 2003

Keywords: Adaptive local thresholding, threshold probing, hypotheses generation and verification, vessel segmentation, retinal imaging, medical imaging

本稿では検証ベースの複数閾値探査スキームに基づいた、局所適応的閾値処理の一般的フレームワークを提案する。仮定的閾値処理及び、検証手順によるアクセプト/リジェクトによる二値化を用いて、物体の仮定を生成する。関心ある物体についての全ての有効な情報を完全に利用するように、アプリケーション依存の検証手順を設計することができる。この意味において他の文献に見られるほとんどのアルゴリズムとは対照的に、我々のアプローチは知識ガイドによる適応的閾値処理とみなすことができる。我々はこの一般的フレームワークを網膜画像からの血管検出に適用した。実験的評価により、大域的閾値処理や、近年他の文献で報告された血管検出方法を上回る、本方式の優れた性能を示す。我々の新しい方法は、その簡明さと普遍的特性により、様々なアプリケーションに適用することができると期待できる。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.25, No.1


回転表面を利用したカメラキャリブレーション
Camera Calibration from Surfaces of Revolution

Kwan-Yee K. Wong, Paulo R.S. Mendonsa, Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 2, pp.147-161, February 2003

Keywords: Camera calibration, surface of revolution, harmonic homology, absolute conic, vanishing point

3D画像の推定や再現においてはカメラ内部パラメータを正しく求めることは本質的に重要なことである。本論文では、固有のカメラパラメータ(つまり、アスペクト比、焦点距離、主点)を求める新規で簡単なキャリブレーション方法を紹介する。これは回転表面画像の対称性を利用する。従来、このためには、精密に作られた校正用格子のような既知の校正パターンを撮影していたが、これによって求まる精度は必ずしも良くなかった。日常においてよく見られる回転対称物体には壷やボウル(鉢)があるが、これらの利用によって安価で手軽に校正ができる。本論文で、回転対称物体の2つの画像さえあれば、カメラの固定パラメータであるアスペクト比、焦点距離、主点が求まることを示す。この論文で示されたアルゴリズムを利用して人工データと実写データの両方に適用し、テストされた。実験結果は、本校正方法は実用的で正確である事を示している。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ベイズ法による格子マッチング
Bayesian Grid Matching

Karsten Hartelius, Jens Michael Carstensen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 2, pp.162-173, February 2003

Keywords: Deformable model, Markov random field, ensemble annealing, graph matching, high-throughput screening, textile analysis

画像中の変形格子構造の位置合わせ法について述べる。本手法は、テンプレートマッチングとベイズ法による画像復元に基づいている。格子は変形可能なテンプレートとしてモデル化されている。この格子の事前確率は格子ノードの空間座標をMarkov確率場(MRF)として記述される。画像中に観察される格子ノードの描写知識は観測モデルで記述される。格子点の事前確率は事前ノードと事前弧(事前エッジ)から成っており、両方ともガウスMRFとしてモデル化される。格子ノード位置に関する事前ノードモデルの変動範囲と、弧の事前モデルの変動範囲は、格子内部を縦横方向に変動することが許容されている。格子マッチングは、まず疎な格子を大雑把に合わせ、格子の事後分布を最大化するよう全体にアニーリング処理を施すことで実施される。この手法は、格子ノードが欠けたり、格子ノードに人為的な物体が存在するようなノイズの多い画像に応用可能であり、格子ノードの大規模な変形、縦横への変動、ランダムな非剛体変動のような多様な格子変形にも適応可能である。本手法は以下の2つの実例で実証された:1)交配フィルター実験におけるDNA信号の場所同定、2)ニット衣類の網目の場所同定。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


粗から密への可変輪郭最適化の枠組み
A Coarse-to-Fine Deformable Contour Optimization Framework

Yusuf Sinan Akgul, Chandra Kambhamettu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 2, pp.174-186, February 2003

Keywords: Deformable models, deformable model energy optimization, coarse-to-fine optimization, dynamic programming, spatiotemporal contour tracking

本論文では、粗から密への可変な輪郭最適化の新規な枠組みを紹介し、その中では2つの主要要素から構成されている。第1の要素はスケール空間と情報理論を利用して入力画像を粗な表現に変換し、これによって粗から密への最適化を実行する。情報理論を採用したことで最大画像情報は粗画像に伝播可能となるし、スケール空間の採用で局地的に変形可能な輪郭モデル定義に基づいて画像の粗さを変化させるメカニズムが利用できる。第2の要素は、動的計画法と勾配降下法を動的に組み合わせて輪郭エネルギーを最適化する方法を利用しているが、その理由は各々の利点を利用し、欠点を避けるためである。この和組みの効率を実証するために、閉輪郭の変形可能な輪郭モデル時空追跡を構築し、この枠組みの中でモデルエネルギーを最適化した。合成画像と、超音波心臓実画像に本方式を適応した結果、本手法の効率と実用性が実証された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


粗対応問題のグローバルな解
A Global Solution to Sparse Correspondence Problems

Joao Maciel, Joao P. Costeira

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 2, pp.187-199, February 2003

Keywords: Correspondence problem, linear and concave programming, sparse stereo

2つ以上の画像の粗な集合間の対応付け問題を高い信頼性で解く新規な方法を提案する。これはコンピュータビジョンでのほとんどの問題での基本的な部分であるが、従来この一般的な解法は存在しなかった。我々はほとんど一般的に利用される仮定を使ってユニークな定式化を行うことに成功したが、これは応用領域や特徴量には独立である。これは、まず第1ステップで対応付けと異常値(outlier)除去を行うため、グローバル最適化を相応の計算量で実行できる。特徴量選択と対応付け問題は、まず整数最適化問題として定式化される。大胆に言えば、可能な点選択と組み合わせ空間全てを対象とする、と定式化される。このグローバル最適化解を見つけるために、凹目的関数を作り、次に探索領域弛緩させて凸包にする。このように問題拡張して特殊構造にすることで元の問題との同等性が保証されるが、全組合せ探索を避けた効率的アルゴリズムによって最適に解くことができる。この手法は、微分が連続であるコスト関数さえ構築できればどんな問題にも対応できる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


署名の筆跡追跡による視覚的同定
Visual Identification by Signature Tracking

Mario E. Munich, Pietro Perona

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 2, pp.200-217, February 2003

Keywords: Systems and applications, active and real-time vision, signature verification, signature recognition, biometrics

我々はカメラを使った生物的識別法(バイオメトリックス)である視覚的な署名識別法を提案する。良い署名の識別結果を得るためには、署名する紙面とカメラの位置関係の変動とは独立に、どんな特徴をパラメータ化するかが重要であることを議論する。なお、カメラは筆記者のペン先を見ている。従来の、時間やユークリッド距離による弧長を使った識別よりも、アフィン変換による弧長(affine arc length)の方が高い識別率を示した。本システムの検証精度は、熟練偽造者による署名の識別エラー確率である4%や、でたらめな偽造署名を間違える確率1%よりも優れており、カメラを使った最良のバイオメトリックスとほぼ同等であることが分かった。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ランベルト反射と線形部分空間
Lambertian Reflectance and Linear Subspaces

Ronen Basri, David W. Jacobs

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 2, pp.218-233, February 2003

Keywords: Face recognition, illumination, Lambertian, linear subspaces, object recognition, specular, spherical harmonics

遠方の光源から反射されるランベルト反射関数(表面に垂直な方向からの光強度と特定の角度方向への光強度の関係式=ランベルトの法則)全体はほぼ9次元であることを証明する。このことは一般的には多様な照明条件下で得られる凸ランベルト物体の画像集合は、精度よく低次元の線形部分空間によって近似できることを意味しており、経験とも合致する。我々は更に、この線形空間に単純な解析的特徴付けをする。これらの結論を利用して、ランベルト物体をコンボリューションに類似した球調和関数による照明表現をしてみる。これによって、オブジェクト認識を線形なアルゴリズムによって構築することができるだけでなく、照明関数が非負であるという制約によって凸最適化を使ったアルゴリズムが出来る。もし、オブジェクトが4次元線形空間の近くに存在する場合には、非負の照明条件による簡単な方法を示す。これらのアルゴリズムを顔認識に適用し、2次元の問合せ(query)画像に最もよく合致する3次元モデルを見つけた。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


任意の次元数における回転・ボケ不変なモーメント形式
Moment Forms Invariant to Rotation and Blur in Arbitrary Number of Dimensions

Jan Flusser, Jiri Boldys, Barbara Zitova

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 2, pp.234-246, February 2003

Keywords: N-D imaging, rotation invariants, blur invariants, group representation theory, image matching

我々は、ボケと回転の両方合わせた変形に対して、任意の次元数で不変なモーメントを構築することができた。まず最初に、任意の中心対称のコンボリューションに不変なモーメントが得られた。次にこの回転不変な形式が群表現理論によって望ましい不変性を示すことが分かった。提案するいくつかの手続きが不変性を持つことの計算例を示す。これらの不変性、ロバスト性、そして、このテンプレートマッチングや画像位置合わせへの応用例を3D-MRI画像や室内画像の例で示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変形可能モデルへの照明条件を付加した場合の、陰影からの形状復元と光源方向推定
Incorporating Illumination Constraints in Deformable Models for Shape from Shading and Light Direction Estimation

Dimitris Samaras, Dimitris Metaxas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 2, pp.247-264, February 2003

Keywords: Physics-based modeling, shape from shading, deformable models, illuminant estimation, diffuse reflectance

本論文では、変形可能物体の、陰影から形状と光源方向を推定する課題に対する非線形なホロノミー(最大過剰決定)制約の統合手法を紹介する。既知の照明条件下におけるランベルト物体画像において、本方式と、従来の陰影からの形状推定(Shape from Shading)アルゴリズムによる結果を比べた結果、本手法の優秀性が実証された。本手法は非ランベルト表面であって、かつ、光源方向が未知であっても適用可能であり、より一般性がある。本論文において、1)変形可能なモデルの枠組みの中で、数値計算的にロバストな非線形なホロノミー制約的統合手法の理論を開発した。この定式においては、ラグランジュ乗数法とBaumgarte安定化手法を利用した。2)局所的に多数のパラメータが利用可能な場合には、制約条件付きの物理的な力を想定した新規な高速計算手法について紹介する。3)また、単純なランベルトモデルから、もっと複雑な非線形モデルへと、どんな照明条件であっても、変形可能なモデルの枠組みで扱えることを示す。4)さらに、本手法を、光源が未知の場合にも可能であるように拡張する。我々は、本形状推定方法と、光源推定方法を反復処理する手法を組み合わせ、形状推定精度が良くなると、光源推定精度が向上し、その結果形状推定精度が向上する、というように、順次処理を行った。5)この手法は人工的データと実データの両方に適用された。人工データは標準データ[43]から得られた。本結果は以前のSfSアルゴリズムを適用した同一データと、また、Zheng and Chellapaによる以前の方法による光源方向推定と比較し、良好な結果を得た。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


任意次元における2値画像の厳密なユーックリッド変換の時間線形アルゴリズム
A Linear Time Algorithm for Computing Exact Euclidean Distance Transforms of Binary Images in Arbitrary Dimensions

Calvin R. Maurer, Jr., Rensheng Qi, Vijay Raghavan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 2, pp.265-270, February 2003

Keywords: Euclidean distance transform, closest feature transform, Voronoi diagram

k次元Nボクセルの2値画像を正確にユークリッド距離変換(DT)計算するための、時間線形な逐次的アルゴリズムを紹介する。このアルゴリズムは次元削減と部分Voronoi図構築を基礎にして、Lpとかchamfer distance(=重み付きL1距離)などの多様な距離関数を計算することができる。ここでLpとは(Σ|xi - yi|^p)^(1/p)である。各次元において、Voronoi図の交差点を構築してDTが計算されるが、この交差点の場所が画像の列の特徴ボクセルとなっている。この交差点構築のために、次の下位次元のDTを利用することで効率化を計っている。計算複雑度が時間に線形依存していることが解析的に示されるとともに、実験的にも確認された。このアルゴリズムは比較的単純で実装しやすく、比較的演算が速いので(O(N)の計算複雑度であるだけでなく、時間係数が小さい)、実用的にも有用であろう。少しの変形によって重み付きユークリッドDTが計算できるが、これはボクセルの次元が非等方的な場合に有効である。pをプロセサー数とするとき、並列プロセサーではO(N/p) の計算時間となる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


平面ホモグラフを利用した異なるステレオ画像における特徴量変換とマッチング
Feature Transfer and Matching in Disparate Stereo Views through the Use of Plane Homographies

Manolis I.A. Lourakis, Stavros V. Tzurbakis, Antonis A. Argyros, Stelios C. Orphanoudakis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 2, pp.271-276, February 2003

Keywords: Feature correspondence, feature transfer, projective transformations, plane homography, fundamental matrix, trifocal tensor, wide baseline matching

多くの画像課題において、異なる画像における対応特徴量の同定処理が利用されている。本論文は、2つのステレオ画像間のいくつかの対応特徴量が与えられたとき、異なる距離から撮られた画像対中のマッチングを行う方法を示す。本提案手法は、対象とする2つの画像は2つの平面を持っていること、そして、これらの平面の変換関係を求めた後、その上の特徴量のマッチングを行うことを利用している。この手法によって、点や線分を統一的に扱うことができ、そのため、大きく異なる視点から撮影されてステレオ画像対中の特徴量でも正しく対応付けることができる。実験結果を示し、これが、比較対象のエピポーラ手法やテンソルによる手法に比べて優れていることが分かる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自非線形能動的形状モデルを利用した手書き中国文字部首の認識
Handwritten Chinese Radical Recognition Using Nonlinear Active Shape Models

D. Shi, S.R. Gunn, R.I. Damper

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 2, pp.277-280, February 2003

Keywords: Handwritten Chinese character recognition, active shape model, kernel principal component analysis, chamfer distance transform, dynamic tunneling algorithm

手書き中国文字は、まず部首の認識を利用して行うことができる。部首は非線形な能動的形状モデルで、chamfer距離変換と動的トンネル(tunneling)アルゴリズム(量子力学と同様に、狭い障壁をトンネル効果によって通過させ、局小値に捕らわれることを避ける)を利用して最適パラメータが得られる。280,000文字における98部首の部首認識率は96.5%であった(筆者非依存)。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


データ駆動型帯域選択アルゴリズム
An Algorithm for Data-Driven Bandwidth Selection

Dorin Comaniciu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 2, pp.281-288, February 2003

Keywords: Variable-bandwidth mean shift, bandwidth selection, multiscale analysis, Jensen-Shannon divergence, feature space

多重スケールのパターンを有する特徴空間の解析においては、可変帯域平均シフトのような、しばしばカーネルの推定法が必要となる。適切な帯域の選択は、優れた空間解析や分割のためには重要なステップとなる。本論文は、多モード、多変数事象の平均シフト手法を局所的帯域選択に利用する方法を示している。正規化された密度勾配の偏りに関して正規分布を仮定している。我々は、サンプルが十分多い場合、局所的共分散は、正規化平均シフトベクトルを最大化する行列によって推定することができることを示す。この性質を使って、いろいろなスケールにわたる局所帯域の推定の安定性を考慮した信頼性のアルアルゴリズムを開発した。この理論的結果は、可変帯域平均シフト法を含む色々な空間分割実験で実証された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.25, No.3


陰影から照度を予測する
Illumination from Shadows

Imari Sato, Yoichi Sato, Katsushi Ikeuchi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 3, pp.290-300, March 2003

Keywords: Computer vision, physics-based vision, illumination distribution estimation

情景の中に存在する既知の形状を有するオブジェクトによって生じた陰影内部の画像輝度から、元の照明分布を再現する方法を紹介する。自然の照明条件においては、直接照明と間接照明の両方が複雑に混ざっており、オブジェクト表面の画像の輝度分布から照度分布を復元するのは多くの場合困難である。復元が困難である主な理由は、オブジェクト表面に観察される、照明全体にわたる微妙な反射特性を有する画像の輝度変化が十分でないことである。本研究において、情景の照明分布を推定するために入射光の遮蔽情報が如何に有用であるかを示す。実写画像における陰は入射光の隠蔽によって生じるから、複雑な照明環境であっても画像の輝度と入射光の隠蔽を解析することによって信頼性良く、照明分布を推定することができる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像マッチングにおける例外点(outlier)のモデル化
Outlier Modeling in Image Matching

David Hasler, Luciano Sbaiz, Sabine Susstrunk, Martin Vetterli

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 3, pp.301-315, March 2003

Keywords: Outlier model, outlier rejection, mixture model, robust pose estimation, M-estimators

同一情景を撮影した2つの画像のマッチングに際して生じる孤立点(outlier)をどのような特徴で捉えるべきかについて述べる。マッチングは、2つの異なる画像を画素レベルで比較し、より良い位置合わせ目指すことで達成される。入力画像としてディジタル写真を利用する場合、孤立点は、一方の画像中だけに突然現れたオブジェクトとして、あるいは、物体の不意の動きで生じた周辺部に生じやすい。例外点による画素強度の誤りは、情景画像中の2つのランダム領域の比較で生じる誤りに類似していると仮定し、2つの画像の内容に基づく例外点モデルを構築する。マッチングは、孤立点(outlier)対通常点(inlier)の混合モデルとして表現できる。我々のモデルを姿勢推定問題に適用する:ゴールは2画像からカメラの動きを推定することである。マッチングは通常点対孤立点の混合モデルによって、姿勢推定誤りの最小化関数を定義する。我々のモデルの利点は以下の2つである:1)各画素が孤立点に含まれる確率が計算でき、2)パノラマ画像貼り合わせに利用されているロバスト推定(M推定)に比べ、僅かな計算量の増加で顕著なロバスト性が得られることである。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフィカルガウス形状モデルと画像セグメンテーションへの応用
Graphical Gaussian Shape Models and Their Application to Image Segmentation

Anke Neumann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 3, pp.316-329, March 2003

Keywords: Shape, Bookstein coordinates, conditional independence, graphical Gaussian models, Markov random fields, Bayesian image segmentation, Markov chain Monte Carlo sampling methods, Gibbs sampler, slice sampler

本論文は新規手法である形状のモデル化と、モデルに基づく画像セグメンテーション法を特定の形状モデルに適用させる方法について述べる。形状を表現する一般的方法はいわゆるキーポイントを利用した方法であり、この結果形状変数が得られ、相似変換に対して不変表現となる。我々はグラフィカル形状モデルを提案するが、これは形状変数間に存在する、ある種の条件付き独立構造を利用している。多くの場合、近傍と遠方の両方のキーポイント間の相互関係を反映するような疎な潜在的グラフが利用できれば十分な効力を発揮する。分解可能なガウスグラフィカルモデルの部分クラスを利用する場合、両方のモデル選択手続きと、パラメータ推定が明瞭に区別できるため、グラフィカル形状モデルは特定形状のモデル化も可能である。マルコフ鎖モンテカルロ法のツールボックスが利用可能であれば、画像解析におけるグラフィカル形状モデルへの応用は成功率が高くなり、分布が既知の場合は極めて柔軟で効果的となる。グラフィカルガウスモデルに基づくベイズ法による画像セグメンテーションの場合には、有名なギッブス抽出法と最近のスライス抽出法を組み合わせることをお勧めする。脊椎のコンピュータトモグラフィー画像の2次元スライスから、脊椎断面画像に対して形状モデル化と画像解析を利用したセグメンテーションを実演した。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウォータースネーク:エネルギーで駆動されるwatershedセグメンテーション法
Watersnakes: Energy-Driven Watershed Segmentation

Hieu Tat Nguyen, Marcel Worring, Rein van den Boomgaard

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 3, pp.330-342, March 2003

Keywords: Watershed segmentation, energy-based segmentation, topographical distance, snakes

watershed(分水)アルゴリズムは、地形に水を満たしていったとき順次水没していく尾根点を利用した手法であり、数学的形態論からも強力な手法である。しかし、エネルギー最小化を利用するセグメンテーション法のような事前情報とはうまく合わない。特に、セグメンテーション結果の平滑性を制御することはできない。本論文では、分水線の距離に基づいたエネルギー最小化法によるセグメンテーション法を紹介する。輪郭長をエネルギー関数に加えることによって事前平滑性の概念を付加することができる。このように、watershed法とエネルギーに基づくセグメンテーション法を統合することによって、watersnake法と呼ばれる新しい方法ができあがった。実験では、画像にノイズの多い境界や、対象物に間違った分岐が含まれている場合であっても、本提案手法はこれらの困難を克服し、より良いセグメンテーション結果を示した。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


識別器組み合わせのための形態学的に最適な戦略:トモグラフィー処理のための複数エキスパート融合
A Morphologically Optimal Strategy for Classifier Combination: Multiple Expert Fusion as a Tomographic Process

David Windridge, Josef Kittler

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 3, pp.343-353, March 2003

Keywords: Classifier combination, tomography, probability theory, feature selection

識別問題をそのデータ固有の分布関数によって数学的に最適な解として求めることは今まで試みられたことが無く、実際は多様な識別器を組合わせる方法論を採用し、トモグラフィー的手法によって、パターン空間全体に張る混合確率密度関数の復元問題として扱ってきた。この方法における特徴量の選択プロセスは、ちょうど厳密に帯域制限された訓練データのラドン変換と同等と見なせる。このメタファーは、最初は複雑であるが、すぐにプロセスの改良案が思いつき、何度か再構成するうちに、このような組合わせ手法の中での最適な性能基準が求まる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IMPSAC:重要性に応じた標本化と確率的標本合意
IMPSAC: Synthesis of Importance Sampling and Random Sample Consensus

Philip H.S. Torr, Colin Davidson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 3, pp.354-364, March 2003

Keywords: Bayesian methods, structure from motion, stereoscopic vision, importance sampling

本論文は、カメラが大きく回転したり基線が長い状態で撮影された、変形の大きな画像間におけるエピポーラ幾何と特徴量の新規な復元法を提案する。この手法は2つの情景画像間事後確率分布を任意の近似の不確実性をコード化することができる。本手法は疎解像から密解像へと変化するピラミッド上で作動するが、このとき問題になるのは、解像度レベルを移動するとき、どのようにして統計学的に整合性を保ったまま情報を伝達するかと言うことである。各解像度におけるパラメータ分布はノンパラメトリックにコード化されたパラメータ集合(これを粒子分布でシミュレーションする)で表現される。最も疎なレベルではRANSAC(RANdom SAmple Consensus)-MCMC(Markov Chain Monte Carlo)推定器によってこの粒子集合を初期化し、次に事後確率は、これら粒子に適合化させたガウス分布の混合分布として近似される。疎なレベルの分布は、重要度依存性標本化法(sampling-importance-resampling (SIR))やMCMCによってより密なレベルの分布に影響を及ぼし、その結果漸近的に精度が向上する事後分布が得られる。上位レベルの事後分布推定は、重要度標本化関数(importance sampling function)で新たな粒子集合を生成することでなされる。この粒子集合はMCMCによって更に改善される。ここに本手法が単純解像度のRANSAC型の特徴量マッチング法より優れていることが示される。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変形可能な顔モデルによる部分的損傷顔画像の再生
Reconstruction of Partially Damaged Face Images Based on a Morphable Face Model

Bon-Woo Hwang, Seong-Whan Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 3, pp.365-372, March 2003

Keywords: Face reconstruction, face synthesis, morphable face model, least-square minimization, damaged face

本論文は、部分的に損傷を受けた顔画像を変形可能な顔もでるによって復元する方法を提案する。顔は、形状とテクスチャーそれぞれのプロトタイプの線形結合でモデル化される。非損傷領域だけから、形状とテクスチャーの情報を取得し、形状tテクスチャーの線形結合係数を最小2乗法によって損傷領域の最適推定係数を求められる。その結果復元された顔画像はあたかも本物の写真のように極めて自然で信頼性の高いものであった。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


容に基づく肺画像検索に応用された教師無し特徴量選択
Unsupervised Feature Selection Applied to Content-Based Retrieval of Lung Images

Jennifer G. Dy, Carla E. Brodley, Avi Kak, Lynn S. Broderick, Alex M. Aisen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 3, pp.373-378, March 2003

Keywords: Image retrieval, feature selection, clustering, expectation-maximization, unsupervised learning

本論文は、カスタマイズされたクエリー法(CQA)による新規な階層的画像内容検索法について述べる。1回のクエリーで類似した画像を検索する単一ベクトルによる検索法と異なり、CQAは複数の特徴量集合を使い、検索には2ステップの処理を経る。第1ステップでは画像特徴量を最も良く分離するクラスを識別する。第2ステップにおいては、選択されたクラス内部の部分クラスを識別するためにカスタマイズされた特徴量を利用して、最大類似画像(複数)を検索する。各クラスにおいてカスタマイズされた特徴量部分クラスを見つけるためには教師無し学習による特徴量の選択が必要となる。その結果、 FSSEM (feature subset selection using expectation-maximization clustering)と呼ばれる新規なアルゴリズムを開発した。この手法を応用して、高解像肺CT画像データベースを検索したところ、単一ベクトル法に比べて顕著な検索精度の改善が見られた。この手法が医師にとって有用であるかどうかを決定するため8人の放射線医師に対する評価実験をした。その結果、CQAによる結果は医師の診断精度の2倍であった。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンライン網膜画像位置合わせのための、不変インデックス化と位置決めにおけるフレームレートでの対応付け
Frame-Rate Spatial Referencing Based on Invariant Indexing and Alignment with Application to Online Retinal Image Registration

Hong Shen, Charles V. Stewart, Badrinath Roysam, Gang Lin, Howard L. Tanenbaum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 3, pp.379-384, March 2003

Keywords: Retinal laser surgery, registration, invariant indexing, robust estimation, retinal imaging, ophthalmic image processing, biomedical image processing

本論文は連続する画像フレームから、連続的にかつ正確に、レーザーのような診断器具や手術器具をヒトの網膜上のの絶対的位置に合わせるアルゴリズムについて述べる。本課題は診断画像を利用して網膜の空間地図を構築するための位置合わせ問題と見なし、各オンライン画像をこの地図上に位置合わせする。各オンライン画像に対して、本アルゴリズムは、球面上の血管標識を利用して、網膜が曲面上にあっても局所的には正しい類似度不変量を計算する。これらは反復血管構造追跡の高速アルゴリズムによって検出される。不変インデックス化によってオンライン画像と蓄積された空間地図中の標識間の初期対応関係が求まる。ロバストな位置決めと検証ステップによって、この初期対応関係から、高次でグローバルな変換へと類似度が拡張される。1024×1024サイズの網膜画像に対する初期的実験は100%の精度を示した。512 x 512サイズの画像の高速化に最適化した追跡アルゴリズムでは、900MHz Pentiumlllによる処理時間は51ミリ秒で、成功率は97%であった。位置合わせ誤差の中央値は、どちらの場合も1画素であった。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.25, No.1


曲率を利用したスケッチ:カーブ指標確率場とマルコフ処理
Sketches with Curvature:The Curve lndicator Random Field and Markov Processes

Jonas August, Steven W. Zucker

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 4, pp.387-400, April 2003

Keywords: Random fields,Markovprocesses,Feynman-Kacformula,cu‾atureBrownianmotion,edgedetection,posteriormean, sketch, contour enhancement,cu‾e,elastica,Eulerspiral,orientation,direction

従来型のエッジ演算に対する苦情はよく聞かれるが、「完全な」エッジ写像に関する提案は比較的稀であり、輪郭強調手法の改良は遅れていた。この現状に取り組むため、視覚的輪郭演算の1つの目標として、劣化描画から鮮明な描画を推定復元することを提案する。ここでは画像に対応するノイズ成分の多い低コントラストエッジや線分演算子によるモデル化を想定している。この鮮明な定式的描画モデルは曲線指標確率場(curve indicator random field (CIRF))であり、曲線生成のための曲線に沿ったパラメータを削除することによってエッジ尤度モデルの定義が可能な理論的基礎を提供することである。定常マルコフ過程によってモデル化される曲線にとってこのような理想的エッジの事前確率は非ガウス分布であり、モーメント母関数はFeynman-Kac公式に近い形式となっている。この描画モデルによって、2つの楕円偏微分微分方程式を必要とする非線形な誤差最小2乗平均輪郭強調フィルターが導かれる。この枠組みは輪郭モデルの順序には独立であり、これによって輪郭曲線をマルコフ過程モデルの導入が可能となる。このような曲線分布を解析し、そのモードは曲率変化が最小なオイラー渦であることを示そう。曲率に基づく輪郭モデルによる輪郭強調フィルターを利用した事例計算も示し、例え入力画像に曲線が欠けていても、この手法は曲率選択性を持っていることを示している。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テクスチャーフローの知覚組織化:コンテキストからの推測法
The Perceptual Organization of Texture Flow:A Contextual Inference Approach

Ohad Ben-Shahar, Steven W. Zucker

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 4, pp.401-417, April 2003

Keywords: Texture flow, perceptual organization, social conformity of a line, good continuation, texture segmentation, line discontinuities, point singularities, shading flow, local parallelism, orientation diffusion, tangential curvature, normal curvature, relaxation labeling

局所的に平行で密なパターンはテクスチャーフローと呼ばれることがあるが、知覚的には整然とした構造を持っているので知覚組織化には特に重要である。画像セグメンテーションやエッジ識別から、陰影解析や形状解釈の応用に至るまで、テクスチャーフローはエッジセグメント分類や曲線完結性と同等の重要課題について論じる。本論文はテクスチャーフローを幾何学的側面から論じ、このような局所構造の測定には2つの曲率を考慮する必要があることを示す。基礎的な理論的考察からどのようにしてユニークなフローの局所的挙動モデルが導出されたか、および、テクスチャーフローの“良好な連続性”概念が求まったかどうかを示す。このことは、近傍点フロー(流れ)測定における整合性条件と解釈することもできる。これを利用して全体的に整合性のある構造を逐次計算するために整合性のある弛緩法ラベリングの枠組みとすることが可能である。この結果は人工画像でも自然画像でも実証された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


透視投影歪み画像の規則的反復性を非組合せ論的に検出する方法
Noncombinatorial Detection of Regular Repetitions under Perspective Skew

Tinne Tuytelaars, Andreas Turina, Luc Van Gool

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 4, pp.418-432, April 2003

Keywords: Grouping, planar homologies, elations, Hough transform, symmetry detection, repetitions

視覚においてグループ化は重要な概念であり、これによって細かい特徴量を大まかな属性に束ねることができる。これは画像に意味的解釈を与えるための鍵となる概念である。我々は平面状(共平面の必要性はない)パターンの規則的繰り返しを効率よく検出するための幾何学的枠組みを示す。このシステムの心臓部はこれら規則的配置を可能にする変換の固定した(安定な)構造にある。この手法によって、従来は別個に処理されていた多数の対称的配置の検出が可能になり、その結果、平面的相同関係にあるすべての配置の検出ができる。この中には周期性、鏡像対称、点対称などの重要な場合も含まれる。これによって透視歪みも扱うことができる。この手法はパターンマッチングにおいて不変量に基づいたハッシングの組合せや、固定構造検出のためのハフ(Hough)変換による組合せ爆発に閉じ込められる困難を回避できる。システムは多相同性が整合性を保ち、ロバスト性を推論することができるため、更なる高効率とロバスト性が得られた。いくつかの例によってシステムの効率が実証された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウォータースネーク:エネルギーで駆動されるwatershedセグメンテーション法
Segmentation of Multiple Salient Closed Contours from Real Images

Shyjan Mahamud, Lance R. Williams, Karvel K. Thornber, Kanglin Xu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 4, pp.433-444, April 2003

Keywords: Perceptual organization, contours, Markov chains, eigenvectors

閉輪郭の全体的特性に基づいた顕著性(saliency)の尺度を利用して、実画像中の未知形状物体を囲む滑らかな閉輪郭境界を検出するためのセグメンテーション法を開発した。ここでの顕著性の尺度は、近似性と連続性の良さに関するGestalt原理を融合したもので以前にもこのような試みはあった。以前と異なるのは、画像から得られるエッジ状態がMarkov過程における遷移行列の正の最大実数固有値を有する固有ベクトルを見つけて、閉じた輪郭を形成する部分である。遷移行列要素(i,j)は、エッジ"j"がエッジ"i"も含んでいる条件付確率である。本論文では、個々のエッジについて定義される顕著性尺度から、エッジ対に定義される顕著性の関係が導けることを示し、さらに、顕著性の関係を表現するグラフの強度-関連グラフ成分が画像中の滑らかな閉輪郭に対応することを示す。最後に、大サイズの実画像におけるセグメンテーション処理結果が汎用ワークステーションにおいてオブジェクト当たり平均で10秒であったことを報告する。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像における汎用的グループ化法の設計についての考察
Design Considerations for Generic Grouping in Vision

Erik A. Engbers, Arnold W. M. Smeulders

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 4, pp.445-457, April 2003

Keywords: Grouping, design considerations, vision, perceptual grouping, clustering

画像におけるグループ化処理は画像の属性を高次の意味構造に持ち上げるプロセスと見なすことができる。これは極めて重要であるにもかかわらず、従来の文献ではグループ化問題について一致した見方はほとんど述べられていなかった。さらに、ほとんどの画像におけるグループ化アルゴリズムは、望ましい特徴に基づいているのではなく、個別的手法をその都度着想しており、多様な手法間の特性を比較することは容易ではなかった。本論文は画像における汎用的グループ化アルゴリズムの設計に関する6つの詳細定式化に関する考察を論じている。すなわち、適切な定義、不変性、多様な解釈、多様な解、および、簡潔性とロバスト性(ノイズなどの外乱に対する頑健性)である。我々の見るところ、既存の画像グループ化アルゴリズムでこの要件をすべて満たしているものは存在しない。我々はまず、古典的アルゴリズムの延長として簡単なアルゴリズムを紹介する。ここでの拡張とは、汎用的グループ化を考慮するという意味においてである。このアルゴリズムは3つの例に応用されている:点群のグループ化、多角形線分のグループ化、オプティカルフロー場ベクトルのグループ化。この貪欲(greedy)アルゴリズムの計算複雑度は、Ogをグループ化尺度の複雑度とするとき、O(nOg)で表せる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IMPSAC:重要性に応じた標本化と確率的標本合意
A Common Set of Perceptual Observables for Grouping, Figure-Ground Discrimination, and Texture Classification

Anthony Hoogs, Roderic Collins, Robert Kaucic, Joseph Mundy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 4, pp.458-474, April 2003

Keywords: Perceptual grouping, texture classification, image segmentation, figure-ground separation

我々は、画像のグループ化、画像に基づく(学習された画像に基づく)分離、テクスチャー解析などのための統一的な画像記述方法を可能にする観測可能知覚特徴量の完全な集合を提示する。画像セグメンテーションやグループ化のために、輪郭とテクスチャーを同時に扱う方法についての最近の進歩はめざましいが、従来の手法は、輪郭については輝度の1次元不連続性とか、テクスチャーではフィルターバンクの応答性などのように、輪郭、領域、テクスチャーそれぞれに異なったモデルを適用していた。その結果計算量は大きく、各画素における個々の計算には配慮が必要であった。我々の手法では、輪郭、領域、テクスチャーなどの画像特徴は共通な、低レベルの画像観測特徴量表現として扱う。我々は画像を不連続な輝度で覆われた表面分割モデルとして扱う結果、これを隣接表面を関連づける知覚尺度と見なすことができる。これによって、局所エッジ形状とコントラストに基づく伝統的なGestalt尺度を、大領域の画像形状、光度分布、幾何形状のような特徴を同時に利用した、領域に基づく尺度へと拡張することができる。これらの尺度によって、多次元の類似度基準に基づく自然なグループ化が可能になり、局所的近隣領域の相対的特長として、テクスチャーが直接求まる。この共通の観察特徴量をテクスチャー認識、学習画像による分離、汎用画像セグメンテーションに応用した結果、このモデルの妥当性が実証された。また、顕著な3次元的構造を有する周期的、あるいは、非周期的テクスチャーの両方に本手法を応用した結果、フィルターバンク法に比べて、極めて近いか、これを上回る結果が得られた。この尺度は画像の回転に対して不変であり、照明条件、視点、スケールの変化に対して、ゆっくりと変化する。同じ知覚尺度は空中撮影写真において、学習に基づく困難な問題にも適用され、満足する結果が得られた。領域は、まずフィルターをかけられ,次に、オブジェクトを分離するために、知覚特徴量に基づく効率的探索アルゴリズムによってグループ化される。両方の結果が、難しい条件の複雑な実世界の画像に対して示されている。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スケッチや描画中に視覚的閉経路を見つける
Finding Perceptually Closed Paths in Sketches and Drawings

Eric Saund

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 4, pp.475-491, April 2003

Keywords: Contour closure, closed path, perceptual organization, Gestalt laws, sketch interpretation, line art analysis, graphics recognition

閉じた、あるいは、ほとんど閉じた領域は知覚的構造として重要な形状であり、これは自然画像だけでなく、手書きスケッチ、描画、グラフィックス、正式図面を含む多くの人工的画像においても重要である。本論文は、手書きスケッチや描画において、特に知覚的に顕著で、密に分布した閉領域を見つけるために効果的なアルゴリズムを紹介する。端点が概略の分岐点となるような曲線素片のグラフからはじめよう。閉じているとか、形状として目立つとかのグローバルな視点から、分岐点を通過する連続曲線の経路探索がこの課題の鍵となる。この課題に対して、線画の分岐点に生じる特徴を観察することによって、分岐点における経路連続性順位付けに着目した制約条件を求める。とくに、最大屈曲経路に対する連続性の良さの方針の役割について述べる。まず最初に最も明瞭で明らかな2方向経路を探索し、次に、閉経路によってゴチャゴチャになった経路の全探索へと戻って行く。このアルゴリズムを、描画、製図図面、ホワイトボード上のスケッチ、写真画像の輪郭線など多様なデータについて適用した結果を示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


レイヤーを持った4D表現と動きのグループ化のための投票
Layered 4D Representation and Voting for Grouping from Motion

Mircea Nicolescu, Gerard Medioni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 4, pp.492-501, April 2003

Keywords: Motion analysis, perceptual grouping, tensor voting

従来、動き解析問題は以下の手順で行われた:複数の画像フレームが与えらたとき、(1)稠密な動き場, (2)動き境界, (3)領域、をそれぞれ決定する。この課題は計算上は2つの処理に分解できる;すなわち、マッチングと動き検知である。マッチング処理は、連続画像中の同一物理属性の要素(トークン)を同定し、これによって疎な速度場を形成する。動き検知処理では各画像で動きベクトルを推定し、動きベクトルの境界となる領域でグループ化する。4D空間における疎でノイズの多い点群から、動き手がかりを利用して動きレイヤーの推定を定式化し、知覚的動きとしてグループ化する課題について述べる。ここで述べる手法はデータをレイヤー状に4D表示をし、テンソルを投票計算で求める手法においてトークンを更新する方法である。この投票手段によって動きが滑らかになり、各入力点における最も特徴的なトークンとしての正しい速度が選択される。続いて稠密投票によって画素速度、動き領域、境界線の稠密表現が推測可能になる。テンソル投票法に4次元空間を利用することは、速度と画像座標について特徴点が空間的に分離できることになるため、本質的意味を持っている。目的関数の最適化を図るような他の多くの手法と異なり、本手法は非逐次処理であり、従って、局所最適性や弱収束性のような問題はない。本手法を、不透明物体の動き、透明物体の動き、剛体の動き、非剛体の動き、曲線や曲面の動きなどの難題を人工画像と実画像について解析し、実証した。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


事前情報を使わない消失点の検出法
Vanishing Point Detection without Any A Priori Information

Andres Almansa, Agnes Desolneux, Sebastien Vamech

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 4, pp.502-507, April 2003

Keywords: Vanishing point, perceptual grouping, Gestalt theory, Helhmotz principle

ディジタル画像の消失点検出には3D情景中の平行線を利用するが、ほとんどの従来法は、見せかけの擬似応答を避けるために、含まれている3次元直線とか、カメラのキャリブレーション(更正)パラメータについての、追加特徴(例えば、直交性、共平面性、等距離性など)に強く依存していた。本研究において、Desolneuxたちによって最近提案されたHelmoltz原理に基づく新しい検出アルゴリズムを開発したが、この原理は直線検出と直線のグループ化を行うものである。この原理によって擬似特徴の抽出を減少させ、高精度で消失点が抽出される。この処理には画像や更正パラメータに関する事前情報を必要とせず、パラメータ調整も必要としない。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グループ化原理と4事例
A Grouping Principle and Four Applications

Agnes Desolneux, Lionel Moisan, Jean-Michel Morel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 4, pp.508-513, April 2003

Keywords: Gestalt grouping laws, a contrario probabilistic model, binomial law, number of false alarms, histogram modes, clusters, alignments

Wertheimerの理論から推察される一般的な知覚法則によると、共通の性質を有するオブジェクトは知覚的グループ化がされる。Helmholtz原理はこの一般則の定量的法則である。それによると、ランダムな場面において、ある知覚情報が「意味ある情報」と見なせるのは出現頻度が非常に小さい場合である:幾何学的構造はランダムからの偏りとして特徴付けることができる。過去2回の研究において、本原理をディジタル画像中の方位同定や境界検出に応用した。本論文では、この手法が完全汎用性を有し任意の品質のグループ化問題に拡張可能であることを示す。図解によって、オブジェクトの整列、色や大きさによるグループ化、近傍性(クラスタリング)への応用を説明する。近傍性によるグループ化とプラミッド構造法の共同作業を事例として図解する。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


滑らかな曲線のグループ化やテクスチャーセグメンテーションのためのパスに基づくクラスタリング
Path-Based Clustering for Grouping of Smooth Curves and Texture Segmentation

Bernd Fischer, Joachim M. Buhmann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 4, pp.513-518, April 2003

Keywords: Clustering, perceptual grouping, texture segmentation, resampling

知覚的グループ化では画像部分をクラスターに組織化するが、その原理は心理物理的に妥当な類似度に基づいている。本論文では新規なグループ化法を提案する。これは相互類似度ではなく、仲介要素を経由した画像要素の連結性を重視する。このグループ化原理は、オブジェクトが、局所的特長量分布集合(local point cloud)ではなく、低次元特徴量空間の拡張多様体上に分布している場合に、すばらしいクラスタリング結果を示す。結合構造を抽出するだけでなく、オブジェクトがクラスター構造から特離れている場合には、オブジェクトは例外点(outlier)として分離抽出できる。この知覚的組織化原理の目的関数はパス依存(path based)の高速集積アルゴリズムで最適化できる。我々は微小なエッジ要素がグループ化して滑らかな曲線エッジと成る知覚的組織化について述べる。これが汎用性を持っていることは、購買のあるテクスチャーが教師無しでグループ化するという結果から明らかであろう。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


文書画像識別のための隠れ木マルコフモデル
Hidden Tree Markov Models for Document Image Classification

Michelangelo Diligenti, Paolo Frasconi, Marco Gori

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 4, pp.519-523, April 2003

Keywords: Document classification, machine learning, Markovian models, structured information

識別処理は文書画像処理にとって重要な課題であり、しばしば、認識や理解、そして、情報抽出のための前段処理でもある。本論文ではこの課題を学習という枠組みで定式化し、各カテゴリーは類似した物理構造を有する文書画像集合に対応する。2つのアルゴリズム的アイデアに基づく解法を提案する。第1にラベル付きXY木構造表現を獲得する(この表現によって、画像の部分構造間の重要な関係を学習器に教える)。第2に、隠れマルコフモデルを、ラベル付き木に定義した学習確率分布へと拡張させた確率アーキテクチャを提案する。最後に、これを商取引で使われる請求書のカテゴリー化に応用した結果、うまく処理できたことを示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンラインカテゴリー学習のための曖昧さ検出に基づくパターン再配列手法
A Pattern Reordering Approach Based on Ambiguity Detection for Online Category Learning

Eric Granger, Yvon Savaria, Pierre Lavoie

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 4, pp.524-528, April 2003

Keywords: Ambiguity, online category learning, partitional clustering, pattern recognition, reject option

オンラインカテゴリー学習を逐次処理やバッチ処理で実行する代替としてのパターン再配列法を提案する。入力パターンのカテゴリー検出が曖昧であるとき、ある一定期間入力が延期され、再検査されて好ましいカテゴリーに再定義される。このように順次処理によってカテゴリー化の効率が改善されるが、入力レスポンス、つまり潜伏時間は、バッチ処理より短い。処理系におけるレスポンス時間を調べるために典型的実装における潜伏時間を求め、下限値と比較した。拒絶オプション理論からガウスモデルとソフトマックスモデルを導き、パターン識別を遅れさせる曖昧さの原因を検出することを考察した。教師無しニューラルネット競合学習2例と、レーダーパルスデータ集合を利用したコンピュータシミュレーションによって、再配列処理、逐次処理、バッチ処理それぞれの平均潜伏時間とRand補正クラスタリングのスコアーを比較した。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.25, No.5


距離空間における類似検索のための埋め込み方式の特性
Properties of Embedding Methods for Similarity Searching in Metric Spaces

Gisli R. Hjaltason, Hanan Samet

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 5, pp.530-549, May 2003

Keywords: Embedding methods, metric spaces, similarity search, multimedia databases, contractiveness, distortion, quality, Lipschitz embeddings, singular value decomposition (SVD), SparseMap, FastMap, MetricMap

画像や文書、DNA系列などのように複雑なデータ形式は、近年のデータベースアプリケーションにおいてますます重要になってきている。それらのアプリケーションの多くは、あるターゲットオブジェクトに類似するオブジェクトを見つけることを目的としている。このとき(非)類似性は、ある距離関数として定義されている。往々にしてこの距離の評価のための(計算)コストはとても高いものになる。そのため、(理想的に)結果の品質を保った上で、距離評価の回数は最低限に抑える必要がある。この目的を達成するためのひとつの方法は、埋め込みオブジェクト間の距離が実空間における距離に近似するように、データオブジェクトをベクトル空間に埋め込むことである。そのため(ほとんどの部分における)埋め込みオブジェクトにおいて、クエリは上手く働く。本稿で我々は特に、この埋め込み方法が、関連するオブジェクトの取り残し防止を保証できるか否か(誤った棄却が無く、正しい結果が得られること)についての試験に関心がある。空間地図(SpaceMap)、高速地図(FastMap)、および距離地図(MetricMap)による埋め込み方法に、特に注目した。高速地図と距離地図がユークリッド空間の次元縮退法(KLTもしくは関連PCA及びSVDを用いたもの)に想起されたものであるのに対して、空間地図はLipschitz埋め込み法の変形である。一般的にはこれらの埋め込み方法のいずれもが、埋め込まれたオブジェクトに関するクエリが誤棄却をしないことを保証できないことを示し、同時にこれが保障される限定的なケースについて論証する。更に誤棄却の無いクエリを構成できる高速地図の変形について述べる。更に、高速地図と距離地図を用いることで、埋め込みオブジェクト間の距離は実際の距離よりも大きくなることを示す。これにより高速地図と距離地図を改良することで誤棄却を無くすことを保証することが不可能になる(もしくは少なくとも非実用的である)。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


トポグラフィー適応的マルチチャネル分割のための、2、3、4次元における一般的離散輪郭モデル
A General Discrete Contour Model in Two, Three, and Four Dimensions for Topology-Adaptive Multichannel Segmentation

Jorg Bredno, Thomas M. Lehmann, Klaus Spitzer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 5, pp.550-563, May 2003

Keywords: Discrete contour model, segmentation, volumetric, spatio-temporal , multichannel , topology-adaptive, tracking

我々は、任意の分野の、任意の値域を持つ画像データの分割のための、離散的輪郭モデルを示す。このモデルは、単純メッシュと、反復分割を駆動する影響の機械的定式化を用いた表現により構成される。このオブジェクトの表現は、上記影響と同じように、画像分野のいかなる次元においても有効である。ここで導入する画像影響(image influence)は高次元値域の独立チャネルからの情報を結合することができる。加えて、モデルのトポグラフィーは、画像中のオブジェクトに自動的に適応する。合成オブジェクトを複写可能な形態で描写するためのモデルの能力を確かめるために、非文脈的試験(noncontextual test)を用いてきた。特に、SNRが0.5以下の画像は、正解輪郭(ground truth contour)からの2画素以内に描画される。本モデルが、2、3、4次元のシングルチャネル及びマルチチャネル値域の画像分野における、医療画像解析に適用可能であることを、文脈検証を用いて示す。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネルベースの物体追跡
Kernel-Based Object Tracking

Dorin Comaniciu, Visvanathan Ramesh, Peter Meer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 5, pp.564-577, May 2003

Keywords: Nnrigid object tracking, target localization and representation, spatially-smooth similarity function, Bhattacharyya coefficient, face tracking.

非剛体オブジェクトの画像追跡における中核部分である、ターゲット表現と局在化のための新しいアプローチを示す。特徴ヒストグラムに基づいたターゲット表現は、等方性カーネルを用いた空間マスキングにより正規化される。このマスキングは、勾配法に基づいた最適化法に適した、空間的に平滑な類似性関数を導出する。これによりターゲット局在化問題は、極大(局所最大値)の引力のくぼ地を用いて定式化できる。我々はバチャタリア係数から導かれる距離を類似性距離として使用し、移動平均法を用いて最適化を行う。本稿で示したトラッキングの例では、提案手法により、正確にカメラの動き、部分隠蔽、散乱、そしてターゲットスケールの変化を扱うことができた。モーションフィルタとデータ関連技術の統合についても検討を行う。我々は潜在的応用の一部だけを示した。それは背景情報の利用、モーションモジュールを用いたカルマントラッキング(カルマンフィルタを用いたトラッキング)、そして顔トラッキングである。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


点及び線からの線形姿勢推定
Linear Pose Estimation from Points or Lines

Adnan Ansar, Kostas Daniilidis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 5, pp.578-589, May 2003

Keywords: Pose estimation, exterior orientation, absolute orientation, camera localization.

対応関係が既知の、n個の点もしくは線において撮影された画像からのカメラ姿勢の推定は、コンピュータビジョンにおいて充分に検討された問題である。殆どの解法は反復法であり、いくつかの幾何学的拘束に関する非線形最適化に依存している。これは世界座標系での拘束か、画像面への投影状態における拘束のどちらかである。我々は、実時間アプリケーションのために、線形もしくは初期化を必要としないclosed-form(非反復形式)の解法に関心がある。n個の点、n個の線の両方のための、姿勢推定問題に対する新しい線形解法の組をもたらす、一般的な枠組みを示す。次に我々はこの解法の画像ノイズへの感度を解析し、この感度解析が、我々のアルゴリズムに対して、旧来の誤り予測器として用いることができることを示す。また我々のアルゴリズムを、反復手法と同じように、2つの最近の線形アルゴリズムと比較する、多数のシミュレーションを示す。最後に、実際に起こりうるべき設定の下での、実画像に対する実験を行う。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


回転とスケールに不変な、テクスチャ識別のための極座標ウェーブレットエネルギーシグネチャ
Log-Polar Wavelet Energy Signatures for Rotation and Scale Invariant Texture Classification

Chi-Man Pun, Moon-Chuen Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 5, pp.590-603, May 2003

Keywords: Rotation and scale invariance, texture classification, shift invariant wavelet packet transform, log-polar transform.

テクスチャ画像の識別、特に異なる方位とスケールの変化をもったものは、画像解析や画像識別において興味深く重要な問題である。本稿では、極座標ウェーブレットシグネチャを用いた、回転とスケール変動に不変なテクスチャ識別に対する、効果的な体系を提案する。与えられた画像に対する、回転とスケールに不変な特徴抽出では、回転とスケール変化の影響を除去するために、極座標変換を必要とする。しかしこれは同時に、行方向(row:横方向)にシフトした極座標画像を作り出してしまう。この極座標画像は、適応的な行シフト不変ウェーブレットパケット変換を施されることで、行シフトの影響が除去される。それゆえ、出力ウェーブレット係数は回転及びスケール不変である。適応的な行シフト不変ウェーブレットパケット変換は、高々O(n・log n)の計算複雑度であり、極めて効率的である。ウェーブレット係数の各サブバンドから抽出された、大半の支配的極座標ウェーブレットエネルギーシグネチャの特徴ベクトルが、回転とスケールに不変なテクスチャ識別のために構成される。我々は、Brodatzアルバムから選ばれた、25の異なる自然テクスチャ集合を、マハラノビス識別器を用いて識別する実験を行った。異なる方位とスケールを持つ画像の試験データ集合に基づいた実験結果により、本稿で提案した極座標ウェーブレットシグネチャを用いた識別方法は、他の2つのテクスチャ識別方法に比べて、格段に優れた性能を持つことが示された。これら2つのテクスチャ識別方法の、回転とスケール不変性の組み合わせ試験における正答率は、90.8%である。抽出されたエネルギーシグネチャは効率的な、回転及びスケール不変な特徴であることを示す。提案方法は、ノイズに対する頑健性に関しても、他の方法を上回る性能を示している。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ツリーサーチによる効率的追跡
Effective Tracking through Tree-Search

Daniel Freedman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 5, pp.604-615, May 2003

Keywords: Contour tracking, tree-search, hybrid optimization, approximation algorithm, compact manifold.

新しい輪郭追跡手法を示す。トラッキングは、画像中のエッジにより構成される円弧と、着目するオブジェクトのクラスを記述するいくつかの形状空間とのマッチングとして問題設定される。本稿の主な成果は、この問題を正確且つ効率的に解くアルゴリズムを立証可能な方法で示すことである。特に、形状空間における新しいツリーサーチアルゴリズムによってもたらされる、本アルゴリズムの効率性により、形状空間の広い範囲が非常に少ない労力で探索可能である。後者の特徴は、乱雑性の高いシーンにおいて、本アルゴリズムを効率的なものにしている。この効率性は、凝集追跡器との実験的比較によっても示される。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴点(minutiae)トリプレット(3つ組み)の新しい特徴に基づいた指紋インデキシング
Fingerprint Indexing Based on Novel Features of Minutiae Triplets

Bir Bhanu, Xuejun Tan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 5, pp.616-622, May 2003

Keywords: Fingerprint identification, indexing performance, NIST-4 database, triangle features

本稿は、指紋画像の正確且つ効率的なインデキシングに関するものである。我々は、基本表現単位である特徴点(minutiae)のトリプレット(3つ組み)により構成される三角形の新しい特徴を用いることで、正しい仮説を効率的に検索するモデルに基づいたアプローチを示す。我々の用いる三角形特徴は、角度、利き手、タイプ、方向、そして最大の辺の存在する側である。特徴点(minutiae)の他の特性に基づいた幾何的拘束を用いて、擬似対応を削除する。生きた人間からスキャンされた様々な品質の指紋画像、及びNIST特別データベース4(NIST-4)指紋画像による実験の結果により、我々のインデキシングアプローチが、置換変換、回転、スケール変動、切断、隠蔽、そして擾乱がある状態でも、効率的に候補仮説の数を減らすことができることが示された。また、我々のアプローチの性能と、他の卓越したインデキシングアプローチのそれとを比較するための、科学的な実験を行い、生きた人間からの指紋スキャン画像データベースと、NIST-4のインクベースのデータベース両方において、我々のアプローチが、より優れた性能を発揮することを示す。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


記述的且つ判別的非線形特徴:カーネル特徴空間におけるRayleigh係数
Constructing Descriptive and Discriminative Nonlinear Features: Rayleigh Coefficients in Kernel Feature Spaces

Sebastian Mika, Gunnar Ratsch, Jason Weston, Bernhard Scholkopf, Alex Smola, Klaus-Robert Muller

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 5, pp.623-628, May 2003

Keywords: Fisher's discriminant, nonlinear feature extraction, support vector machine, kernel functions, Rayleigh coefficient, oriented PCA.

我々は先験的知識を集合させ、不変特徴抽出と判別のための非線形アルゴリズムを構成する。Rayleigh係数の非線形化変形に関しての、統合された枠組みを用いることで、フィッシャーの判別器と、サポートベクトルカーネル関数を用いた方位選択性PCAの非線形一般化を提案する。広範囲のシミュレーションにより我々のアプローチの有用性が示される。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化事例集合とメタモデルに基づいた、自動テクスチャ文書カテゴリ化
Automatic Textual Document Categorization Based on Generalized Instance Sets and a Metamodel

Wai Lam, Yiqiu Han

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 5, pp.628-633, May 2003

Keywords: Text classification, instance-based learning, metamodel learning

我々は、一般化事例パターンの枠組みの下で、一般化事例集合(Generalized Instance Set: GIS)アルゴリズムとして知られる文書カテゴリ化についての新しいアプローチを提案する。我々のGISアルゴリズムは、k-NN(k-最近傍)法と線形識別器の利点を統合し、文書カテゴリ化問題の特性に適応する。この方法は、オリジナルの事例の洗練に焦点を当て、一般化事例を構成する。同時に我々は、カテゴリ特徴の特性に基づいたメタモデルフレームワークも提案する。このフレームワークには、カテゴリ特徴特性と、それぞれの部分アルゴリズムとの関連を発見する、メタ学習フェーズがある。広範囲の実験により、GISとメタモデル両方に対する、二つの広域文書データベース(document corpora)を導出する。実験結果は両方のアプローチが大体所期の文書カテゴリ化性能を達成していることを示す。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルコフチェーン対
Pairwise Markov Chains

Wojciech Pieczynski

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 5, pp.634-639, May 2003

Keywords: Bayesian restoration, hidden data, image segmentation, iterative conditional estimation, hidden Markov chain, pairwise Markov chain, unsupervised classification

我々は古典的な隠れマルコフチェーンモデル(Hidden Markov Chain: HMC)を一般化する、マルコフチェーン対(Pairwise Markov Chain: PMC)と呼ばれる新しいモデルを提案する。この一般化により、より複雑な状況をモデル化できるようになる。またこれは特にPMCにおいて、隠れ過程がマルコフ過程である必要がないことを暗示する。しかしPMCにより、事後確率最大化法(Maximum APosteriori: MAP)や事後モード最大化法(Maximal Posterior Mode: MPM)のような、古典的なベイズ復元方法を用いることができるようになる。それゆえHMCと同じように、PMCも隠れ確率過程を復元することができる。これにはスピーチ認識、画像分割、シンボル検出や識別などの信号処理、画像処理分野における様々な応用がある。更に、我々はパラメタ推定に関する独自の方法を提案する。これにより古典的な反復条件推定(Iterative Conditional Estimation: ICE)を一般化する。ICEは古典的隠れマルコフチェーンモデルと、その非ガウシアン拡張に有効であり、また、この関連するノイズは簡単に扱うことができる。いくつかの予備実験により、この新しいモデルの利点を検証した。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.25, No.6


知覚組織のグラフ分割測度に関する詳細な論考
An In-Depth Study of Graph Partitioning Measures for Perceptual Organization

Padmanabhan Soundararajan, Sudeep Sarkar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 6, pp.642-660, June 2003

Keywords: Perceptual organization, grouping, graph partitioning, stochastic orders, empirical evaluation

近年、低次画像特徴の知覚組織化のための効率的なエンジンのひとつはグラフ表現の分割に基づいている。このグラフ表現は、低次画像特徴全体にわたる、類似性、近接性、連続性、並列性、そして直交性などの局所構造に想起されるゲシュタルトを抽出する。主に計算効率の問題から、通常このグラフ分割処理は、反復的な二分割処理として実装される。この二分割処理の各段では、分割測度に基づいてグラフが二分割される。我々はここで以下の3つの分割法に着目する。即ち、最小、平均、そして正規化分割である。最小分割は合計リンク加重を最小化することを目的とする分割法である。平均分割測度は、合計リンク加重分割を分割部分のサイズで正規化したものに比例する。正規化分割測度は、各分割部分における、それぞれのノードの合計結合性(結合価)の積で正規化したものである。我々は、根底にある画像統計の見地から、3つのグラフ分割測度に対する、理論的及び実験的洞察を与える。特にどのような種類の画像統計量が測度を最適化するか、特定のアルゴリズムに依存するか、そして正しい分割が得られるかについて検討する。分割されたグループの品質は、分割測度に依存して有意に異なるのか?分割によるグルーピングがうまく働かない画像のクラスがあるのか?もうひとつの疑問は、反復的二分分割戦略でK個のオブジェクトをそれぞれ分離することが出来るのか?この解析においては、確率論と確率変数の確率論的オーダーの潤沢な研究成果を引用した。我々の主な結論は、厳密に確率論的な意味において、上記3つの測度のいずれを最適化しても、あらゆる画像のK個のオブジェクトの正しい分割を保障することが出来ないということである。定性的に言うならば、平均的なオブジェクト間親和性がオブジェクト内親和性に比べて弱いような、非常に限定された条件の下でならば、最小分割測度は最適化される。平均分割測度は、可能なすべての分割幅の分布のモードよりも、小さい分割幅を持つグラフに対して最適である。正規化されたカット測度は、分割幅が、その分布のモードよりも小さく、オブジェクト間親和性がオブジェクト内親和性よりも6倍以上弱いようなグラフの、より厳しい条件下のサブクラスに対して最適である。50枚の画像における厳密な実験的評価により、最小もしくは平均もしくは正規化分割を用いて生成されたグループの品質は、実際には、オブジェクト認識において統計的には等価であることが示される。これは最良値、平均値、そして品質のばらつきも、統計的に等価であることを意味する。これと同時に、人工物を写した画像や、航空画像などの特定の画像クラスでは、分割によるグルーピングはいかなる測度を用いてももっとも悪い性能であることを示す。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


先験モデルによる輪郭グルーピング
Contour Grouping with Prior Models

James H. Elder, Amnon Krupnik, Leigh A. Johnston

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 6, pp.661-674, June 2003

Keywords: Perceptual organization, grouping, contours, edges, graph search, Bayesian probabilistic inference, segmentation, remote sensing, skin detection.

通常の知覚グルーピング手法は、目的となるオブジェクトに関する特別な知識を殆ど仮定しないが、そのような知識を用いることが出来る有用な応用分野は多数ある。ここで我々は、オブジェクトに関するある先験知識を用いることが出来る場合において、画像中のオブジェクトの境界輪郭を見つける問題について述べる。我々は輪郭グルーピングの確率モデルと、オブジェクトの見え方に関する確率論的先験知識を組み合わせるフレームワークを紹介する。構造的探索法により、閉じたオブジェクトの輪郭の候補を計算し、図、地、そして確率を結合することでこれを評価し、最大事後確率推測を計算する。我々の定式化の大きな利点は、簡潔性(非自己交差性)、閉合性、完全性そして自明でないスケールに関する先験知識などの重要な大域的拘束と、確率論的局所キューを厳密に組み合わせることである。我々はこのアプローチを、現存するデジタルデータベースからの凡その先験知識を仮定し、衛星画像から湖の境界を計算する問題に適用する。我々のアルゴリズムの定量評価を行い、比較的弱い先験知識を以ってしてさえも、我々のアルゴリズムは習熟者による輪郭抽出を超える性能を発揮することを示し、動的輪郭アプローチと競合比較する。この先験知識がタスクに特別なものだとしても、我々のアプローチは一般性を持つことを示すために、自然画像における人間の肌の境界の計算という、全く異なる問題に本アルゴリズムを適用する。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


レシオカット(Ratio Cut)による画像分割
Image Segmentation with Ratio Cut

Song Wang, Jeffrey Mark Siskind

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 6, pp.675-690, June 2003

Keywords: Graph partitioning algorithms, cut ratio, cycle ratio, perfect matching, perceptual organization, edge detection, image segmentation, machine vision.

本稿はグラフ理論に基づいた画像分割のための、レシオカットという新しいコスト関数を提案する。この分割比率は、分割境界に沿ったエッジに対する2つの異なる重みの和の比として定義され、単位境界長あたりの、境界により隔てられる断片の間の平均的な類似性をモデル化する。この新しいコスト関数は、画像の周辺領域も分割することができ、二分法による断片が接続していることを保証し、大きさ、形状、平滑性、そして境界長に関するバイアスをもたらさない。この非バイアス性により、本方式を用いることで画像中のエッジに沿って境界が生成されるように分割される。更にレシオカットコスト関数により、画素ベースの画像分割と同じように、効率的な領域ベースの反復型画像分割を可能としている。これらの特性が有効な画像分割に関する応用があるだろう。最小のレシオカットを見つける問題がNP困難であるとしても、多項式時間で画像分割の最中に生成される接続された平面性グラフのなかで、最小のレシオカットを見つけることが出来る。分割比率法は単独で用いる場合、画像分割の基準としては不十分だが、少数の標準的な手法とともに用いることで、画像分割の優良な基礎を与える。我々は最小の比率分割を見つけるアルゴリズムを実装し、医療画像と自然画像に対して適用した結果を示す。 訳者注:Ratio cut:レシオカットとは部分グラフの大きさのバランス及びカットする辺の最小化の両方を考慮に入れた分割手法であり、グラフのスペクトルを求め、それに基づきグラフの分割を行う。グラフのスペクトルとはラプラシアン(行列)の2番目に小さい固有値に対応する固有ベクトルのことである。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像パターンの統計的モデル化と概念化
Statistical Modeling and Conceptualization of Visual Patterns

Song-Chun Zhu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 6, pp.691-712, June 2003

Keywords: Perceptual organization, descriptive models, generative models, causal Markov models, discriminative methods, minimax entropy learning, mixed Markov models

自然画像は、様々な確率過程による圧倒的多数の画像パターンを含む。これらのパターンの定式化とモデル化は、知覚組織化、画像分割、そして画像認識などの、一般的な画像タスクに対して高い重要性を持つ。本稿は認識論に関するものであり、文学における様々な研究をまとめること及び、概念化、モデル化、学習、そして画像パターンの計算に関する統一されたフレームワークの追及が目的である。本稿はこれまでの4つの研究の流れをレビューすることから始める。それは、1)画像統計学の研究、2)画像コンポーネントの分析、3)画像要素のグルーピング、4)画像パターンのモデル化、である。これらの研究の流れにあるモデルは、意味構造により4つのカテゴリに分類することが出来る。それは、1)マルコフ確率場(Markov random fields: MRF)などの記述モデル、2)記述モデルの派生モデル(カジュアルMRF及び「擬似記述的」モデル)、3)生成モデル、4)識別モデル、である。それぞれのモデルについて、目的、原理、理論、そして典型的モデルをレビューし、これら4つのカテゴリに属するモデル間の関係について検討する。2つの中心的なテーマがこの関係性の検討から明らかになった。1)表現力においては、記述モデルと生成モデルの統合が将来の統計モデルの方向性であり、より高度な視覚モデルのクラスに通じるものだろう。2)視覚モデルを計算論的に扱いやすいものにするために、生成モデルを推測する計算論的ヒューリスティクスとして、識別モデルが用いられる。これらにより4つのモデルそれぞれの役割が明確になる。以上の議論に加え、本稿では画像パターンの概念化と、画像パターンのコンポーネント(語彙)について、統計的見地から扱う。この統合されたフレームワークにおいては、画像パターンは、統計的アンサンブル、さらには統計モデルに均一化される。この統計モデルは単一の「連続」スペクトラムから発生したさまざまな画像パターンのためのものであり、この画像パターンは、帰属グラフの空間における入れ子構造の確率関数族系列に属する。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


悪天候下での撮影により劣化した画像のコントラスト復元
Contrast Restoration of Weather Degraded Images

Srinivasa G. Narasimhan, Shree K. Nayar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 6, pp.713-724, June 2003

Keywords: Physics-based vision, atmosphere, bad weather, fog, haze, visibility, scattering, attenuation, airlight, overcast sky, scene structure, defog, dehaze, contrast restoration, shape from X, shape from weather, scene reconstruction.

悪天候下の野外で撮影された画像は、コントラストが悪くなる。悪天候下では、大気によりカメラに届く光が散乱を受ける。この結果として、シーン全体でコントラストが劣化し、しかもそれはカメラからの距離が増すことで、更に急速に悪化する。しかし従来の空間不変な画像処理手法は、このような悪天候の影響を取り除くには不十分である。本稿では、一様の悪天候条件におけるシーンの見えを記述する物理モデルを示す。異なる気象条件の下での、同じシーンの同じ位置の画像上での信号値の変化により、シーン中の奥行き方向の不連続の検出とシーンの構造が計算できる。そこでシーンのコントラストを復元する高速なアルゴリズムを示す。これまでの手法と異なり、我々の悪天候下の影響除去のためのアルゴリズムは、シーン構造、シーン中の反射係数分布、そして特定の気象条件に関する詳細な知識などの、如何なる事前知識も必要としない。本稿に示す全ての方法は、薄霧、かすみ、濃霧、そして他のエアロゾルによる気象など、広い範囲の気象条件下で効率的に働く。更に、我々の方式は、グレースケール画像、RGBカラー画像、マルチスペクトル画像、そして赤外線画像にも適応できる。我々はこの方式を、ビデオカメラで取り込んだ動く物体画像の復元にも拡張する。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔検出のためのベイズ識別特徴法
A Bayesian Discriminating Features Method for Face Detection

Chengjun Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 6, pp.725-740, June 2003

Keywords: Bayes classifier, Bayesian Discriminating Features (BDF), discriminating feature analysis, face detection, statistical modeling, support nonfaces.

本稿では、複数の正面からとらえた顔の検出のための、新しいベイズ識別特徴(Bayesian Discriminating Features: BDF)法を示す。BDF法はたった一つのデータベースにより訓練されるにもかかわらず、様々なソースからのテスト画像で上手く働き、頑健な般化能力を示す。本提案手法の新規性は、入力画像の識別特徴解析、顔と、顔以外の画像の統計モデル、そして複数の正面から捕らえた顔検出のためのベイズ識別器の3者の統合である。まず特徴解析により、入力画像、入力画像の一次元Harrウェーブレット表記、そしてその振幅射影の3者が結合され、識別特徴ベクトルが生成される。Harrウェーブレットにより、物体検出のための効率的な表記が得られる間に、振幅射影により顔画像の垂直対称分布と水平特徴が取り込まれる。次に統計的モデル化により、顔と顔以外のクラスの条件付確率密度関数か、通常のPDFがそれぞれ得られる。通常顔クラスは多変量正規分布としてモデル化されるが、非顔クラスは「顔以外の世界全て」を含むがゆえに、モデル化はより難しい。このような幅広いクラスの推定は、実際には非常に扱いづらい。しかし顔クラス近傍の非顔クラスのサブセットは設定可能であり、この特別なサブセットは多変量正規分布としてモデル化することができる。最後に推定条件付PDFにベイズ識別器を適用することで、画像中の複数の正面からとらえた顔を検出する。様々なソースからの887個の画像(1034個の顔を含む)を用いた実験結果により、BDF法の実現可能性が示される。新しいBDF法は98.5%の顔検出精度を達成しながらも、誤検出はわずかに1つであることは特記に値する。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


新しい見えを張り合わせる:交差スリット投影
Mosaicing New Views: The Crossed-Slits Projection

Assaf Zomet, Doron Feldman, Shmuel Peleg, Daphna Weinshall

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 6, pp.741-754, June 2003

Keywords: Nonstationary mosaicing, crossed-slits projection, pushbroom camera, virtual walkthrough, image-based rendering.

我々は新しい種類の画像張り合わせ方法を導入する。この方法においては、サンプリング幅は入力カメラの位置の関数であり、可変である。この方法により生成された新しい画像は、2つのスリットにより定義される新しい射影モデルに相当する。ここでこのスリットを交差スリット(X-Slits)射影と呼ぶことにする。この射影モデルでは全ての三次元空間の点は、2つのスリットの点と交差を通る直線として定義される光線(ray)により射影される。結像表面と射影光線の交差により、画像が定義される。X-Slits画像張り合わせは2つの利点がある。第一に、生成された張り合わせ画像は、従来のpushbroom画像張り合わせ法よりも遠近感に優れる。第二に、ストリップサンプリング関数の簡単な操作により、仮想的なスリットの位置を変えることができる。これによりX-Slitカメラの仮想的なウォークスルーが得られる。またこれらは全て、如何なる三次元幾何構造の復元や校正を必要としない。仮想的なカメラを移動させ、その方位を変えた多数の例を示す。これらの例は、視差、反射、そして隠蔽に関して本物らしい見え方の変化を示す。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変形可能な幾何モデルのためのトポロジー保存レベルセット法
A Topology Preserving Level Set Method for Geometric Deformable Models

Xiao Han, Chenyang Xu, Jerry L. Prince

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 6, pp.755-768, June 2003

Keywords: Geometric deformable model, topology preservation, topological constraint, level set method, digital topology, simple points, active contours.

変形可能モデルとしても知られる動的輪郭モデルと表面モデルは、非常に有効な画像分割手法である。レベルセット法を用いて実装される変形可能な幾何モデルは、それが本質的に持つパラメタ化の独立性と実装容易性のために、パラメトリックモデルに対して強みを持つ。しかし長らく主張されてきたこの変形可能幾何モデルの強み—トポロジーの変化を自動的に扱える能力—は、分離されるべき物体のトポロジーが既知であり、それが保存されねばならない場合、マイナス要因となることが判った。本稿では、新しいトポロジー保存レベルセット法を用いて設計された、変形可能幾何モデルの新しいクラスを示す。このトポロジー保存レベルセット法は、デジタルトポロジーから得られる簡単なポイントコンセプトを当てはめることでトポロジー保存を実現している。これらの新しいモデルは、サブピクセルレベルの精度や、曲線や表面の非交差性などの、標準的な変形可能幾何モデルが持つ利点を引き継いでいる。更に、トポロジー保存に関する拘束条件が、画像の局所的な計算により高効率に強化されているがゆえに、標準的な変形可能幾何モデルに対しての計算量のオーバーヘッドはごくわずかである。合成データと実データを用いた多数の実験により、この新しい変形可能モデルアルゴリズムの性能が示される。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の視点と複数の入力モードからの、三次元物体記述のための拡張可能なベイズネットワーク
Expandable Bayesian Networks for 3D Object Description from Multiple Views and Multiple Mode Inputs

ZuWhan Kim, Ramakant Nevatia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 6, pp.769-774, June 2003

Keywords: Multiview object description, learning, uncertain reasoning, building description, bayesian network.

画像から三次元物体の記述を計算することは、コンピュータビジョンにおける重要な目的である。この問題の中核は、不確実な根拠に基づいた仮説の評価である。これまでにこの問題に対する公式推論方式の適用がいくつか検討されてきた。複数視点及び複数モード物体記述問題では、この推論は複数の画像と非強度データから抽出された根拠特徴に基づく必要がある。ここでのひとつのチャレンジは、根拠特徴の数を実行時間によって変えることである。なぜならばこの推論で用いられる画像の数は固定されていないし、いくつかのモダリティは常用可能ではないからである。我々は強化ベイズネットワークである、拡張可能ベイズネットワーク(Expandable Bayesian Network: EBN)を導入する。EBNは入力の構造に従って、実行時の構造を具体化する。我々は、画像全体にわたる根拠特徴の相関を扱うために、隠された変数を導入する。我々は複数視点の物体構築記述システムへのEBNの応用例を示す。実験結果により、提案手法は他の手法に比べ明らかに優れ、且つ整合的であることが示される。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般的視点仮説と平面バイアス
The Generic Viewpoint Assumption and Planar Bias

A.L. Yuille, James M. Coughlan, S. Konishi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 6, pp.775-778, June 2003

Keywords: Generic viewpoint, Bayesian inference, visual ambiguities

我々は、一般的な視点と照明に関する推定を平坦表面へバイアスさせることにより、標準視覚不確実性(standard visual ambiguity)が解消できることを示す。我々のモデルは、cast shadow(他のオブジェクトに投射された影:訳者注)とattached shadow(オブジェクト自身に生じる影:訳者注)を含む、二次元アフィンワープとランバート反射関数を用いた正字法射影を用いている。我々は視点方向や光源などの有害変動に対する均一プライア(uniform prior)を用いる。この有害変動の均一プライアの使用限界について検討する。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


混合整数線形計画法による、マルチクラス判別のための特徴選択法
Feature Selection for Multiclass Discrimination via Mixed-Integer Linear Programming

Frank J. Iannarilli Jr., Paul A. Rubin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 6, pp.779-783, June 2003

Keywords: Feature selection, discrimination, classification, mixed-integer linear programming, branch-and-bound

我々は、分岐と結合に基づいた特徴選択法を再定式化する。この定式化ではL_∞もしくは特別なL_p測度を、混合整数線形計画法(mixed-integer linear programming: MILP)問題として扱い、広範な適応可能性を持つMILP解法の利便性を与える。これらの定式化は、マルチクラス問題での特徴選択に有用な、各個のクラス間マージン対にわたり直接影響を与える。

TS

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.25, No.7


信頼度伝播を利用したステレオマッチング
Stereo Matching Using Belief Propagation

Jian Sun, Nan-Ning Zheng, Heung-Yeung Shum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp.787-800, April 2003

Keywords: Stereoscopic vision, belief propagation, Markov network, Bayesian inference

本論文ではステレオマッチングの課題をマルコフネットワークによって定式化し、ベイズ信頼度伝播法によってこれを解く。ステレオマルコフネットワークは、以下のような3対のマルコフ確率場から構成されている:深さ方向の差異のための滑らかな場、深さ方向の不連続性のための線プロセス、隠蔽のためのバイナリープロセス。2つのロバストな関数を採用することによって線プロセスとバイナリープロセスを省略し、マルコフネットワーク中での最大事後確率(MAP)推定を得るために信頼度伝播アルゴリズムを応用する。他の低レベルの視覚的手がかり(例えば画像領域分割)もステレオモデルに取り込むことによって、より良いステレオの結果が得られる。実験によって我々の手法は現在最高レベルのステレオアルゴリズムと同程度であることが示された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


有向非循環式変形可能モデルにおける統計的キューの統合
Statistical Cue Integration in DAG Deformable Models

Siome Klein Goldenstein, Christian Vogler, Dimitris Metaxas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp.801-813, April 2003

Keywords: Statistical cue integration, deformable model tracking, affine arithmetic, face tracking, directed acyclic graphs, deformable model representation

コンピュータビジョンにおいて変形可能モデルは有用なモデルパラダイムである。変形可能(可変)モデルとは、曲線、表面、あるいは、容積などの形状や位置や方位がパラメータ集合として制御されるモデルのことである。これによって人造品やヒトの顔、あるいは骨格を表現することができるし、流体内部も可能である。オプティカルフローのようなコンピュータビジョンや画像処理における初歩的技術でも、画像中から関連情報を抽出する。そして、この情報を利用して、画像オブジェクトが十分な近似となるまでモデルのパラメータを繰り返し変化させる。異なる情報源を提供してくれるいくつかのコンピュータビジョンアルゴリズムがあるとき、我々は理にかなった方法によって、これらのあるときは互いに対立するアルゴリズムの組合せ法を処理するという困難な問題を解決する必要がある。本論文では、有向非循環グラフ(DAG)を利用して、可変モデルの各点の位置やヤコビアンの記述方法を紹介する。この表現法は動的で、柔軟性があり、計算によって最適化可能であり、他の方法では実現困難である。次に、パラメータ空間において尺度を合わせ、変形オブジェクトをうまく追従可能な統計的にキューを統合化する新規な手法を述べる。キューの表現と伝播および確信領域の表現にはアフィン形式の数学を利用する。ガウス分布するキューの近似にはLindeberg定理が利用可能なことを示す。最後に現在稼動中の数千フレームからなる単眼画像系列中の3D可変顔追跡手法の実証例を示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ヒトの動きの教師無し学習
Unsupervised Learning of Human Motion

Yang Song, Luis Goncalves, Pietro Perona

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp.814-827, April 2003

Keywords: Unsupervised learning, human motion, decomposable triangulated graph, probabilistic models, greedy search, EM algorithm, mixture models

ここで紹介する動く人間の体の部品の例のような、部品から構成されたオブジェクトに対する教師無し学習アルゴリズムが、ラベル付けのない訓練データから自動的に確率的モデルを獲得できることを示す。この訓練データには、有用な「前景」特徴量だけでなく、複雑な背景から生じる無関係な特徴量も含まれており、部品と検出された特徴量との対応付けは未知であるとする。部品の共起確率密度関数は、高速検出が可能な分解可能な3角形グラフを組み合わせて表現される。モデルのパラメータだけでなくモデルの構造も学習するために、部品の割り当てを隠れ変数(hidden variables)でラベル付けするEM(期待値最大化)に似たアルゴリズムを開発した。この教師無し学習法の適用は分解可能な3角形グラフに限ったことではない。本アルゴリズムの効率と有効性は、ラベル無しのヒトの動画像系列から自動的にモデルを生成し、これを多様な画像系列でテストすることで実証することができた。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オーディオビジュアルオブジェクト追跡のためのグラフモデル
A Graphical Model for Audiovisual Object Tracking

Matthew J. Beal, Nebojsa Jojic, Hagai Attias

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp.828-836, April 2003

Keywords: Audio, video, audiovisual, graphical models, generative models, probabilistic inference, Bayesian inference, variational methods, expectation-maximization (EM) algorithm, multimodal, multimedia, tracking, speaker modeling, speech, vision, microphone arrays, cameras, automatic calibrations

我々はマルチメディアデータをモデル化し処理するための新規な手法を提案する。この手法はオーディオとビデオの両方を結びつけるグラフモデルを基礎にしている。このアルゴリズムを、2つのマイクロフォン付きカメラで撮影した、複雑でノイズの多い背景中の動くオブジェクトを追跡するために利用することで実証する。この手法では隠れ変数を使ってデータを記述し、処理する。したがって、オーディオとビデオデータを個別に、あるいは、相互に依存して、統計的構造を獲得し利用することが可能である。モデルパラメータはEM(期待値最大化)アルゴリズムによってデータから学習可能である。また、この処理の一部として自動キャリブレーションも実施した。追跡はデータからオブジェクト位置をベイズ推定法によって実施した。我々は市販品を使って実世界のシナリオによるマルチメディアの切り取りのデモを首尾よく行うことができた。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクト認識のためのエビデンスに基づく推論
Evidential Reasoning for Object Recognition

Thomas O. Binford, Tod S. Levitt

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp.837-851, April 2003

Keywords: Evidential reasoning, object recognition, Bayesian inference, Bayesian networks, computer vision systems, utility-based control

オブジェクト認識システムにおいて、エビデンス(証拠)に基づく推論法の開発のため枠組みを紹介する。外界のオブジェクト認識のためのエビデンスに基づく推論の原理を提案し、エビデンスに基づく推論能力の構築のためにこれを応用した。この原理は著者による1990年代半ばまでの研究や発見を要約したもので、これらの一部はオブジェクトに関するコンピュータビジョン、図形と地(背景)の分離、および階層的ベイズ推論への応用、ベイズネットワーク、オブジェクト認識のためのエビデンス推論の決定グラフなどのセミナーの結論も含んでいる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3D再構築システムにおける意思決定と不確定性の扱い
A Common Set of Perceptual Observables for Grouping, Figure-Ground Discrimination, and Texture Classification

Mauricio Marengoni, Allen Hanson, Shlorno Zilberstein, Edward Riseman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp.852-858, April 2003

Keywords: Intelligent systems, image reconstruction, learning systems, object recognition

本論文は汎用の画像理解システムのための制御構造を提供する。これは局所的仮説と、画像解釈における計算複雑度の高い不確定性について述べる。ビジョンアルゴリズムの制御は、ベイズネットワークと、情報の限界値の計算するために最高値を有するアルゴリズムを選択するための実用的理論を利用する独立したサブシステムによって制御される。知識ベースの選択には学習手法を利用し、各種ビジョンアルゴリズムの選択には、その評価値を利用することで、性能向上が達成されることを示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


位置コード化ダイナミック木による画像モデル化
Image Modeling with Position-Encoding Dynamic Trees

Amos J. Storkey, Christopher K.I. Williams

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp.859-871, April 2003

Keywords: Dynamic trees, variational inference, belief networks, Bayesian networks, image segmentation, structured image models, tree structured networks

本論文は位置コード化ダイナミック木(Position-Encoding Dynamic Tree (PEDT))について述べる。このPEDTは、我々がしばしば部分部分からオブジェクトを順次認識しているのに対し、オブジェクトの位置によってそのモデルの部分的役割を割り当て、ダイナミックにオブジェクト木を改善していくための確率的モデルである。これによってダイナミック木によるモデルの柔軟性が増し、オブジェクトの位置を局在化させ、動かすことが可能となる。本論文は、信頼度ネットワークの定式化を利用した確率的モデルを作る動機と定義を明らかにしている。PEDTにおける推論と学習のために構造的変動手法も開発された。その結果、信頼度ネットワークのノード数に比例した計算コストが見込める実装方式の他に、変動分が更新される新方式も得られた。このPEDTモデルはダイナミック木と固定木とで実証比較された。構造化変動学習法は平均場法と比較された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多方向散乱データによる離散的HMM姿勢推定法のレート歪み解析
Rate-Distortion Analysis of Discrete-HMM Pose Estimation via Multiaspect Scattering Data

Yanting Dong, Lawrence Carin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp.872-883, April 2003

Keywords: Rate distortion, vector quantization, HMM, pose estimation, underwater sensing

標的の姿勢(ポーズ)推定を多数の標的センサー方位における散乱波形系列に基づいて行う方法について考察する。散乱波形系列の隠れマルコフモデル(HMM)表現を利用して、姿勢推定は、観察された系列からの潜在的HMM状態の推定問題に帰結する。各散乱波形はコード化手続きによって量子化されたと仮定する。歪み量Dは、本来のHMM状態推定における誤りとして定義され、そのレートRは離散HMMコードブックのサイズを表している。レート歪み理論を応用して望ましい歪み量R(D)を達成するための最小レートを定義することができる。レート歪み関数R(D)が求まった後、Lloydコードに基づく離散的HMMの効率は、この限界より程遠かった。ベイズVQに基づくブロック符号化法の利用で効率は更に改善される。標準的HMM問題、そして、水中の弾性体標的からの多方向音響散乱に対する結果が示されている。ここに示されている例は多方向散乱と姿勢推定に対するものであるが、この結果は離散的HMM状態推定全般に応用可能である。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


未較正カメラによる多数の動き情景再構成
Multiple Motion Scene Reconstruction with Uncalibrated Cameras

Mei Han, Takeo Kanade

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp.884-894, April 2003

Keywords: Structure from motion, motion segmentation, camera calibration, dynamic scene reconstruction, computer vision

本論文では未較正カメラ画像から、多数の動き情景(シーン)つまり、多数の動くオブジェクトを含んだ情景の再構成手法について述べる。オブジェクトの動きは一定速度であると仮定し、この手法によって情景の構造や、動くオブジェクトの軌跡、カメラの動き、スキュー以外のカメラの固有パラメータを同時にを再構成する。カメラの焦点距離以外のパラメータは既知である場合について述べる。動くオブジェクトの数は、事前のセグメンテーションなしに自動的に検出される。本手法は静的情景と動くオブジェクトの統一的幾何学的表現に基づいている。まず、双一次因子分解アルゴリズムによって投影空間に再構成を実行し、次に投影解を距離尺度の制約条件を加えながらユークリッド空間に変換する。合成画像および実画像への適用実験を示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対称性を利用した形状の本質的な再構成
On the Intrinsic Reconstruction of Shape from Its Symmetries

Peter J. Giblin, Benjamin B. Kimia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp.895-911, April 2003

Keywords: Shape, reconstruction, shape modeling, symmetry set, shocks, medial axis, medial geometry, shock dynamics

非交差平面で囲まれる境界を生成するために必要な最小限の情報はどのくらいであろうか、というのが我々の主な疑問点である。本論文での「形状」とはこの意味に限定する。より厳密に言えば、動きを考慮しながら中央軸によって、形状のデザインを与え、形状変化を与えるための言語になりうるか、すなわち、モデル形成のためや、連続する変形系列を生成するためなどに。ショックグラフと同様に、軸に沿ったフロー(流れ、動き)とともに中央軸を表現することで、3種類の中央軸点の各々に従って再構成された形状と、関連する6種類のショック点を吟味する。まず最初に中央軸の正接(tangent)と曲率(curvature)を示し、次に、伝播速度に対応して速度と加速度を示す。これは幾何学的、運動学的な1次、2次の性質であり、境界の対応点の境界の正接と曲率を決定するに十分である。このことは、対称軸のサンプリング密度が粗である場合、その正接、曲率、速度、加速度によって、正則軸点(regular axis points)における充分正確な形状の局所的近傍を表現することが可能であることを示している。更に、この軸の高次微分特性が、同じ次元の境界の高次微分特性に関連していることを示そう。第2に、3つの正則ブランチ(枝)の交差点における形状の再構成を調べる。ここで3対の幾何(曲率)と動力学(加速度)は、ある種の拘束条件を満たす必要があることを示す。最後に、ショック枝の終点に対しても類似した結論が得られることを導いた。ショックグラフや中央軸、中央軸からの整合性を保つ拘束条件によって、これらの公式から完全な局所再構成形状を規定することができる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


1つの正射投影と2つの遠近法画像中の直線
Lines in One Orthographic and Two Perspective Views

Nassir Navab, Yakup Genc, Mirko Appel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp.912-917, April 2003

Keywords: Motion from line correspondences, perspective and orthographic cameras, trifocal tensor, camera calibration

色々な投影モデルによって直線の対応付けを行う動き推定解析におけるギャップを埋めるため、直線対応付けによって、1つの正射投影と2つの遠近投影カメラ間のユークリッドモーションを再現する線形アルゴリズムを紹介する。3つの視野中の直線の一般的関係は3焦点テンソルによって記述できる。3つの遠近画像から得られた動きのユークリッド構造は特別の場合であり、3つの行列の集合としてその関係が定義できる。ここに、2つの較正された2つの遠近画像と1つの正射影画像の場合について述べる。その他の場合に類似して、この線形アルゴリズムは13個、あるいは、それ以上の対応によって27個の3焦点テンソル係数が再構成できる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動く陰影の検出:アルゴリズムと評価
Detecting Moving Shadows:Algorithms and Evaluation

Andrea Prati, Ivana Mikic, Mohan M. Trivedi, Rita Cucchiara

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp.918-923, April 2003

Keywords: Shadow detection, performance evaluation, object detection, segmentation, traffic scene analysis, visual surveillance

ロバストでダイナミックなシーンの解析システムの開発には動く陰影の扱いは特に注意が必要である。動く陰影の検出はビデオ画像中の正確なオブジェクト検出には極めて重要である。陰影点はオブジェクトの点としばしば誤認される結果、セグメンテーションや追跡の誤りの原因となる。既存文献中に多くの陰影の扱いに関するアルゴリズムが提案されている。しかし、これらの相対的な比較評価は未だなされていない。本論文では動く陰影の広範な調査を実施する。これらの論文を4つに分類し、そのうち2つは統計的手法、他の2つは決定論的手法とする。これら4つの分類から代表的アルゴリズムについて実験的比較評価の結果を紹介する。これら分類されたアルゴリズムを、室内と屋外のビデオ画像に適した評価基準である新規な定量的(検出・識別率)で定性的尺度(画像とオブジェクトに対する依存性、陰影状態に対する柔軟性、ノイズへのロバスト性)を提案する。これらビデオ画像と、その「真のデータ」を以下のページに載せておくので興味あるひとは実験を試みられたい。 http://cvrr.ucsd.edu/aton/shadow

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


制約付き混合要素共有を利用したクラス条件付密度推定
Class Conditional Density Estimation Using Mixtures with Constrained Component Sharing

Michalis K. Titsias, Aristidis Likas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp.924-928, April 2003

Keywords: Mixture models, classification, density estimation, EM algorithm, component sharing

クラス間に共有されたり、共通に存在する部分要素集合の混合集合によって表現されるクラス条件付分布密度( クラスが規定された条件における分布密度)が可能な汎用的混合モデル識別器を提案する。もし、混合成分の総数が一定であれば、最も効率的な識別モデルはクラス条件密度で要素を適宜配分することで得られるであろう。このような効率的モデルを発見するために、要素配分を自動的に調整するEMアルゴリズムに基づく訓練法を導くことができる。我々は優れた識別効率を示す実験結果を得た。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.25, No.8


3点透視問題のための完全解分類
Complete Solution Classification for the Perspective-Three-Point Problem

Xiao-Shan Gao, Xiao-Rong Hou, Jianliang Tang, Hang-Fei Cheng

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 8, pp.930-943, August 2003

Keywords: Perspective-Three-Point problem, pose determination, analytical solutions, solution classification, geometric criteria, Wu-Ritt's zero decomposition method

本論文では3点透視問題に対して2つの手法を利用する;第1は代数的手法であり、第2は幾何学的手法である。代数的手法ではWu-Rittのゼロ分解アルゴリズムを用い、3点透視方程式のための完全3角形分解を与える。この分解法によって3点透視問題の最初の完全代数的解が与えられた。また、3点透視方程式系に対する完全解分類法も導く。すなわち、3点透視問題が、解を1つ持つ場合、2つ持つ場合、3つ持つ場合、4つ持つ場合についての厳密な基準を与える。この基準と解析解を結びつけると、完全でロバストな数値解を求めるために利用することができると思われるCASSCアルゴリズムが求まる。幾何学的手法においては、いくつかの物理的解に対する、純粋に幾何学的な基準を与える。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


異なり具合を積み重ねることによる新クラスター分離法
A New Cluster Isolation Criterion Based on Dissimilarity Increments

Ana L.N. Fred, Jose M.N. Leitao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 8, pp.944-958, August 2003

Keywords: Clustering, hierarchical methods, context-based clustering, cluster isolation criteria, dissimilarity increments, model-based clustering

本論文では、パターン間の関連性をモデルに基づいて特徴付けることによってクラスターを定義する問題について述べる。パターン間の相違度行列(dissimilarity matrix)を使ってグループ構造を抽出し、クラスター内の隣接パターンの相違度をカウントしていくことで解析する。実験的事実によれば、これらの相違度の増分の統計学的分布のモデルとして指数関数密度分布が推定され、この統計モデルの利用によってコンテクスト特徴が特徴付けられ、その結果新しいクラスター分離基準が導かれる。この基準の階層的集積によるクラスタリングの枠組みは、データの関連性が系統樹グラフであるようなデータの分離ができる。この基準の解析には事例集合が利用され、この手法によって任意の形状やサイズのクラスター同定が可能なことから、この融通性が示される。アドホックにデザインパラメータを決めたり、計算量の大きな最適化手法を用いなくてもクラスター数は自ずから見つかる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


興味ある点の検出のための高速動径対称法
Fast Radial Symmetry for Detecting Points of Interest

Gareth Loy, Alexander Zelinsky

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 8, pp.959-973, August 2003

Keywords: Radial symmetry, points of interest, feature detection, face detection, real-time

情景中の興味ある点(関心部位)を注視するために局所的な動径対称性(放射形状対称)を利用した新規な変換法を紹介する。この方法は計算量が少なく高速計算が可能で、ビジョンの実時間処理応用に適している。この変換性能は多様な画像に対して実証されるだけでなく、文献上の最新の手法とも比較してある。顔特徴抽出や一般的な関心領域の抽出に対して、この新規な方法は現在の他の手法と同等以上の性能を比較的少ない計算量で達成できる。この変換法を利用した、毎秒60フレーム画像の実時間処理をPentium III PC上に実装した。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


レーダー陰影像からの合成形状を利用した地形解析
Terrain Analysis Using Radar Shape-from-Shading

Adrian G. Bors, Edwin R. Hancock, Richard C. Wilson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 8, pp.974-992, August 2003

Keywords: Synthetic aperture radar imagining, shape-from-shading, terrain surface reconstruction, maximum a posteriori probability estimation, robust statistics

本論文は、合成開口レーダー画像から形状合成(SFS = shape from shading)のための最大事後確率(MAP)推定のための枠組みについて述べている。目的はこの手法を利用して、比較的複雑な地形のレーダー画像1枚から、地表の形状を再構成することである。我々のMAPの枠組みは局所的な地表の方位が地形エッジ特長の存在場所や、入手可能なレーダー反射情報に依存している様子を明確にしてくれる。この結果を現実のレーダーデータに応用するために、地形特長量の観測値と、表面法線の方位とレーダー反射率の関係に対する確率モデルが必要となる。これによって、合成開口レーダーデータがレーリー・ベッセル分布を使ってモデル化でき、この分布を利用して、地形エッジ特長量の検出とラベル付けに最尤アルゴリズムが導けることを示そう。更に、ロバストな統計量によってこの分布の特長パラメータが推定可能であることも示そう。また、合成開口レーダーの反射関数の実験モデルも求めた。この反射モデルによって、ランベルト反射を修正したため、従来のSFSアルゴリズムをレーダー画像にも使うことが出来た。地表法線方位の初期値は峡谷地形とか、最近傍リッジ方位の点に限定される。各表面法線は、レーダー照射方位に向いた円錐の広がりの中に存在しなければならない。円錐の広がりの範囲は修正されたレーダー反射率とレーダー信号統計量のばらつきに依存する。我々はロバストな統計処理によって多様な方法で表面法線の場を平滑化した。最後に、平滑化された地表の法線ベクトルから、どのようにして地形表面が再構成されたかを示す。ここに提案したアルゴリズムは、比較的複雑な地形構造のいろいろな合成開口レーダーデータ集合に応用した。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


計算ステレオ法の進歩
Advances in Computational Stereo

Myron Z. Brown, Darius Burschka, Member, Gregory D. Hager

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 8, pp.993-1008, August 2003

Keywords: Computational stereo, stereo correspondence, occlusion, real-time stereo, review.

情景のステレオ画像から3次元構造を抽出することは、コンピュータビジョンに関わる人たちによって何十年もの間研究されてきた課題である。初期の研究は画像間の対応やステレオ幾何学といった基本的問題が中心であった。その間スレテオの研究は大きく成熟し、コンピュータによるステレオ研究は引き続き多大の進歩を続け、新しくてもっと困難な課題に応用されるようになった。本論文において、コンピュータによるステレオ研究の最新の研究を概観し、おもに3つの重要なトピックスに焦点を当ててみる:対応関係を求める手法、オクルージョンへの対処法、実時間実装法。全体を通して、まとめとキーとなるアイデアや手法を表にして示す。また、可能な場合、比較解析を示し、今後の解析への提案も示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


方位に基づく細部記述子を利用した指紋マッチング法
Fingerprint Matching Using an Orientation-Based Minutia Descriptor

Marius Tico, Pauli Kuosmanen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 8, pp.1009-1014, August 2003

Keywords: Fingerprints, matching, minutiae, orientation features

指紋画像の細部の方位場の記述を利用した新規な指紋表現方法を紹介する。この表現法によって、対応特長量の同定に利用される微細特長量間の類似度関数を導くことができる。この提案表現による指紋同定アルゴリズムを構築し、2つの公開指紋画像による一連の実験によってテストした。この結果、我々の手法はこれらのデータに関しては優れた性能を示し、比較のために用意した代わりの手法をはるかに凌いだ。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自己キャリブレーションのために回転とズーミングを実行するカメラの並進誤差の影響
The Effects of Translational Misalignment when Self-Calibrating Rotating and Zooming Cameras

Eric Hayman, David W. Murray

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 8, pp.1015-1020, August 2003

Keywords: Self-calibration, zoom lenses, rotating cameras

回転とズーミングに限定されたキャリブレーションパラメータを自己キャリブレーションするアルゴリズムは、三脚や机上に置かれた、あるいは、壁に取り付けられたカメラのように多くの現実的条件では並進を許さない条件では、これで十分役立つ。実際、厳密な意味での回転成分だけかと言えば、それは正しくない。カメラ光学系の中心と回転中心は、厳密には一致しない。本研究はそのような設置誤差がカメラの焦点距離推定にどのくらい影響するかを決定することが目的である。焦点距離と、復元した回転の誤差表現式を導き、その毛kkを人工的データによる実験で確認した。その結果、特にノイズとか回転歪みなどの他の誤差の影響が大きい現状では、多くの場合回転のみを考慮した近似で十分であることが分かった。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パターン認識における弛緩処理のための理論的枠組み:ロバストで非パラメトリックな輪郭一般化への応用
A Theoretical Framework for Relaxation Processes in Pattern Recognition: Application to Robust Nonparametric Contour Generalization

Petko Faber

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 8, pp.1021-1026, August 2003

Keywords: Generalization, compatibility function, support function, relaxation operator, significance measure, information theoretic model selection

いくつかの目的のために弛緩法を一般化する色々な手法について文献に述べられているが、より広い問題提起は特定の問題解決のための最適弛緩法を見つけること、あるいは、課題に依存した弛緩法を構築することであろう。このため、パターン認識における理論的基礎となる一般的枠組みを構築した。その構造は1)すべての既知の弛緩法を一般的に表現している、2)課題に依存した弛緩法の設計、となっている。よく知られた標準的弛緩法の定式によって我々の手法の正当性が分かる。輪郭の一般的記述法を生成するという、普通の問題を参照しながら、システムが推薦する一般化について詳細に適応性を実証した。その結果、課題に特有な弛緩法についての重要な特性は:1)どんなパラメータからもセグメンテーション結果が独立していること、2)幾何学的変換に対する普遍性、3)簡潔性、4)効率の良さ、である。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクトのエッジ検出と検出器のパラメータ選択手法
A Method for Objective Edge Detection Evaluation and Detector Parameter Selection

Yitzhak Yitzhaky, Eli Peli

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 8, pp.1027-1033, August 2003

Keywords: Edge detection evaluation, detector parameters, receiver operating characteristics

現実世界の画像についてのエッジ検出パラメータを選択する場合には通常ヒトによる主観評価を利用して解析・選択される。本論文では、異なる検出パラメータによって生成された検出結果を利用して、統計的な客観的性能分析法と検出パラメータ選択法を提案する。異なる検出結果間の対応関係から、推定最適エッジ図は、推定グランウンドトゥルース(推定実証データ)として利用可能な結果が得られる。この結果は受信者の作動特長とカイ2乗検定の両方から得られ、検出結果の情報とノイズの損得を考えて行われる。最適エッジ検出パラメータ集合は同じ統計的手法で、推定実証データから選択される。いくつかのエッジ検出手法についてその結果を示し、過去の論文の主観的評価と比較をする。今回開発された方法は、自動化が必要な場合、パラメトリックなエッジ検出器を実装する一般的ツールになりうることを示唆している。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


素朴な、共分散を使わない増分主成分分析法
Candid Covariance-Free Incremental Principal Component Analysis

Juyang Weng, Yilu Zhang, Wey-Shiuan Hwang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 8, pp.1034-1040, August 2003

Keywords: Principal component analysis, incremental principal component analysis, stochastic gradient ascent (SGA), generalized hebbian algorithm (GHA), orthogonal complement

外見による画像解析手法には高次元の画像ベクトルの高速な主成分分析(IPCA)演算が求められる。ここに、Candid(素朴な) Covariance-Free IPCA(CCIPCA)と呼ばれる高速な増分(インクリメント)主成分析法を紹介する。これは共分散行列を予測することなく(つまり共分散フリー)順次サンプルの主成分を増分的に計算するものである。この方法は統計的な効率(つまり、観察データが与えられると、推定値は最小の偏差を有する)を考慮して着想した。これを実行するために、観察のスケールを一定にしておき、観察平均値を増分計算することで、ガウス分布のようなくつかの分布では効率の良い推定法として知られている。もっとも、今回のようにサンプル分布が未知の場合、最高の効率であることが保証されているわけではない。この手法は実時間演算も可能で、したがって、繰り返し演算は不要である。高次元画像ベクトルに対する収束は急速である。IPCAと大脳皮質の関係についても考察した。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.25, No.9


オンライン掌紋認識
Online Palmprint Identification

David Zhang, Wai-Kin Kong, Jane You, Michael Wong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 9, pp.1041-1050, September 2003

Keywords: Biometrics, online palmprint identification, texture analysis, low-resolution image.

バイオメトリックスを利用した個人認証は、高信頼性で個人を認証するための有効な方法であるとみなされている。本論文では掌紋同定技術を利用した新しいオンラインバイオメトリックスについて述べる。従来方に比べ、本手法は低解像の掌紋を利用し、効果的な個人同定を行う。このシステムは、新規なオンライン掌紋画像入力装置と、高速掌紋認識のための効率的なアルゴリズム、の2つの部分から構成されている。ロバストな画像座標系の採用によって画像位置合わせが容易になり、画像特徴抽出が効率的になる。さらに、2D Gabor位相符号化法を利用した掌紋特徴抽出と園表現を提案する。本手法の有効性が実験によって示されている。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


共鳴する網膜:振動ノイズを利用した画像中の光学的エッジの検出
The Resonant Retina: Exploiting Vibration Noise to Optimally Detect Edges in an Image

Vlax-Olivier Hongler, Yuri L. de Meneses, Antoine Beyeer, Jacques Jacot

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 9, pp.1051-1062, September 2003

Keywords: Edge detection, random vibration of the optical axis, microsaccades, threshold variance estimator, Fisher information,Cramer-Rao inequality, stochastic resonance.

モバイル映像機器に普遍的に存在するランダムな振動は、欠点どころか、エッジ検出の基本的ツールとして利用できることを示そう。生物をヒントに、網膜に動きがあるとき、画像を時間的に追跡し、空間的時間的な追跡経路を利用してエッジを検出するという基本演算のコンセプトを得た。ここで我々は動きのある網膜の数学的なコンセプトを提案する。これによればエッジ検出に必要な関連情報は網膜からの出力信号の分散値の変調中に含まれている。観察が連続的であるという前提をもとに、画像エッジの存在を分散空推定器で行う。ここでもまた生物学的直感によってニューロン動力学に着目し、閾値の最適化を行う。この最適閾値は、関連するフィッシャー情報の最大値に一致し、全体のプロセスは確率論的共鳴と直接関連すると解釈できる。我々は簡単な実験的描画を示すことで、自分たちの果たした寄与を紹介したい。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3Dの可変モデルをフィットさせることによる顔認識手法
Face Recognition Based on Fitting a 3D Morphable Model

Volker Blanz and Thomas Vetter

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 9, pp.1063-1074, September 2003

Keywords: Face recognition, shape estimation, deformable model, 3D faces, pose invariance, illumination invadance.

本論分では姿勢の変化に追従するような顔認識手法を提案する。変化の範囲は正面顔画像から横顔までの色々な条件、影や鏡面反射までを含む。このような変化に対応するために、コンピュータグラフィックスと単一画像からの3D形状やテクスチャーを推測し、3D空間での画像形成シミュレーションを行う。この推測には変形可能な3D顔を画像に統計的フィッティングさせることで達成される。このモデルは頭部のテクスチャー付き3D走査画像から学習される。論文では変形可能なモデルの構成法、モデルを画像にフィッティングさせる方法、そして、顔同定のための枠組みについて述べる。この枠組みの中で顔は3D形状とテクスチャーのモデルパラメータとして表現される。公開されている4,488のCMU-PIE画像データベースと、FERETデータベースからの1,940の画像についての認識結果を示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統計的モデル化手法による画像の自動的言語インデックス
Automatic Linguistic Indexing of Pictures by a Statistical Modeling Approach

Jia Li, James Z. Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 9, pp.1075-1088, September 2003

Keywords: Content-based image retrieval, image classification, hidden Markov model, computer vision, statistical learning, wavelets.

画像に自動的に言語索引を付与することは重要で、コンピュータビジョン研究者や、画像内容検索の研究者にとってきわめて困難でやりがいのある問題でもある。本論文ではこの問題に対する統計的モデル化手法を紹介する。何百と言うこの統計的モデルのコンセプトを表現する辞書を訓練するために予めカテゴリー化された画像が利用される。あるコンセプトを有する画像とは、そのコンセプトを有する画像とは、そのコンセプトを表現する統計的なモデルの実態である。画像とテキスト記述の関連度合いを測るために、確率的過程による特徴で画像の出現可能性(尤もらしさ)を計算した。この尤度が高ければ関連性は大きい。実験的実装によって、我々は特定の確率課程に注目した。すなわち、2次元多段階解像度隠れマルコフモデル(2DMHMM)である。我々の画像の自動言語索引付け法ALIP(Automatic Linguistic Indexing of Pictures)システムを600個の異なるコンセプトを有する写真画像データベースに対して各40枚の画像で訓練し実装テストした。そして、訓練用画像データベースを除く4600枚以上の画像によって確率的注釈法と比較し、このシステムは定量的に評価された。実験結果は高精度で高い存在能力をもつ写真画像の索引付け法が示された。 

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


平均場様近似に基づく隠れマルコフ確率場モデル選択
Hidden Markov Random Field Model Selection Criteria Based on Mean Field-Like Approximations

Florence Forbes and Nathalie Peyrard

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 9, pp.1089-1101, September 2003

Keywords: Image segmentation, hidden Markov random fields, model selection, Bayesian Information Criterion, mean field approximation, partition function.

隠れマルコフ確率場は画像セグメンテーションのような課題には自然に適用できるように見える。この場合、未知クラスの割り当ては画素の観察から推定される必要がある。この観察に最も合致する確率モデルの選択が、引き続く推定と解析への重要な第1段階である。よく利用される選択基準はシュワルツ(1978)のベイズ情報基準(Bayesian Information Criterion (BIC))であるが、隠れマルコフ場にとってマルコフモデル特有の構造依存性からこの厳密な計算は容易ではない。我々は統計力学の平均場原理に基づくBICの近似法を紹介する。この平均場理論によれば、独立変数系によってマルコフ確率場が近似可能で、このことから計算が可能になる。この原理を利用して、コスト尤度として通常のBIC表現によるマルコフ分布近似を用いたいくつかの基準を導く。次に、正規化定数項によってBICを書き換えるが、これはマルコフ分布に代わる分割関数(partition functions)とも呼ばれる。これによってもっと精密な平均場近似が可能であり、正規化に最適下界値を用いることで別の基準が得られる。モデル選択基準として分割関数に基づくBIC近似の能力を示すために、まずセグメンテーション実行前にクラス数を選ぶことに注視した。シミュレーション、および、実データによる実験から、我々の基準が有望であることが分かった:本手法はマルコフモデルによって空間情報を考慮するため、独立混合モデルから得られた結果に対して改善がなされた。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


低解像でピンボケの写真からの距離付き超解像画像のシミュレーションによる推定
Simultaneous Estimation of Super-Resolved Scene and Depth Map from Low Resolution Defocused Observations

Deepu Rajah and Subhasis Chaudhuri

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 9, pp.1102-1117, September 2003

Keywords: Super-resolubon, depth from defocus, space-vadant blur identification, restoration, Marker random field.

本論文は、ピンボケ画像から、深さ情報とピントの合った超解像画像の両方を同時に推定する新規な手法を紹介する。超解像とは、低解像画像系列から高空間解像度の画像生成法に関するものである。従来、超解像手法はほとんど信号の強度領域に限定されてきた。本論文ではこの超解像生成を、同時に深さ情報も獲得する意味に拡張する。ボケてノイズの多い静止低解像画像系列が与えられたとき、課題はオリジナルより高解像であるだけでなく、真の高解像でピントのあった画像を生成することである。深さと画像の両方をそれぞれマルコフ確率場でモデル化し、最大事後確率推定法によって高解像場を復元する。ほとんどの超解像手法や構造復元手法で前提としている画像間やカメラ間の相対的動き情報は存在しないので、対応づけ問題からは解放される。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


新規なwavelet関するによるリボン状形状の骨格化処理
Skeletonization of Ribbon-Like Sh.apes Based on a New Wavelet Funcbon

Yuan Yah Tang and Xinge You

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 9, pp.1118-1133, September 2003

Keywords: Ribbon-like shape, skeletenization, waveJet transform, wavelet skeleton,

本論文では、ウェーブレット関数でリボン状の形状(幅広の文字とか、幅広の線のような形状)をスケルトン化(骨格化)する手法について提案するが、ここではウェブレット関数の果たす役割が鍵となる。特にこれが有する3つの重要な特徴として、(1)リボン様形状に関するウェーブレット変換の局所最大値を有する場所は中間調レベルとは独立であること、(2)ウェーブレット変換のスケールが適当に選択されると、リボン状の形状の局所最大値は2つの平行な輪郭を生成すること、そして、この輪郭は、もとの輪郭に両側に対称的に配置し、もとの輪郭と同じ位置関係・は位置関係を保っていること、(3)これら2つの平行輪郭はウェーブレット変換と同じスケールであり、形状の幅とは独立である。この新しい考え方には2つの部分からなっている;(1)望ましいウェーブレット関数の性質や、ウェーブレット変換の絶対値の最大値を使ったウェーブレットスケルトン法について述べる。輪郭要素対の中間点は連結されてスケルトン形状を形成するがこれをウェーブレットスケルトンと変形させるための数種の手法が利用された。対応するアルゴリズムも開発された。実験によって、本手法によって、幅が変化したり、中間調を有するリボン形状の正確なスケルトンが抽出できることが示された。これはノイズやアフィン変換にもロバストであった。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3D構造復元のためのランク1の重み付き因子分解:アルゴリズムと性能解析
Rank 1 Weighted Factorization for 3D Structure Recovery: Algorithms and Performance Analysis

Pedro M.Q, Aguiar, Jos M.F. Moura

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 9, pp.1134-1149, September 2003

Keywords: Factobzatios methods, stpucture from motion, image sequence analysis, rigid body motion, uncertainty in motion analysis, power method, weighted factorization.

本論文は動きから構造を復元するためのランク1の重みつき因子分解法について述べる。本手法は、従来のランク3ではなく、ランク1のデータ行列の因子分解によって3D構造を復元する。この行列は剛体の特徴量集合が2次元運動するときの推測値を集積する。この集積値は推定誤差標準偏差の逆行列によって重み付けられる結果、通常は望ましい“くっきりした”特徴量の2D動き予測値に対する重みが大きくなる。逆に、“はっきりしない”特徴量に対する動きの重みは小さくなる。剛体特徴の2Dの動きから3D構造を復元するランク1の重み付き因子分解法の性能を調べることで、最も望ましい3D形状、あるいは、最良の3D動きであるかを解析した。我々の手法は正射影カメラモデルを前提に開発された。これによって計算量の大きい特異値分解の変わりに異乗を利用しているが、この方法は特徴量の密度が高いとか、十分な長さのビデオフレームがあるときに適している。人口データ、および、実データの両方による実験で、本手法の良好な性能が実証された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


教師付き学習のための適応的な分布密度の低減化
Adaptive Sparseness for Supervised Learning.

Mario A.T. Figueiredo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 9, pp.1150-1159, September 2003

Keywords: Supervised learning, classification, regression, sparseness, feature selection, kernel methods, expectation- maximization aigobthm.

教師付き学習の到達点は、与えられた学習サンプル集合に基づいて、有効なマッピングを推定することである。この一般化性能を良くするためには、学習した関数の複雑度を制御することが大切である。ベイズ的手法では、学習される関数の事前確率パラメータを採用することでこの目的が達成される。教師付き学習にベイズ手法を応用することで、解の密度が疎になり、関連の無いパラメータは自動的にゼロにセットされる。疎な識別器(ラプラシアン事前確率、あるいは、サポートベクトルマシンのような、データが疎であっても識別可能なマシン)を獲得する他の方法は、解識別器の疎の度合いを制御するパラメータが必要であるため、訓練データからこのパラメータを調整したり推定する方法が求められる。これに引き換え、我々の手法は調整や推定のためのパラメータを必要としない。ラプラシアン事前確率に階層的なベイズ法を適用し、次にJeffreyの事前情報の欠如する状態での推定によって達成される。期待値最大化アルゴリズムによる実装を行った。いくつかのペンチマークデータ集合に対して本手法はもっとも優れた性能を達成できた。とくに、我々の手法はサポートベクトルマシンを凌駕する最高の性能を示したが、このときも疎の度合いを制御するようなパラメータの調整は不要であることは言うまでも無い。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.25, No.10


線形で動的な系の切換えを利用した時系列データの階層的可視化
HierarchicaI Visualization of Time‐Series Data Using Switching Linear DynamicaI Systems

Onno Zoeter, Tom Heskes

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1202- 1214, October 2003

Keywords: Data visualization, time‐series,latent variables,principal component analysis, switching linear dynamical systems, approximate inference.

我々は高次元時系列データにおける新規な可視化アルゴリズムを提案する。ほとんどの可視化手法と異なり、連続するデータ点列の独立性は仮定してない。基本的モデルは確率論的主成分モデルの動的拡張と見なすことができる線形動的な系である。更に線形動的系をうまく切換えることによって複雑なデータを、複数の、あるいは、さらに階層的に図示することが可能になる。期待値伝播法に基づく巧妙な近似によって静的なモデルと同じくらい少複雑度での図示が可能になる。本手法は製紙用機械からのセンサー読み取り値である実データにも適用された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


検出確率を伝播させることによる顔の検出と追跡
Face Detection and Tracking in a Video by Propagating Detection Probabilities

Ragini Choudhury Verma, Cordelia Schmid, Krystian Mikolajczyk

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1215- 1228, October 2003

Keywords: Face tracking, face detection, Condensation filter, video.

本論文はビデオ画像中の複数の顔を検出し追跡する新規な確率的手法について述べる。この提案手法は、検出器から供給される顔確率情報と、追跡器から供給される時間情報を累積し、従来の検出追跡手法に勝る。本論文の3つの新規な点は以下のとおり:1)検出確率の時系列的累積と、これによる時間的整合性の保たれた検出、すなわち、検出結果の向上、2)位置、スケール、姿勢を検出するパラメータの予測と、これによる累積精度の向上が保証され、連続認識が可能になる、3)姿勢の表現は、正面像と横顔像の2つの検出器の組合せを利用する。顔検出は完全自動化されており、Schneiderman and Kanadeの方法を利用している。このときオブジェクトに固定した座標系で表現されるウェーブレット係数の局所ヒストグラムを利用した。検出確率は各画像位置における複数のスケールと姿勢(pose)に対して与えられる。この検出確率は凝縮フィルターと因子分解サンプリングを通じて時間的に伝播される。予測は、基本的には位置、スケール、姿勢に関するゼロ次モデルに依存しており、この検出ルーチーンで生成される確率マップを利用して更新される。本手法はスケールや姿勢を変更できるだけでなく複数の顔や、途中で消失/出現する顔も扱うことができる。商業映画やウェブから抽出された大量の画像系列に対する実験の結果、フレームに基づく従来法(この場合は検出器はビデオの各フレームに利用されている)に比べ明白な改善が見られた。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


分離可能で複雑度の低い2D-HMMを顔認識に応用
A Separable Low Complexity 2D HMM with Application to Face Recognition

H. Othman, T. Aboulnasr

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1229-1238, October 2003

Keywords: Face recognition, Markov processes, pattern recognition.

本論文では新規で複雑度が小さく、隣接ブロックが独立で(つまり分離可能で)あると仮定できる真の2D隠れマルコフモデル(HMM)を提案し、これの顔認識への応用について述べる。本提案方式は隣接ブロック間での関係は独立的であることを前提にしている。その結果状態遷移は、垂直と水平の状態遷移に分解できる。このような状態遷移の分解によって、提案方式の隠れ層における複雑度を N3 T から 2N2 T のオーダーに低下させる。ここでNはモデルの状態数であり、T は画像中の総観察ブロック数である。このシステムの性能について調べ、モデルパラメータの鍵となる状態数と状態確率密度関数の核(カーネル)数の影響についても着目した。このシステムにAT&T Lab. Cambridgeの顔データベースと、もっと複雑なジョージア工科大学の顔データベースを処理させたところ、比較的少ない計算量で、それぞれ、最大100%と92.8%の認識率が得られた。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハイライトや影のある3次元表面の4光源測光ステレオ法
The 4-Source Photometric Stereo Technique for Three-Dimensional Surfaces in the Presence of Highlights and Shadows

Svetlana Barsky, Maria Petrou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1239-1252, October 2003

Keywords: Photometric stereo, surface orientation and color recovery, highlights, shadows.

ハイライト部分や影の部分が存在しても局所的勾配やランベルト色(Lambertian color)が分離可能なアルゴリズムを紹介する。まず表面反射はランベルト反射と鏡面反射の和として近似できると仮定する。従来の測光法をカラー画像に拡張した。入力画像中の影やハイライトは、スペクトルや方向性のどちらかを手がかりとして検出でき、回復処理においてはこれらの影響を取り除くことができた。その結果表面パラメータに関する、より信頼性の高い推定が得られた。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最適凝縮データサンプルからの確率密度推定
Probability Density Estimation from Optimally Condensed Data Samples

Mark Girolami, Chao He

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1253-1264, October 2003

Keywords: Kernel density estimation, Parzen window, data condensation, sparse representation.

パルツェン(Parzen)窓推定器を利用して点確率密度を評価するための演算コスト削減問題は有名な課題の1つである。本論文では核(カーネル)の分布密度推定(しばしばパルツェン窓推定器と呼ばれている)を可能にする縮小集合密度推定器(観察窓を縮小しながら分布密度を推定する)を示す。これには少数のデータサンプルを利用し、累積2乗誤差基準、つまり、L2 の意味において最適となる。要求されるカーネルの重み係数を推測するための通常の計算法ではO(N2 )の演算量しか必要でないが、本アルゴリズムでは、サポートベクトルマシンの密度推定と同じくらいの少ないデータ数で同レベルの精度を出すにはO(N3 )の最適化処理が必要となる。これは以前に示されたように、ガウス混合モデルより常にずっと良い結果を出す。また、本提案手法は、同じくらい少ないデータを使って、最近提案された密度に基づく多重スケールデータ凝縮(Density-Based Multiscale Data Condensation)アルゴリズムよりも常に優れた密度推定を行うことが示されるだけでなく、演算量もほとんど同じに保てる。本提案手法の別の長所は、正則化、ビンの大きさ、凝縮率のような余計なパラメータが不要なことで、そのことが本手法を簡潔で直接的な、凝縮集合密度(reduced set density)の推定器を可能にしている。しかも、パルツェン窓に本来必要なサンプル数を利用した推定器と同等の精度を保って。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エッジ画像の類似度
A Similarity Metric for Edge Images

Miguel Segui Prieto, Alastair R. Allen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1265-1273, October 2003

Keywords: Edge detection, image similarity, performance evaluation, pixel correspondence metric, weighted matching in bipartite graphs, matching problem, assignment problem.

エッジ画像における複数の類似度の性能と差異を解析し、従来の問題点を克服するための新しい類似度を提案する。このアルゴリズムは2つの画素間の最適マッチングを見つけ、マッチングに伴う誤差を見積もる。その結果得られる対応画素対尺度(Pixel Correspondence Metric (PCM))は、類似度推定におけるエッジ画素の変位だけでなくエッジ強度も考慮する。何度もの実験によって、エッジの微小な局所変位誤差を無視できる場合は、この新しい尺度はエッジ画像の比較においてロバストで有効であることが示された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


v-サポートベクトルマシンのための最適v値の選択について
On the Optimal Parameter Choice for v-Support Vector Machines

Ingo Steinwart

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1274-1284, October 2003

Keywords: Pattern recognition, PAC model, support vector machines, parameter selection.

サポートベクトルマシンの1つにv-サポートベクトルマシン(SVM)と称するものがある。これは、パラメータvを識別マージン誤差の上限下限の制御として利用するものであり、Scholkopf たちによって導入されたアイデアである。このvは、ガウスRBFカーネルのような汎用のカーネルを利用する場合には、最適ベイズ危険率の約2倍である。さらに、幾つかの実験によって、この結果は交差検証法の改良版として、実装可能であり、その結果標準的な交差検証法をv-SVM用に改良したものとなる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


曲面上の湾曲不変な特徴量
On Bending Invariant Signatures for Surfaces

Asi Elad (Elbaz), Ron Kimmel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1285-1295, October 2003

Keywords: MDS (Multi-Dimensional Scaling), FMTD (Fast Marching Method on Triangulate Domains), isometric signature, classification, geodesic distance.

等距離面は同一幾何構造を共有しており、これは“第1基本形状”として知られている。例えば、ある曲面上のすべての湾曲形状は長さを保存した変形であり、曲面の引き裂きや伸張は考えない。このような曲面における湾曲不変な特徴量の構成法について提案する。このような不変表現とは低次元ユークリッド空間における曲面の幾何学的構造の埋め込み(embedding)であるが、測地距離はユークリッド距離で近似することができる。湾曲不変量表現は、まず最初に、均一に分布した曲面上の点の測地間距離の測定に始まる。次に、多次元スケール付け法 (MDS) を応用して、有限次元のユークリッド空間の座標値を抽出する。このとき、測地距離はユークリッド距離で置換する。この変形法を、類似測地構造(第1基本形状)を有する種々の曲面に拡張し、類似表面特徴を有する曲面に投影(マップ)する。このようにして、色々な姿勢の非剛体オブジェクトマッチング問題を、より単純な剛体問題に翻訳できる。例として、この湾曲不変特徴量を応用した曲面の識別手法を示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


映像追跡のためのロバストなオンライン外見モデル
Robust Online Appearance Models for Visual Tracking

Allan D. Jepson, David J. Fleet, Thomas F. EI-Maraghi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1296-1311, October 2003

Keywords: Motion, optical flow, tracking, occlusion, EM algorithm, adaptive appearance models.

映像中の動きから自然のオブジェクトを追跡するためのロバストな学習と適応性を有する外見モデルの枠組みを提案する。このモデルはゆっくり変化する外見に追従し、追跡期間中、観察画像の構造を自然に安定化させるための尺度を保持している。この外見の安定な性質を見つけるために、動き予測の重みを増加し、他方、不安定な特徴の重みを軽減することも可能である。この外見モデルには、2画面の動き情報や異常処理とともに、安定な画像構造や長時間の学習経路を混合させた特徴を使うこともできる。オンラインEMアルゴリズムを利用して外見モデルの時間的適応を図った。この外見モデルの実装では多段のウェーブレットフィルターの出力を利用した。このモデルを使って動きに基づく追跡アルゴリズムを組み立てた結果、本システムは、顔が隠蔽されたり、3次元内での動きに伴う外見の変化のような異常な場合にもロバストな追従を見せた。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


独立な特徴量の選択と識別
On the Selection and Classification of Independent Features

Marco Bressan, Jordi Vitria

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1312-1317, October 2003

Keywords: Feature selection, divergence, independent component analysis, naive Bayes.

本論文は、特徴量の選択と、統計学的に独立な特徴量によってモデル化されたクラス分類に焦点を当てている。確率分布がクラス条件に独立である場合(クラス条件付確率)、ダイバージェンス(分散の大きさ)のクラスの分離尺度(距離)は非常に簡単に表現でき、単次元ダイバージェンスの和となる。特に、特徴量選択基準が網羅的探索を必要としないときに。現実には独立性の仮説はそれほど頻繁には生じないので、クラス条件付主成分分析法を紹介する。この仮説はもっと適用性が高い。ダイバージェンスとベイズ決定論による手法が、このクラス条件付表現に加えて適用される。これら表現法や特徴量選択法、および識別器を統合するアルゴリズムを示す。これを、人工的データ、実世界データに適用した結果、本手法の性能が評価された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スプライン境界で表現されたオブジェクトのモーメント演算
Moment Computation for Objects with Spline Curve Boundary

Stanislav Sheynin, Alexander Tuzikov

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1317-1322, October 2003

Keywords: Area, moment, parametric curve, spline, explicit formulae.

スプライン曲線による境界線で表現された領域や平面状オブジェクトの幾何学的モーメントの新しい計算法を提案する。ある領域表現とその低次モーメント計算に対する厳密な定式化が得られた。計算量はモーメントの次数、スプライン次数、スプライン表現における制御点数に依存する。定式化において、スプライン制御点列を循環的に利用したことで効率化した。このお陰で加算項の数を大幅に減少することができた。この式は滑らかな境界を有するオブジェクト形状の計測のような、他の用途にも利用可能であろう。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴量変化の関連性に基づく統計的動きモデル:歩行に基づくヒトの認識
Statistical Motion Model Based on the Change of Feature Relationships: Human Gait-Based Recognition

Isidro Robledo Vega, Sudeep Sarkar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1323-1328, October 2003

Keywords: Biometrics, gait recognition, relational statistics, probabilistic modeling.

検出された画像特徴間の関係をあらわす統計情報の変化を利用して、画像から動きを解析する新規な表現手法を提案する。これにはオブジェクトモデルや、完全なセグメンテーションや、あるいは、部分的追跡などを必要としない。この関係統計(relational statistics)は、ある画像中の特徴量のグループが示す特定の確率的関係をモデル化する。これら関係分布の見かけ上の組合せを簡略化するため、確率空間中に表現する。ここにおけるユークリッド距離は確率関数間のBhattacharya距離に関連している。タイプの異なる動きはこの空間中では異なる軌跡を示す。この表現の有効性を評価するために、歩行特徴量から人間を認識できることを実証した。特に、屋外の動画では、1)人の歩行画像からだけではなく、走ったりジョギングする動きから、その可能性を示し、2)視点を変化させたときのロバスト性も調べ、3)柔らかい芝生上の71種類の歩行画像に対する認識実験を実施した。その結果、視点の変化を伴う映像において、90%の認識率を達成した。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2次円錐とねじれ立方体(twisted cubic)の不変表現
The Invariant Representations of a Quadric Cone and a Twisted Cubic

Y,H. Wu, Z.Y. Hu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1329-1332, October 2003

Keywords: Automated theorem proving, computer vision, invariant representation, quadric cone, twisted cubic.

今日まで知られている2次曲面の最小不変表現は138個の被加数を持つが、3D投影空間におけるねじれ立方体(twisted cubic)の不変表現は見つかってない。そのために3D空間における不変性の応用が限られている。本論文では2次円錐体の非常に短い不変表現形式を示すが、これは特殊な2次関数であり、面状円錐の不変表現と同様に、たった2つの被加数しか持たない。更にねじれ立方体の短い不変表現も示す。次に、ねじれ立方体を生成する完全な線形アルゴリズムも示す。最後に、我々の提案する不変表現の応用例を、コンピュータビジョンと自動的な幾何定理証明において示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2次円錐とねじれ立方体(twisted cubic)の不変表現
The Invariant Representations of a Quadric Cone and a Twisted Cubic

Y,H. Wu, Z.Y. Hu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1329-1332, October 2003

Keywords: Automated theorem proving, computer vision, invariant representation, quadric cone, twisted cubic.

今日まで知られている2次曲面の最小不変表現は138個の被加数を持つが、3D投影空間におけるねじれ立方体(twisted cubic)の不変表現は見つかってない。そのために3D空間における不変性の応用が限られている。本論文では2次円錐体の非常に短い不変表現形式を示すが、これは特殊な2次関数であり、面状円錐の不変表現と同様に、たった2つの被加数しか持たない。更にねじれ立方体の短い不変表現も示す。次に、ねじれ立方体を生成する完全な線形アルゴリズムも示す。最後に、我々の提案する不変表現の応用例を、コンピュータビジョンと自動的な幾何定理証明において示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


凸状事前分布を有するマルコフ確率場のための厳密最適化
Exact Optimization for Markov Random Fields with Convex Priors

Hiroshi Ishikawa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1333-1336, October 2003

Keywords: Markov random field, global optimization, minimum cut, maximum flow.

我々は以前に比べもっと一般的な条件で、厳密な1次マルコフ確率場(MRF)最適化問題の解法を紹介する。MRFは、線形に整列したラベル集合においては凸状の事前分布項を有している。本手法は、この課題を有向グラフの最小カット問題にマッピングし、グローバルな最適解は多項式時間で求まることを示す。エネルギー事前関数の凸条件は、本手法が適用されるための必要十分条件である。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ画像中の動くオブジェクト、ゴースト、影の検出
Detecting Moving Objects, Ghosts, and Shadows in Video Streams

Rita Cucchiara, Costantino Grana, Massimo Piccardi, Andrea Prati

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1337-1342, October 2003

Keywords: Background modeling, color segmentation, reactivity to changes, shadow detection, video surveillance, object-level knowledge.

ビデオ画像中の動くオブジェクトの検出には背景を除去する方法が多くの用途に広く利用されている。たとえば、交通量モニター、人間の動き把握、ビデオ調査などで。この方法における2つの主要重要課題は、正確で効果的なモデル化と、背景モデルの更新、および、影の扱いである。この研究では、動くオブジェクトや見かけ上のオブジェクト(ゴースト)、そして影を以前のフレームからオブジェクト別に統計的仮説を獲得することによって、汎用的手法に拡張した。画素が属する、これら動くオブジェクトや、ゴーストや、影ごとに別に処理され、オブジェクト別の選択的な更新がなされる。この提案手法はカラー情報を利用して、背景除去と影除去の両方に適用し、オブジェクトのセグメンテーション法と背景更新法の両方を改善した。この手法は高速であり、柔軟性があり、画素精度でも背景変化への対応の両方で正確であることが証明された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


円錐のフィッティングを利用した単軸的動きの幾何
Geometry of Single Axis Motions Using Conic Fitting

Guang Jiang, Hung-tat Tsui, Long Quan, Andrew Zisserman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1343-1348, October 2003

Keywords: Turntable, structure from motion, single axis motion, geometry, conic, fundamental matrix.

未知の単軸のまわりの非更正画像系列から3Dを再構成する既知アルゴリズムにおいては、2方向からの基本行列と3方向の3焦点テンソルの計算に基づくものであった。本論文では多方向画像にわたって、対応する画像点に円錐上の点集合をフィッティングさせるという新規な方法を提案する。この方法の主な利点は、5つ以上方向からの画像において1つの対応点あたり5つのパラメータを決定するだけでよいということであり、この方法は2方向画像や3焦点の3方向画像を利用する方法よりは単純でロバストである。単軸の動き復元は1つの円錐上点列と1つの基礎行列か、あるいは、少なくとも2つの円錐上点列から復元可能である。このパラメータ化による単軸の動きの最尤解を利用した3つ以上の対応点列のための最適推定についても述べる。実画像系列による実験から、この新規な手法の単純性、高精度性、ロバスト性が実証された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非剛体運動と対応点推定のための曲率に基づくアルゴリズム
Curvature-Based Algorithms for Nonrigid Motion and Correspondence Estimation

Pavel Laskov, Chandra Kambhamettu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1349-1354, October 2003

Keywords: Nonrigid motion, correspondence estimation, differential geometry, Gaussian curvature.

我々は、新規なガウス対応点が未知の状態における曲率情報を利用した3D非剛体運動の推定法を紹介する。運動の前後においてガウス曲率情報が与えられれば、差分幾何学上の制約によって局所的アフィン運動モデルのパラメータが推定可能である。これらの制約条件に、更に、従来から知られている運動前後のオブジェクトの垂直単位成分が既知という制約条件を加えることが可能である。我々の実験によると、この融合アルゴリズムは、各々の個々のアルゴリズムよりは更に高精度であるだけでなく、古典的なICPアルゴリズムよりも高精度である。また我々のアルゴリズム導出の基礎となった2次Mongeパッチが曲率線形直交性を有するための手法を示す。このパッチは他の用途にも有用である。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多数カメラによる視野のオーバーラップを利用した追跡オブジェクトのラベル付け
Consistent Labeling of Tracked Objects in Multiple Cameras with Overlapping Fields of View

Sohaib Khan, Mubarak Shah

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 10, pp.1355-1360, October 2003

Keywords: Tracking, multiple cameras, multiperspective video, surveillance, camera handoff, sensor fusion.

多くの調査活動で見られるような多数の非更正カメラによる環境撮影によって動くオブジェクトの追跡課題について述べる。 このような状況において、異なるカメラに写った同一オブジェクトの完全情報を取得するためには、オブジェクトの対応関係を得ることはきわめて重要なことである。同一オブジェクトが多数カメラに見える場合には、この課題を整合的ラベル付けと呼ぶことにする。各カメラが他のカメラで見える場合の視野の限界を見つけるために、新規な方法を採用する。もし視野が既知であれば対応点の複数の可能性からあいまい性を減少させることが可能である。環境中のオブジェクトの動きを観察することで自動的にこの視野境界線を復元する方法を示す。さらに、これらの境界線が復元できた場合、視野間の均一性が復元できる。室内と屋外の両方の人と車を含む画像系列について処理結果を示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine INtelligence (IEEE) Vol.25, No.11


半決定的プログラミング法による2分割、知覚分類、復元
Binary Partitioning, Perceptual Grouping, and Restoration with Semidefinite Programming

Jens Keuchel, Christoph Schn6rr, Christian Schellewald, and Daniel Cremers

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 11, pp.1364-1379, November 2003

Keywords: Image partitioning, segmentation, graph cuts, perceptual grouping, figure-ground discrimination, combinatorial optimization, relaxation, convex optimization, convex programming.

我々はコンピュータビジョン分野に半決定論的プログラミング弛緩法を利用した新規な最適法を導入し、線形的制約条件の下で、2次関数を最小化することで2値決定変数を求める組み合わせ問題に適用した。この方法は調整パラメータを必要とせず、内部点法(凸プログラミング)と確率的超平面方を利用して組み合わせ問題を高い品質で計算することができる。客観的基準として、対称性の条件以外は、距離対による制約(metric pairwise interactions)のような仮定は一切必要ない。その結果この手法は多用な問題に適用可能である。たとえば、教師無し分割問題、図形に基づく分類問題、2値再現問題への適用例を、十分な実証実験と共に示している。弛緩法において内在する組合せ問題の観点から、本手法の優越性をスペクトルグラフ理論に基づく弛緩法に対比して示し、その効率限界を証明する.

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像セグメンテーションにおける隠れマルコフ測度場モデル
Hidden Markov Measure Field Models for Image Segmentation

Jose L. Marroquin, Edgar Arce Santana, Salvador Botello

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 11, pp.1380-1387, November 2003

Keywords: Markov random fields, segmentation, motion.

パラメトリック画像セグメンテーション問題とは、画像をオーバーラップの無い領域に分割する問題において分割された領域のラベルを見つける問題と、各領域内部のある種の変動を記述するモデルのパラメータを見つける問題の2つから構成されている。この解を与える新規なベイズ理論に基づく定式化をここに示す。これはラベル付けとして、2重に確率的な先験モデルを利用したもので、この問題とモデルパラメータの両方に対して微分関数の最小化によって最適推定解が求まる。このための効率的最小化アルゴリズムを示し、従来法との比較を合成画像に適用した例で示す。さらに、磁気共鳴3D画像や動画像のセグメンテーションへの現実的応用例も示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


交互作用スネークによる漫画の顔の分類生成
Generating Discriminating Cartoon Faces Using Interacting Snakes

Rein-Lien Hsu, Member, Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 11, pp.1388-1398, November 2003

Keywords: Active contours, snakes, gradient vector field, face recognition, semantic face graph, face modeling, face alignment, cartoon faces, caricatures.

高度な先験知識によるオブジェクト形状認識と、単純な画像データの間をコンピュータ処理で結ぶ手段として、動的スネークは変形するオブジェクト抽出に有用なモデルである。我々は複数のスネークを繰り返し用いる、相互作用スネークと称するものを提案する。これは各スネークの輪郭と閉領域に対する引力エネルギー汎関数、および、互いに作用する多数のスネーク間の反発エネルギーの両方を最小化するものである。この相互作用スネークを顔認識において厳密な曲線(パラメータ表現した動的輪郭)表現に実装した。我々は人の顔を、目、口、顔輪郭、髪輪郭のような部品レベルでセマンテック表現した。このセマンテック部品の集合はセマンテック顔グラフと呼ばれるハイパーグラフを形成する。これは相互作用するスネークを使って一般的な顔の形状ををとりこまれた画像上に最配列する。実験の結果、セマンテック顔グラフは漫画や風刺画の顔表現として有用であることがわかった。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ひも:多変数連続境界特徴量の変形可能な可変モデル
Strings: Variational Deformable Models of Multivariate Continuous Boundary Features

Sennay Ghebreab, Arnold W.M. Smeulders

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 11, pp.1399-1410, November 2003

Keywords: Machine learning, deformable models, energy minimization, multivariate statistics, shape analysis, functional data analysis, chemometrics, active shape models.

我々は、stringと称する新しいセグメンテーション法を提案する。stringとは変形可能な可変モデルのことで、事前の解析的や幾何学的知識に基づくのではなく、事例オブジェクトに基づく学習モデルである。従来法の離散点集合によるベクトル空間内の点による記述とは異なり、オブジェクト境界は特徴量空間である汎関数空間において一次元多変数曲線で表現される。学習時には、特徴関数は、与えられた学習集合中の多数の形状や画像特徴を、その境界に沿っての連続オブジェクトを抽出することで定義される。特徴量関数は整列しており、したがって、汎関数主成分分析され、汎関数成分回帰を行い、特徴量空間を統合化し、その成分によってモデル化される。また、マハラノビス距離モデルによる特徴関数による境界の評価が行われ、学習集合中の自然な変動を考慮したモデルとなる。セグメンテーション段階では、新規な画像中のオブジェクト境界が曲線を頼りに探索される。この曲線が特徴関数を与える、つまり、stringであり、回帰モデルによって重み付けされ、マハラノビスモデルで評価される。この曲線はマハラノビス距離が最小となるように逐次変形されて特徴関数を生成する。出来たstringは145個の動的背骨画像と形状モデルと比較された結果、目的境界像と初期値が近いときは近似がより良くなったし、そうでないときは、それ相応の結果となった。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パスを利用したbagging法
Bagging for Path-Based Clustering

Bernd Fischer, Joachim M. Buhmann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 11, pp.1411-1415, November 2003

Keywords: Clustering, resampling, color segmentation.

類似度によるクラスタリングのために、ブートストラップ(botstrap)法(bagging)による再サンプリング法を紹介する。Baggingは、ノイズの多いデータから、長細い形状を抽出するための、パスをたどりながら実施するクラスタリングに利用された。集合の最適化の結果は、入力データの小さな変動の影響を受けた。クラスタリング結果の信頼度を増すために、確率的再サンプリング法を採用したが、これは合意によるクラスタリングを推察させる。これに関する信頼度によって、再サンプリング下の最適クラスター解の安定性を観察することで、クラスター数を推測することが可能となる。この再サンプリングによるパス依存性クラスタリングの品質は、人間によるセグメンテーションの大規模な画像データと比較評価された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


陰影からの形状復元法における多重解像度法の利用と決定論的および確率的最適化
A Multiresolution Approach for Shape from Shading Coupling Deterministic and Stochastic Optimization

Alain Crouzil, Xavier Descombes, Jean-Denis Durou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 11, pp.1416-1421, November 2003

Keywords: Shape from shading, optimization, simulated annealing, multiresolution.

陰影からの形状復元問題は、今までのところ満足の行く完全解の存在しない不良設定問題である。本論文では、この陰影からの形状復元問題をエネルギー最小化問題として再定義する。まず第1に、決定論的解法は計算時間の観点からは効率的アルゴリズムである。しかし、形状に基づくエネルギーは多数の深い局部最小値があるため、その限界に達する。それに代わる確率的擬似焼きなまし(アニーリング)法を提案する。この方法による結果は決定論的手法を遥かに凌いだ。問題は最適化が恐ろしく遅いことである。そのため、多解像度による、決定論的手法と確率的手法の融合法を提案する。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統計的文字構造モデル化と、この手書き漢字認識への応用
Statistical Character Structure Modeling and Its Application to Handwritten Chinese Character Recognition

In-Jung Kim, Jin-Hyung Kim

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 11, pp.1422-1436, November 2003

Keywords: Character recognition, statistical character structure modeling, model-driven stroke extraction, selective matching, heuristic search.

本論文で提案する手法は統計的文字構造モデル化法である。これは各ストロークを特徴点分布として表現する。文字構造は、各要素ストロークの結合分布として表現される。ここに提案するモデルでは、ストローク間の関係は統計的従属性によって効率よく表現される。これによってあらゆるストロ−クが効率よく統合的に表現できる。このような文字表現に基づいて、ストロークの近傍選択法が可能となる。つまり、ストローク間の重要性を相互情報量として計測できる。この尺度を利用して、重要近傍度合いはn次確率近似法によって選択可能である。近傍選択アルゴリズムによって、すべての関連の中から重要な関係を示すものだけを使えばよく、計算複雑度を大きく減少させることができる。このような文字モデル化法を利用して手書き漢字認識システムが作られた。モデル駆動型ストr−ク抽出アルゴリズムの採用によって選択的マッチングアルゴリズムが可能となり、低品質画像の解析にも従来法による構造認識に比べ、提案手法が優れている。提案手法の効率は実験によって可視化した。提案手法によってストロークの関係をうまく検出することができ、ストローク関係をうまく記述するとともに、直感的にも重要である。システム全体の認識率は98.45%であり、本手法の有効性が確認された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


位置合わせとエラー予測修正への応用への点マッチングの条件数
A Condition Number for Point Matching with Application to Registration and Postregistration Error Estimation

Charles S. Kenney, B.S. Manjunath, Marco Zuliani, Gary A. Hewer, Alan Van Nevel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 11, pp.1437-1454, November 2003

Keywords: Registration, conditioning, feature representation, motion.

画像解析において2つ以上の画像から対応特徴点を選択する問題はよく研究された問題である。本論文ではこれらの関係付けられた点の選択に関する、画像位置合わせと画像貼り合わせに関する制約条件数の利用について述べる。最小窓オブジェクト関数最小法に基づいて、点対応法に必要な条件数が求まる。利用される目的窓関数としての変換は、1)並進、2)回転ースケールー並進(RST)、3)アフィン変換である。条件数に関して得られた主要な結果は、KTrans <KRST <KAffine 。すなわち、点の設定が並進によるマッチング課題に対して不適切であれば、RSTやAffine変換についても不適切であると言うことになる。KTrans は容易に計算可能であるにもかかわらず、KRST やKAffine は、そうではないことを考えると、このことは、逆にいえば望ましいことである。本論文の後半は2つの画像の位置あわせのための対応点の同定問題の条件推定に当てられている。これら画像が一旦マッチングがとれると(RANSACのような手法で例外点を取り除いて)、位置合わせパラメータが計算される。続いて位置合わせ後の参照画像と安定化画像の誤差が推定されるが、これには並進に関する好ましい条件を有する点群での並進が評価され推定される。関連点群の選択に利用される、条件数を利用した本提案手法は位置あわせを評価する信頼性の高い基礎となるものである。本手法は大量のランドサット画像、航空画像、航空ビデオ、赤外線画像など様々な画像についてテストされた。我々の位置合わせソフトはWeb上で利用可能であり、現在世界中の研究者に利用されている。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像からのカメラ応答を決める:知識とは何か?
Determining the Camera Response from Images: What Is Knowable?

Michael D. Grossberg, Shree K. Nayar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 11, pp.1455-1467, November 2003

Keywords: Calibration, histogram, response function, ambiguities, illumination, radiometry, comparagram, dynamic range, intensity mapping, histogram specification, comparametric.

外界の情景から放射される画像エネルギーはカメラのセンサーによって露光時間に応じた画像強度信号に変換されるが、放射強度と画像信号の関係を示す関数をカメラ応答関数と呼ぶ。この応答関数に関する知識は、情景の放射エネルギーに依存した情報を扱うコンピュータビジョンアルゴリズムには必要である。この応答関数の決定法の1つは異なる露光量の同一情景画像間の写像(マッピング)を確立することで達成される。これを強度写像関数と呼ぶ。本論文では2つの基本的課題を扱う。この強度写像関数を決めるには、同一情景から異なる露光量画像から、どんな情報が必要であろうか?もし関数が決まればカメラ応答や画像の露光量は決まるのか?応答性と露光率の復元する課題に関するあいまい性を我々は完全に決定することができた。この応答性を完全に復元するすべての過去の手法は、露光または応答形式を仮定することで、あいまい性を排除することが可能であることを示す。また、カメラ応答を復元しないで、強度写像から直接露光率が復元できる場合がどのようなときであるかを示す。加増間の強度写像は画像の強度ヒストグラムだけから復元できることを示す。これによって画像間強度写像が位置あわせなしに可能であることを述べる。このことから、強度写像は、カメラとオブジェクトの両方が画面中に存在する画像系列であれば、その強度写像を決定できる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ラベル付けされたデータとされてないデータ集合における、クラス同定、ロバスト識別、例外点排除のための混合モデルとEMに基づくアルゴリズム
A Mixture Model and EM-Based Algorithm for Class Discovery, Robust Classification, and Outlier Rejection in Mixed Labeled/Unlabeled Data Sets

David J. Miller, Member, John Browning

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 11, pp.1468-1483, November 2003

Keywords: Class discoverv, labeled and unlabeled data, outlier detection, sample rejection, mixture models, EM algorithm, text categorization

何人かの著者がすでに指摘しているように、ラベル付けされたデータが不足している場合でも、多量のラベル付けされてないデータを、適当な学習による訓練によって識別器は強化されうる。これら過去の研究は、各ラベル付けされてないサンプルは、既知のクラスのいずれかに所属していることを仮定している。我々の今回の研究では、ラベル付けされてないデータは、未だ不明のクラスからのものであるかも知れないという前提に立っている。観察データは特徴ベクトルやクラスだけでなく、ラベルそのものが存在するかどうかも扱う新規な混合モデルを提案する。混合成分として2つのタイプを仮定する。予め定義された成分によって生成されたデータは既知クラスからラベルを持っているが、そのラベルは未知であるとする。未定義のクラスからの成分は、ラベルの無いデータしか生成できないので、例外データとなるかもしれないし、新規なクラスに属するかもしれない。この予め定義されているか否かはデータに依存しており、EMアルゴリズムを拡張した他のパラメータから学習される。我々のモデル化の枠組みでは既知であっても未知であっても扱う:1)ロバストな識別器の設計、2)拒否つき識別、3)ラベルの無いサンプルの同定、である。この3番目のケースは未知のクラスの発見をする可能性がある。ロイターのニュース記事を含む各応用例に対する実験結果を示す。実験によって、既存の、あるいは、未知のデータに対するラベルの価値が学習制度に与える影響について示している。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


新規な課題の紹介:相対的視点が未知の場合のシルエットからの形状復元
Introducing a New Problem:Shape-from-Silhouette When the Relative Positions of the Viewpoints Is Unknown

Andrea Bottino, Aldo Laurentini

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 11, pp.1484-1493, November 2003

Keywords: Shape-from-silhouette, volume intersection, visual hull, computer vision, object reconstruction.

3D形状は2Dのシルエット画像に対応する視点から逆投影し、そのソリッドコーン(錘内部)の共通部分を利用して再構成することが可能である。しかし、航空機や小惑星を観察するような多くの実用的場面では、オブジェクトに対する視点の相対位置が未知のままである。これらの場合、ソリッドコーンの相対位置は未知となり、共通部分の切り出しが出来ない。本論文の目的は、視点の相対位置が未知の場合、シルエットから3Dを再構成するための理論的枠組みを紹介し述べることにある。その結果は本課題に対する最初の洞察となった。特に、同一平面に平行な直交視点方向に関しては完全な考察を加え、シルエットに矛盾しないオブジェクトであるための複数の不等式を導いた。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


生物的個人認証データを隠す
Hiding Biometric Data

Anil K. Jain, Fellow, Umut Uludag

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 11, pp.1494-1498, November 2003

Keywords: Biometrics, data hiding, face, fingerprint, minutiae, steganography, watermarking.

生物的個人認証(バイオメトリック)システムの広範な利用によって、バイオメトリックデータそのものの信憑性が重要な研究課題になってきた。バイオメトリックデータは変更できないが、秘密ではない。幾つかの既存の技術によってこれを攻撃し、バイオメトリックデータを極めて危険な状態にさらされる可能性がある。例として多用な画像中にユーザーのバイオメトリックデータを、振幅変調による透かしを導入する場合を考える。この方法では固有顔(eigen face)の係数データや指紋のような当該者の両方の画像のセキュリティを高めることが出来る。我々の手法に採用されている画像適応性のあるデータ埋め込み法では、埋め込まれた信号を見えにくくする働きがある。当該者の画像の特徴解析によって、透かし化された画像の照合精度が保証されることになる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カラーモデル化と追跡への応用のための高速ガウス変換を利用した効率的カーネル密度予測法
Efficient Kernel Density Estimation Using the Fast Gauss Transform with Applications to Color Modeling and Tracking

Ahmed Elgammal, Ramani Duraiswami, Larry S. Davis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 11, pp.1499-1504, November 2003

Keywords: Statistical methods, kernel density estimation, fast Gauss transform, color modeling, tracking.

多くのビジョンアルゴリズムでは観測データから確率密度関数の予測を基礎とする手法が多い。カーネル密度推定法は極めて一般的であり、このような問題には有力な手法である。しかし、計算コストが極めて高くつくという欠点もある。本論文ではビジョン分野での問題に高速ガウス変換(FGT)を用いたカーネル密度推定法を探求する。FGTではN個の評価点を有するM個のガウス関数の和の計算に、0(M+N)の計算時間が必要と見積もられる。単純法による0(MN)では決してなく、顕著な計算時間短縮が期待される。この手法を応用した画像セグメンテーションや追跡について紹介し、本アルゴリズムは高度統計処理手法が可能となり、現実的なビジョン問題を今日のコンピュータで実時間内に統計的処理が可能である。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.25, No.1


シルエット分析法による人間同定のための歩行認識
Silhouette Analysis‐Based Gait Recognition for Human ldentification

Liang Wang,Tieniu Tan, Huazhong Ning, Weiming Hu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1505-1518, December 2003

Keywords: Human motion analysis,biometrics,gait recognition,principal component analysis.

コンピュータビジョン研究者は、最近、遠方から人間を同定することに興味が集まりつつある。歩行認識は、人間の歩く癖を同定することでこの問題を解こうとしている。本論文では、時空間のシルエットの解析によって、簡単で効果的な歩行認識法を提案する。各画像系列において、まず背景削除アルゴリズムと単純な対応付けによって、歩く人影のセグメント分割と、動くシルエットの追跡を行う。次に、シルエット画像系列に対して経時変化する距離信号に対して主成分分析に基づく固有空間変換を行い、入力特徴空間の次元を減少する。最後に教師付パターン識別法を低次元固有空間に適用し、認識する。この手法によって、意識することなく歩行に関する構造的、遷移的特徴を把握することができる。これを屋外の画像系列に対して十分な実験を行った結果、比較的小さな計算量で、有望な認識効率を達成することが実証された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アイリス(虹彩)のテクスチャー解析による個人認証
Personal Identification Based on Iris Texture Analysis

Li Ma, Tieniu Tan, Yunhong Wang, Dexin Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1519-1533, December 2003

Keywords: Iris recognition, image quality assessment, multichannel spatial filters, texture analysis, biometrics.

セキュリティの重要性が叫ばれるに従って、生物的認証による個人同定自動化が、過去10年間強い関心をもって見られてきた。アイリスの認識は生物学的認証法の1つであるが、研究面からも実用面からも最近注目を浴びるようになってきた。一般的な典型的アイリス認識システムではアイリス画像の取得、アイリス像が生きた人間からのものであるかどうかの確認、そして、アイリスの認識といった手順を取る。本論文は、この最後の問題に焦点を当てており、画像系列からのアイリス認識の新規な様式について述べている。まず最初に入力画像系列の各画像の評価を行い、この後の認識のための鮮鋭な画像を選択する。アイリス認識に適したカーネルを有する空間フィルター群(filter bank)を利用してアイリスの局所特徴量を抽出し、これを使って識別可能なテクスチャー特徴量を生成する。実験によれば、本提案手法は有望な性能を示した。特に、213の被写体からなる2,255個の画像系列を含むアイリス画像データベースに対して、既知の手法と比較した。非パラメトリックな統計手法(ブートストラップ)による比較から得られた結果は将来の研究の有用な情報となる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多層解像による識別複雑度の推定
Multiresolution Estimates of Classification Complexity

Sameer Singh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1534-1539, December 2003

Keywords: Pattern recognition, classification complexity, feature space partitioning.

本論文では特徴量空間分割法に基づく、「純度」と「近傍分離度」の2つの識別複雑度について調べる。この新規な複雑度は確率的距離尺度や、多数の識別複雑度の非パラメトリック推定法について、University of Calfornia, Irvine, (UCI)の10種の貯蔵データベースと比較された。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


距離定義不能な近傍データのクラスター保存性最適埋め込み法
Optimal Cluster Preserving Embedding of Nonmetric Proximity Data

Volker Roth, Julian Laub, Motoaki Kawanabe, Joachim M. Buhmann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1540-1551, December 2003

Keywords: Clustering, pairwise proximity data, cost function, embedding, MDS.

データ解析の主要な応用のいくつかにおいて、対象物が特徴量ベクトルとして表すことができず、1対ごとの近さの行列集合として表わさざるを得ない場合がしばしばある。このような対データは、たとえば“主観的好み”のように、距離の基本的性質を満たさないことがあり、自然なベクトル空間表現ができる訳ではない。つまり、距離が非対称であったり、マイナスの距離が存在したり、3角形不等式が成立しないなど。本論文では、教師なし学習法による構造検出やクラスタリングにおいて、対データをユークリッドベクトル空間に埋め込む手法を紹介する。対近傍距離の平行移動加算不変性(invariant under additive shifts of the pairwise proximities)を有するすべてのクラスタリング手法はユークリッド空間のグループ化問題として定式化できることを示す。定シフト量埋め込みの枠踏みのもっとも顕著な特徴は、埋め込み空間におけるクラスター構造が完全に保存されることである。1対ごとのクラスタリング問題をベクトル空間で言い換えることによっていくつかの重要な結果が導びける;クラスター見本によるクラスターの統計的表現法や、グループ化の拡張として判別推定則、また、ノイズ除去や次元数削減のような標準的前処理法など。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


超スペクトル画像における顔認識
Face Recognition in Hyperspectral Images

Zhihong Pan, Glenn Healey, Manish Prasad, Bruce Tromberg

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1552-1560, December 2003

Keywords: Face recognition, hyperspectral.

人の皮膚の分析には、スペクトルが使われてきた。このスペクトルを可視光外に拡張した超スペクトルカメラは、他の撮像法では得られない有用な人の顔認識を可能にしてくれる。我々は200人以上のデータベースからなる顔について、近赤外超スペクトルを利用してその有用性を調べた。これはCCDカメラに調節可能なフィルターをつけた近赤外(0.7〜1.0μm)までの31バンド画像を利用する。近赤外以上のスペクトル測定によって、人による差異の大きな、しかし、時間的に安定した、皮下組織構造を検出できる。人の組織の局所的スペクトル特徴は、顔の向きや表情にほとんど不変であり、超スペクトルによる判別法は多様な姿勢や表情に渡って利用できる。多数の顔組織のスペクトル測定を活用した顔認識アルゴリズムを述べる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


競合識別器が存在するときの有限サンプルによる訓練とテストに関する汎用モデル
A General Model for Finite-Sample Effects in Training and Testing of Competing Classifiers

Sergey V. Beiden, Marcus A. Maloof, Robert F. Wagner

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1561-1569, December 2003

Keywords: Pattern recognition, classifier design and evaluation, discriminant analysis, ROC analysis, components-of-variance models, bootstrap methods.

統計的パターン認識(SPR)の分野における従来の知見によると、訓練サンプル数によってその古典的な、あるいはニューラルネットによる識別器の性能の変動幅が決まる。本研究では、この結論はあまり汎用性がないことを示そう。特に、他の競合アルゴリズムと比較した場合、有限の訓練サンプル数による不安定さが、一般的に見られる。SPRにおけるこの一般的問題を解析するために、最近開発された多変量の変量効果の受信者操作特性(ROC:receiver operating characteristic)解析による形式的構造を利用した。この一般化モデル内のモンテカルロ試行によって、医療のコンピュータ診断分野でのいくつかの表現方法の問題を詳細な統計的構造解析した。精度変動と訓練サンプル数とテストサンプル数間のスケール則について調べた結果、Fukunagaの古典的論文での議論と同等の結論が得られたが、以前の著者は重要な相互作用の項が無視されていることが分かった。最後に有限訓練数が及ぼす不確実性の影響について、不確定性を観測できるブートストラップ法のある形式について議論した。現在のところ有望候補は0.632ブートストラップの拡張とその誤差解析であり、一般的に利用されている交差検証ではない。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非ラベルデータの利用による隠れマルコフモデルの改良
Exploitation of Unlabeled Sequences in Hidden Markov Models

Masashi Inoue, Naonori Ueda

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1570-1581, December 2003

Keywords: Unlabeled data, sequential data, hidden Markov models, extended Baum-Welch algorithm.

本論文は隠れマルコフモデル(HMM)の学習における非ラベルデータ系列を有効に利用する方法について紹介する。従来の手法ではラベルの付いてないクラスは、HMMによってラベル付データをあらかじめ学習された後、決定論的に与えられる。もしラベルのついたデータ数が少ない場合はこのような方法は非現実的となる。我々はBaum-Welchアルゴリズムを拡張し (EBW)、ラベルは確率的に、かつ、反復利用され、ラベル付のデータもそうでないデータも尤度は向上する。従来法と異なり、EBMは尤度の局所最大に収束する。ジェスチャーデータとスピーチデータに関する実験によれば、ラベル付データが少ないときは、非ラベルデータの利用で、EBMアルゴリズムは従来のナイーブラベリング法に比べてHMMの識別効率を、よりロバストに改善する。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ノイズ画像からの教師付きエッジ強調のためのニューラルネットエッジ強調器
Neural Edge Enhancer for Supervised Edge Enhancement from Noisy Images

Kenji Suzuki, Isao Horiba, Noboru Sugie

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1582-1596, December 2003

Keywords: Supervised edge enhancer, noisy image, robustness, neural network, edge detection, contour extraction.

我々は変形多層ニューラルネットワークに基づく新規なエッジ強調器を提案する。これはニューラルエッジ強調器(NEE)と呼ぶことにし、ノイズ画像であっても望ましいエッジを明瞭に強調する。このNEEは教師付きエッジ強調器であり:ノイズ画像と教師となるエッジを与えることで望ましいエッジ強調器の関数を取得する。入力画像は、ノイズのない画像にノイズを加えて生成される。教師データはノイズのない画像に望みのエッジ強調させて作る。性能を調べるために、ノイズのある人工的な画像と自然画像の両方で実験した。従来のエッジ強調器と比べ以下のことが分かった:NEEはノイズにロバスト(頑健)であり、ノイズのある画像から連続的なエッジを抽出できるだけでなく、従来の手法に比べ望みのエッジ形状に近い点で、優れている。NEEの非線形カーネルを理解するため、学習したNEEの解析を行った。その結果、学習NEEは平滑化しながら有向勾配演算子の能力を獲得していることが推察された。さらに、NEEのエッジ局在化法を提案する。我々は、この局在NEEを含むNEEと、最も優れたエッジ検出器を比較した結果、NEEはノイズ画像のエッジ強調に有用であることが分かった。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


重力を垂直方向の参照基準としたときの視覚画像と慣性のセンサー協調
Vision and Inertial Sensor Cooperation Using Gravity as a Vertical Reference

Jorge Lobo, Jorge Dias

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1597-1608, December 2003

Keywords: Image processing and computer vision, edge and feature detection, sensor fusion.

本論文は慣性センサーと視覚画像の組合せについて探求する。2つの検知モードである視覚画像と慣性を利用してロバストな画像のセグメンテーションと、画像から3D構造を復元することを探求し、自律ロボットの可能性増強や視覚画像システムの潜在的用途を拡大することを試みる。生物系では前庭器(vestibular system)において供給される情報が処理の初期段階で視覚画像と融合し、注視点の固定や追跡のような視覚の動きの鍵となる働きを演じており、視覚上の手がかりによって空間的方位や体の平衡を保持している。本論文では慣性センサーデータを利用するための枠組みを設定し、得られた結果について述べる。視覚画像については単位球面への投影カメラモデルを利用し、慣性データの統合を容易にする。慣性センサーから得られる垂直方向の参照を利用し、画像中の水平線が決定される。消失点1つと垂直方向を利用し、カメラの焦点距離と外部姿勢を復元することができ、参照用のナビゲーションフレームが得られる。ステレオカメラの装着台の位置関係と、慣性センサーからの姿勢を知ることによって水平面の共線が復元できる。これによってセグメント化と、垂直特徴量と水平面パッチの再構成するための十分な制約条件となる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


モードクラスターによる対応関係マッチング
Correspondence Matching with Modal Clusters

Marco Carcassoni, Edwin R. Hancock

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1609-1615, December 2003

Keywords: Point-pattern matching, spectral graph theory, robust statistics, hierarchy.

Shapiro and Bradyによるモード対応法は、個々の点ではなく、点集合をマッチングさせ、そのために点対の近傍行列の固有ベクトルを比較して利用する。この行列表現を利用するという点はエレガントであるが、本手法は対象とする点集合の相対的な構造の差異に敏感である。本論文では、階層的な手法を使うことでこの構造的差異にロバスト(頑健)にできるかを実証しよう。そのため、モードマッチング問題を確率論的に扱い、一対ごとのクラスター間の対応関係を個々の点対応関係への制約条件とする。本手法を多数の合成画像や自然画像の点対応問題に適用してその有効性を示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネギーメロン大学のポーズ、照明、表情データベースについて
The CMU Pose, Illumination, and Expression Database

Terence Sim, Simon Baker, Maan Bsat

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1615-1618, December 2003

Keywords: Face databases, pose, illumination, expression.

2000年の秋、我々は68人の顔について40,000以上の顔画像データベースを収集した。カーネギーメロン大学(CMU)3D室を利用して、各人に13通りの異なる照明条件、4通りの表情を課した。これをCMUポーズ、照明、表情(PIE)データベースと呼ぶ。このときに利用された画像形成ハードウエア、収集手続き、画像データの構造、いくつかの使い方、そして、このデータベースの入手方法について述べる。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


経時的変化のある多段スケールの共起統計からノンパラメトリック画像の動き推定法を利用した動き認識
Motion Recognition Using Nonparametric Image Motion Models Estimated from Temporal and Multiscale Co-Occurrence Statistics

R. Fablet, P. Bouthemy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1619-1624, December 2003

Keywords: Nonparametric motion analysis, motion recognition, multiscale analysis, Gibbs models, co-occurrences, ML criterion.

画像系列中の新規な動き特徴抽出法について述べる。これは動きに関する局所的な時空共起分布測定を、画像から直接行うもので、その確率的モデル化に依存している。時間的マルチスケールGibbsモデルによって、統一的な統計的枠組みの中で、画像の動きの内容を空間的時間的な側面から取り扱えるようになる。このモデルでは主として共起値とGibbsポテンシャルのスカラー積を利用するため、いくつかの基本的な事項に関する定式化と取り組みが求まる:ML(最尤)基準(従って、モデルの訓練と学習)と動き識別によるモデル推定となる。我々はこれを利用した動き認識実験を、時間的変化を伴うテクスチャーや人の動く様子、剛体的動きなどの多様な動きの実画像系列からなる大量のデータについて実施した。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


全体的マッチングと徐々の最適化による逐次オプティカルフロー推定
Estimating Piecewise-Smooth Optical Flow with Global Matching and Graduated Optimization

Ming Ye, Robert M. Haralick, Linda G. Shapiro

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1625-1630, December 2003

Keywords: Optical flow, motion discontinuity, occlusion, energy minimization.

本論文は逐次平滑化するオプティカルフローを求める新規な方法を紹介する。我々の手法は3フレーム利用してマッチングと局所変動をグローバルに最適化する方法であり、結果として得られる全体エネルギーを最小化する。本手法は局所的勾配、全体的勾配、全体的マッチングの利点を利用することで、その適用限界を緩和している。多様な人口画像や実データに適用した結果、本手法はきわめて適合性が高かった。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サポートベクトルマシンと、連続適応的平均値シフトアルゴリズムによる、テクスチャーに基づくテキスト領域検出法
Texture-Based Approach for Text Detection in Images Using Support Vector Machines and Continuously Adaptive Mean Shift Algorithm

Kwang In Kim, Keechul Jung, Jin Hyung Kirn

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1631-1639, December 2003

Keywords: Text detection, image indexing, texture analysis, support vector machine, CAMSHIFT.

本論文では画像中のテキストを見つけるために、新規なテクスチャーに基づく方法を紹介する。サポートベクトルマシン(SVM)をつかってテキストの特性を解析した。他の特徴量抽出モジュールは使ってない。むしろ、テクスチャーパターンを構成する画素の強度を直接SVMに入力したが、これは次元数が大きいにも関らず、うまく作動した。次に、テクスチャー解析の結果に対して連続適応的平均値シフトアルゴリズム(continuously adaptive mean shift algorithm:CAMSHIFT)を適用してテキスト領域を抽出した。このSVPとCAMSHIFTを組合せることによって、ロバストで効率的なテキスト検出が可能になったが、それは従来の時間のかかる方法に比べ、より少ない画像情報で識別可能な手法に限定したため、入力画像の一部だけを使った高速テクスチャー解析がなされた。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


M-Band Wavelet Packet Frameと、ニューロファジーによる評価を利用したマルチテクスチャーのセグメンテーションのための特徴抽出
Extraction of Features Using M-Band Wavelet Packet Frame and Their Neuro-Fuzzy Evaluation for Multitexture Segmentation

Mausumi Acharyya, Rajat K. De, Malay K. Kundu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 12, pp.1639-1644, December 2003

Keywords: Texture segmentation, M-band wavelet packet frames, feature selection, fuzzy feature evaluation index, neural networks.

本論文では複数テクスチャー画像をセグメンテーションするための枠組みを提案する。この手法は、離散的Mバンドウェーブレットパケットフレーム(M-band wavelet packet frame ;DMbWPF)とよばれるovercompleteなウェーブレット分解手法をも利用したテクスチャー特徴量を抽出する。この後、教師無し学習によるニューロファジーアルゴリズムを利用した重要特徴量の選定を行う。効率的な計算法による探索法が開発され、これによって各サブバンドの統計的パラメータによるテクスチャーを利用した尺度の最大化基準を利用した最適条件を見つけた。これによる抽出特徴量は、既知のいくつかの手法に比べ多様なテクスチャー画像のセグメンテーションに優れた識別能力を示す。

Ej

Copyright (c) 2003 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[インデックス] [前の年] [次の年]