AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.1


連続する空撮画像を利用した、統合化位置推定システム
Integrated Position Estimation Using Aerial Image Sequencesy

Dong-Gyu Sim, Rae-Hong Park, Rin-Chul Kim, Sang Uk Lee, Ihn-Cheol Kim

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.1-18, January 2002

Keywords: Navigation, aerial image, image matching, digital elevation model (DEM), recovered elevation map (REM), relative position estimation, absolute position estimation, robust-oriented Hausdorff measure

本論文は、航空機自動操縦のための位置情報と速度情報をナビゲーションパラメータから取得・表現する場合において、連続する空撮画像を用いてナビゲーションパラメータの推定を行うための統合ナビゲーションシステムについて述べる。ここに提案する統合システムは2つの部分から構成されている:相対的位置推定部分および絶対的位置推定部分。相対的位置推定には、2枚の連続する空撮画像から推定される相対的差分を、多数の画像に渡って累積して現在位置を計算する。単純な相対的差分の累積では、航空機が進むにしたがって外挿パラメータの推定信頼度が低下し、その結果大きな位置誤差となる。従って、相対的位置推定には、位置誤差を補償するための絶対的位置推定手段が不可欠である。画像マッチングとディジタル高度モデル(DEM)マッチングによる絶対的位置推定アルゴリズムを紹介する。画像マッチングにおいてはロバストなHausdorff距離(ROHM)を利用したが、DEMマッチングでは、多数の画像ペアを利用するアルゴリズムを利用した。連続する4枚の空撮画像による実験では、提案した累積位置推定アルゴリズムの有効性が実証された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多数画像の放射測定
The Radiometry of Multiple Images

Q-Tuan Luong, Pascal Fua, Yvan G. Leclerc

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.19-33, January 2002

Keywords: Reconstruction, multiple views, linear models, radiometric recovery, Lambertian reflection, point light sources, ambient illumination, surface albedo

ここで、放射特性の復元法を紹介しよう。すなわち、対象物とカメラの幾何学的位置関係が既知であるとき、多数の物体を多方位から撮影した画像を使って、多数光源と多数の反射特性を同時に復元する。多数光源の理論を線形で定式化し、これが多方位画像の幾何学的配置の復元と類似していることを示す。線形の場合と、非線形の両方の場合について実装化を提案し、このシミュレーション結果を論じ、最後に実画像を示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔の検出:論文調査
Detecting Faces in Images: A Survey

Ming-Hsuan Yang, David J. Kriegman, Narendra Ahuja

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.34-58, January 2002

Keywords: Face detection, face recognition, object recognition, view-based recognition, statistical pattern recognition, machine learning

顔を含む画像は、人とコンピュータの知的な画像に基づくコミュニケーションの基本的なものであり、このための顔画像処理として、顔認識、顔追跡、姿勢推定、感情認識に関する研究がなされている。しかし、これら多くの研究報告では、1つの画像や画像系列中における顔が既に同定されていたり、場所が特定されていることを前提としている。顔画像に含まれる情報を完全自動で解析するシステムを構築するには、ロバストで効果的な顔認識アルゴリズムが必要となる。1枚の画像が与えられたとき、顔認識の最終目標は、顔の3次元的な位置、方位、照明条件に依存せず、すべての画像を認識することである。顔が非剛体で、大きさ、形状、色、およびテクスチャーなどの変化に富むことを考えると、顔認識は困難な課題である。1枚の画像中の顔検出には様々な手法が開発されてきたが、本論文の目的はこれらアルゴリズムを分類し、評価することである。我々は同時に、これに関連する課題であるデータ収集、評価手法、ベンチマークについても考察する。これらのアルゴリズムを解析し、その限界を見極めた後、将来の研究に関するいくつかの有望な方向性を提案する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


主曲線を利用した逐次線形スケルトン化法
Piecewise Linear Skeletonization Using Principal Curves

Balas Kegl, Adam Krzyzak

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.59-74, January 2002

Keywords: Skeletonization, principal curves, feature extraction, image processing

主曲線(principal curve)を利用した手書き文字の逐次線形スケルトン化アルゴリズムを紹介する。このアルゴリズム開発のきっかけになったのは、主曲線(principal curve:点群の中心を通過する滑らかな曲線)と中央曲線(medial curve:文字画像輪郭線から等距離点を通る滑らかな曲線) の定義が類似していることから思いついた。このアルゴリズムの中心的なフィッティング・スムージングステップは多角形線分アルゴリズムの拡張版であり、これは逐次、線形曲線でデータ集合の主曲線を近似する方法である。多角形線分アルゴリズムを拡張すると、主グラフを見つけられ、スケルトン化の課題のための2ステップ:すなわち、文字概形の把握と、初期化で形成されたスケルトンの品質改善のために、複数の再構成演算法が寄せ集められられた。既存システムに比べて、本提案スケルトン化法は、直感的で明示的目的関数を最小化することでスケルトングラフの最適化ができることである。この目的関数は、スケルトンのスムージングと、文字画像の画素に出来るだけ近づけたフィッティングをするという2つの相反する基準を表す。このアルゴリズムは孤立手書き数字画像と、連続した手書き画像の両方でテストされた。その結果、本提案アルゴリズムは変化に富む文字画像テンプレートの大多数の滑らかな中央線を見つけ出し、従来法の画素ベースの細線化によるスケルトンを遥かにしのいだ。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的レイヤー表現のベイズ推定によるオブジェクト追跡
Object Tracking with Bayesian Estimation of Dynamic Layer Representations

Hai Tao, Harpreet S. Sawhney, Rakesh Kumar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.75-89, January 2002

Keywords: Motion analysis, dynamic layer representation, tracking, aerial video surveillance

ビデオフレーム画像を、連続する2次元の動きレイヤー(motion layer)に分解する手法はビデオ表現にとって強力な方法である。このような表現をするための過程で利用される中間表現は、ビデオ追跡とか、ビデオの要約や、可視化、ビデオ挿入、スプライトによるビデオ圧縮などの応用に利用可能である。動きレイヤーの解析を対象にした以前の研究では、2フレームとか、複数フレームのバッチ処理に注力しており、動きレイヤーの時間的整合性や、形状に対するドメインの制約条件は考慮されていなかった。本論文では、完全な動的動きレイヤー表現法を紹介し、この表現法と一般化期待値最大法(EM)を利用して、事後確率最大化(MAP)の枠組みの中で、形状や動き、および見かけレイヤーに関する空間・時間的制約がモデル化・推定できることを示す。任意形状のレイヤー追跡を主導するために必要な計算量を押さえるために、形状をパラメータ表現する事前確率を提案し、動きレイヤーが任意形状へと進化(変形)することを防止する。本研究では、ガウス分布を利用した、形状の事前確率が選択され、空撮ビデオ画像中の車の追跡をほぼ実時間で行う。しかし、追跡装置の一部として、パラメータ化された形状表現を利用するという一般的考え方は、他のドメインにも拡張可能な有力な手法である。この動的レイヤー表現法に基づいて、連続的オブジェクト追跡のための反復アルゴリズムが開発された。この提案手法は、空中からの車追跡システムとして首尾良く応用された。このシステムを、相関に基づく追跡装置や、動き変動に基づく追跡装置と比較した結果、本システムの優秀性が示された。複雑な背景の画像や、車の追い越し、方向転換、停止・発進などのいろいろな剛体的動きを含む画像の追跡を行う場合、この完全動的レイヤー表現法の強みが実証された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


不変特徴量を利用した反復最近接位置合わせ法
ICP Registration Using Invariant Features

Gregory C. Sharp, Sang W. Lee, David K. Wehe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.90-102, January 2002

Keywords: Registration, range images, feature detection, invariance

本論文は距離画像の位置合わせのための反復最近接マッチング法の一般化における、ユークリッド不変特徴量の利用について研究する。点ごとに、位置と特徴量の距離を、重み付き線形項で対応させ、これを最近接点として選択する。ノイズの無い理想的条件では、この距離関数を用いて対応付けした結果は、位置のみによる距離を用いたものより、優れた結果を示すことが示された。さらに、この方法では、少なくとも極小値に単調収束する。ノイズが存在する場合、最適特徴量と位置の相対的寄与率を求める方法について述べる。この方法は、ノイズに起因する特徴量の誤差と、位置合わせずれに伴う誤差とのトレードオフとなる。実験結果から、不変特徴量を利用することで局所領域にトラップされる可能性が減少することが推察されることから、モデルに比べて情景画像が非常に小さい場合の位置合わせ問題のような困難な課題では、本手法は有効と思われる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多層階層のグラフ探索
Multihierarchical Graph Search

Juan-Antonio Fernandez-Madrigal, Javier Gonzalez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.103-113, January 2002

Keywords: Graph theory, search, hierarchical graphs, path planning

グラフ中の経路探索に階層的グラフ探索を用いることは多くの文献に紹介されており、これによって単なる単純探索よりは、一般的に良い結果を得ることができる。本論文では、グラフに基づくモデルに多重階層を含めることによって、もう一歩進んだ結果を示す。このような多層階層モデルには次のような利点がある。第1に、各探索課題に対して、最適階層を選択できること、第2に、いくつかの探索問題が解けたとき、多層階層法によって部分課題を同時に解くことができる、第3に、探索課題の解は多層階層のどの階層でも表現でき、課題の目的に応じて最も適した情報表現をとることができる。一般的には、多層階層法は、1つの階層モデルや階層を持たないモデルに比べて適応性が高いと言える。本論文では、階層的経路探索問題において、その利点を生かした多層階層法を定式化する手法について述べ、これら手法の適用実験とその性能を報告する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部品マッチングによる3次元オブジェクトの再構成
Reconstruction of Three-Dimensional Objects through Matching of Their Parts

Georgios Papaioannou, Evaggelia-Aggeliki Karabassi, Theoharis Theoharis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.114-124, January 2002

Keywords: Image analysis, mathematical morphology, rank filters, directional filters, periodic line, discrete geometry, granulometry, orientation field, radial decomposition

オブジェクトをその部品や断片から、用途別の特定特徴量に頼らず、純粋に幾何学的形状のみから再構成するという課題は、1つの統合的コンピュータシステムとして報告されたことはなかった。我々は部品の幾何形状に基づく自動再構成手法を提案する。この形状は、コンピュータで形成されたモデルであっても、実測距離画像であっても構わない。マッチング処理は、特定アプリケーションによるその他の外的制約条件があれば更に良くなる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対数写像画像からのオプティカルフロー:新手法
Optical Flow in Log-Mapped Image Plane-A New Approach

Mohammed Yeasin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.125-131, January 2002

Keywords: Foveated vision, logarithmic mapping, nonuniform sampling, optical flow

foveating画像センサー(foveating vision sensor)は、マシンビジョンにおいても、生物的画像においても重要である。ここで空間的変化のある、あるいは、foveating vision とは空間的に解像度が滑らかに変化するセンサーの構造を表しており、人間の視覚でも同様の構造がある。従来の画像処理手法では、並進普遍性、空間領域での近傍均一性を前提にしているから、このようなセンサーの信号を直接用いることはできない。このようなfoveatic visionを前提にした画像処理ツールの統合的開発は今までなされてこなかった。本論文では、logスケールで写像された画像から直接オプティカルフローを計算する新規な手法を提案する。ここでのオプティカルフローの計算には、従来の輝度一定モデル(BCM:直行座標系における勾配を利用)とは異なり、一般化されたダイナミックイメージモデル(GDIM)に基づく手法を採用する。log写像された画像を、より高精度で局所近傍が保存されることを保証するに当たり、可変窓(variable window)という新規な概念を導入し、勾配演算子の空間不変形状を利用する。ここに提案される手法は数値的に精度が高く、解釈の整合性が保たれ、重要でない些細な動きも算出できることを強調したい。人工的データと自然画像の両方に適用した結果からは、提案手法の有効性が示されている。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き数字文字認識のためのBスプラインPBDテンプレートの抽出と最適化
Extraction and Optimization of B-Spline PBD Templates for Recognition of Connected Handwritten Digit Strings

Zhongkang Lu, Zheru Chi, Wan-Chi Siu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.132-139, January 2002

Keywords: Connected handwritten digit recognition, pixel-to-boundary distance map, B-spline fitting, digit templates, template optimization, nearest neighbor classifier, multilayer perceptron classifier, evolutionary algorithm

連結した手書き数字画像の認識は挑戦に値する困難な課題であるがその主な理由は以下の2つである:文字分離と分離文字の認識率の低さ。本論文では、注目画素から境界までの距離(PBD)写像を利用した、数字の有理数Bスプライン表現によるテンプレート表現を示す。次に、BスプラインPBDテンプレートをニューラルネットワークによって抽出し、これらを進化(遺伝的)アルゴリズムによって最適化する。NIST Special Database 3の10,426個の学習サンプルから、全体を通して、各10クラスのそれぞれに100個のテンプレートが選択され、全体で1000個のテンプレートが抽出された。これらのテンプレートを利用して、最近傍識別器は90.7%の非数字パターンを正しく拒絶し、独立したテストサンプルについて96.4%の精度で正しく識別した。この識別器を、数字同士が接触している4958個の手書き数字画像(NIST Special Database 3)に動的計画法を使って適用したところ(2桁数字が4555、3桁数字が355、4桁数字が48)、正解識別が82.4%、拒絶率は0.85%となった。識別精度の観点からは、我々の識別器は好ましい識別をしていることがわかるし、ロバスト性の観点からは、他の識別器との比較結果から、良好であることがわかる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ParkとChinのアルゴリズムについて
A Note on Park and Chin's Algorithm

Ronaldo Fumio Hashirnoto, Junior Barrera

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp.139-144, January 2002

Keywords: Simply connected set, structuring element, decomposition, Minkowski addition

Z2 の有限部分集合は構造要素と呼ばれている。構造要素Aを分解すると、要素の平方の部分集合系列となるが(すなわち、原点を中心とする3×3平方)、これにMinkowski加算するとAに等しくなる。ParkとChenは、単連結構造要素(すなわち、ホールを含まないような8連結構造要素)の分解部分集合は単連結であるという制約条件をつけて、最適分解アルゴリズムを開発した。本論文では、単連結構造要素の無限系列族が存在し、その要素は分解可能であるがParkとChenの定義による分解は不可能であることを示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.2


動的なオブジェクト認識と状態推定のための情報理論的センサーデータ選択
Information Theoretic Sensor Data Selection for Active Object Recognition and State Estimation

Joachim Denzler, Christopher M. Brown

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.145-157, January 2002

Keywords: Computer vision, active camera control, state estimation, information theory

我々は静的システムにおいて状態の反復推定をしながら最適なセンサーパラメータを選択する方法を定式化した。我々の最適基準とは、状態推定における冗長度の減少のことであり、推定方法に依存した測度(例えば、平均2乗誤差最小化)を求めるものではない。ここで主張したいことは、推定プロセスの冗長度が減少するに従って状態推定の信頼性はもっと向上すると言うことである。Shannonの情報理論を利用して、相互情報量(mutual information)を最大化するような情報収集行動を選択する。その結果、真のシステムの状態を表すデータの情報が最適化される。この手法では相互情報量の計算を左右する事前確率を明示的に考慮する。従って、それ以前の時間ステップにおける事後確率としてのある決定プロセスにおいて、ある時間ステップで事前確率を扱うための、逐次決定プロセスが形成される。すなわち、状態推測器では記号化されている知識を条件付き確率密度として利用する。不確実性の改良にはこの推測器の知識を変化させるのではなく、逐次決定プロセスの最適化法を適用する。我々の手法の利点を示すために、能動的カメラを使った逐次注視点の制御と視点選択するためのオブジェクト認識の実例を示そう。離散的および連続的濃度表現による実験について述べ、これから、我々の手法の有効性が推察できる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


情報理論を利用したクラスタリング
Information Theoretic Clustering

Erhan Gokcay, C. Principe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.158-171, January 2002

Keywords: Information theory, clustering, MRI segmentation, entropy, optimization

パターン認識においてクラスタリングは重要なトピックの1つである。データの構造のみによってグループが構成されるから(教師なし学習)、この場合に利用できるクラスタリング・ルールの明白な基準の1つとして情報理論がある。本論文では、新規な谷探索クラスタリング法について紹介する。ここではデータ集合の分割コストを推測するのに情報理論的測度を利用する。ここで開発された情報理論的基準は、最近提案され他の機械学習のアプリケーションで成功を収めているRenyiのエントロピー推定値から発展したものである。ここでは最適化にはk-changeアルゴリズムの改良版が使われているが、その理由はコスト関数が逐次求められるし、局所最小値を持つからである。非線形分離データに応用された場合であってもこの新しいアルゴリズムはうまく働き、クラスター間の非線形境界を見つけることができた。このアルゴリズムは磁気共鳴画像(MRI)データにも、非常にうまく応用することができた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


文章行内の語句の位置検出と認識:街路名の認識への応用
A Statistical Approach for Phrase Location and Recognition within a Text Line: An Application to Street Name Recognition

Mounim A. EI-Yacoubi, Michel Gilloux, Jean-Michel Bertille

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.172-188, January 2002

Keywords: Phrase detection and recognition, handwriting recognition, statistical modeling, hidden Markov models

本論文では手紙の封筒に書かれた街路名を示す文字行において、街路名称の位置を同定・認識する新規な手法について述べる。開発されたシステムは多様な知識源を自然な形で統合し、最終結論を出力する確率的枠組みに基づいている。手書き信号のレベルにおいては、マッチングスコアを求めるために隠れマルコフモデルが広範に利用されている。この処理時間を高速化するためにいくつかの手法が用いられている。フランスの郵便封筒画像から得られた大量の街路名の文字行画像に適用した実験は非常に期待のもてる結果を示した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エキスパートの階層的な積を利用した手書き数字の認識
Recognizing Handwritten Digits Using Hierarchical Products of Experts

Guy Mayraz, Geoffrey E. Hinton

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.189-197, January 2002

Keywords: Neural networks, products of experts, handwriting recognition, feature extraction, shape recognition, Boltzmann machines, model-based recognition, generative models

エキスパート学習手続きの積を利用することによって、手書き数字画像の非線形の生成モデルを構成する確率論的バイナリー特徴量集合が発見できるこがある。このようにして学習された生成モデルの性質を評価するには、分離した各数字毎に学習した後、10個の異なるクラス別にテスト画像を適応させた非正規化確率を比較すればよい。この分離性能を改良するためには、階層化された分離モデルを各数字別に学習させる。階層内の各モデルは何層ものバイナリー特徴量(例えば白黒の画素)検出器を学習するが、この検出器は,下層の特徴量検出器のバイナリー特徴量の活性度ベクトルの確率分布をモデル化している。階層構造中のモデルは逐次訓練され,各モデルは層構成のバイナリー特徴検出器を利用し、その前にある層の特徴の活性度パターンモデルを生成する。訓練が終了すると、各特徴量検出器層は,分離した,非正規化対数の確率値を生成する。10個の数字の各々に対する3層の特徴量検出器を利用して,テスト画像を利用して30個のスコアを生成し,各データ別にこれを教師信号として利用し,論理学的識別ネットワークへ入力し、訓練する。MNISTデータベースにおいて、本システムは、現存の最新の識別器と同程度であった。このことから、エキスパート学習の積による方法は高次元のデータに関して効果的な階層的生成モデルを作ることができる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


読唇のための視覚的特長の抽出
Extraction of Visual Features for Lipreading

lain Matthews, Timothy F. Cootes, J. Andrew Bangham, Stephen Cox, Richard Harvey

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.198-213, January 2002

Keywords: Audio-visual speech recognition, statistical methods, active appearance model, sieve, connected-set morphology

人とコンピュータの対話において、音声の多モード的性質(音声に関連する多様な情報)はしばしば無視されている。しかし、唇の変形や、頭のような他の身体の動きから更に付加的情報が得られる。我々は音声への多くの手がかりを統合することで明瞭度を向上させることができ、特に音声信号が劣化しているときには有効である。本論文ではこの付加的で相補的な視覚的音声情報がどのように利用できるかを示す。隠れマルコフモデルによる唇画像系列のパラメータ化する3つの方法を比較検討した。そのうち2つはトップダウン的手法であり、唇の外側と内側の輪郭をフィットさせ、形状、あるいは、形状と見かけの主成分分析から読唇特長量が導かれる。第3のボトムアップ法は、画素強度から、非線形なスケール空間分析を直接利用して特長量が形成される。全ての手法は、個々の文字を発音する課題を複数人が実行する画像について比較検討された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ホモグラフィーの多視点制約
Multiview Constraints on Homographies

Lihi Zelnik-Manor, Michal Irani

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.214-223, January 2002

Keywords: Homographies, homologies, motion estimation, multiview analysis

平面状の画像を2つのカメラで撮影した画像間の動きはホモグラフィー(2D投影変換)によって把握することができる。ホモグラフィーはカメラ内部とカメラ外部のパラメータに依存するだけでなく、3Dの平面パラメータにも依存する。カメラパラメータは視野によっても異なるが、平面の幾何学的関係は一定に保たれる。この事実に注目して、2つ以上の多視点平面画像の相対的ホモグラフィーに関する線形部分空間の制約条件を導いた。この論文では3つの主な知見が得られた:1)多視点画像対間のすべての相対的ホモグラフィー(ホモロジー)の全体は4次元線形部分空間を張る。2)この制約条件が多視点平面画像間にどの程度拡張できるかを示す。3)カメラの動きにある程度の制約がある場合、多視点画像中の1枚の平面のホモグラフィー集合にも線形部分空間の制約は当てはまることを示す。本論文で得られたすべての結論は非校正カメラにも当てはまる。この多視点画像の制約条件によってホモグラフィー推定の改善や非剛体運動を検出できるかどうかについても論じている。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


補正されたCatadioptricステレオセンサー
Rectified Catadioptric Stereo Sensors

Joshua Gluckman, Shree K. Nayar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.224-236, January 2002

Keywords: Stereo imaging, image sensors, stereo rectification

catadioptric stereoと言う名称で知られている1つのカメラとミラーを併用したステレオ画像撮影法について以前の報告で述べた。本論文では、補正されたステレオ画像を形成するためのミラーを利用した、新規なcatadiptricセンサーを紹介する。この手法による2枚の画像の走査線は対応しているため、実時間ステレオ画像が得られ、その結果演算時間が不必要なだけでなく、画像取得後に補正のための再サンプリングで生じる画質劣化がない。第1に、必要となるミラーの数を求め、次に、1つのカメラで補正されたステレオ画像が得られるための制約条件を決定する理論を確立する。次に、ミラーが1つの場合と3つのば場合の両方について詳細に考察する。さらに、基線が与えられたとき、センサーの大きさを最小化するためのミラー配置について示す。センサーを構築するための可能性について、ミラーに対するカメラの相対位置ずれに伴う補正誤差を解析する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


移動ロボットのためのビジョン:概観
Vision for Mobile Robot Navigation: A Survey

Guilherme N. DeSouza, Avinash C. Kak

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.237-267, January 2002

Keywords: Mobile robotics, navigation, computer vision, indoor navigation, outdoor navigation

本論文は過去20年間の移動するロボットナビゲーションの分野の開発に関する概観である。論文は、室内ナビゲーションと屋外ナビゲーションの2つの主要な部分からなっている。各部分とも、構造を持った環境(structured environment)とそうでない場合の両方について分けて論じている。室内ロボットで構造を持った環境の場合、空間が幾何学的モデルである場合と、位相幾何的なモデルの場合について別個に論じている。構造を持たない環境でのナビゲーションについては、オプティカルフローを利用した場合、見掛けに基づくパラダイムを利用した場合、そして、環境中の特定のオブジェクトの認識に基づく場合のそれぞれについて論じている。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パターン認識のための2つのフィッシャー線形判別式
Two Variations on Fisher's Linear Discriminant for Pattern Recognition

Tristrom Cooke

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.268-273, January 2002

Keywords: Linear discriminant, classification

多次元特徴量空間における点をクラスターに分別するために、判別式はしばしば利用されている。本論文は、2つのクラスに対するフィッシャーの線形判別式が存在する場合の、2つの単純な改良識別法を紹介する。この両方法ともMercer核を利用することで、非線形な判別表面に拡張することが可能である。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正規分布のための最適一対線形識別器について:2次元の場合
On Optimal Pairwise Linear Classifiers for Normal Distributions: The Two-Dimensional Case

Luis Rueda, B. John Oommen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.274-280, January 2002

Keywords: Pattern classification, statistical pattern recognition, optimal Bayesian classification, linear classifiers

最適ベイズ線形識別器については何十年も研究著作がなされてきた。本論文では、全ての既知手法は2次多項式が一致根(coincident roots)を有する(共分散行列が等しい)場合のみについて考慮している。実際、2つの正規分布するクラスの最適識別器は、一対を単位として線形(pairwise linear)の場合に完全な解析が可能である。我々の知る限り、このような識別器を利用した例はパターン認識の分野では以前には無かった。共分散行列が等しくない正規分布のような特殊な場合に焦点を当ててみる。最適一対線形識別器の適用が満足すべき平均ベクトルと共分散行列の条件を決定した。最新の手法とは異なり、ここに述べるすべての場合は、線形識別器は一対の直線によって可能となる。これは2次の一般化方程式の特殊な場合である。そのような場合の1つとして、2つの重なり合うクラスの平均値が等しい場合があり、このときパーセプトロンにおける一般的ミンスキーパラドックスが解ける。また、ミンスキーパラドックスを満たす人工的データを使った実験結果を示し、この線形識別器が非常に良い結果を示すことを実証する。最後に、UCI機械学習用実世界データベースに対する実験結果を示す。実験結果から、我々の手法が従来のフィッシャーの判別識別器より優れていることが示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


6識別器の併合戦略に関する理論的研究
A Theoretical Study on Six Classifier Fusion Strategies

I_udmila I. Kuncheva

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 2, pp.281-287, January 2002

Keywords: Classifier combination, theoretical error, fusion methods, order statistics, majority vote, independent classifiers

複数の識別器があるとき、これをどのように組み合わせるかは重要な問題である。特徴量空間中に1点があり、クラス数が2で、識別器がL個存在する場合、クラスω1の事後確率推定問題を考える。推定は、各々独立で、分布が均一である(正規分布、または、一様分布)とき、次の併合手法に関する識別誤りを推定する公式を与えよう:平均法、最小法、最大法、メディアン法、多数決法、オラクル法。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.3


教師付き識別問題の複雑度
Complexity Measures of Supervised Classification Problems

Tin Kam Ho, Mitra Basu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.289-300, March 2002

Keywords: Classification, clustering, complexity, linear separability, mixture identifiability

クラス境界の幾何学的複雑度に着目した、識別問題の困難度合いを特徴付ける多数の測度について研究した。我々は実世界の問題と無作為なラベル付け問題とを比較した結果、現実の問題には測度空間に構造を持っており、無作為な集合とは大きく異なっていることを見つけた。この空間における問題の分布状態から、課題の困難さに影響を及ぼす少なくとも2つの独立な因子が存在することが分かった。この空間を利用して、識別器の能力の範囲を記述することを示唆した。この結論は、動的な、あるいは、静的な特定の課題のためにどのような識別器を選択すべきかという利用ガイドとなるだけでなく、特徴量ベクトルの制約条件、投影、変換によって形成される部分問題の利用ガイドとなりうることを示している。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴量の類似度を利用した教師なし特徴量選択法
Unsupervised Feature Selection Using Feature Similarity

Pabitra Mitra, C.A. Murthy, Sankar K. Pal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.301-312, March 2002

Keywords: Data mining, pattern recognition, dimensionality reduction, feature clustering, multiscale representation, entropy

本論文では、次元もサイズも両方とも大きなデータを対象にした教師なし特徴量選択アルゴリズムについて述べる。この方法は冗長度が除かれた特徴量間の類似度に基づいている。この手法は探索を伴わないので高速である。新しく定義された特徴類似度は最大情報量圧縮指標(maximum information compression index)と呼ばれる方法を紹介する。このアルゴリズムは本質的に一般性があり、データ集合が多段スケールであっても扱うことができる。本アルゴリズムの速度と効率に関して、多様な実世界のデータ集合や多様な次元のデータ集合に適用され、その優秀性が十分証明された。また、特徴選択に関する冗長性や欠落に関してエントロピーによる定量的評価がなされた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ペン・コンピュータのための視覚的情報入力
Visual Input for Pen-Based Computers

Mario E. Munich, Pietro Perona

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.313-328, March 2002

Keywords: Systems and applications, active and real-time vision, pen-based computing, pen-based interface

カメラを使った手書き情報入力のための、人とコンピュータのインターフェースの設計と実装を紹介する。カメラは通常のシート状の紙面に焦点が合っており、ペンの画像を入力・記録する。すなわちペン先の軌跡を追跡し、紙との接触部を検出する。復元された軌跡は十分な空間時間解像度と精度を有しており、手書き文字の認識に十分である。100人以上の被験者がこのシステムを利用した結果、多数で多様な事例が示すように、本システムは使い勝手が良いばかりでなく精度も良いことが示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンライン手書き認識のための筆者適応
Writer Adaptation for Online Handwriting Recognition

Scott D. Connell, Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.329-346, March 2002

Keywords: Online handwriting, writer-adaptation, writing style modeling, hidden Markov models, lexemes

筆者適応とは、大勢の筆者の特徴をモデル化している筆者非依存の手書き認識システムを、特定の筆者にチューニングした筆者依存型認識システムに変更するプロセスのことである。この適応化は、もし特定の筆者の適正なモデル化が可能であれば、認識率を大幅に向上させる潜在能力を持っている。学習時に筆者は限られた数の手書きデータしか書こうとしないから、このモデルの複雑度も制約がある。適応化には筆者依存モデルを使い過ぎないことがいかに重要であるかを示そう。我々の筆者依存への適応方法は筆者非依存の手書きスタイルのモデル(語彙素、lexeme、と呼ばれる)を利用し、訓練データ中に存在する特定の筆者のスタイルを同定する。そして、実際の筆者が記述したデータによって、このデータベースを更新する。筆者のデータ中に存在する語彙素は、訓練として不十分な数しか存在しないが、筆者非依存性モデルで置換される。この手法の妥当性を評価するために、文字別に切り離された手書き文字の場合と、制約なしの手書き単語認識の両方の課題に適用してみた。その結果、単一モデルによる筆者文字クラスをそれぞれ提示する場合に比べ、小文字の認識において平均、誤認識は16.3%減少した。更に、筆者適応のためにごくわずかのデータを用いた手書き単語認識において、平均9.2%の誤認識の減少が見られた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


湾曲した人の網膜画像対を登録するための、特徴量に基づくロバストな階層的アルゴリズム
A Feature-Based, Robust, Hierarchical Algorithm for Registering Pairs of Images of the Curved Human Retina

All Can, Charles V. Stewart, Badrinath Roysam, Howard L. Tanenbaum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.347-364, March 2002

Keywords: Robust estimation, registration, transformation estimation, image mosaic, retinal imaging, feature extraction, feature refinement, multiscale methods, ophthalmic image processing, biomedical image processing

本論文は、人の網膜は湾曲しているため1枚の画像として撮影することは困難である。そのため部分的に撮影した眼底顕微鏡写真画像対を全自動で位置合わせするためのロバストな階層的アルゴリズムについて述べる。モザイク画像(画像の貼り合わせ)合成や検出対象の変更や、コンピュータによる装置化の設計には、正確な位置合わせが不可欠である。新規なアルゴリズムの中心課題は12個のパラメータを持つ中間画像変換であり、非校正カメラによる遠近の小さな(weak perspective)網膜画像を利用し、未知パラメータを有する2次表面剛体としてモデル化して導かれた。このモデルのパラメータは再帰的に血管構造を追跡するアルゴリズムによって抽出された血管標識をマッチングさせることで推定した。このパラメータ推定法は、他の用途にも一般化可能であるが、モデルと手法の階層から構成されている:初期マッチング集合は、類似度を重みとするヒストグラムのピークとして推定されるゼロ次変換に基づいて刈り取られる。1次マッチングであるアフィン変換は、マッチング集合と矩形の最小メディアンを利用した簡易化推定によってなされる。最後に、12個のパラメータの1次変換は、1次推定の段階から初期化されたM推定器を利用して推定される。座標変換演算によって特徴点は変形されるが、変形された領域同士の差分マッチングの規格化2乗和をとることで、対応点集合位置がより高精度に決められる。このような階層的手法は、フレーム間の大きな動きによって一部の特徴点がマッチングしないような画像にも、あるいは、マッチングミスのあるような画像にもロバストに適応できる。16個の健康な眼底から得られた、1024×1024画素の3000組の画像に対する実験がなされた。たった20%のオーバーラップ部分を含む画像組から始めて、アルゴリズムは失敗の割合を指数関数的に減少させ、67%以上のオーバーラップでは、誤差は無視できるほどになった。また、モデルの複雑度が向上するに従い、誤差の減少が数値として得られた。最後には定常的に1画素以下の位置合わせ誤差が達成されるようになった。速度、精度、小さなオーバーラップで網膜画像の位置合わせが可能なことなどの特徴を有するこの結果と、過去の文献とが比較され、本手法の優秀性が判明した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


流体の流れの高密度推定
Dense Estimation of Fluid Flows

Thomas Corpetti, Etienne Memin, Patrick Perez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.365-380, March 2002

Keywords: Fluid motion, continuity equation, div-curl regularization, nonconvex minimization, trajectories, vorticity, and divergence concentration

本論文では画像系列中の流体の動きを推定する問題を取り上げる。流体画像は空間的時間的な変形量が大きいいため、元来準剛体の安定的で顕著な特徴を対象としたコンピュータビジョンで利用される標準的手法を、このような問題に適用するには無理がある。そのため、我々はこのような問題に適した最小化に基づく動き推定法を研究した。最小化すべきコスト関数には流体力学の統合化連続性保存方程式に依存する新規なデータ項を含んでおり、この項のお陰で大きな変位にも対応できる。この項は元来は2次div-curl正則化に関連しており、この正則化によって特徴点の渦や発散構造の消滅を防いでいる。気象衛星画像を利用してこの方式の性能を実証した。さらに、稠密な動き場の推定結果系列が、高い精度で軌跡を再現し、渦や発散の領域を抽出できたことを示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


有限混合モデルの教師なし学習
Unsupervised Learning of Finite Mixture Models

Mario A.T. Figueiredo, Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.381-396, March 2002

Keywords: Finite mixtures, unsupervised learning, model selection, minimum message length criterion, Bayesian methods,expectation-maximization algorithm, clustering

本論文では多変量データから有限混合モデルを学習する教師なしモデルを提案する。ここで使われている「教師なし」という形容詞は、本アルゴリズムの2つの性質から正当化される;1)要素の数を選ぶことができる、2)標準的な期待値最大化法(EM)と異なり、慎重に初期値を選ぶ必要はない。またEMに付きものの混合フィッティングをする必要がない:つまりパラメータ空間で特異推定値に収束する可能性を排除することができる。本手法の新規な点は、予め推定された候補モデルの中から1つを選ぶと言うモデル選択基準を利用しないことである。代わりに推測とモデル選択をシームレスに1つのアルゴリズムに統合する。この手法はEMアルゴリズムを作れるどんなパラメータ混合モデルにも適用できる。本論文では、ガウス混合モデルで例証してみる。この実験によって我々の手法の良さが分かる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


制約付き最小2乗法による基礎行列の推定:凸手法
Estimating the Fundamental Matrix via Constrained Least-Squares: A Convex Approach

Graziano Chesi, Andrea Garulli, Antonio Vicino, Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.397-401, March 2002

Keywords: Stereo vision, fundamental matrix, convex optimization, linear matrix inequality

本論文は多数の対応点から基礎行列を推定する新規な手法について述べる。代数的な誤差最小化法では基礎行列のランク2の制約条件のみを考慮する。この非凸最適化問題が、局所最小解を避けて解くことが可能であることを示す。このために我々が最近開発した凸化手法を利用した。行列の最小特異値をゼロとするランク制約条件を課すことによって得られた予測基礎行列は、線形性を基準とする方法よりも高精度であった。このことから、本提案手法は、基礎行列の精度を更に高めるため、エピポーラ線までの距離と勾配による評価基準のような非線形基準を使う手法の初期化に利用できることを示唆している。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


FVC2000:指紋照合技術の競技
FVC2000: Fingerprint Verification Competition

Dario Maio, Davide Maltoni, Raffaele Cappelli, J.L. Wayman, Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.402-412, March 2002

Keywords: Fingerprint verification, performance evaluation, biometric systems

信頼性の高い高精度の指紋認識法は、多くの指紋に対して頑健であることを要求されるが、これは現在でも困難なパターン認識の課題である。FVC2000コンテストは、会社や研究機関が指紋認識アルゴリズムを共通の土台に立って明確に性能比較するための最初のベンチマーク(基準)となるものである。最新の3つの異なるセンサーによって作れたデータベースと、人工的に作られた4番目のデータベースから構成されたデータベース群に対して、11個のアルゴリズムが詳細にテストされた。我々は、このFVC2000 プロトコルとデータベース、および、認識結果は、すべての指紋認識技術者にとって、手法の改良のためだけでなく、偏りの無いアルゴリズム評価のためにも有用であると信じている。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴量に基づく、高次画像貼り合わせ変換の共・線形推定のための手法:人間の曲面状網膜画像の貼り合わせ
A Feature-Based Technique for Joint, Linear Estimation of High-Order Image-to-Mosaic Transformations: Mosaicing the Curved Human Retina

All Can, Charles V. Stewart, Badrinath Roysam, Howard L. Tanenbaum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.412-419, March 2002

Keywords: Robust estimation, image mosaic, image montage, transformation estimation, retinal imaging, joint estimation

更正なしで、遠近の少ない人間の網膜画像を貼り合わせて1枚に合成するアルゴリズムを紹介し、解析する。これは、以前紹介された、非可逆で、12パラメーを有する階層的で頑健な推定法を持った2次画像変換モデルの上に構築された2対の網膜画像の位置合わせアルゴリズムである。ここで紹介する主要な改良点は線形で、特徴量に基づき、非反復法であり、これらが同時整合性のある推定変換によって全画像を合成されたアンカー画像上に変換する。この推定の制約条件はアンカー画像対について直接位置合わせと、非アンカー画像対については間接的に位置合わせの両方から得られる。グラフに基づくインクリメンタル(漸進的)な手法によって、同時解として整合的画像対が得られる。同時推定法の適用によって、アンカー画像にオーバーラップしてない画像をうまく貼り合わせ合成できたが、これは周辺網膜画像の貼り合わせには特にありがたい能力である。このアルゴリズムを16個の目の画像に試験的に適用した結果、最終合成画像中の平均メディアン変換誤差は0.76画素であった。全体的に見ると、このアルゴリズムは単純で高精度であり、以前の公知手法に比べて広範囲の応用が可能である。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


選択的注視に基づく視覚パターン認識と手書き数字認識と顔認識への応用
A Selective Attention-Based Method for Visual Pattern Recognition with Application to Handwritten Digit Recognition and Face Recognition

Albert Ali Salah, Ethem Alpaydin, Lale Akarun

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.420-425, March 2002

Keywords: Selective attention, Markov models, feature integration, face recognition, handwritten digit recognition

並列パターン認識には莫大な演算が必要であり一般にNP完全である。工学的立場から言えば、有限の演算量で済むような優れた計算効率が望まれる。このために、霊長類が選択的注視を行うというメカニズムを利用した視覚的パターン認識のための逐次モデルを開発した。選択的注視というアイデアは、画像中のすべての部分に情報が存在するわけではないといいうことを利用している。もし、人間が行うように、ぼんやりした画像から、大体の注目領域を探し、次第に関係する領域だけに注目するプロセスを採用するなら、少ない資源で迅速な認識が可能になる。我々は、人間の視覚系が行う顕著な特長量に基づく単純なボトムアップ型注目レベルと、もっと複雑なトップダウン型の時間順次型関連レベルを可観測マルコフモデルでシミュレートした。この両手法の中間にニューラルネットワーク法があり、画像の部品を解析し、観測値をマルコフモデルで評価することによって先験確率を生成する。我々は先ず手書き数字認識の課題で本アルゴリズムをテストし、次により困難な顔認識課題に応用した。我々の結果によると、複雑なビジョンへの応用に応用出来ることは確実である。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


両眼ステレオヘッドの実時間エピポーラ幾何推定
Real-Time Epipolar Geometry Estimation of Binocular Stereo Heads

Marten Bjorkman, Jan-Olof Eklundh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 3, pp.425-432, March 2002

Keywords: Epipolar geometry, active vision, real-time stereo, dynamic vergence

視覚によるガイドを利用したロボットにとってステレオ画像は重要な手がかりである。世界を動き回っているとき、画像解像度や視野の限界を克服するためにロボットはダイナミックな注視点設定法を利用することができる。本論文では両眼ステレオ系によるダイナミックな注視点設定法を紹介する。時間的整合性を考慮した、絶えざる外部キャリブレーションを実行する結果、処理が大変簡単になる。実時間で推定される基礎行列は、エピポーラ幾何を記述するために利用される。また、除外すべき例外点を見つけ、計算から取り除く方法についても述べる。動きから構造を推定する一般的手法であるオプティカルフローの差分モデルに基づく反復手法も紹介し、これから基本行列が得られるようにテストされる。この反復法は、輻輳角(vergence angle)が約15度以下のとき、演算速度の点からも頑健さの点からも優れていることが示される。もっと角度が大きいとき、差分モデルでは不充分となるが、このときは基礎行列が用いられる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.4


計算論的表面平坦化:ボクセルに基づく方法
Computational Surface Flattening: A Voxel-Based Approach

R. Grossmann, N. Kiryati, R. Kimmel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.433-441, April 2002

Keywords: surface flattening, geodesic distance estimation, multidimensional scaling, voxel representation, texture mapping

ボクセル(voxel)を用いて三次元の表面を二次元に平坦化する方法のうち、距離の保存性能が最も良い方法を示す。この方法ではvoxelデータの三角網もしくは多面体近似は必要ない。この問題は2つの主要な部分に分けられる。その一つは、表面上の点間の最小の測地距離をvoxelベースの計算で求めることであり、他の一つは、上記点間距離にできるだけ近いユークリッド距離を持つように、二次元における上記表面上の点の配置を求めることである。この方法が示すのは、平坦化された二次元表面の連続性を考慮に入れた、効率的なvoxelベースの距離推定法と、古典的な多次元スケーリング法(Multidimensional scaling :MDS)との組み合わせにより、二次元点配置を求めることである。提案したアルゴリズムは効率的であり、簡明であり、関数で表されない表面についても適用できる。本稿では実験結果も併せて示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔画像の加齢効果の自動シミュレーションのために
Toward Automatic Simulation of Aging Effects on Face Images

A.Lanitis, C.J. Taylor, T.F. Cootes

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.442-455, April 2002

Keywords: Edge detection, performance assessment, gradient estimation, window operators

加齢過程は人の顔の外観に大きな変化をもたらす。他の顔画像の変化の原因に比べると、加齢による変化はいくつかのユニークな特徴を示す。例えば、加齢による顔の変化は各個人に固有なものであり、その変化はゆっくりとしたものであり、健康状態、性別、そしてライフスタイルなどの他の要因に大きく影響を受ける。加齢による顔の外観の変化は、個人識別のための顔の特徴にも影響を与え、その結果、人間や機械による、歳を取った人の同定能力を低下させる。本稿では、学習済みの年齢変換方法により加齢効果が顔の外観に与える影響がどの様に説明されるかを示し、初見の画像に対してもかなりの精度で年齢推定ができることを示す実験結果を提示する。人はそれぞれの方法で歳をとるということと、各人のライフスタイルが加齢現象に与える影響を考慮に入れることにより、提案手法の性能向上が可能であることも併せて示す。我々の提案したフレームワークは、将来どのような顔になるか、もしくは過去にどのような顔をしていたかを知るための加齢効果シミュレーションに用いることができる。ここで提案された方法論は以前から顔認識システムの設計に用いられてきたものであり、加齢による変動に対して頑健である。このような用途では、学習過程と実験における被験者の認識された年齢は、トレーニング及び識別過程以前に規格化されており、加齢変動は除去されている。年齢規格化が行われると、我々の顔認識システムの性能が向上する事を実験結果は示している。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線画解釈における過拘束を克服する
Overcoming Superstrictness in Line Drawing Interpretation

L. Ros, F. Thomas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.456-466, April 2002

Keywords: line drawing interpretation, superstrictness, scene understanding, correction algorithms

多面体シーンの誤投影である、正しくない線画を校正するための、新しいアルゴリズムを示す。この正しくない線画が生じる例としては、多面体世界の画像を取るとき、エッジや頂点が抽出され、線画が合成される場合などが挙げられる。量子化誤差と前処理のために、頂点の二次元への投影像は真の位置からの擾乱を受ける。ほとんどの線画解釈のための有効なアルゴリズムは「過拘束」であり、ノイズの混入した入力に対して誤判断してしまい、それを元にした三次元再構成にも失敗する。今回の手法は、全ての頂点の位置を、正しい線画に極めて近いものが得られるまで動かすことで、この問題を克服している。この正しい線画への近さの指標は、入力中の頂点位置と、校正後の位置との距離の自乗和を最小にする事である。この方法を用いると、即ち上記校正後の線画を入力とすると、線画解釈における、あらゆる過拘束な方法が実用的になる。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


信頼度ネットワークとニューラルネットワークとの組み合わせによるシーン分割
Combining Belief Networks and Neural Networks for Scene Segmentation

X. Feng, C.K.I. Williams, S.N. Felderhof

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.467-483, April 2002

Keywords: tree-structured belief network (TSBN), hierarchical modeling, Markov random field (MRF), neural network, scaled-likelihood method, conditional maximum-likelihood training, Gaussian mixture model, expectation-maximization (EM)

我々は、各画素は予め決められた有限の種類のラベルのいずれかに割り当てられるという画像分割の問題を取り扱ってきた。ベイズ画像解析では、局所的なクラスラベル予測と、ラベル画像の先行モデルとを相互に融合させることが必要とされる。今後、我々は木構造の信頼度ネットワーク(Tree-Structured belief networks : TSBNs)を先行モデルとして考える。TSBNにおけるパラメータは、最尤目的関数をEMアルゴリズムと共に用いることで訓練される。最終的なモデルは、どれだけ効率的にラベル画像をコードできるかで評価される。多くの研究者が、ラベル領域と画像とを結合させるために混合ガウス関数モデルを用いてきた。本稿では、この方法と、ニューラルネットワークにより得られた画素識別の局所予測がTSBN先行モデルと融合するところの、尺度付き尤度法とを比較する。ニューラルネットワークを共に用いることにより、高い性能が得られることを示す。得られた識別結果を評価し、事後分割(性能)を最大にするのみならず、画素に基づく事後周辺エントロピーなどから明らかなように、本手法の不確かさも強調する。また、TSBNに制限最尤訓練の有用性について調査し、まさにこれが、ML訓練を施されたTSBNよりも優れた識別性能の原因である事を発見した。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


結合集合のopening及びclosingに関するアルゴリズムの比較
A Comparison of Algorithms for Connected Set Openings and Closings

A. Meijster, M.H.F. Wilkinson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.484-494, April 2002

Keywords: mathematical morphology, connected set operators, attribute filters, pattern spectra, multiscale analysis, union-find

形態的連結集合オペレータは、多様な画像オペレータを形成しているが、その中で特に形状保存性は重要な性質である。これを、画像フィルタリングとパターン認識へ適用することについて検討する。プライオリティキューと階層化キュー、それぞれに基づいた二種類の先行アルゴリズムを、より最近のunion-find法と比較する。領域内の極値を連続的に処理する先行アルゴリズムと異なり、union-find法は極値の同時処理を可能としている。領域のopening、closingそしてパターンスペクトルの意味において、union-findアルゴリズムは、以前の方法に比べ優れた性能を示す。これは実験した殆どの自然画像、合成画像について言えることである。最終的にパターンスペクトルやより一般的な属性演算子のクラスへの拡張を3つのアルゴリズム全てについて示し、使用メモリの比較も行った。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


稠密データの幾何学的探信
Geometric Probing of Dense Range Data

M. Greenspan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.495-508, April 2002

Keywords: pose determination, object recognition, geometric probing, decision tree, template matching, range image

稠密データにおける三次元物体の姿勢決定に関する効率的で信頼性の高い新しい方法を示す。この方法は穏健な幾何学的探信戦略に基づいている。この戦略はいくつかの選択された画像点による物体の交差を仮定し、その点に応じた位置における付加的な表面データを探索する。この戦略は二分決定木識別器のような、明確に分離される分野において用いられる。上記決定木の葉ノードは、個々のモデルのボクセルテンプレートを表す。異なったモデルポーズには各々一つのテンプレートが与えられる。中間ノードは下位の葉ノードのテンプレート間の結合を表す。全ての葉ノードのテンプレートの結合は、分離された姿勢空間の全域に渡るモデルの、完全なテンプレート集合である。またこれと同時に、各中間ノードは、その子ノードテンプレートに最も共通する要素であるところの単一のボクセルを表す。この決定木を走査することは、選択された画像シード位置における広大なテンプレート集合の効率的なマッチングと等価である。この方法は実際に実装され、孤立、擾乱、隠蔽などのシーン条件において、決定木デザインと走査の様々な組み合わせについて拡大実験が行われた。結果は効率と信頼性のトレードオフの存在を示している。高効率と高信頼性を両立する木のデザインと走査の組み合わせが存在する、と結論する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状コンテキストを利用した形状マッチングと物体認識
Shape Matching and Object Recognition Using Shape Contexts

S. Belongie, J. Malik, J. Puzicha

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.509-522, April 2002

Keywords: shape, object recognition, digit recognition, correspondence problem, MPEG7, image registration, deformable templates

本稿では、形状間の類似度測定及びそれを用いた物体認識に関する新しい方法を示す。我々のフレームワークでは、類似度計測に先立って下記の二つの処理を行う。1)二つの形状上の点間の対応を解く。2)その対応を用いて整列変換(aligning transform)を推定する。上記対応問題を解くために、形状上の各点に形状コンテキストと呼ばれる記述子をつけた。代表点における形状コンテキストは、その代表点周辺の分布を取り込むため、大域的に識別可能な特徴となる。類似した二つの形状の対応する点は、類似した形状コンテキストを持つことになり、それゆえ上記対応問題を最適割り当て問題として解くことができる。この点間の対応を得ることにより、二つの形状の最適な整列変換を推定する。この用途では、正則化された薄板スプラインから、変換マップの柔軟なクラスが得られる。二つの形状の非類似性は、対応点のマッチング誤差の和として算出される。このとき同時に整列変換の強度の測定項も計算される。我々は物体認識の問題を、画像中の物体と最も良く類似するプロトタイプ(代表的形状)を、蓄積された物体形状の中から見つけるという、最近傍識別のフレームワークで扱う。シルエット、商標、手書き数字、そしてCOILデータセットについての結果を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ある期間にわたり統合された動きからの構造復元
Structure from Motion Causally Integrated Over Time

A. Chiuso, P. Favaro, H. Jin, S. Soatto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.523-535, April 2002

Keywords: structure from motion, real-time vision, shape, geometry

本稿では、実時間の単眼画像系列から三次元の構造と動きを因果関係に基づいて再構築するアルゴリズムについて述べる。任意の長さの画像系列の全長に渡り、推定の誤りが確率的なものであるという意味において、このアルゴリズムが最小でかつ安定したものであることを証明する。隠蔽(点特徴の表出と消滅)とスケール因子のドリフトを扱うための仕組みについて考察する。これらの要因は現実のシーンを実時間で処理するアルゴリズムにとって決定的なものである。本稿で我々は、PC上で稼動し、また本学会で通用するようにアルゴリズム実装の細部も記述した。いくつかの代表的な長い実画像系列および合成画像系列についての実装結果を報告する。このアルゴリズムは過去数年に渡りずっと拡張試験を受けてきた。それゆえ、シーン内に20-40点の高コントラストの点がある場合や、相対運動がフレームサンプリング周波数(30Hz)に比べ遅い場合、そしてレンズの有効口径が充分に大きい場合(典型的には30°以上の視野)は、このアルゴリズムは信頼できる性能を発揮する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テクスチャからの形状復元のためのテクスチャ勾配方程式
The Texture Gradient Equation for Recovering Shape from Texture

M. Clerc, S. Mallat

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp. 536-549, April 2002

Keywords: shape from texture, texture gradient, warplets, wavelets

本稿では、透視投影における、テクスチャからの形状復元についての研究について述べる。我々はテクスチャからの形状復元問題を統計的推定問題と捉えている。本稿で我々はwarpletと呼ばれる、waveletを二次元アフィン群に一般化したものを導入する。細密なスケールでは、入力画像から得られたwarplet画像は、テクスチャ勾配方程式と呼ばれる変換方程式に従う形となる。表面の三次元形状を復元するためには、画像内の尺度の変化を計測する、変形された勾配を推定しなければならない。変形勾配がテクスチャ勾配方程式の速度と同一になるように、オリジナルテクスチャの均一性の概念を取り入れることで、この推定は可能となる。異なるスケールで入力画像のwarplet変換を計測することで、変形勾配推定器を構成している。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非共面性P4P問題の解の個数についての短信
A Note on the Number of Solutions of the Noncoplanar P4P Problem

Z.Y. Hu, F.C. Wu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.550-555, April 2002

Keywords: The Noncoplanar P4P Problem, rigid transformation, upper bound

文献によると、PnP問題は、カメラの光軸と制御点との距離を定義すること、そして対象中心フレームからカメラ中心フレームへの変換行列を定義することの両方と、不可分に定義されている。本稿では、これら2つの定義が、一般的には等価ではないことを示す。特に4つの制御点が共面でない場合、距離に基づいた定義でのP4P問題の上界は5であり、且つこれは実現可能である。これに対して変換に基づいた定義でのP4P問題の上界は4に過ぎない。最後に、距離に基づいた非共面P4P問題が、少なくとも2、3、4、または5個の異なった正の解が存在するための条件について検討する。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴量の重み付き学習による類似度に基づいたクラスタリングの性能向上
Improving Performance of Similarity-Based Clustering by Feature Weight Learning

D.S. Yeung, X.Z. Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.556-561, April 2002

Keywords: clustering, similarity-based clustering, transitive closure, fuzziness and nonspecificity, gradient-descent technique

類似度に基づいたクラスタリング手法は、簡明且つ強力であり、結果としてユニット間の閾値の分割のための分類木が出力として得られる。類似度に基づいたクラスタリングの処理原理は「類似した物体は同じクラスタに分類される」ことである。2つの物体が似ているかどうかを判定するために、予め類似度を決めておかねばならない。本稿における類似度測度は、各物体の特徴量間の重み付き距離の式で定義される。分類木とその性能(これは本稿ではいくつかの評価指標により記述される。)は特徴に関する重みに依存する。上記重み付き特徴量を学習するために降下法を用いることで、分類性能が飛躍的に向上することを示す。また我々の手法が、類似度行列の不確実性(あいまいさ、非明細性)を減少させることも同時に示す。これは類似度に基づいた決定の品質を向上させるものである。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


POCSによる多重幾何拘束を用いた、インタラクティブな三次元形状と二次元対応付けの最適化
Interactive Optimization of 3D Shape and 2D Correspondence Using Multiple Geometric Constraints via POCS

Z. Sun, A.M. Tekalp, N. Navab, V. Ramesh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.562-569, April 2002

Keywords: geometric constrained shape recovery, structure from motion, interactive optimization, the factorization approach, projections onto convex sets (POCS)

モーション追跡と動きからの形状復元(Structure from motion :SFM)を連続する独立なステップによって扱う従来の方法は、達成可能な精度及びシーンに関する事前の拘束条件同士の統合に基づいた固有の限界が存在する。本稿はよく知られた因子分解法における尺度行列の反復高精度化のための、凸集合への投影フレームワーク(projections onto convex sets: POCS)を提唱する。本フレームワークは、シーンに関する複数の幾何的な拘束条件を統合し、それによって二次元の特徴点追跡と三次元構造推定両方の精度を向上させる。線上もしくは面上に並んだ点や、平行線、平行面などのシーン内部の規則性は、それぞれ独立に同定され、それぞれのPOCS反復回において標識付けされうる。またこれらの規則性により、適当に定義された局所尺度行列に関する、ランクと並列性の拘束条件を強化しうる。これらの拘束条件は互いに拘束し合うものである。POCSフレームワークは、上で述べた複数の局所尺度行列の情報を、最初に得られたFrobenius normの測量行列に最も近い単一の尺度行列に統合することが考慮される。このFrobenius normは、通常の方法で因子分解される。実験結果により、本稿で提案された反復型POCSフレームワークは、二次元の適合と三次元の形状/動き推定の両方を、整合的に性能向上させられることが示される。また後処理もしくは前処理で、ここで用いた拘束条件を強化しても、同様の結果を得ることはできない。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


領域画像における隠蔽下の平面状表面の再構築
Reconstruction of Planar Surfaces Behind Occlusions in Range Images

F. Dell'Acqua, R. Fisher

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp.569-575, April 2002

Keywords: image processing, occlusion, range data analysis, range image partition, range data reconstruction

従来、領域画像の解析と再構築は、視野に全体が含まれる複雑な物体にフォーカスを当ててきた。室内の領域画像における家具に隠された壁の小部分のように、単純で且つ広域に渡る形状の再構築には、僅かの感心しか払われなかった。本論の研究はこのような再構築を目的とするものである。第一に、深さの不連続性や重なったエッジに基づいて領域画像を分割する。次に上記分割された領域により構成される各領域に最も良くフィットする平面を定義する。第三段階では潜在的に隣接する表面をつきとめ、最終段で隠蔽された領域を再構築する。本稿は、任意の表面により隠蔽された平面状の表面の再構築に関する解法を示すものである。このシステムは効率的であり、再構築された表面は合理的なものであることが証明された。Bornholm church領域画像集から、いくつか解の例を示す。

TS

Copyright (c) 2001 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.5


データ圧縮を利用した新規なパターン認識体系
A New Pattern Representation Scheme Using Data Compression

Toshinori Watanabe, Ken Sugawara, Hiroshi Sugihara

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.579-590, May 2002

Keywords: Multimedia, pattern, analysis, categorization, recognition, feature space, compression ratio, generality, VQ

多量のメディア、例えば、テキスト、音声やイメージを扱うためには、インテリジェントなメディアアナライザー(解析器)が不可欠である。これらアナライザーは、人間がかかわることなく自動的に、蓄積、分類、検索、そして、認識する機能を持っている。特に、カテゴリー生成と認識(クラス分け)は基本的機能である。このメディアアナライザーのための、データ圧縮に基づく新規なパターン認識体系(PRDC)を提案する。PRDCは、入力データをテキストに変換する符号器と、圧縮率ベクトル(CV)を生成するためのテキスト圧縮器の2つの部品から構成されている。このCVは入力データの特徴量として利用される。メディア特有の符号器を用意することによってPRDCは多用途に応用可能となる。このCVを利用して、カテゴリー化(クラス生成)と認識(クラス分け)の解析課題が可能となる。PRDCが実現可能性に関する数学的理論の後、音楽、音声、遺伝子、手書きスケッチ、およびカラー画像の自動的カテゴリー生成と認識を実行して、この手法の多用途への応用を実証する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線形結合されたクラス識別器の誤り率の上界
Upper Bounds for Error Rates of Linear Combinations of Classifiers

Alejandro Murua

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.591-602, May 2002

Keywords: Exponential bounds, weakly dependent classifiers, classification trees, machine learning

同一訓練データによって構成された多くの識別器間の弱い依存性に関する有用な概念について紹介する。この弱い依存性が低く、期待されるマージンが大きいならば、線形結合に基づく識別器の決定則は、指数関数的に速やかに減少する誤り率が達成できる。無作為化された木と、boostingとbaggingによってできた木とを対象にした実験結果によると、これらの木の間には弱い依存性が存在する。さらに、期待される低マージンを補償するために、線形結合した識別器の間には相互依存性が低くなければならないという意味において、弱い依存性と、期待されるマージンとのトレードオフが存在することが分かる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


平均シフト:特徴量空間解析へのロバストなアプローチ
Mean Shift: A Robust Approach Toward Feature Space Analysis

Dorin Comaniciu, Peter Meer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.603-619, May 2002

Keywords: Mean shift, clustering, image segmentation, image smoothing, feature space, low-level vision

複雑な多峰性の特徴量空間解析し、その中の任意の形状のクラスターを描き出すためのノンパラメトリックな方法を提案する。この手法の基礎的な計算モジュールは古くから知られているパターン認識手法である平均値シフト法である。我々は離散的データに関して、この平均値シフト法が本来の分布関数の最近接定常点に収束することを証明し、従って分布関数のモード検出の効用を示す。この平均値シフト法の、カーネル回帰によるNadaraya-Watson推定器と、ロバストな位置M推定器に関する関係もまた確立した。2つの低レベルの画像課題を実行するための不連続点を保持してスムージングし、画像セグメンテーションを実行するアルゴリズムについてアプリケーションで示した。これらのアプリケーションでは、ユーザーが設定する必要のあるパラメータは、濃淡画像であろうとカラー画像であろうと、解析のための解像度だけである。入念な実験の結果、すばらしい性能を示すことが実証された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


陰関数表現の曲線と曲面の直行距離によるフィッティング
Orthogonal Distance Fitting of Implicit Curves and Surfaces

Sung Joon Ahn, Wolfgang Rauh, Hyung Suck Cho, Hans-Jurgen Warnecke

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.620-638, May 2002

Keywords: Implicit curve, implicit surface, curve fitting, surface fitting, orthogonal distance fitting, geometric distance, orthogonal contacting, nonlinear least squares, parameter estimation, Gauss-Newton method, parameter constraint, parametric model recovery, object segmentation, object classification, object reconstruction

画像処理やパターン認識、あるいは、コンピュータビジョンや座標計量学の分野では、曲線や曲面などの次元モデルを利用してデータにフィッティングさせることは広く応用されている。本論文では、陰関数表現の曲面や平面曲線を想定した、距離に基づくフィッティング手法と、座標に基づくフィッティング手法の2種類の新規なフィッティング手法を紹介する。これらは、与えられた観測点とモデル上の点の直交誤差距離を最小化させるものである。この各々のアルゴリズムはそれなりの特長を有しており、実装コストやメモリーコストとか、観察の重み付けを考慮し、目的とするフィッティング課題に適した手法を意図的に選択することができる。新規なアルゴリズムでは、モデル特徴パラメータは、形状、位置、回転パラメータを考慮して、全体として同時に推測される。形状パラメータはモデルの形状を決定し、位置/回転パラメータは、モデル特徴量の剛体運動を記述する。この提案手法は、曲面や平面が定義されるどんな課題にも適用できる。本論文では、アルゴリズムの実装についても述べ、、種々の直交距離フィッティング問題例を示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


階層的GTM: 原理に立脚した局在化非線形投影多様体
Hierarchical GTM: Constructing Localized Nonlinear Projection Manifolds in a Principled Way

Peter Tino, lan Nabney

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.639-656, May 2002

Keywords: Hierarchical probabilistic model, generative topographic mapping, data visualization, EM algorithm, density estimation, directional curvature

複雑なデータ集合の興味ある局面を2次元で視覚化するだけでは、理解するには十分でないと議論されてきた。その結果、階層的視覚化が重要になる。本論文では、既存の局所的線形階層化可視化システムPhiVisをいくつかの次元に拡張し、1)非線形投影多様体を可能にする。このときの基本的構成要素は一般化された地形写像(Generative Topographic Mapping;GTM)である。2)我々は、局所的確率モデルの階層化木から成る、階層的確率モデルを一般的に定式化する。モデルが存在する木の場所によらない一般化訓練式を導く。3) 微分幾何学の道具を利用して、投影多様体の局所有向曲率の表現形を導く。我々のシステムは、PhiVisのように統計学に立脚しており、EMアルゴリズムを利用したトップダウンの対話的に構築される。これによってユーザは、子孫モデルが利用した先祖のデータを対話的に強調することが可能である。このシステムに、投影多様体の拡大率とか有向曲率の階層や、局所選択性表現を盛り込むことができる。このような情報は、局所モデルを正規化し、調製するためだけでなく、階層的視覚化を更に洗練するためにも重要である。この原理をトイモデルで実演した後、もっと複雑な12-、18-次元データ集合に適用した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


データ駆動型マルコフ鎖モンテカルロ法によるイメージセグメンテーション
Image Segmentation by Data-Driven Markov Chain Monte Carlo

Zhuowen Tu, Song-Chun Zhu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.657-673, May 2002

Keywords: Image segmentation, Markov Chain Monte Carlo, region competition, data clustering, edge detection, Markov random field

本論文では、ベイズ統計の枠組みの中での、イメージセグメンテーションのためのデータ駆動型マルコフ鎖モンテカルロ法と呼ばれる計算パラダイムを紹介する。イメージセグメンテーションにおける本論文は次の4点において寄与している。第1に設計が効率的であり、バランスの取れたマルコフ鎖によって複雑な解空間を動的に探索し、その結果、初期セグメンテーションに依存しない、ほとんどグローバル最適な解に達することができる。第2にマルコフ鎖、マルコフ連鎖、から、複数の異なる解を計算する際の数学的原理と、K-adventureアルゴリズムを提供する(ここのKは、K個の異なる解を表す)。そのため、イメージセグメンテーションに内在するあいまいさを組み込むことができる。第3に、決定に際しては重要度確率を計算するためにクラスタリングやエッジ検出のようなボトムアップ型データ駆動手法を用いており、この確率からマルコフ鎖の向かう方向が決定され、伝統的なジャンプ拡散法jump-diffusion methods)に比べ、すばらしく高速処理が達成される。第4に、データ駆動型マルコフ鎖モンテカルロパラダイムは、エッジ検出、クラスタリング、領域成長法、分割併合法、スネーク/バルーン法、領域競合法のような既存の多くのイメージセグメンテーションアルゴリズムを統一した枠組みを与え、マルコフ鎖動力学か、あるいは、決定の際の重要度確率計算か、の2つに分けることができる。このように、データ駆動型マルコフ鎖モンテカルロパラダイムは原理的立場からこれらセグメンテーション法を統一・一般化する。データ駆動型マルコフ鎖モンテカルロパラダイムは、多様な領域における濃度(輝度)やカラーのための7つのパラメトリックおよび非パラメトリックな画像モデルを採用している。我々はデータ駆動型マルコフ鎖モンテカルロ法を、カラーや濃淡画像に広範に適用し、そのうちのいくつかを本論文に示している。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単眼撮影による画像系列中のオブジェクトのモデル化における曲線当てはめ問題とその応用
A Curve Fitting Problem and Its Application in Modeling Objects in Monocular Image Sequences

Kuntal Sengupta, Prabir Burman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.674-686, May 2002

Keywords: Curve fitting, splines, regression, face modeling. Paracatadioptric Camera Calibration

本論文では、特定の曲線や曲面(表面)当てはめ問題を紹介し、単眼撮影画像系列中のオブジェクトのモデル化への応用を実演する。曲線当てはめアルゴリズムは、非パラメトリックな回帰法に基づいており、これがこのような課題の核を形成している。この手法は、最尤推定法などの標準的な推定法に比べはるかに効果的であり、曲線中に存在する非連続点を処理できる。次に、この1D曲線推定の理論的結論は、オブジェクトモデル化問題に、広範な拡張をすることができる。ここで、入力画像は動きのある剛体オブジェクトの単眼撮影の画像系列である。カメラのアフィン投影幾何学と、画像系列中の与えられた2画面を利用して、KvDモデルを採用してオブジェクト各点の奥行きを未知の平面から外れる回転の関数として表現し、いくつかの計測可能な量はオプティカルフローから直接計算する。この手続きは複数の画像対について繰り返される。これら方程式から、変形非パラメトリック回帰解析から、深さマップが次に推定される。我々は多様な画像系列に対して実験し、この手法の有効性を確かめた。動きから構造を抽出する問題において、この曲線当てはめ手法によって得られた結果は、階層的手法だけでなく、非線形最適化手法によって更に洗練された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Paracatadioptric光学系を有するカメラの較正
Paracatadioptric Camera Calibration

Christopher Geyer, Kostas Daniilidis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.687-695, May 2002

Keywords: Omnidirectional vision, panoramic vision, catadioptric camera, vanishing points, calibration

Catadioptric光学系とは、反射系と屈折系の両方を利用した光学系であり、望遠鏡はその代表例であるが、最近はロボティックスにも応用され始めた。これらの系は、半球以上の視野を持ちうるため、全方位を同時に見ることができることから有用である。ユニークで効果的な多様な構成が可能なことが第1の興味ある点であるが、その中でも特に、反射面が放物面鏡で、カメラとしては正射影で撮像するような系をparacatadiotpricと呼んでいる。このようなデバイスを較正するために、空間中の直線だけを利用するアルゴリズムを紹介する。この内部パラメータの較正にはたった3本の直線で十分であること、また、他の測定データが不要であることを示す。焦点距離、画像中心、無歪みカメラのアスペクト比、歪みが存在する場合は多項式の解として得られることを、閉形式の解で示す。また、非較正カメラによる1枚の画像中に2組の平行線が撮影されている場合に、平面の方位を決定する方法を示す。このような方位復元によって、従来の非較正カメラによる1枚の画像の修正が可能になる。我々はシミュレーションによってこのアルゴリズムの効率を評価し、反射鏡の限界円(bounding circle)による実写画像の修正結果と比較する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カラー画像中の顔検出
Face Detection in Color Images

Rein-Lien Hsu, Mohamed AbdeI-Mottaleb, Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp. 696-706, May 2002

Keywords: Face detection, face recognition, lighting compensation, color transformation, skin tone, facial feature map, Hough transform

ビデオによる監視や、ヒトとコンピュータのインターフェース、顔認識、顔画像データベース管理システムなどにとって、顔の認識は重要な役割を果たす。我々は、照明条件が変化したり、背景が複雑な条件におけるカラー画像から、顔を検出するアルゴリズムを提案する。新規な照明条件補償手法とか、非線形カラー変換によって、画像全体から皮膚領域を検出し、この皮膚パッチの空間配列に基づいて顔候補を生成する。このアルゴリズムは、目、口、顔の各要素に対して境界マップを合成し、各候補を照合する。実験結果によると、カラー、位置、大きさ、方位変化、3次元的姿勢、いくつかの写真集(屋外・屋内とも)からの表現について、上手く処理できたことが示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サポート顔による性別の学習
Learning Gender with Support Faces

Baback Moghaddam, Ming-Hsuan Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.707-711, May 2002

Keywords: Support vector machines, gender classification, linear, quadratic, Fisher linear discriminant, RBF classifiers, face recognition

FERET顔画像データベースの1,755の画像を処理した低解像度サムネイル画像を利用した、外観に基づく性別判定を、非線形サポートベクトルマシン(SVM)で行うことを研究した。その結果、このSVMの効率は3.4%の判定誤りを伴うが、従来のパターン識別法(線形、2次、フィッシャーの線形判別、最近傍法)に比べて優れているだけでなく、最新のRadial Basis Function (RBF)識別器や大集団RBFネットワークに比べても優れていることが分かった。更に、低解像のサムネイル(21×21画素)の識別効率と、対応する高解像画像(48×48画素)の差がたった1%であることが分かった。これから、本システムがスケールと解像に関してロバストで安定であることが分かる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2方向ベイズ統計の枠組みにおける隠蔽と密な動き場の推定
Estimation of Occlusion and Dense Motion Fields in a Bidirectional Bayesian Framework

Keng Pang Lim, Amitabha Das, Man Nang Chong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, pp.712-718, May 2002

Keywords: Occlusion detection, dense motion field estimation, Markov random field

本論文では、正確な動き予測と隠蔽予測のための、2方向ベイズ統計の枠組みによる新規なマルコフ確率場について紹介する。このモデルに必要な5つのパラメータを慎重に選択することによって、良い実験結果が得られた。この高速2方向緩和法による計算速度は、従来の繰り返し条件付モード弛緩法に比べ、5.5倍高速であった。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.6


部分クラスを作るための自己学習法を利用したn要素走査法のクラスタリング効率の向上
Improving the Clustering Performance of the Scanning n-Tuple Method by Using Self-Supervised Algorithms to Introduce Subclasses

George Tambouratzis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.722-733, June 2002

Keywords: n-tuple pattern recognition method, scanning n-tuple, chain-coding, handwritten character recognition

最近、手書き文字のための大量・実時間認識のシステム開発が盛んであるが、その基本的手法として、n-tuple(n個の小窓から抽出される画像データ)を走査しながら、n個の入力信号から信号を判定する方式が注目を集めている。本論文では、走査型n-tuple方式(LucasとAmiriによって紹介されたように)をパターン認識に適用できるかどうかを研究した。その際、認識率が実用レベルに向上できるどうかに充填を置いて。我々は潜在的なエッジ効果の問題点を取り除き、走査型n-tuple手法のパラメータである、必要メモリ量、処理速度、および、認識精度を、事例研究課題に対して最適化した。次に、このn-tuple走査型認識手法をパターン空間の特徴に焦点を絞ることによって自己学習アルゴリズムの効率を改善したことについて報告する。最も有望なアルゴリズムについては詳細に調べ、効率向上と、それに必要なメモリー量を決定した。小規模の実験、および、実データによる課題実験の結果は、走査型n-tuple識別効率を向上させた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


密度に基づく多重スケールのデータ縮約
Density-Based Multiscale Data Condensation

Pabitra Mitra, C.A. Murthy, Sankar K. Pal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.734-747, June 2002

Keywords: Data mining, multiscale condensation, scalability, density estimation, convergence in probability, instance learning

パターン認識手法をデータマイニングに応用する課題で注目を集めているのは、大きなデータ集合から、小さな代表集合を選択する問題である。本論文では、非パラメトリクなデータ縮約法を示唆する。これはデータが内蔵している密度を推定する。このアルゴリズムは多重スケールによって代表点を選定するが、この方法は従来の密度に基づく手法とは異なる。縮約集合(condensed set)の表現精度は、オリジナル集合の推測密度と、縮約集合との誤差によって評価する。いくつかの現実世界のデータ集合による実験によれば、この多重スケール法は、縮約率の面からも推定誤差の面からも、従来のいくつかの関連する手法に比べて優れている。得られた縮約集合は、識別、クラスタリング、あるいは、大量データ集合からのルール生成などのデータマイニング課題にも有効であることが実験的に証明された。その上、この手法は複雑な構造を持つサンプルにも有効であることが実験的に示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


1クラス1サンプルの画像から、提示位置が不正確で、部分的に隠蔽され、表情が変化している顔画像を認識
Recognizing Imprecisely Localized, Partially Occluded, and Expression Variant Faces from a Single Sample per Class

Aleix M. Martinez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.748-763, June 2002

Keywords: Face recognition, occlusions, expression-variant faces, learning from undersampled distributions, facial asymmetry, localization of faces, principal components analysis, pattern recognition

顔(あるいはオブジェクト)の認識問題を解くための古典的手法は、表現に富む大量のデータ集合を利用する方法である。多くの応用問題においては、多量のデータが得られることはまれであり、1クラスあたり1サンプルしか得られないことが多い。この寄稿においては、クラス当たりたった1つのサンプルしか得られない場合でも、位置合わせが不正確であったり、部分的に隠蔽されていたり、表情が変化する顔画像を補償することが可能な確率的手法について述べる。位置合わせの問題に付いては、訓練集合に対して誤りを与える部分空間表現(特徴空間内部、すなわち、固有空間)を見つけた。隠蔽問題を解決するために、各顔はk個の部分領域に分割され、各々は独立して認識された。他の方法のように、投票空間を1つに限定するのではなく、局所的“合致”がどの程度であるかを解析する確率的手法を紹介する。訓練集合中の顔の表情と、試験サンプル中に顔の表情の違いによる誤差の影響を低減するため、各局所領域における認識結果に重みを付けた。この重みは、現在のテスト用画像による影響を、注目する局所領域がどの程度受けるかに依存している。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エッジ線分画像による顔認識
Face Recognition Using Line Edge Map

Yongsheng Gao, Maylor K.H. Leung

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.764-779, June 2002

Keywords: Face recognition, line edge map, line segment Hausdorff distance, structural information

パターン認識において人間の顔を自動的に認識するという問題はとてつもなく困難な課題である。典型的には、人の顔は互いに極めてよく似た構造を持っており、人による違いはわずかである。実際、“人の顔”は単一クラスをなしている。さらに、照明条件の変化、表情、姿勢の変化が、顔認識課題を更に複雑なものにし、パターン解析における最も困難な課題の1つとしている。本論文では、“顔をエッジ線分画像によって認識する”という新規なコンセプトを提案する。コンパクトな顔特徴量であるエッジ線分画像(Line Edge Map: LEM)は、顔符号化と認識のために考案された。ここに提案する顔認識のコンセプトについて、徹底的な調査がなされた。これは顔認識に関するすべての局面、1)制御された条件やサイズ変化、2)照明光が変化する条件、3)表情が変化する条件、4)姿勢が変化する条件、についてカバーしている。このシステムの性能は、現在最も優れた顔認識法の1つである固有顔画像法や、他の既知の方法と比較された。探索速度向上のため顔プレフィルタリングを提案する。この提案手法が、殆どの比較実験において、固有顔法よりも優れた結果を示したことは、非常に心強い発見である。この研究から、ここに提案する一般化線分のハウスドルフ距離とLEM法をいっしょにして、新たな顔符号化と認識の手法が示される。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像認識における、主多様体と確率的部分空間
Principal Manifolds and Probabilistic Subspaces for Visual Recognition

Baback Moghaddam

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.780-788, June 2002

Keywords: Subspace techniques, PCA, ICA, Kernel PCA, Probabilistic PCA, learning, density estimation, face recognition

画像認識において、低次元表現を学習するために、線形、および、非線形の主多様体の利用について調査した。この課題のためにFERETデータベースから1800を超える顔画像を利用して、最新の認識手法である主成分分析(PCA)、独立成分分析(ICA) ,非線形カーネルPCA(KPCA)について調べ、認識実験をした。主多様体表現した最近傍法による認識能力と、双対確率部分空間から導かれるベイズ類似度を使った最大事後マッチング則を比較した。画像マッチングに関するこの実験結果は、簡潔さ、計算時間、認識能力の点から、ベイス部分空間法が主多様体法よりも優れていることが示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単語認識器の評価における語彙密度の利用
Use of Lexicon Density in Evaluating Word Recognizers

Venu Govindaraju, Petr Slavik, Hanhong Xue

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.789-800, June 2002

Keywords: Classifier combination, handwritten word recognizer, lexicon density, performance prediction, edit distances

手書き単語認識器の予測精度を計測するために、語彙密度という概念を開発した。従来、手書き単語認識の課題においては、語彙の大きさによってその困難さを計測してきた。例えば、語彙数が10、100、1000と増加すると、認識課題が困難であることを示唆していた(つまり、認識精度が減少する。あるいは、似た単語が増えてくる)。これに対して、語彙密度という概念はこの代替となる尺度で、認識器に強く依存している。この考え方の中心は、手書き単語の距離の概念である。このような、認識器に依存した尺度が有用であるような用途は多い。我々は2つの異なるタイプの認識器について実験した。セグメンテーションに基づく(文字別に切り出し)認識器と、書記素(記号やテキストを含む表記要素)に基づく認識器の2つが選ばれ、この語彙密度の尺度が任意の認識器に対して一般的に開発できることを示そう。実験から、この語彙密度に基づく尺度は、語彙サイズや単純な文字列編集距離よりも適していることが示される。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


筆記体手書き文字のためのOCR
Optical Character Recognition for Cursive Handwriting

Nafiz Arica, Fatos T. Yarman-Vural

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.801-813, June 2002

Keywords: Handwritten word recognition, preprocessing, segmentation, optical character recognition, cursive handwriting, hidden Markov model, search, graph, lexicon matching

本論文では文字切り出しと認識のアルゴリズムを逐次利用する新規な解析手法による筆記体の手書き文字認識問題を提案する。最初に、傾き角度、基線、ストローク線幅や高さのようなグローバルなパラメータが推測される。第2に、セグメンテーション法によって、グレースケールと2値情報の両方からセグメンテーション経路が見つけられる。第3に、隠れマルコフモデル(HMM)によって形状が認識され、候補文字とその順位(ランク)が与えられる。このため、各セグメントに対応する候補文字のコード列が抽出される。特徴空間パラメータはHMMの訓練段階で、HMMのモデルパラメータと一緒に埋め込まれている。最後に、語彙情報とHMMランクは単語レベル認識のためのグラフ最適化問題として一緒に処理される。このように効率的なグラフ探索アルゴリズムの情報尺度を最大化することによって、セグメンテーションとHMMランク付けの各々の段階で生じる誤差のほとんどが訂正される。この実験によれば、文献にある従来の手法に比べ、高認識率を示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


モデルに基づくオプティカルフロー残差を利用した形状パラメータの調整
Adjusting Shape Parameters Using Model-Based Optical Flow Residuals

Douglas DeCarlo, Dimitris Metaxas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.814-823, June 2002

Keywords: Nonrigid shape and motion estimation, model-based optical flow, deformable models

モデルに基づくオプティカルフローから、最小2乗残差を使って変形可能モデルの形状を推定するための手法を提案する。この手法は、オプティカルフローと画像特徴量を利用した推定手法の上に作るられるもので、オプティカルフローはモデルの動きパラメータだけに影響を与える。この計算結果を利用して、本新手法ではオプティカルフロー全体の残差が最小になるようすべてのパラメータが調整される。この手法を顔画像追跡実験に利用した結果は、関連する手法よりは優れた結果が得られた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


両眼立体視からのセグメント化されたオーバーラップ表面の推論
Inference of Segmented Overlapping Surfaces from Binocular Stereo

Mi-Suen Lee, Gerard Medioni, Philippos Mordohai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.824-837, June 2002

Keywords: Binocular stereo, tensor voting, perceptual grouping, surface inference

ステレオ画像対から情景を抽出するための統合手法を紹介する。ここでは特徴量の対応付けと表面の再構成は同じ枠組みの中で述べる。この手法の開発については一般用途への応用と共に、特別に注意して述べることにする。またノイズや、画像特徴量の欠如、表面の不連続性、片画像だけに見える領域などの問題の取り扱いに付いては、データのテンソル表現を導入し、情報伝播にテンソル投票というロバストな計算法を導入した。本論文の主要な寄与は2つある:第1に、マッチング度合いと構造抽出の精度を評価するために、従来の相関スコアではなく、“顕著度合い(saliency)”を導入したことである。第2に、テンソル表現と投票という手段によって、ステレオ問題の定式化に伴う3次元の複雑な計算を、現実的な計算量として可能にしたことである。1例について段階毎に図解し、ランダムドットステレオグラムと実際のステレオ画像の両方について、同一パラメータ集合による結果を示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


OCRを使わない文書画像のテキスト検索
Imaged Document Text Retrieval Without OCR

Chew Lirn Tan, Weihua Huang, Zhaohui Yu, Yi Xu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.838-844, June 2002

Keywords: Document image analysis, document vector, text similarity, text retrieval

OCRを使わないで文書画像からのテキスト検索を提案する。まず、文書画像は、連結成分を利用して、各文字のオブジェクトが切り出される。画像特徴として、垂直交差密度(VTD; 縦方向の走査線による黒領域の交差回数)と、水平交差密度(HTD)が抽出される。これら特徴量について、n-gramに対応する文書ベクトルが構築される。文書間の類似度は、このベクトルの内積で計測される。英語と中国語、およびUW1データベース中の文書画像による試験では、この手法の有効性が確認された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2方向フィルタリング、適応的スムージング、非線形拡散方程式の間の基本的関係
A Fundamental Relationship between Bilateral Filtering, Adaptive Smoothing, and the Nonlinear Diffusion Equation

Danny Barash

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.844-847, June 2002

Keywords: Bilateral filtering, anisotropic diffusion, adaptive smoothing, denoising

多くに応用において、画像のエッジを保ちながら画像のスムージングが必要になる。本論文では、2方向フィルタリングと非等方拡散の関係について吟味した。2方向フィルタリング法は非線形のディジタル画像フィルターの大きな割合を占めている。先ず最初に、非等方拡散と適応的スムージングほ関係を調べる。以前は、適応的スムージングは非線形拡散方程式とは不整合が近似と見なされていた。我々は適応的スムージングを拡張し、これと整合性を持たせ、非線形ディジタル画像フィルターと非線形拡散方程式を統一した視点から取り扱うことを可能にした。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


測光的不変領域とエッジ情報を組み合わせた適応的画像セグメンテーション
Adaptive Image Segmentation by Combining Photometric Invariant Region and Edge Information

Theo Gevers

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.848-852, June 2002

Keywords: Image segmentation, adaptive splitting, integrating region and edge information, photometric color invariance, noise robustness

ドローネの3角形分割法を利用した適応的画像セグメンテーション法が提案されている。このドロ−ネ3角形分割のモザイク格子は、領域やエッジ情報をいっしょに考慮することによって画像の構造に適応させることができる。陰影、影、照明、ハイライトと言った撮像条件にロバストに適応するために、測光不変類似尺度とエッジ演算を提案する。合成画像と実画像に対する実験では、セグメンテーション結果はエッジの方位や、部分的にはっきりしない境界、ノイズのある均一領域に対してもロバスト(頑健)であった。さらに、本手法は変化する撮像条件の大きな変化に対してもロバストであった。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最尤画像マッチング
Maximum-Likelihood Image Matching

Clark F. Olson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.853-852, June 2002

Keywords: Image matching, tracking, stereo, maximum-likelihood estimation

追跡やステレオの用途には、画像マッチングは通常的に差分2乗和(SSD)が最適マッチの尺度として利用される。しかし、この尺度は、例外データに敏感であり、テンプレートの変動にロバストではない。これよりもっとロバストな代替尺度が提案されている。これを確率論的定式化によって改良し、エッジテンプレートマッチングや中間調画像マッチングの両方に利用できる、最尤推定の意味での画像マッチング法を提案する。この定式化によって、従来のエッジマッチング法が距離変換に基づいて一般化される。この手法をステレオマッチングや特徴追跡に応用する。推定に不確実性を導入することによって、特徴量の局所的不確実性を最小にするような特徴量を選択できるようになる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


曲率強調テンソルの投票によるノイズの多い3Dデータの形状推定
Curvature-Augmented Tensor Voting for Shape Inference from Noisy 3D Data

Chi-Keung Tang, Gerard MedioniChi-Keung Tang, Gerard Medioni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 6, pp.853-864, June 2002

Keywords: Tensor, curvature, shape description, surfaces and curves

ノイズのある3Dデータの各入力部分における主曲率の方向と符号を推論するための基底テンソル投票法を改良した。従来のほとんどの手法と異なり、我々の手法では局所的な局面フィッティングや、部分導関数とか、有向垂線ベクトルの復元法などの手法は使わなかった。これらの手法は、しばしば正確な部分導関数が必要であるが、部分導関数は得られないことも多いため、ノイズに敏感であることが知られている。さらに、ガウス関数の曲率の符号を検出する手法と異なり、ガウス曲率が均一にゼロであっても、この部分だけを別の処理に回すことなく扱うことができる。このテンソル投票による曲率推定法は反復演算を必要とせず、初期化も不要で、大量の例外ノイズに対してもロバストである。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.7


能動的ビジョンを利用した位置同定と地図構築の同時作業
Simultaneous Localization and Map-Building Using Active Vision

Andrew J. Davison, David W. Murray

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.865-880, July 2002

Keywords: Active vision, simultaneous localization and map-building, mobile robots

ロボットナビゲーション用のマップ(地図)は、自分で構築しながら利用する訳だが、ロボット位置の予測と地図化された特徴量相互の関連に関する詳細な知識に頼る必要があることが分かっている。信号検知(センシング)に、能動的手法を採用することによって広い視野にわたって焦点が合った測定が可能になる結果、自己位置同定と同時にマップ構築(Simultaneous Localization and Map-Building(SLAM))を正しく定式化することが可能になる。そして、自動検出可能な自然特徴量のみを使って、継続的長期的な位置同定が可能となる。本論文では能動的映像取得(active vision)を利用して自動的自己位置検出のための最初の汎用的アルゴリズムを紹介し、高能率ステレオヘッドカメラの利用によって不確条件下での測定対象選択、自動的マップ保守、目的地へのナビゲーションのような事柄について述べる。複雑な環境下における変化に富む実時間実験も紹介する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的k-meanクラスタリングアルゴリズム:解析と実装
An Efficient k-Means Clustering Algorithm: Analysis and Implementation

Tapas Kanungo, David M. Mount, Nathan S. Netanyahu, Christine D. Piatko, Ruth Silverman, Angela Y. Wu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.881-892, July 2002

Keywords: Pattern recognition, machine learning, data mining, k-means clustering, nearest-neighbor searching, k-d tree, computational geometry, knowledge discovery

k-meanクラスタリング法ではd次元空間R^d中のn個のデータ集合と整数値kが与えられる。課題はR^d空間中のk個の各中心と、これに最も近いデータ点の平均二乗距離が最小になるようにすることである。最も良く知られているk-meanクラスタリングアルゴリズムの1つにLloydアルゴリズムがある。本論文では、単純で効果的なLloydのk-meanクラスタリングアルゴリズム(我々はフィルタリングアルゴリズムと呼んでいる)を示す。これは実装が簡単であり、kd木を必要とするが、これが唯一の求められるデータ構造である。このフィルタリングアルゴリズムの実用的効率を2つの方法で達成した。1つはアルゴリズムの計算時間をデータ依存型解析によって紹介する。これによれば、クラスタリングの分離が進行するに従って処理速度が向上する。第2に、人工的に作られたデータや、カラー量子化、データ圧縮、画像セグメンテーションなどの目的に現実のデータ集合を適用した多くの実験結果を示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2段階識別の理論と実験の解析
Theoretical and Experimental Analysis of a Two-Stage System for Classification

Nicola Giusti, Francesco Masulli, Alessandro Sperduti

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.893-904, July 2002

Keywords: Multicategory classification, rejection, global and local classification, hierarchical classifier, Bayes classifier

マルチカテゴリー化を実行するために、我々は有名なグローバルクラスタリングを第1に実行し、ここで拒絶されたデータに対して第2の局所的最近傍クラスタリングを行う2段階手法について考察する。第1のクラスタリング処理で拒絶されなかったパターンは、出力された結果によって直ちにクラス分けされる。第1識別処理で拒絶されたパターンは、第2の識別器である最近傍識別器にかけられるが、このとき第1の識別結果が上位h番目までの順位のパターンは、第2識別器の参照パターンとして利用される。最近傍識別器は、上位hの結果を見ながら、第1で拒絶されたパターンを識別する。第2の最近傍識別器は第1の識別器の制御を受けるが、全体の識別効率が最大になるように、最近傍識別器の参照データベースの編集戦略についても考察がなされた。このシステムを解析した結果、第1識別器と最近傍識別器の設定がベイズ理論から見て最適とは言えなくても、全体としては最適らしいことが分かった。更に、第1識別器の拒絶率や、他のパラメータと全体の処理時間の関係を求めた。また、誤識別と演算時間のトレードオフについても考察した。最後に、手書き数字認識における2つの場合について実験した。その1つの場合では第1識別器をファジー関数ネットワークに基づくものとし、第2の場合ではこれをフィードフォワード型ニューラルネットワークとした。この両者についての識別率、レスポンス時間、パラメータによる差、についても報告する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


有向場の系統的演算法と指紋の特異点
Systematic Methods for the Computation of the Directional Fields and Singular Points of Fingerprints

Asker M. Bazen, Sabih H. Gerez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.905-919, July 2002

Keywords: Image processing, fingerprint recognition, directional field, orientation estimation, singular point extraction, principal component analysis

本論文の第1の課題は指紋の高解像有向場の推定である。従来法について考察し、主成分分析に基づく新規な方法を提案する。新方法は任意の画素位置において方向成分を算出するだけでなく、そのコヒーレンス性についても計算する。本手法は、既知の「平均化勾配平方法」と等価であることが証明できる。このような、等価であるが全く異なる手法によって問題の本質がより良く見通せるようになる。本論文の第2の課題は特異点の検出である。高解像度の有向場中の特異点を効率的に見つけるアルゴリズムを提案する。このアルゴリズムはポアンカレ指標に基づいており、この手法は、特異点の連続類似尺度を閾値によって判定するような後処理に頼らない2値決定法と整合性がある。さらに、抽出された特異点の方位推定法も紹介する。この手法の精度は実際の指紋に適用した実験によって示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オフライン手書き単語認識への適応的手法
An Adaptive Approach to Offline Handwritten Word Recognition

Jaehwa Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.920-931, July 2002

Keywords: Pattern recognition, handwritten word recognition, adaptive word recognition

手書き単語認識の適応的手法を提案する。適応性を持たせるための鍵となるアイデアは、1)正解を得るため最小限の識別精度を要求する画像特徴の部分集合を能動的かつ連続的に選択し、2)多重解像度特徴空間における整合性のある決定尺度を求めると同時に語彙との関係を考慮することにある。このため、柔軟性のある文字識別法と演繹的決定法の関係に基づいた再帰的様式が開発された。まず、最小限の特徴量を利用した初期の荒っぽい認識から始まり、判定器が満足するまで特徴量を再帰的に追加しながら判別能力を適応的に増加させていく。受容可能な解が得られるための演算コストを推定するために、統一的判定尺度、認識確信度、が次の2つの尺度から導かれる:パターン確信度、形状特徴を使った絶対確信度、および、文字列の相対的相違の評価による語彙確信度。これを使ったアメリカ合衆国の手書き住所認識を行う実用的システムが出来た。従来の非適応的システムに比べ、最大4%の認識率向上が達成された。この実験から、従来と同じ数の特徴量を利用しながら、正解を与える本提案手法の妥当性が示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複雑な構造の実時間画像追跡
Real-Time Visual Tracking of Complex Structures

Tom Drummond, Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.932-946, July 2002

Keywords: Visual tracking, real-time, 3D, Lie groups, articulated motion

本論文では3次元モデルに基づく追跡法の新規な枠組みを紹介する。グラフに基づく描画手法は、制限付き能動的輪郭追跡法と連携することで、ロバストなワイヤーフレーム追跡システムを構築できる。これは、標準的なハードウエアによるビデオレート(25Hz)の、実時間演算が可能である。これは内部に追跡すべきオブジェクトのCADモデルを有しており、陰線除去のために2値空間分割木を利用してオブジェクトが描画される。従って、各フレームでの可視エッジ特徴量はオンライン同定され、その結果対応付け処理はビデオ画像の供給速度でなされる。動き追跡演算は、リー群の定式化を利用することで簡単な幾何問題に帰着し、その結果、追跡問題は再帰的再重み付け最小2乗によって解ける最適問題となる。この枠組みによって構築される視覚的サーボ制御の結果は、追跡器の精度といっしょに示してある。このシステムは内部のカメラパラメータをオンライン・実時間で較正する。次に、この追跡システムを拡張した、多数カメラへの適用、連結部品からなる構造の追跡、制限付き多数構造などを含む複雑な構成の追跡などの一般化された枠組みについて紹介する。ここで用いた手法はリー群の単純な幾何学的性質(制限条項の線形化、均一化)を利用している。群の随伴表現を利用することで測定値を一般的な座標値に置き換えることができる。制約条件はラグランジェ乗数の形で定式化される。このフレームワークによる多数の実験結果を示し、考察した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動き計算無しのレベル集合編微分方程式による境界追跡法
Region Tracking via Level Set PDEs without Motion Computation

Abdol-Reza Mansouri

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.947-961, July 2002

Keywords: Region tracking, Bayesian estimation, level set equations, image sequence analysis

画像系列中の領域追跡は、自動ビデオ監視、ビデオデータベース検索、自動ビデオ編集などの画像処理やコンピュータビジョン分野で多くの応用が期待される挑戦に値する困難な問題である。今まで多くの領域追跡法が提案されている。これら多くは、追跡対象の動き領域に過剰な制約がはめられており、その結果、アフィン変換やユークリッド空間条件のような明確な動きモデルを当てはめていた。また、パラメータ化された動きモデルを必要としないモデルでは、高密度の動き場を必要としていた。一般的には、多くの従来法は、ある種の動き情報に頼っている。また、動き情報を必要としない場合には、追跡される領域のモデルが必要であった。代表例を言えば、境界が明瞭であるとか、領域の形状がパラメータの集合で表現できるとかであった。本論文ではベイズ公式から導かれる新規な領域追跡法を提案する。このアルゴリズムの新規性は2つある:第1に、動き場とか動きパラメータを使う必要がない。これによって主要な負荷が取り除かれたことになる。なぜなら、動きを正確に計算することは今でも困難な問題であるし、境界追跡アルゴリズムの品質は計算された動き場とパラメータに依存している。本手法の第2の新規性は、このアルゴリズムでは追跡領域に関する先験知識はほとんど必要ないことである。殊に、多くの追跡あるゴリリズムと異なり、追跡される領域の境界の強さに対する仮定がないことである。領域追跡アルゴリズムはベイズ推定問題として定式化されており、これによる追跡アルゴリズムは編微分方程式として表現されている。この編微分方程式はさらに拡張され、追跡中に強度境界の先験確率を取り込むような、他のパラメータを追加できる。この数値計算の詳細について述べる。自然画像とカメラの動きを伴う沢山の実画像系列の処理結果から、大変有望な実験結果が得られた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3D空間中のディジタル曲線と、時間線形な曲線長推定アルゴリズム
Digital Curves in 3D Space and a Linear-Time Length Estimation Algorithm

Thomas Bulow, Reinhard Klette

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.962-970, July 2002

Keywords: Digital geometry, curve length, space curves, cellular complexes

特殊な多面体で仕切られた、3D直交格子中に存在する単純なディジタル曲線集合を考える。これらディジタル曲線は、曲線や弧を3次元ユークリッド空間中でモデル化する。このような単純なディジタル曲線の長さは、ディジタル曲線のチューブに完全に含まれる完結した多面体曲線の最小長さとして定義することができる。このような多面体最小長曲線(shortest polygonal curve)の算出法は今まで知られてない。本論文は、単純ディジタル空間中における多面体最小長曲線を求める反復計算法を示す。このアルゴリズムの実験結果とともに理論的基礎も示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多重解像度中間調と局所2値パターンに基づく回転不変テクスチャーの識別
Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns

Timo Ojala, Matti Pietikainen, Topi Maenpaa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.971-987, July 2002

Keywords: Nonparametric, texture analysis, Outex, Brodatz, distribution, histogram, contrast

本論文は理論的には極めて単純なことを扱っているが、極めて効果的な多重解像法を中間調処理に応用し、局所的2値パターンと非パラメトリックな識別に基づく回転不変な標本とプロトタイプ分布の識別について述べている。この方法は、ある局所的な2値パターン、これを均一(uniform)と称する、は局所的性質画像テクスチャーの基本的性質であり、その生起ヒストグラムは極めて有力なテクスチャーの性質である。ここで一般化中間調(generalized gray scale)と、均一なパターンを検出することが可能な回転不変演算子表現を導こう。そのとき、角度空間量子化や、任意の空間解像度においても不変である、多重解像度解析のための多重演算子の組合せ方法を示そう。ここに提案する方法は、演算子が任意の中間調スケールの単調変換において不変であるように作られているから、極めてロバストである。もうひとつの利点は演算の簡易性であり、近傍の演算とルックアップテーブル参照を少量実施するだけでその演算を実現できる。識別器を特定の角度について訓練し、他の回転角度のサンプルでテストする方法によって、回転不変の実際の問題に対してすばらしい実験結果が得られたことから、単純な回転不変の局所2値パターンの生起統計に基づくこの手法の優れた性能が実証された。これらの演算子は局所画像テクスチャの空間構造を特徴づけし、局所画像テクスチャのコントラストを特徴付ける回転不変分散尺度と組み合わせることで更に改善される。これらの直交尺度の結合分布から、この尺度が回転不変テクスチャ解析の強力なツールであることが実証される。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


RKHS補間に基づくグラフマッチングアルゴリズム
A RKHS Interpolator-Based Graph Matching Algorithm

Michael A. van Wyk, Tariq S. Durrani Barend J. van Wyk

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.988-995, July 2002

Keywords: Graph matching, attributed relational graphs, reproducing kernel Hilbert space theory, combinatorial optimization, neural networks, pattern matching, image processing

本論文では属性グラフマッチングを実行する新規なアルゴリズムを紹介する。このアルゴリズムはカーネルヒルベルト空間再生の理論に基づく機能的に拡張した補間器を記述するための枠組みによって導かれる。この理論は属性グラフに基づく広範囲のグラフマッチング問題に組み入れることが可能で、グラフ構造を多数の属性集合に基づくようにすることが出来る。グラフがマッチする隣接構造については何の仮定もしなかった。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テンプレートマッチングのための超平面近似
Hyperplane Approximation for Template Matching

Frederic Jurie, Michel Dhome

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.996-1000, July 2002

Keywords: Visual tracking, motion estimation

Hager と Belhumeurは最近ビデオ画像中のオブジェクト追跡の一般的枠組みを提案した。これは標的領域の画像の動き検出のための低次パラメトリックモデルである。これらのモデルは動き推定と標的追跡に利用される。ある画素が注目領域に属しているか、あるいは、オフラインで学習した選択標的に属しているか、その強度の違いによって、注視画像中の領域の位置が直接推定可能となる。この論文の主旨はこの枠組みの中での重要な改善を提案することであり、これによって同一演算量での収束を早める。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ギッブス場の学習:精度と速度の見積もり
Learning in Gibbsian Fields: How Accurate and How Fast Can It Be?

Song Chun Zhu and  Xiuwen Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp.1001-1006, July 2002

Keywords: Markov random fields, minimax entropy learning, texture modeling, Markov chain Monte Carlo, maximum-likelihood estimate, importance sampling

ギブス場、あるいはマルコフ場は広くベイズ法による画像解析に利用されている。しかし、ギブスモデルの学習は演算コストが高い。演算コストは、広い近傍領域と数百のパラメータを利用する最近のミニマックスエントロピ(minimax entropy(FRAME))モデルによって評価することができる。本論文では、ギブスモデルを学習するための共通の枠組みを示す。ギブスモデルを学習するための2つの鍵となる因子、精度と速度、を同定した:尤度関数の効率と、分配関数の近似における分散をモンテカルロ積分を利用して。ここに3つの新規なアルゴリズムを提案する。特に、maximum satellite likelihood estimatorに注目する。これはsatelliteと呼ばれる尤度関数を近似するための予測ギブスモデルの集合を利用するものである。このアルゴリズムによってテクスチャのミニマックスエントリピーモデルをHPワークステーション数秒で近似推定できる。色々な学習アルゴリズムが我々の実験で比較された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.8


指紋の個人性について
On the Individuality of Fingerprints

Sharath Pankanti, Salil Prabhakar, Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1010-1025, August 2002

Keywords: Fingerprints, individuality, identification, minutiae, probability of correspondence, biometric authentication

指紋が認証に利用されるには、2つの基本的前提の上に成り立っている:1)不変性:つまり指紋は時間が経っても変化しない、2)個人性:つまり指紋は個人ごとに異なる。この最初の前提の妥当性は解剖学や、指の摩擦を生じる隆起構造の形態形成からも立証されている。第2の前提は経験的に多分正しいであろうとされているが個人性がなりたつことが科学的に正式に確立されているわけではない。その結果、いくつかの法廷において指紋の有効性が争われている。指紋の個人性は法廷での指紋同定が認知されるための科学的確立につながるだけでなく、自動個人認証システムの有効性の上限を与えることにもなる。この個人同定の問題点に対して、指紋画像の詳細な特徴量から得られる情報を定量化し、2つの指紋の対応関係を確立したい。異なる指から得られた2つの指紋画像が間違って同一視される確率を式によって表した。例えば、36個の微細特徴を含む2つの指紋が12個の微細特徴を同一とする確率は6.10×10^(-8)である。この確率を代表的指紋認識器の精度と比べてみた。その結果、1)一般の認識とは異なり指紋の合致は絶対的なものではなく、同じような間違った関連性に結びつける恐れがある、2)指紋には驚くほどの量の識別情報があるが、読み取られた指紋画像のノイズの量に従って、その証拠性の強さは急激に減少する。3)最新の指紋照合器であっても、理論的限界には程遠い。4)詳細特徴量のみにもとづく指紋の自動照合システムは指紋の情報の一部しか利用してないため、自動照合ではこれを補完する他の特徴を探索することが望まれる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Blobworld:予測最大化法を使った画像のセグメンテーションと画像検索への応用
Blobworld: Image Segmentation Using Expectation-Maximization and Its Application to Image Querying

Chad Carson, Serge Belongie, Hayit Greenspan, Jitendra Malik

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1026-1038, August 2002

Keywords: Segmentation and grouping, image retrieval, image querying, clustering, Expectation-Maximization

画像の内容をキーとして、大量のデータベースから画像検索をすることは、困難だが重要でやり甲斐のある課題である。我々が開発した、画素からなる原画像をカラーやテクスチャーに対応する小領域の集合に分割する画像表現方法について紹介する。この表現を構成する小領域をブロッブ(blob)と呼ぶことにし、この表現法をBlobworld表現と呼ぶ。これは、カラー−テクスチャー−位置、の結合情報で記述される特徴空間を有する。このセグメンテーションアルゴリズムは完全自動であり、10000枚の自然画像に対して実績がある。この自然画像集合からの画像検索を行うためのBlocworld表現システムについて述べる。このシステムの重要な点は、ユーザーが画像の内部表現を観察できることである。類似のシステムでは、このようなユーザーによる視認性を許していない。その結果、類似システムでは、類似度尺度の調節機能があったとしても、問い合わせ画像に対する説明ができないことになる。対象画像の領域に近い画像を見つけることによって、グローバルな画像特徴ではなく、対象物個々の画像特徴で問い合わせが可能になる。このBlobworldによる画像検索によって、明確な対象物が存在する場合には、グローバルなカラーやテクスチャーのヒストグラムを利用するよりは、高精度となることを結果で示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ITU-T(CCITT)ファクシミリグループ3/4における連結画像抽出法の演算量の低減
An Algorithm with Reduced Operations for Connected Components Detection in ITU-T Group 3/4 Coded Images

Emma Regentova, Shahram Latifi, Shulan Deng, Dongsheng Yao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1039-1047, August 2002

Keywords: Document image, CCITT(ITU) Group 3/4 compression, MH/MR/MMR, connected components

ITU-T(CCITT)ファクシミリグループ3/4、すなわち、MH/MR/MMRによって圧縮された画像情報を復号する過程で必要となる、連結成分を高速に検出するアルゴリズムについて述べる。MR/MMRコードによって、黒ランが隣接走査線間で連結しているかどうかを解析するために、復号で必要になるモードカラーと新遷移の定義について紹介する。CCITTの標準原稿8枚による実験では、平均的にはMR//MMRコードの直接処理の場合はラスター操作したMHのコードに比べて20〜25倍の高速である。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


工学図面のためのオブジェクト指向プログレッシブ単純化法によるベクトル化システム:モデル、アルゴリズムとその性能
An Object-Oriented Progressive-Simplification-Based Vectorization System for Engineering Drawings: Model, Algorithm, and Performance

Jiqiang Song, Feng Su, Chiew-Lan Tai, Shijie Cai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1048-1060, August 2002

Keywords: Vectorization, raster-to-vector, engineering drawing, object-oriented model and algorithm, graphics recognition, performance evaluation

既存の工学図面ベクトル化システムでは次のような2段階にステップを経る:ラスター画像をまず生ベクトルに変換し、次に生ベクトルから図形オブジェクトを認識する。第1段階として、実際のオブジェクトが見かけ上いくつかの他のオブジェクトに接触したり交差しているため、図形オブジェクトをいくつかの部品に分解することが行われるため、第2段階では同一オブジェクトに属する生ベクトルを探索したり併合したりすることに困難が伴う。これらの処理によってベクトル化速度が落ちるし認識制度も低下する。人間の認識過程を真似て、我々は各グラフィックオブジェクトが持つ自然な特徴を利用した、1回のフェーズによるオブジェクト指向ベクトル化によるクラス別認識方法を提案する。実証済みの各グラフィックオブジェクトは画素全体を利用して直接認識される。認識されたオブジェクトをラスター画像から順次除いていくことで簡単化し、認識が順次単純化する。本提案モデルの有効性を実証するために現実の図面を対象に実験し、第3者の手続きによって定量的解析を行った。その結果は認識速度と制度の両面で顕著な改善が見られた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2D上の動きの軌跡抽出と手話認識への応用
Extraction of 2D Motion Trajectories and Its Application to Hand Gesture Recognition

Ming-Hsuan Yang, Narendra Ahuja, Mark Tabb

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1061-1074, August 2002

Keywords: Motion segmentation, motion analysis, motion trajectory, American Sign Language, hand gesture recognition, time-delay neural network

連続画像中から、動きの軌跡に基づく2次元の動き抽出・識別アルゴリズムを紹介する。第1に多重スケールのセグメンテーションを実行し、各フレーム内での均一な領域を作る。連続フレーム間の領域は2つの視野の対応付けによってマッチング処理される。対応付けされた各領域からアフィン変換が計算される。連続画像間のマッチング画素領域の対はつなぎ合わされて連続画像をまたがった画素レベルの軌跡を表す。時間遅延ニューラルネットによって抽出された軌跡から動きパターンが学習される。この方法を使って40種のアメリカ手話の認識に応用した。動き軌跡をを使った実験結果では、手話パターンは正確に抽出/認識された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


フィルタリングと抽出による識別のための有用な規範コンセプトの発見
Discovering Useful Concept Prototypes for Classification Based on Filtering and Abstraction

Wai Lam, Chi-Kin Keung, Danyu Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1075-1090, August 2002

Keywords: Prototype learning, classification, instance abstraction, machine learning, data mining

最近傍アルゴリズムとその微分は、パターン識別に有効であることが分かっている。本手法はこの識別能力の高さにもかかわらず、膨大な蓄積メモリーや、演算量の大きさ、ノイズに対する敏感さなどの問題点を持っていた。我々はICPL (統合規範コンセプト学習器、Integrated Concept Prototype Learner)と呼ばれる新しいフレームワークを開発した。これは事例が局在することを利用して各種のコンセプトプロトタイプ(規範プロトタイプ)フィルタリング処理を均衡させ保持する事例抽出手法である。抽出された成分は、それがどれほど典型的であるかに応じて、ICPLフレームワークに採用される。これを50個の実例データ集合に試行した。その結果ICPLフレームワークは、既存のフィルタリング処理や抽出処理、あるいは他の既知の方法に比べて優れた識別精度を保ち、データ量を顕著に減少させることが出来ることがわかった。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多次元インデックスによる人の行動認識
Human Activity Recognition Using Multidimensional Indexing

Jezekiel Ben-Arie, Zhiqian Wang, Purvin Pandit, Shyamsundar Rajaram

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1091-1104, August 2002

Keywords: uman activity recognition, multidimensional indexing, sequence recognition, human body part tracking, EXpansion Matching (EXM)

本論文では、ビデオ画像から視覚に基づく人の動作の新規認識方法の開発について述べる。本手法はたった数コマの画像を観察するだけでビデオ画像中の動作を同定することができる。この基本的アイデアは、ビデオから疎に標本化された体の姿勢から、その動作を陽に同定することである。この手法では、体の主要部分(手、足、胴体)の姿勢と速度ベクトルの集合によって、多次元のハッシュテーブル中に動作が表現される。我々は指標付けと系列化によって、連続姿勢ベクトルのロバストな認識ができる理論的基礎を確立したが、このためには画像の数コマの姿勢ベクトル(ビデオフレーム中における標本化された体の姿勢)があれば足りる。誤認識は標本化する体の姿勢数の増加に応じて指数関数的に減少する。従って、数個の体の姿勢のマッチングによって正しい結果を高精度に認識することが保証される。この手法は並列処理であり、従って一回の指標化処理によって、あらゆるモデル化された行動のすべてが調べられる。これは全てのモデルがハッシュテーブルに収納されていることによる。更に、部分的な画像の隠蔽にもロバストに対応できる。これは体の一部が個々に指標化されていることによる。我々は逐次投票処理を使うことによって、実時間の動作不変量を認識する。ビデオ画像による8つの異なる動作認識実験の結果、ロバストな認識が示された。また、4度から30度という視野角度の変化に対してもロバストであった。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


表面署名:方位に独立な自由形式の表面表現方式によるオブジェクトの位置合わせとマッチング
Surface Signatures: An Orientation Independent Free-Form Surface Representation Scheme for the Purpose of Objects Registration and Matching

Sameh M. Yamany, Aly A. Farag

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1105-1120, August 2002

Keywords: Surface signatures, object registration, object matching, free-form surface representation

本論文は、オブジェクトの位置合わせとマッチングのための方位に独立な自由形式の表面表現法を紹介する。コンピュータビジョンにおいて正確な表面位置合わせはよくある課題の1つである。ここに提案する方法では、ある方向から見える表面曲率情報を把握し、これに対応する「表面署名」と称する画像を生成する。異なる表面に対応する表面署名をマッチングすることで、これら表面間の変換パラメータを復元することが可能となる。我々はテンプレートマッチングを利用してこれら署名画像の比較を行う。部分マッチングを可能にするために、もう1つの基準であるオーバーラップ率を定義する。この表現によって表面の部分表現だけでなく全体表現にも適用できるし、実時間に近い高速の位置合わせが可能となる。この署名表現は3D情景のオブジェクトマッチングだけでなく、スケール変換にも利用できることを示す。ここに示す応用例は:自由形式オブジェクトマッチング、マルチモードの医用体積位置合わせ、口腔画像からの歯の再生などである。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンライン指紋テンプレートの改良
Online Fingerprint Template Improvement

Xudong Jiang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1121-1126, August 2002

Keywords: Fingerprint verification, minutia set, template improvement, multiple fingerprints

本研究では、多数の指紋細部特徴の併合や平均化によって指紋テンプレートの改良を提案する。重み付き平均化では、皮膚や画像撮影条件に従って、時間とともに徐々にテンプレートが変化する。このアルゴリズムの回帰特性によって、蓄積画像量と演算量を大きく減少させることができた。その結果、ここに提案する指紋テンプレートは指紋検証プロセスにおいてオンラインで追従することができた。十分な実験によって、このアルゴリズムの有効性が実証できた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


双眼半隠蔽点の検出:5つの手法の実験的比較
Detecting Binocular Half-Occlusions: Empirical Comparisons of Five Approaches

Geoffrey Egnal, Richard P. Wildes

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1127-1133, August 2002

Keywords: Stereo matching, binocular half-occlusions, three-dimensional vision, empirical comparisons

双眼画像における半隠蔽点とは双眼鏡で見える2つの画像のうち、一方だけ見えない点のことである。双眼画像でのマッチングでの重要性から、当面の課題である多数の隠蔽点処理方式を開発した。本論文では、半隠蔽点を検出する5つの手法を考察し、従来実施されたよりずっと一貫性のある比較を行った。一致しない2つの画像と、その不一致度を入力情報として、対象情景画像の半隠蔽点の画像を生成した。これらの手法を、色々な条件下で、定性的、定量的に評価した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き文字画像抽出のための、双方向に変形可能なマッチング
Bidirectional Deformable Matching with Application to Handwritten Character Extraction

Kwok-Wai Cheung, Dit-Yan Yeung, Roland T. Chin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1133-1139, August 2002

Keywords: Model-based segmentation, deformable models, Bayesian inference, bidirectional matching, Hausdorff matching

複雑な情景画像のセグメンテーションや認識課題を統合的に達成するためには、モデルに基づく手法が有望な手法として広く使われている。しかし、その性能は、対象物の変形が大きいとか例外的混入情報(outlier)が多いときにはとても満足できるものではない。本論文では2つのベイズ法による枠組みを紹介する。その1つは、入力パターンを識別するもので、他の1つは、変形モデルを使って複雑な情景中から標的パターンを検出するものである。次に、2つの枠組みは、ハウスドルフマッチングの前進・後退設定と類似しており、このマッチングと識別特性は互いに補完関係にあることを示す。2つの手法を適切に組み合わせることによって、双方向マッチングという新規なマッチング法を提案する。この混合手法は2つのベイス手法の特長を兼ね備えている。特に、変形の激しいCEDAR手書き文字データベースを用いて、形状に基づくパターン抽出に関する有望な実験的結果を得ることができた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像に基づくモデル化とレンダリングのためのマッチング伝播
Match Propagation for Image-Based Modeling and Rendering

Maxime Lhuillier, Long Quan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1140-1146, August 2002

Keywords: Quasi-dense matching, stereo vision, image-based modeling, rendering

本論文は、マッチング伝播原理に基づく、画像間の準稠密マッチングアルゴリズムを紹介する。このアルゴリズムは、まばらに点在する種(シード)のマッチングまず実施し、最適なものから順次決定するbest-first戦略に従って隣接画素に伝播させていき、準稠密な相違マップを生成する。この準稠密マッチングは、マッチング情報に深く依存しながら、広範囲のモデル化と可視化を目指している。このアルゴリズムは、最適なものから始めるbest-first戦略のため、初期の疎な例外点へのマッチングの場合でも、ロバストに適応できる。これは計算時間に関しても、メモリー空間に関しても効率的であり、マッチングする最終の数のみに依存するため、出力に鋭敏であるということができる。これは、新規に導入した2D勾配相違度限界と一意性の制限のため同時制約条件をつけられるので、半隠蔽領域も扱うことができる。このアルゴリズムの性質いついて考察し、実験によって実証した。準稠密マッチングの性能の妥当性は、多くの実画像に適用することで実証した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正規化Kemeny and Snell距離:画像の順序類似度の新規な定量的評価尺度
Normalized Kemeny and Snell Distance: A Novel Metric for Quantitative Evaluation of Rank-Order Similarity of Images

Jiebo Luo, Stephen P. Etz, Robert T. Gray, Amit Singhal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 8, pp.1147-1151, August 2002

Keywords: Image similarity, rank ordering, spatial layout, Kemeny and Snell distance

画像の類似度を測る方法の1つとして、順序類似度を評価する方法がある。画像理解アルゴリズムが与える重要領域地図や、人間の観察者による順序付けの結果、画素位置の順序類似度が得られる。Kemeny and Snell距離(d_KS)とともにこれに関する3つの課題を紹介する。これは通常の順序理論から得られる従来の尺度であるが、これを画像に適用した場合には、大きな演算量、ヒストグラムが疎であるほうに偏りやすい傾向、画像サイズに依存する数値範囲、の性質がある。我々は新規な効率的演算が可能なアルゴリズムである画像サイズに独立な正規化距離を示す。2つの画像の類似度を評価するための画素の順位と見なすことができるd_KSは、相互相関係数よりは主観的に優れている。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.9


劣化画像データに基づいた、ターゲット認識性能の情報理論的限界
Information-Theoretic Bounds on Target Recognition Performance Based on Degraded Image Data

Avinash Jain, Pierre Moulin, Michael I. Miller, Kannan Ramchandran

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1153-1166, September 2002

Keywords: Object recognition, automatic target recognition, imaging sensors, multisensor data fusion, data compression, performance metrics

本論文は、リモートセンサーで観測されたターゲット画像における、統計的物体認識システムの性能限界を導出する。検出及び認識問題は、設定が困難なパラメタを含む複合仮説検定問題としてモデル化される。我々は、センサーとデータの統計的モデルに基づいた、ターゲット認識性能の情報理論的限界を明らかにし、どのような条件下でその限界がより厳しいかについて実験を行う。特に上で述べた問題の誤り確率の漸近近似についての検証を行う。最も好ましくない、ガウシアン散乱と同様に、ガウシアンノイズ、ポアソンノイズ、そして乗法性ノイズ、ならびに任意の画素の消去を考慮に入れている。本稿では、圧縮されたセンサー画像データを含む6つの応用について詳細に考察する。本研究では、込み入った非ガウシアンモデルにおける解析的特徴付けターゲット認識性能と、システムパラメタの最適化に対する、体系的且つ計算論的に魅力的なフレームワークを示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


超解像度の限界、そしてそれを破る方法
Limits on Super-Resolution and How to Break Them

Simon Baker, Takeo Kanade

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1167-1183, September 2002

Keywords: Super-resolution, analysis of reconstruction constraints, learning, faces, text, hallucination, recogstruction

殆どの超解像度アルゴリズムは、基本となる拘束条件に基づいている。この条件とは即ち、画像形成処理をモデル化するように、適切に変形させ、ダウンサンプリングすれば、超解像度画像は低解像度入力画像を生成する、というものである。(これらの再構成のための拘束条件は、解を正則化するための、何らかの形の平滑性事前知識と組み合わされるのが普通である。) 本稿の最初のパートで示す一連の解析結果によれば、画像の拡大率が増大するに従い、再構成拘束条件が提供する有用な情報はより少なくなっていく。これらの解析結果は経験的にも実証され、それによると充分に大きな拡大率の下では、いかなる平滑性事前知識も、高周波成分が極端に少ない、過度に平滑な結果を導くことが示される。(しかし、多くの低解像度入力画像が用いられている。) 本稿の第二のパートでは、再構成拘束条件に加え、従来とは異なる種類の拘束条件を用いる、超解像度アルゴリズムを提案する。このアルゴリズムは、まず低解像度画像の局所特徴を認識しようと試み、次に入力画像の解像度を適切な方法で高める。我々はこのような超解像度アルゴリズムを、幻影(hallucination)アルゴリズムもしくは認識再構成(reconstruction)アルゴリズムと呼ぶ。2つの異なるデータセット(顔の前面画像と印刷されたローマン字体テキスト)に対して、幻影アルゴリズムを試験した結果、定性的にも、画素値誤差のRMSという面でも、我々のアルゴリズムは、現行の再構成に基づくアルゴリズムよりも、有意に優れるという結果が得られた。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


SVMからブーストアルゴリズムを構成する:単一クラス識別における応用
Constructing Boosting Algorithms from SVMs: An Application to One-Class Classification

Gunnar Ratsch, Sebastian Mika, Bernhard Scholkopf, Klaus-Robert Muller

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1184-1199, September 2002

Keywords: Boosting, SVMs, one-class classification, unsupervised learning, novelty detection

サポートベクトルアルゴリズムが、等価なブースト的アルゴリズムに翻訳可能である事と、このブースト的アルゴリズムもまたサポートベクトルアルゴリズムに翻訳可能である事の、数学的プログラムの等価性を示す。我々はこの翻訳手順を、1クラスのサポートベクトルマシーン(1-SVM)から始まる、新しいアルゴリズムで例証する。これはブーストアルゴリズムのフレームワークにおける、教師なし学習のための最初のステップである。これは、制約下における最適化の理論により知られるバリアー方法に基づいており、基底仮説の凸結合として記述される関数を返す。この仮説は与えられたテスト点が、トレーニングデータの分布から生成されたものであるかどうかについて特徴付けを行う。単一クラス識別問題のシミュレーションにより、我々のアプローチの有用性が示される。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像確率のモデリングのための、一般的な解析形式
Universal Analytical Forms for Modeling Image Probabilities

Anuj Srivastava, Xiuwen Liu, Ulf Grenander

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1200-1214, September 2002

Keywords: Image probabilities, spectral analysis, Bessel K forms, clutter classification, target recognition, Gabor filters

我々は、画像の確率的モデルを得るために、周波数的アプローチを採用した。このアプローチでは、画像はバンドパスフィルタにより分解され、確率モデルが各バンドパス出力(これは周波数成分とも呼ばれる)に対して適用される。文献[11]に紹介されるベッセルKフォームと呼ばれる(2パラメタの)確率密度群を、各周波数成分の周辺密度をモデル化するために用い、更に、ビデオ、赤外線画像、濃淡画像それぞれから観測されるヒストグラムへの適合具合を示す。画像解析の物体ベースモデルがモティベーションとなり、ベッセルパラメタと映像化された物体との間の関係を確立した。ベッセルKフォームの集合のL2距離を用いることで、画像の類似度/相違度を定量化するための画像空間における、擬似尺度を提案する。散乱識別や、ターゲット認識のための仮説の刈り込みを含む幾つかの応用について示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ロバストな因子分解
Robust Factorization

Henrik Aanas, Rune Fisker, Kalle Astrom, Jens Michael Carstensen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1215-1225, September 2002

Keywords: Robust statistics, feature tracking, perspective reconstruction, Euclidean reconstruction, structure from motion

画像系列から、動きや構造を復元するための因子分解アルゴリズムは、いくつもの利点があるが、通常、それらの手法は上手く追跡された特徴群を必要とする。その様な特徴群は実用的な応用においては殆どの場合用いることが出来ない。それゆえ追跡された特徴の誤りを効果的に扱える因子分解アルゴリズムが求められている。我々は、因子分解スキームの任意の誤差関数に適用できる、計算効率の優れた新しいアルゴリズムを提案する。このアルゴリズムは、ロバスト統計手法と、各特徴に対する任意のノイズモデルの使用を可能としている。これらの手法とモデルは、因子分解スキームにおいて、誤って対応した特徴や欠落した特徴、そして各特徴のノイズを効果的に取り扱うことを可能としている。更に提案手法はユークリッド再構成に関する新たな方法を含む。この方法は因子分解アルゴリズムの収束性を顕著に改善する。提案アルゴリズムは、投射投影の再構築を可能とするChristy-Horaud因子分解スキームの変形として実装される。この実装に基づいて、実データ及び合成データに対する、エラー耐性の顕著な向上を示す。提案手法は殆どの因子分解アルゴリズムに適用可能である。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像構成からの奥行き推定
Depth Estimation from Image Structure

Antonio Torralba, Aude Oliva

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1226-1238, September 2002

Keywords: Depth, image statistics, scene structure, scene recognition, scale selection, monocular vision

両眼視差、動き、そして焦点のぼけのように、絶対的奥行き計測のための手がかりがない場合には、観測者とシーンの間の絶対距離は計測不能である。影、エッジ、そして交叉点の解釈によりシーンの三次元モデルを得ることは出来るが、実際のシーンの「スケール」に関しては判らない。絶対的奥行き推定のための、ありうる情報源の一つとして、既知の物体の画像上の大きさがある。しかし現在の計算機科学的アプローチでは、非拘束下での物体認識は困難であり、信頼できない。我々はここに、特定の物体に依存しない、シーンの全体構造に基づいた絶対奥行き推定のための情報源を提案する。画像中の構造を認識することでシーンのスケール及び、平均絶対奥行きを推定できることを示す。シーンの平均奥行きを計算することの利益を、シーン理解と物体検出の応用と共に示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二次元空間に断片化した物体の再統合のためのマルチスケール手法
A Multiscale Method for the Reassembly of Two-Dimensional Fragmented Objects

Helena Cristina da Gama Leitao, Jorge Stolfi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1239-1251, September 2002

Keywords: Outline matching, planar shape matching, multiscale analysis, planar shape invariants, ceramic fragments, archaeology, fracture analysis

多数の不規則な断片に砕けた、もしくは引き裂かれた、未知の二次元物体の再統合に関する効率的な方法を示す。このような問題は、考古学、美術品修復、法医学やその他の学問分野において、しばしば発生する。この方法では、曲率符号化された断片の輪郭を、連続的に増加する解像度のスケールで比較する。これには増分的動的計画法による画像系列マッチングアルゴリズムを用いる。合計計算量は、一断片あたりの平均サンプル数に比例して減少する。これにより本手法は現実的なサイズ(数千の断片)の問題で実行可能となる。人工的だが実際的な例により、我々の手法の性能を示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コンテンツベースの画像検索のための領域ベースのファジー特徴量マッチングアプローチ
A Region-Based Fuzzy Feature Matching Approach to Content-Based Image Retrieval

Yixin Chen, James Z. Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1252-1267, September 2002

Keywords: Content-based image retrieval, image classification, similarity measure, fuzzified region features, fuzzy data analysis

本稿では、領域ベースの画像検索のための、ファジー理論のアプローチである、UFM(unified feature matching:統合特徴マッチング)を提案する。我々の画像検索システムにおいては、各画像は分割された領域の組みで表される。そして各領域は、色、テクスチャ、そして形状の特性を表すファジー特徴(ファジーセット)により特徴付けられる。結果として、各画像は領域を表すファジー特徴群と結び付けられる。本来、ファジー特徴量は領域(ぼやけた境界)間の緩やかな推移を特徴付けるものであり、分割に起因する不確定性を検索アルゴリズムに混入する。これにより、二つの画像の類似性は、二つのファジー特徴量群の総合的な類似度として定義され、類似度計測、画像中の全ての領域の特性を統合するUFM計量により定量化される。各個の領域に基づいた類似度計測や、はっきり価値付けされた特徴表現に比べ、UFM計量は、不正確な分割の影響を大幅に減らし、非常に直感的な定量化を与える。UFMは我々の実験的SIMPLicity画像検索システムの一部として実装されている。約60,000の汎用画像のデータベースからの例を用いて、本システムの性能を示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


共線写像間のマルチビュー拘束を強化する、未知の平面構造によるカメラの自己校正
Camera Self-Calibration from Unknown Planar Structures Enforcing the Multiview Constraints between Collineations

Ezio Malis, Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1268-1272, September 2002

Keywords: Self-calibration, multiple views, planes, collineation, nonlinear constraints

本稿では、画像間の共線写像間に存在する拘束条件を課する、効率的な方法について述べる。これらの拘束条件は平面構造の一連のビューから計算することが出来る。通常これらの拘束条件はマルチビュー手法では考慮に入れられない。これはアルゴリズムの計算複雑度を増大させないためである。しかしこれらの拘束条件を課することはきわめて有効である。なぜならば、それにより再投影された特徴量の幾何誤りを削減し、共線写像の整合的な組を与えるからである。この共線写像の組は、モザイク化や再構成、そして自己校正などの様々な応用で用いることが出来る。我々のアプローチを検証するために、本稿では、未知の平面構造からの自己校正に焦点を絞る。これは共線写像の整合的な組を使用する方法を提案するものである。我々の方法は任意の数のビュー、任意の数の平面、そしてカメラの内部パラメタの変化を扱うことが出来る。しかし本稿では簡単のため、単一の平面で、複数のビューという場合に限定して議論する。合成データと実データから得られる結果は、極めて高精度であり、僅かな数の画像しか用いない場合でも安定である。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最大分散クラスタアルゴリズム
A Maximum Variance Cluster Algorithm

Cor J. Veenman, Marcel J.T. Reinders, Eric Backer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1273-1280, September 2002

Keywords: Cluster analysis, partitional clustering, cluster tendency assessment, cluster validity

本稿では、クラスタ分散に関する厳しい拘束を課した場合における、総合二乗誤差指標を最小化する、部分クラスタアルゴリズムを示す。概念的には、仮定されたクラスタは、その近傍のクラスタと並行かつ協調的に振舞う。これは上記指標を最小化し、分散に関する拘束を満たすためである。厳しいパラメタを用いずに、クラスタ近傍の区分けを可能とするために、異質クラスタサンプルの概念を導入した。最後に、分散拘束パラメタを変化させることに基づく、クラスタ傾向の評価のための新しい方法を示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所適応的尺度による最近傍識別
Locally Adaptive Metric Nearest-Neighbor Classification

Carlotta Domeniconi, Jing Peng, Dimitrios Gunopulos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1281-1285, September 2002

Keywords: Chi-squared distance, classification, feature relevance, nearest neighbors

最近傍識別は、局所的に均一のクラス条件付確率を前提とする。サンプルが有限の場合、次元の呪いのために、この仮定は高次元では無効となる。最近傍則を用いる場合、それらの条件下では厳しいバイアスが導入されうる。我々は、このバイアスを最小化するための、局所適応的最近傍識別方法を提案する。カイ二乗距離解析を用いて柔軟な尺度を計算し、それにより、問題となる局所領域に高度に適応した近傍を算出する。この近傍は、より関連の薄い特徴次元に沿って拡張され、最も影響の大きい特徴量次元に沿って抑制される。結果としてクラス条件付確率は、修正された近傍においてより平滑になり、より良い識別性能が達成される。合成データおよび実世界のデータの両方を用いて、我々の方法の効率の検証と、他の方法との比較を行った。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


隠蔽歪みの方位性構造:果たして信用に足るか?
Oriented Structure of the Occlusion Distortion: Is It Reliable?

Weichuan Yu, Gerald Sommer, Steven Beauchemin, Kostas Daniilidis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1286-1290, September 2002

Keywords: Optical flow, occlusion, motion discontinuities, spectral analysis

隠蔽画像系列のエネルギースペクトラムにおいては、歪み項は隠蔽された信号の速度と同じ方位を持つ。隠蔽された信号と、隠蔽信号の速度を分離するために、この方向性構造を用いることができると、近年の研究では主張されている。しかしここで我々は、この歪みの方向性構造は、エネルギー寄与が急激に減少するために、常に信頼できる特徴ではないことを論ずる。この既にして弱い方向性構造は、別の歪み項の重畳により、更にぼやけることになる。これと同時に、複合動き推定のためのShizawaとMaseの重畳原理が、調整を必要としていることを示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


交通監視映像のための、隠れマルコフモデルに基づいた画像分割法
An HMM-Based Segmentation Method for Traffic Monitoring Movies

Jien Kato, Toyohide Watanabe, Sebastien Joga, Jens Rittscher, Andrew Blake

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 9, pp.1291-1296, September 2002

Keywords: Car tracking, hidden Markov model, image classification, image segmentation, wavelet coefficients

動いている物体の影は、しばしばロバストな視覚追跡を妨げる。我々は隠れマルコフモデル(HMM)に基づいた分割手法を提案する。この方法では、画素もしくは領域を、影、前景物体、背景物体の3種類に実時間で分類する。提案手法が交通監視映像に対して有効であることが、実験結果により示されている。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.10


一般化された空間-分光拡散
Generalized Spatio-Chromatic Diffusion

Giuseppe Boccignone, Mario Ferraro, Terry Caelli

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1298-1309, October 2002

Keywords: Color images, scale-space, vector-valued diffusion

本稿ではカラー画像の散乱拡散のフレームワークを示す。この方法は不可逆変換の熱力学の理論に基づく。この理論は、異なるカラーチャネル間の相関のデザインに適した基礎を与える。より正確には色の発現発展に関する方程式を導出する。この方程式は純粋な空間散乱拡散項と、カラーチャネル間の相互作用に依存する非線形項を含む。我々は提案した方程式を、RGB、CIELAB、反対色、HISなどの様々な色空間で表された画像に対して適用した。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


弾性適応的可変モデル
Elastically Adaptive Deformable Models

Dimitris N. Metaxas, Ioannis A. Kakadiaris

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1310-1321, October 2002

Keywords: Adaptive elastic parameters, deformable models, shape estimation, physics-based modeling, Kalman filter

本稿では、形状推定アプリケーションのためのカルマンフィルターフレームワークにおける、可変モデルの弾性パラメタの自動適応についての、新しい技法を述べる。本技法の新規性は弾性パラメタが一定でなく、空間的、時間的に変化することである。この弾性パラメタの変化は、モデルとデータとの距離と、この距離の変化の割合に依存する。このアルゴリズムは、それぞれ物理学に基づいたモデリング技法を用いて、モデルとデータの間の不一致から計算される外力に答える形で、モデルの幾何学的及び弾性的自由度を反復的に調整する。これらの付加的な変数を取り込むように拡張された、カルマンフィルターの状態方程式を増加させることにより、形状推定の精度を顕著に向上させることができる。それゆえモデルの弾性パラメタは常に同じ値に初期化され、その後データとノイズの分布に依存して修正される。二次元データと三次元データの両方に対しての、本方式の有効性を表す結果を示す。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


SVMからブーストアルゴリズムを構成する:単一クラス識別における応用
Analytic PCA Construction for Theoretical Analysis of Lighting Variability in Images of a Lambertian Object

Ravi Ramamoorthi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1322-1333, October 2002

Keywords: Illumination, radiance, irradiance, Lambertian, recognition, principal component analysis, spherical harmonics

我々は、同一の視点且つ異なる遠距離照明条件下で撮影された凸面ランバートLambertian物体画像を最適に近似する部分空間を論理的に解析する。照明は任意の関数だから、可能なすべての画像により構成される画像空間は、形式上は無限の次元となる。しかし以前の経験的知見により、大きく異なる物体の画像も、実際には5次元の部分空間で非常に近くにあることが示されている。本稿では、従属する影を明示的に考慮に入れて凸面Lambertian物体画像の主成分解析を理論的に構築し、照明の変動性に関する主な固有モードと固有値を見つける。我々の解析は、照明の球面調和係数項における放射照度の解析方式を利用し、適当な仮定の下では主成分もしくは固有ベクトルが、表面の法線ベクトルとして数値化された球面調和基底関数と独立であることを示す。単一の視点にこれらの結果を拡張する場合に、法線集合の一部のみ(上部半球)が判り、拘束下のドメインにおいて球面調和関数が最早直行しないとき、主固有モードと固有値がどのように影響を受けるかを示すことが、我々の研究の主な成果である。我々の結果は定性的にも定量的にも、以前の経験的な知見に極めて近く、これらの知見の初めての本質的に完全な論理的説明となっている。同時に我々の解析はコンピュータビジョンやイメージベースレンダリングなどの分野でも重要であるようだ。我々の結果は特に、コンピュータビジョンにおける光学測定の問題に複雑な照明を用いることは、方向性のある光源よりも顕著に困難ではないことを示している。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化モザイク:マルチスペクトルイメージングの広い視野
Generalized Mosaicing: Wide Field of View Multispectral Imaging

Yoav Y. Schechner, Shree K. Nayar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1334-1348, October 2002

Keywords: Multispectral, hyperspectral imaging, color balance, enhancement, image fusion, physics-based vision, panorama, mosaic, mosaicing, illumination, image-based rendering.

本稿では画像のモザイク化を一般化することで、撮像系の周波数解像度を顕著に拡張するためのアプローチを示す。空間的に変化する周波数帯域を変調するフィルターがカメラにしっかりと取り付けられている。撮像系が移動する場合、システムはそれぞれのシーン中の点を、異なる周波数帯域で複数回検知する。これは一般化モザイクパラダイムの付加的な次元であり、空間的に変化する濃度フィルターを用いることで、広い視野の広範な放射ダイナミックレンジ画像を生成することが最近示された。生成されるモザイクは、シーン中のそれぞれの点のスペクトルを表す。画像取得は従来のモザイク方式と同じように容易である。我々は効率的なシーンサンプリングレートを導出し、フィルターの空間的に変化する特性を提供するレジストレーション方法を用いる。この方法で取得されたデータを用いることで、様々な擬似的な照明周波数特性の下でのシーンレンダリングを示す。また同時にシーンの照明の情報についても推測することができる。本方式は標準的な8bit白黒ビデオカメラと固定空間周波数の(干渉)フィルターを用いてテストされた。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的でシンプルな、サンプルからの多様体の再構築
Efficient Simplicial Reconstructions of Manifolds from Their Samples

Daniel Freedman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1349-1357, October 2002

Keywords: Machine learning, differentiable manifold, simplicial complex

多様体学習のための新しいアルゴリズムを示す。有限次元の微分可能な多様体のサンプルのみ与え、多様体の幾何もしくは位相に関する先験知識は、それらの次元以外は与えない。この多様体の記述を見つけることが目標である。サンプリング濃度が十分に高い場合には、学習された多様体は、真の多様体を幾何的にも位的にも近似していなければならない。提案するアルゴリズムは、多様体の接バンドルへの近似に基づいて、単体的複体を構築する。提案アルゴリズムの重要な特性は、複雑度が埋め込み空間の次元ではなく、多様体の次元に依存することである。平面、曲線、表面の学習曲線のケースについて成功例を示す。更に本アルゴリズムが失敗するケースについても解析する。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


円形基底関数を用いた容量正則化による表面再構成
Reconstructing Surfaces by Volumetric Regularization Using Radial Basis Functions

Huong Quynh Dinh, Greg Turk, Greg Slabaugh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1358-1371, October 2002

Keywords: Regularization, surface fitting, implicit functions, noisy range data

粗で、ノイズを含み、不均一で、且つ低解像度の奥行き画像データから、滑らかでシームレスなモデルを生成する新しい表面再構築方法を示す。両眼奥行き画像や空間カービングなどのコンピュータビジョンの技法により得られたデータは、レーザーもしくは光学的奥行きスキャナにより得られたデータに比べ、不正確で不均一な三次元点群となる。精密な奥行き画像データを前提に設計されている従来の再構築アルゴリズムでは、ビジョンベースのデータ群に適用したとき、滑らかな再構築面が得られない。我々の手法は、加重円形基底関数の和として定式化される三次元曲面を形成する。この手法は従来の方法に比べ3つの大きな利点がある。1)我々が構成した陰関数は、少数のデータしかない領域でも表面を精度良く推定できる。2)再構築された表面は、入力データ中のノイズに対して頑健である。これは本手法がデータの厳密な補間ではなく、表面による近似を許していることによる。3)再構築された表面は局所的に細密であるが、大局的には滑らかである。これは多重次数の平滑性を実現している円形基底関数を用いていることに起因する。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


密なレンジデータに対する最尤表面推定器
A Maximum-Likelihood Surface Estimator for Dense Range Data

Ross T. Whitaker, Jens Gregor

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1372-1387, October 2002

Keywords: Surface estimation, surface reconstruction, surface fitting, optimal estimation, parameter estimation, 3D range data, ladar, maximum-likelihood, Bayesian estimation, registration, calibration

本稿では、異なった視点(例えば多重レンジマップ)から得られた、ノイズを含む密なレンジデータ群から三次元表面モデルを推定する方法について述べる。 提案手法は、センサーモデルを用いて、ノイズを含むレンジ計測値セットに条件付けされた三次元表面の尤度の表現を展開する。モデルパラメタを考慮して尤度を最適化することより、バイアスのかかっていない、効率的な推定器を得る。提案した数値的アルゴリズムにより、この推定は様々な環境において計算量的に実用的なものとなっている。この方式による結果は、他の最新式のアプローチを凌ぐ。これらのアプローチは、最近傍点や直交距離尺度、ヒューリスティックに依存している。このヒューリスティックはバイアスされた解をもたらし、表面が充分に平滑でない場合には完璧に失敗してしまう。合成データ及び実際のレーダーデータ両方における結果により、様々な種類の問題における提案手法の効率性が示される。更に提案手法により、表面事前知識(即ち最大事後確率)を含むように拡張可能な、一般的なフレームワークや、より洗練されたノイズモデル、そしてソナーや合成アパーチャーレーダーなどの他の観測形式も提案される。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


成長型時間適応自己組織化マップによる、画像分割のための自動マルチレベル閾値処理
Automatic Multilevel Thresholding for Image Segmentation by the Growing Time Adaptive Self-Organizing Map

Hamed Shah-Hosseini, Reza Safabakhsh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1388-1393, October 2002

Keywords: Self-organizing map, image segmentation, automatic multilevel thresholding, histogram, time-adaptive, TASOM

本稿では、自動マルチレベル閾値処理のための、”GTASOM”と呼ばれる成長型TASOM(時間適応自己組織化マップ)ネットワークを提案する。これはピーク検出過程に基づくものである。提案したGTASOMを画像分割で試験した。この実験結果から、GTASOMは画像分割に対して信頼性の高い高精度なツールであること、そして他の閾値処理手法に比べ際立って高性能であることが示される。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


隠れマルコフ木を用いた赤外線画像識別
Infrared-Image Classification Using Hidden Markov Trees

Priya Bharadwaj, Lawrence Carin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1394-1398, October 2002

Keywords: Hidden Markov model, infrared imagery, classification

三次元物体の画像は一般的には視認可能なターゲット構成要素(visible target subcomponents)により特徴付けられる。この構成要素はターゲット—センサ方位(ターゲットのポーズ)に影響を受ける。このような画像は、ターゲットのポーズにより急激に変化することがしばしばある。隣接するターゲット—センサ方位の、関連するターゲットの画像が比較的安定である範囲におけるセットとしてクラスを定義した。一般的には各ターゲットは複数のクラスにより特徴付けられる。それぞれのクラスに、別々のWienerフィルターのセットを施し、ターゲット構成要素の姿を同定する。Karhunen-Loeve表現を用いて、各構成要素に関連するフィルター(テンプレート)の数を最少化する。異なる構成要素間の統計的関連性は、隠れマルコフ木(Hidden Markov tree: HMT)によりモデル化される。いくつかの車両の前向き赤外線(FLIR)画像に対して、このHMTを用いた識別結果の例を示す

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウェーブレット技術を用いた古文書の修復
Restoration of Archival Documents Using a Wavelet Technique

Chew Lim Tan, Ruini Cao, Peiyi Shen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1399-1404, October 2002

Keywords: Document image analysis, wavelet enhancement, wavelet smearing, Canny edge detector, text extraction, image segmentation, bleed-through, show-through, noise cancellation, denoising

本稿では、文書内容を復元することにより、古文書の手書き文書を修復する問題について述べる。原稿裏面からのインクの滲み出しによる筆跡の干渉から、本来の内容を復元する。我々の提唱する新しい手法では、まず原稿両面の内容の照合を行い、干渉ストロークと、その元になる裏面の内容をマッピングする。これにより原稿前面のストロークと原稿背面のストロークの同定をしやすくしている。次にウェーブレット再構築過程により反復的に前面ストロークを強調し、干渉ストロークを緩和する。これにより干渉ストロークと前面ストロークを区別するために用いる改良型Cannyエッジ検出器の識別能力を高める。本方式は古文書の画像を効率的に修復し、前面テキスト抽出の平均精度と再現率はそれぞれ84%、96%である。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


フラクタルに基づいた手法による、データの本質的な次元の推定
Estimating the Intrinsic Dimension of Data with a Fractal-Based Method

Francesco Camastra, Alessandro Vinciarelli

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 10, pp.1404-1407, October 2002

Keywords: Bayesian information criterion, correlation integral, Grassberger-Procaccia's algorithm, intrinsic dimension, nonlinear principal component analysis, box-counting dimension, fractal dimension, Kolmogorov capacity.

本稿では、データセットの本質的な次元の推定に関する問題について調査する。Grassberger-Procacciaアルゴリズムを用いた、フラクタルに基づいたアプローチを提案する。Grassberger-Procacciaアルゴリズムは、高次元のデータセットに対する性能が悪いため、オリジナルのアルゴリズムを改良する実験的手法が開発されてきた。既知の次元性のデータセット及び、Santa Fe competitionの時系列データセットに対して、この手法を試験した。

TS

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.11


系列画像の時空間的整合
Spatio-Temporal Alignment of Sequences

Yaron Caspi, Michal Irani

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1409-1424, November 2002

Keywords: Sequence-to-sequence alignment, space-time analysis, direct methods, feature-based methods

本論文は、2つの異なるビデオカメラで撮影されたビデオ画像系列間の時間や空間の対応付けについて研究したものである。これらの系列画像は未更正で記録されたものであり、カメラは静止しているかあるいは、いっしょに動いており、未知であるが、ある決まった内部パラメータと、カメラ間の相対的外部パラメータを持っているものとする。画像フレーム間の時間的変動(例えば、動くオブジェクトや情景の照明変化のような)は、同期合わせには強力な手がかりである。これは標準的な画像と画像の整合法では達成不可能である。空間的時間的手がかりを単一の並べ合わせ手法に取り込むことで、従来の画像系列間マッチング法ではあいまい性が回避できなかった課題を、しばしば一意的対応に解きほぐすことができる。さらに、時空間にまたがる複数のビデオ画像系列の整合をとり、統合することができるということによって、従来画像系列だけ利用して対応付けが行われていたビデオ画像系列の新たな用途を見出すことになろう。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


語彙を利用した手書き日本語住所読み取りのための切り出しと認識
Lexicon-Driven Segmentation and Recognition of Handwritten Character Strings for Japanese Address Reading

Cheng-Lin Liu, Masashi Koga, Hiromichi Fujisawa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1425-1437, November 2002

Keywords: mail address reading, handwritten character string recognition, touching character splitting, character classification, lexicon matching, beam search

本論文は、大規模な語彙を有する日本語郵便住所読み取りシステムにおける手書き文字列の認識について述べる。住所表記は、間に空白が存在しないため全体を一度に認識する。語彙は111,349個の語句からなり、trie構造で記憶されている。認識にあたって、文字行画像が登録語彙とマッチングされて高精度の切り出しが行われ、正しい住所語句が抽出される。本論文では、文字行抽出の前処理と予備切り出しのための有効な方法についてまず紹介する。予備切り出しについては、文字行は接続成分解析や、輪郭形状解析を利用した接触パターンの分離法を利用して、プリミティブセグメントに分解した。語彙マッチングでは、隣接セグメントが動的に組み合わせられ候補文字パターンが作られた。語彙マッチング部には、正確な文字分類器が内臓されており、動的なカテゴリー集合から候補文字パターンと整合する文字列が選出された。語彙マッチングにはビームサーチ法が利用され実時間認識を可能にした。現実の3,589の郵便画像による実験では、正解率は83.68%で、誤り率は1%未満であった。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き数字列の自動認識:認識と検証のための戦略
Automatic Recognition of Handwritten Numerical Strings: A Recognition and Verification Strategy

Luiz S. Oliveira, Robert Sabourin, Fl&vio Bortolozzi, Ching Y. Suen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1438-1454, November 2002

Keywords: Handwritten numerical string recognition, segmentation and recognition of numerals, recognition and verification, feature extraction, probabilistic model

モジュラー形式の手書き数字列認識システムを提案する。これは、切り出しに基づく認識と、認識と検証という戦略を利用している。この手法では、確率モデルによる切り出し、認識、後処理を異なるレベルで出力し、これを組み合わせる手法をとっている。セグメンテーション過剰とセグメンテーション不足という問題に対処するため2つのセグメンテーション検証器を用いた新規な手法を採用している。過剰セグメンテーションに対処するため新しい特徴量集合も導入されている。確定論的オートマトンを利用して後処理を行い、グローバルな決定モジュ−ルが結果の採否を決める。2つのデータベースについての実験結果が示されている:ブラジル銀行の小切手の数字、および、NIST SD19である。後者は、モジュール形式のコンセプトの検証と、本システムロバスト性を、著名なデータベースで実証するためである。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


木変換による数式表現の認識
Recognizing Mathematical Expressions Using Tree Transformation

Richard Zanibbi, Dorothea Blostein, James R. Cordy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1455−14670, November 2002

Keywords: Document image analysis, recognition of mathematical notation, diagram recognition, tree transformation, graphics recognition

印刷された数式、あるいは、手書きの数式を認識するロバストで効率的な方法について述べる.外接矩形を伴う記号リストから、本システムは3つの連続的パスによって表現を解析する.レイアウトパスでは入力された記号の基本構造木(Baseline Structure Tree (BST))を構築する。もし、記号位置が本来の理想的場所から大きくずれたとしても、読み順や演算子の本来あるべき位置から、そのレイアウト位置が効率的に認識可能となる。次に、語彙パスによって、グループ化されたトークンによって、語彙解釈されたBSTが作られ、これによって“=”のようなオーバーラップしないプリミティブから更正される多数の入力記号から構成されたる。語彙パスによって関数やアクセントのような垂直構造のラベル付けも行う。語彙解釈されたBSTはLaTEXに翻訳される。記号論理学で必要な更に詳細な表現は、式表現解析パスで実行される。語彙解釈されたBSTは演算子木に翻訳され、入力表現の順序や範囲を記述する。各パスで利用される木の操作は、木変換によって簡潔に表現される。本システムはコンパイラに似たアーキテクチャーを持っているため、予期せぬ入力があってもロバストに対応することができるし、システムの拡張性を与え、数式表現の方言を処理するための土台となる。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


距離データの位置合わせのための周波数空間での手法
A Frequency Domain Technique for Range Data Registration

Luca Lucchese, Gianfranco Doretto, Guido Maria Cortelazzo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1468-1484, November 2002

Keywords: Range data, 3D view registration, 3D rotation, Fourier transform, phase correlation, ICP algorithm

本研究は、一組の距離画像集合の位置合わせを周波数空間で操作するという、独創的手法を紹介する。フーリエ変換したものから、並進パラメータの推測値と、回転パラメータ推測値を分解抽出できるという、この有名な性質を、3段階のステップを経て、我々の位置合わせアルゴリズムに利用する。位相の異なる成分のフーリエ変換した強度は、一般的に等しいという関係と、並進成分は、回転が補正された後では、位相の相関を利用した第3のステップによって推測可能となる。この教師なし手法として適した手法を利用したアルゴリズムの性能は、いくつかのオブジェクトを利用した広範囲なテストの結果、3D剛体の動き予測が可能なロバストで優れた方式であることが判明した。本アルゴリズムは、より精度の高いICPアルゴリズムのような実空間での位置合わせの予備的位置合わせ法として利用できるであろう。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


相対的ファジー結合性とオブジェクト定義:理論、アルゴリズム、、および画像分離での応用
Relative Fuzzy Connectedness and Object Definition: Theory, Algorithms, and Applications in Image Segmentation

Jayaram K. Udupa, Punam K. Saha, Roberto A. Lotufo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1485-1500, November 2002

Keywords: Fuzzy connectedness, image segmentation, object definition, digital topology

ファジー連結性という概念は、オブジェクト画像中の画像要素対の全ての組に連結の強さを定義することで、「いっしょにぶら下がっている」という考え方を把握することである。この概念によって、動的計画法に基づく強力な画像セグメンテーションアルゴリズムが導けることを多様な用途における数千の画像に適用して実証してみよう。以前の枠組みの中では、ファジー連結オブジェクトは連結の強度に閾値を導入して定義された。本論文では相対的連結度を導入することで閾値の必要性を排除し、その結果より効果的セグメンテーションが得られた。中心的アイデアは、オブジェクトを共存するオブジェクトによって定義することである。各オブジェクトは種となる要素からスタートする。Cという画像要素は、これの参照する画像要素cが最も強く連結する要素に属するとみなされる。このようにして、オブジェクト同士はファジー連結性を利用して画像要素のメンバーシップを確保するために互いに競合する。相対的連結性を介してオブジェクトを定義するための理論的・アルゴリズム的枠組みを示し、この理論を利用して定義されたオブジェクトがファジー境界の内側に存在しない限りは最初選定された参照要素から独立であることを示す。逐次処理戦略によって最強の相対連結の核部品がまず定義され、次々にもっとファジーな部品を順次控え目に捕獲していく。この相対的ファジー連結性の有効性が医用画像の事例で示されている。このファジー連結性の有効性を客観的に示すため、160個の画像を含む仮想画像に対して定量的数学的な研究がなされた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歪んで隠蔽された形状の動的計画法によるマッチングと検索
Matching and Retrieval of Distorted and Occluded Shapes Using Dynamic Programming

Euripides G.M. Petrakis, Aristeidis Diplaros, Evangelos Milios

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1501-1516, November 2002

Keywords: Image database, shape retrieval, query by example, dynamic programming, relevance judgments

歪んで、かつ、隠蔽された可能性のある形状のマッチングを動的計画法(DP)によって行うことを提案する。まず、閉じてない形状パターンがもう1つの形状の一部とマッチングするのか、全体とマッチングするかが分かっている場合のような、互いの形状の大きさの関係がわかっている場合のような、色々なマッチング場面を区別しよう。連続する微小セグメントを併合することによって大きな形状に対比させ、ノイズや形状変形を許したアルゴリズムとなっているが、これは並進、スケール、方位、始点選択とは独立である。本アルゴリズムの有効性を、海洋生物種の閉じた形状パターンと閉じてない2次元形状パターンからなる2データ集合からの形状検索で実証した。我々は、従来のフーリエ記述子による形状マッチングと形状検索に比べて優れていることを示す。さらに、我々の手法と、有名なSQUID(インターネットアクセス可能)と比較した結果も示す。結果の判定は、情報検索分野で十分確立している手法に習って、ヒトによる関連性判定である。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像セグメンテーションのための近似的ベイズ因子:擬似尤度情報判定基準
Approximate Bayes Factors for Image Segmentation: The Pseudolikelihood Information Criterion (PLIC)

Derek C. Stanford, Adrian E. Raftery

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1517-1520, November 2002

Keywords: BIC, color image quantization, ICM algorithm, image segmentation, Markov random field, medical image, mixture model, posterior model probability, pseudolikelihood, satellite image

ある画像中の色の種類とかグレーレベルの数を選定するための新手法を提案し、これによって全自動で画像のセグメンテーションが可能になる。ここに仮定する基本的確率モデルは隠れマルコフモデルである。考慮する色数は画像の統計モデルに対応しているとみなし、得られるモデルは近似的ベイズ因子によって比較される。このベイズ因子はBIC(Bayesian Information Criterion)によって近似される。また、最大尤度はQian-Titterington疑似尤度によって近似される。この得られた判定基準をPLIC (Pseudolikelihood Information Criterion)と呼ぶ。もっと簡単な近似法であるMMIC (Marginal Mixture Information Criterion)についても考察する。ここに、MMICは画素値の周辺分布のみに依存している。これは初期化に有用であることが分かり、画像の空間依存性が低い場合は、そこそこの性能を示すことが分かった。このPLIC と MMICは医用画像セグメンテーションに応用された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歪みパラメータ推定のためのSDFタイプフィルターの利用
On the Use of SDF-Type Filters for Distortion Parameter Estimation

Neil Muller, B.M. Herbst

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1521-1528, November 2002

Keywords: Synthetic discriminant functions, synthetic estimation filters, facial location

オブジェクトの変形度合いにかかわらず、合成判別関数(SDF)を利用したオブジェクトの場所を同定したり、変形度合いを推定していた。当初から、この手法では、訓練集合が注意深く用意された場合にのみ、高精度な推定が可能であることが理解されていた。本論文で、推測精度を確実に補償する条件を得た。この条件によって、効率的訓練集合の作り方と、この手法が多様なSDF型フィルターに拡張可能であることが推察できる。理想的例題に適用した理論的結果が図示されており、また、より現実的課題である正確な顔位置の道程にも適用されている。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数フレームからの平面視差の直接的復元法
Direct Recovery of Planar-Parallax from Multiple Frames

Michal Irani, P. Anandan, Meir Cohen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1528-1534, November 2002

Keywords: Planer parallax, direct (gradient-based) methods, multiframe analysis, correspondence estimation, structure from motion

本論文は、3D情景の稠密な平面視差運動を多数の非更正画像から推定するアルゴリズムを紹介する。これによって、2フレーム以上の平面視差の復元法が一般化される。平面状表面と相対的な複数フレームにわたる視差運動は、3D情景構造とカメラのエピポールと関連している。視差の場(parallax field)や、エピポール、それに3D情景構造は、前もって対応付けしておかなくても、複数フレーム間の画像輝度変動から直接推定することができる

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自由木のマッチング,最大完全グラフ,単調ゲーム力学
Matching Free Trees, Maximal Cliques, and Monotone Game Dynamics

Marcello Pelillo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1535-1541, November 2002

Keywords: Graph matching, combinatorial optimization, quadratic programming, dynamical systems, evolutionary game theory, shape recognition

ルートを持つ木に基づくマッチング法に関する我々の最近の研究を発展させ、本論文では、ルートを持たない2つの木のマッチング方法を示す。本手法では、1対1対応点集団が最大になるような部分木となる連想グラフを構築する。次に、進化論的ゲーム理論による利益最大化手法で仮題を解く。この形状軸木による手法の威力を示すために、明瞭な形状と、変形形状のマッチングを比較した。数百の平面に対する実験において均一な確率場について述べてある。その結果はすばらしい:すなわち、これらの単純な方法では極小点領域から抜け出すことは本質的にはできず、常に全体の最小値に戻っていく。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テクスチャ分類のためのサポートベクトルマシン
Support Vector Machines for Texture Classification

Kwang In Kim, Keechul Jung, Se Hyun Park, Hang Joon Kim

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, pp.1542-1550, November 2002

Keywords: Support vector machines, texture analysis, pattern classification, machine learning, feature extraction

本論文は、テクスチャー識別にサポートベクトルマシン(SVM)を利用した応用に関する研究である。外部の特徴抽出器に頼ることなく、SVMは元の画素データの中間調データを用いる結果、高次元空間においても一般化することができる。さらに、自己のアーキテクチャー内で、従来のテクスチャー特徴抽出法といっしょに利用できるだけでなく、これらの手法に内在する課題に対する解を求めることもできる。バイナリーなSVMをマルチテクスチャー識別に適用するために、次々と分解するする手法に加え、ニューラルネットワークを利用して、最終的な識別をした。実験によって、このSVMの有効性が示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.24, No.12


手書き単語認識の語彙への依存性
On the Dependence of Handwritten Word Recognizers on Lexicons

Hanhong Xue, Venu Govindaraju

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1553-1564, November 2002

Keywords: Handwriting recognition, word recognition, performance prediction, performance model, multiple regression

どんな単語認識装置でも提示されている語彙に依存性をもっている。一般的に、語彙の大きなものや類似要素を含む語彙は認識装置にとって厄介である。しかし、単語認識装置とその語彙の正確な依存関係を数量的に捕らえる手法についての文献は存在しなかった。本論文は、文字認識の関数と見なしたときの単語認識装置の性能モデルを示し、単語認識装置と語彙の関係を統計的に“発見”する。これは、認識装置が個々のアルファベット文字を識別する能力を表すモデルパラメータと、語彙サイズへの感度パラメータを利用する。これらのパラメータは、性能モデルから導くことができる多重回帰分析モデルによって決定される。このモデルは、提示される語彙に基づいて認識装置の性能が予測できるので大変有用である。我々は5つの異なる単語認識装置と何千という画像、および、何十という用語による広範な実験によって、この性能モデルを実証した。その結果、このモデルは訓練データだけでなく、実験データについても認識装置の能力を予想する場合にも高い一致率を示した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


流量最大化のための幾何学的流れ
Flux Maximizing Geometric Flows

Alexander Vasilevskiy, Kaleem Siddiqi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1565--1578, November 2002

Keywords: Geometric active contours, gradient flows, shape analysis, divergence and flux, blood vessel segmentation

コンピュータビジョンや画像解析においては、セグメンテーションのためのいくつかの幾何学的能動輪郭モデルが提案されている。基本となる考え方は、濃淡画像中の注目特徴量にしがみつくような画像力(image force)の制約条件下で、曲線(2D)や表面(3D)を進化させていく手法である。このテーマに関する最近の新しい傾向は、閉領域の特性を考慮し、多数の曲線や表面を同時に表現することである。それでも、この手法を血管のような細長い画像に応用する方法については不明瞭である。細長い画像ではしばしば強度コントラストは弱く、信頼性のある領域統計量の計算はむずかしい。この困難に取り組むために、曲線(2D)や表面(3D)を通過する適当なベクトル場で流れの増加率が最大化する勾配流れ(gradient flow)を導入する。鍵となるアイデアは、ベクトル場の大きさとともに方向を活用することである。計算を進めて行くと、簡潔でエレガントな解釈となるが、この結果はパラメータを持たず、2次元においても2次元においても同じ形式で表せる。この手法が、レベルを設定した2Dや3Dの血管造影画像のセグメンテーションに有効であることを示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多様体オブジェクトを表現する2D線画中の面の同定
Identifying Faces in a 2D Line Drawing Representing a Manifold Object

Jianzhuang Liu, Yong Tsui Lee, Wai-Kuen Cham

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1579-1593, November 2002

Keywords: 3D models, face identification, geometry, graphs, line drawings, manifolds

3Dモデル表現として直接的で簡単な表現法は線画を使った描画である。2D線画中の面は、3Dの幾何学的情報を再構現するための重要情報である。ここで定義される多様体は共通の複数のソリッドに属しており、ほとんどのソリッドの系は多様体幾何学に基づいている。本論文では、多様体を表現する1枚の2次元画像線画から、面を抽出するための新しい方法について提案する。面の同定のために、多様体の各辺は丁度2つの面に共有される、という多様体の性質に基づく、定式化を行う。その主要ステップとは、1)線画からサイクル(循環頂点系列)を探索する、2)サイクルの中から面を探索する。面発見手続きを高速化するために、線画中の虚実混ざった湾曲した面のほとんどを同定するための多数の性質を利用する。そのほとんどは平面多様体幾何学の性質に関するものである。その結果、2段目の探索における未知のサイクル数が減少する。曲面を有する多様体や、2つ以上の分離したグラフで表現される多様体を処理できる体系も提案する。実験によって、この新しい手法は、従来手法では扱えなかった多様体を扱えるのみならず、従来の多様体も扱うこともできることが示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


4サブフィールドに基づく3次元トポロジー保存性縮退法
Three-Dimensional Topology Preserving Reduction on the 4-Subfields

Cherng-Min Ma, Shu-Yen Wan, Jiann-Der Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1594-1605, November 2002

Keywords: Topology preservation, connectivity preservation, 3D thinning algorithm, thinning, 4-subfield thinning

本論文は3D2値画像の細線化を4つのサブフィールドで行う手法について議論している。細線化アルゴリズムの対象は2値画像であるが、アルゴリズムそのものは3色縮退テンプレートの集合として表現できる。計算時間複雑度がO(n)であるための3色テンプレートによる4サブフィールド細線化アルゴリズムの必要十分条件を示した。このような条件を満たす理論と計算法について考察した。3D画像の4サブフィールド細線化の2つのアルゴリズム、その1つは中間曲線を生じる方法であり、他の1つは中間面を生じるものである、を示したが、ここに示した必要十分条件によってトポロジーが保存されることが示された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


膨張、侵食、開口、閉止のための効率的アルゴリズム
Efficient Dilation, Erosion, Opening, and Closing Algorithms

Joseph (Yossi) Gil and Ron Kimmel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1606-1617, November 2002

Keywords: Mathematical morphology, running maximum filter, min-max filter, computational efficiency

移動窓フィルターによる1次元の膨張と侵食(最大最小)のための効率的な決定論アルゴリズムを提案する。p個の要素を持つ1次元フィルター処理のための移動窓で実行するこのアルゴリズムは、1つの標本点あたり、1.5 + o(1) 回の比較演算を行う。van Herk と Gil and Werman (HGW アルゴリズム)によって、独立に開発された従来アルゴリズムに比べ、本手法には決定論的性能向上が見られる。さらに、本論文で示される結果には、HGWアルゴリズムの変形であるGevorkian (GAA)たちのアルゴリズムの改良案も示されている。この GAAアルゴリズムでは、入力情報は独立同一分布(i.i.d.仮説)と仮定されているが、我々の主要結果は決定論的である。我々は、エッジ形状を偏りなく処理するために必要な、膨張と侵食の同時処理を実行するフィルターの課題も扱う。入力がi.i.d.の場合は、膨張と侵食を別々に計算するよりは同時に計算する方がもっと効率的であることを示す。次に、minフィルターをmaxフィルターに応用する際に定義される開口フィルターについて述べ、効率的演算アルゴリズムを示す。このフィルターはmaxフィルターよりほんのわずか遅いだけであることを強調したい。この改良アルゴリズムは容易に2次元だけでなく、窓あたりの比較演算数を一定に保ったまま高次の有限次元に一般化可能(矩形窓の場合)である。完全を期すために、現在のプログラム言語による実装上の考察についてのコメントを加えた。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動きから得られる2画像の正確な位置関係
Exact Two-Image Structure from Motion

John Oliensis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1618-1633, November 2002

Keywords: Structure from motion, two-image structure from motion, least-squares error, triangulation, ambiguity, spherical retina, coplanarity, Sampson error, local minima

画像の動きだけを利用して、画像投影誤差最小による2つの画像の位置関係(構造)を決定する、簡単で正確な数式を提案する。この構造と動きの最適推定のためには、動きパラメータに関して数式を2乗誤差最小化すればよい。さらに、三角測量問題への解法も示す:動きが与えられたとき、最適構造推定を求める陽な式である。この正確な誤差推定を実験的に調べ、この方法が前方および後方動き推定には局所的最小値(極小値)をしばしばもっていることを示す。また、実験によって、大きな並進運動の場合には、Oliensis and Soatto et al.の“反射”極小値が生じることを示す。この結論は、カメラが較正済であり、最小2乗誤差画像投影法を利用することを前提としているが、これはほとんどの球面画像に当てはまる。この手法を、平面画像と非較正カメラにも近似拡張した。改良Sampson誤差も示し、これが実験的には、より優れていることを示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アクティブコンピュータビジョンのための特徴量空間軌跡法
Feature Space Trajectory Methods for Active Computer Vision

Michael A. Sipe, David Casasent

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1634-1643, November 2002

Keywords: Active vision, classification, object recognition, pose estimation

濃淡画像から、剛体オブジェクトを識別し、ポーズを推定するための新規で進歩したアクティブオブジェクト認識アルゴリズムが得られた。このアルゴリズムでは、ある画像中のオブジェクトの分類やポーズが曖昧であるかどうかを自動的に検出し、必要ならセンサーの位置を再設定し、最終的にオブジェクトを最終決定したり、ポーズを推定するために、多数のオブジェクト画像から得られたデータを活用する。グローバルな固有空間中の確率的特徴量空間軌跡(FST)を利用して、3Dの歪んだオブジェクトの情景画像を表現し、入力オブジェクトの分類とポーズを推定した。分類とポーズの確信度は、確率的特徴量空間軌跡表現から導かれるが、確信度によって、更に観察が必要かどうか、最も有益な情報を得るためにはどこにセンサーを置くべきかを決定するときにも利用される。w我々は、このFSTを使うことで現実画像中の現実オブジェクトを認識できる能力を実証するため、CADデータからの描画画像から構築されたFSTを利用して、機械加工された金属部品に対する試験的結果を示す。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


判別のための判別ウェーブレットフェースと最近傍特徴識別器
Discriminant Waveletfaces and Nearest Feature Classifiers for Face Recognition

Jen-Tzung Chien, Chia-Chen Wu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1644-1649, November 2002

Keywords: Discriminant waveletface, nearest feature classifier, face recognition

顔認識において、特徴抽出、判別分析、識別規則は三大重要課題である。本論文では3つの課題をいっしょに扱うためにハイブリッド法を利用する。特徴抽出のために、我々は多層解像度ウェーブレット変換を応用してウェーブレットフェースを抽出した。さらに判別能力を強化するために、線形判別分析をウェーブレットフェースに対して行った。識別に際して、表情の多様性に対応したロバストな決定のため、最近傍平面(NFP)と最近傍特徴空間(NFS)識別器を検討した。従来の最近傍器と、最類似特徴線分識別器との関係も示した。実験では、NFS識別器と協力した識別ウェーブレットフェースが最大の性能を示した。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


いくつかのクラスタリングアルゴリズムの性能評価と妥当性指標
Performance Evaluation of Some Clustering Algorithms and Validity Indices

Ujjwal Maulik, Sanghamitra Bandyopadhyay

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1650-1654, November 2002

Keywords: Unsupervised classification, Euclidean distance, K-Means algorithm, single linkage algorithm, validity index, simulated annealing

本論文では、ハードk-mean法、単連結、疑似焼きなまし法に基づく方法の3つのクラスタリングアルゴリズムと、4つのクラスター妥当性指標であるDavies-Bouldin指標、Dunn指標、Calinski-Harabasz指標、および最近開発された指標Eについての性能を評価する。指標EとDunn指標の関係から、データ集合が明確な下部構造を持っている場合にユニークなハードk-分割を達成するためには指標Eの値下限値は理論的に推定される必要がある。異なる妥当な指標とクラスタリング法によって、自動的に適当なクラスター数に適応進化して様子が、人工的データ、および実データの両方で、クラスター数が2から10と異なる集合について示してある。一旦適当なクラスター数が決まると、議事焼きなまし法によるクラスタリング法によって、適当な分割したデータから、与えられたクラスター数に分割される。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最小割合サイクル(Minimum Ratio Cycle)によるコンパクト窓によるステレオ対応
Stereo Correspondence with Compact Windows via Minimum Ratio Cycle

Olga Veksler

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1654-1660, November 2002

Keywords: Stereo correspondence, adaptive windows, compact windows, minimum ratio cycle, graph algorithms

最も初期の手法で、現在でも広く利用されている稠密ステレオ対応法は画素窓のマッチング法を基礎にしている。この手法の主な課題は、窓のサイズと形状をどのように選ぶかということである。窓が小さいと、強度変動幅が小さく、高い信頼性のマッチングができないが、大きな窓では不連続個所が訛ってしまう。窓サイズと窓形状を、コンパクト窓の多数の群にわたって最適化されたものの中から選択するアルゴリズムを提案する。ここで利用しているコンパクトという語は、窓の面積に比べて淵の部分の面積が小さい窓を表しており、正式な用語ではない。我々は非矩形窓を効率的に構成する、面積に基づく最初の手法であると信じている。グラフにおける最小割合サイクル(Minimum Ratio Cycle)アルゴリズムによって、コンパクト窓の高速最適化が達成できた。このアルゴリズムは数個のパラメータしか持っていないので、適応させることは容易である。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


HMMによる置換暗号解読法と圧縮文書処理への応用
Substitution Deciphering Based on HMMs with Applications to Compressed Document Processing

Dar-Shyang Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1661-1666, November 2002

Keywords: Substitution ciphers, HMM, symbolic compression

単純な置換暗号は、確率的弛緩法などの統計的手法で解けることが示されている。しかし、実際の応用場面ではノイズの影響で、この手法の適用にも限度がある。本論文では、隠れマルコフ法による新たな置換暗号解読法を提案する。我々のアルゴリズムは弛緩法よりも精度が高く、ノイズ下ではもっとロバストであるため、圧縮文書処理に有用である。圧縮記号による文書中のクラスター系列から復元された文字解釈は、暗号解読問題と見ますことができる。クラスター系列にはたくさんのノイズが含まれているが、ロバストな暗号解読アルゴリズムで復元でき、ある種の文書解析課題を達成することができる。この手法の妥当性は多言語文書の複写検出システムで実証された。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パルツェン窓(Parzen Window)に基づく相互情報量による入力特徴量の選択
Input Feature Selection by Mutual Information Based on Parzen Window

Nojun Kwak, Chong-Ho Choi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.1667-1671, November 2002

Keywords: Feature selection, mutual information, Parzen window

相互情報量は変数間の関連性を計る良い指標であるためいくつかの特徴量選択アルゴリズムで利用されてきた。しかし、相互情報量の計算は困難で、しかも特徴量選択アルゴリズムは相互情報量の正確さに依存している。本論文では、パルツェン窓に基づく入力変数とクラス変数間の相互情報量の新規な計算法を提案し、識別問題にこの特徴量選択アルゴリズムを応用する。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


文字認識のための回転不変なルールベースの細線化アルゴリズム
A Rotation Invariant Rule-Based Thinning Algorithm for Character Recognition

Maher Ahmed and Rabab Ward

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 12, pp.Character recognition, thinning, skeletonization , November 2002

Keywords: Feature selection, mutual information, Parzen window

本論文は、新規なルールベースの細線化法を提案する。我々の細線化アルゴリズムのユニークな特徴は、記号の中心線へと細線化することである。つまり、記号の形状は保たれる。また、回転不変でもある。このシステムは推論エンジンに20個のルールを持っている。これらのルールは同時に画像中の各画素に適用される。その結果、細線化と速度において対称性を保持している。その結果これは、あらゆる手書き文字の記号や文字のトポロジーを保存した、効率的システムである。

Ej

Copyright (c) 2002 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[インデックス] [前の年] [次の年]