AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.27, No.1


顔認識のための判別的共通ベクトル
Discriminative Common Vectors for Face Recognition

Hakan Cevikalp, Marian Neamtu, Mitch Wilkes, Atalay Barkana

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 4-13 , January 2005

Keywords: Common vectors, discriminative common vectors, face recognition, Fisher's linear discriminant analysis, principal component analysis, small sample size, subspace methods.

一般に顔認識においては、標本空間の次元数は訓練集合のサンプル数よりも多い。その結果としてクラス内散布行列は特異となり、線形判別分析(Linear Discriminant Analysis :LDA)を直接適用することができない。これは「過少標本」問題として知られている。本稿では、判別的共通ベクトル法と呼ぶ新しい顔認識法を提案する。この方式は、小標本の場合のフィッシャーの線形判別分析の変形に基づいている。顔画像データベースの訓練集合から、各個人を表す判別的共通ベクトルを抽出するための、二つの異なるアルゴリズムを与える。一方のアルゴリズムは、訓練集合内のサンプルのクラス内散布行列を、他方は部分空間法とGram-Schmidt直交化を、それぞれ用いて判別的共通ベクトルを得る。そしてこの判別的共通ベクトルを用いて、入力された新しい顔画像の識別を行う。提案方法は、変形されたフィッシャーの線形判別基準を最大化するための最適解を与える。実験により、我々の方法が他の方法よりも認識精度、効率、そして数値計算的安定性の各面で優れていることを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二次統計量によるスタイルコンテキスト
Style Context with Second-Order Statistics

Sriharsha Veeramachaneni, George Nagy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 14-22 , January 2005

Keywords: Interpattern feature dependence, writer consistency, continuous styles, quadratic discriminant classifier

複数のパターンが、均一グループや同じ源を持つ場として現れることがよくある。多源認識問題(multisource recognition problem)においては、このような同原性は、パターン(周期スタイルコンテキスト)間の統計的従属性を引き起こす。我々はこのような従属性を、二次統計量を用いてモデル化し、正規分布したスタイルのための最適識別器を定式化する。僅か二つのクラスから推測されたモデルのパラメタが、いかなる長さのテスト場(test field)のための識別器の訓練にも充分であることを示す。計算量は大きいが、スタイル重視の識別器(style-conscious classifier)は、標準NISTデータセットからの4桁の手書き数字認識において最大20%もフィールド誤差(field error)率を削減する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ドキュメント解析と認識のための人工ニューラルネットワーク
Artificial Neural Networks for Document Analysis and Recognition

Simone Marinai, Marco Gori, Giovanni Soda

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 23-35 , January 2005

Keywords: Character segmentation, document image analysis and recognition, layout analysis, neural networks, preprocessing, recursive neural networks, word recognition.

人工ニューラルネットワークはドキュメント解析と認識に広く用いられている。これまでの殆どの研究は、文字間の重なりのない手書き及び印刷文字の認識のためのものであり、その成果は広く受け入れられてきた。しかし、他の多くのドキュメント処理タスク、例えば、前処理、レイアウト解析、文字分節、単語認識や署名認識は、効果的に、非常に有望な結果を得てきた。本稿は、connectionistベースのアプローチが適用されてきたオフラインドキュメント画像処理分野で最も重要な問題を調査する。異なるカテゴリのアプローチの間の類似性と相違性を検討する。適切なアーキテクチャと学習アルゴリズム、その両方の概念のための事前知識の重要な役割に対して特に注意を注ぐ。最後に、調査されたアプローチの批評的分析を行い、本分野で最も有望な研究ガイドラインを示す。特に、適切な図式表現に基づいた第二世代connectionistベースモデルを示唆する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大域的および局所的な輝度合せを用いた、画像補正のためのテンソル投票
Tensor Voting for Image Correction by Global and Local Intensity Alignment

Jiaya Jia, Chi-Keung Tang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 36-50 , January 2005

Keywords: Image correction and recovery, color transfer, replacement functions, applications.

本稿では、大域及び局所輝度合わせによる画像補正を行うための投票方法について述べる。我々のモードレスアプローチの鍵となるのは、大域及び局所の置換関数の推測である。これは、対応する投票空間における、頑健な二次元テンソル投票の複雑な推測問題を簡単化することで得られる。本方式では置換関数(曲線)のためのモデルを仮定しない。単調関数としての拘束条件のみに基づき、密度テンソル場を用いて曲線平滑度拘束条件(curve smoothness constraint)を伝播させることで、最適な置換関数への投票を行う。我々の方法は、効果的に欠落曲線分を推測し、画像はずれ値を棄却する。我々のテンソル投票アプローチを用いたアプリケーションを提案し、そして詳細に説明する。最初のアプリケーションは、静止画像のモザイク化からなり、ここでは投票された置換関数が最適な歪み行列の計算のための反復レジストレーションアルゴリズムにおいて使用される。我々の置換関数は一定色の大きな隠蔽を検出することで、隠蔽がある場合でも許容できる品質のモザイク画像を生成するために用いることができる。更にカラーマッチングと投票空間における空間的拘束条件を同時に考慮することで、二つの不完全入力画像のみが与えられた場合における、本投票フレームワークを用いた画像の輝度比較と高コントラスト画像補正を行う。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチフレーム点対応のための、非反復欲張りアルゴリズム
A Noniterative Greedy Algorithm for Multiframe Point Correspondence

Khurram Shafique, Mubarak Shah

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 51-65 , January 2005

Keywords: Point correspondence, target tracking, motion, occlusion, point trajectory, data association, bipartite graph matching, path cover of directed graph.

本稿では複数フレームの単眼画像系列で点対応を見つけるためのフレームワークを示す。一般的に、マルチフレーム点対応の問題は、3以上のフレームにわたる場合NP困難である。この問題の拘束のために多項式時間アルゴリズムを用いる。これは同時に本稿で提案する欲張りアルゴリズムの基礎となる。提案アルゴリズムの“欲張り”な性質により、追跡や監視などのためのリアルタイムシステムにおける使用が可能となる。更に提案アルゴリズムは、単一の非反復欲張り最適化スキームを用いて隠蔽、検出不良、そして誤検出(false positive:本来正しい点対応が誤対応として検出されること(訳者注))を扱うため、複数のヒューリスティクスを用いる他の殆どのアプローチに比べ、アルゴリズム全体の複雑性が削減されている。点追跡のための殆どの欲張りアルゴリズムが、シーンに新たな点が入ってくることや、シーンから既存の点が出ていくことを取り扱えないが、提案アルゴリズムでは可能である。広範囲のシナリオをカバーする実データ及び合成データにおける実験と、システムのパラメタを示すことで、提案アルゴリズムの性能に関する主張の妥当性を検証する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


物理法則に基づいた情報統合法
Information Fusion Methods Based on Physical Laws

Nageswara S.V. Rao, David B. Reister, Jacob Barhen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 66-77 , January 2005

Keywords: Information fusion, distribution free bounds, covering numbers, sensor fusion, Vapnik-Chervonenkis theory, physical laws, methane hydrates exploration.

ある特定の計算容易な物理法則を満たすパラメタを持つシステムについて検討する。各パラメタは多数のセンサにより直接観測されるか、測量を用いて推測されるか、もしくはそれらの組み合わせにより得られる。この観測過程で、おそらく系統的及び確率的誤差両方が混入し、そしてそれらは推測過程に伝播するだろう。更に、すべてのパラメタが観測されるか推測されるまで、実際のパラメタ値は未知である。それゆえ、これまでの標本値に基づいた情報統合法は適用不可能である。本稿で我々は、各パラメタに関連する物理法則違反を最小とする、測量と推測器の結合のための情報統合法を提案する。充分に一般的な物理法則に関する平滑及び非平滑条件下で、我々の方法が漸近収束することを示し、有限標本に基づいた分布なしの性能境界を導出する。統合クラス(fuser class)の適切な選択のための各パラメタの統合推測が、最良推測と同じように、確率論的に、少なくとも、その最良の測量と比べて同じくらいよいことを示す。メタンハイドレート探索における、良く採られたデータを統合するための実際的な問題に対して、本方法の有効性を例証する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


目印情報メモリに基づく全方向ルートパノラマナビゲーション
Iconic Memory-Based Omnidirectional Route Panorama Navigation

Yasushi Yagi, Kousuke Imai, Kentaro Tsuji, Masahiko Yachida

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 78-87 , January 2005

Keywords: Omnidirectional vision, route panorama, localization, navigation, active contour model.

本稿では、全方向画像センサによる、移動ロボットのためのルートナビゲーション法について述べる。ロボットが目標まで移動するとき、水平方向の連続的全方向画像系列に基づいて、そのルートが記憶される。ロボットが目標点に向かって移動している間、双対動的輪郭モデルを用いて、記憶された空間−時間ルートパターンと入力情報が照合され、この動的輪郭モデルの収束形状から、正確なロボットの位置と方位が推測される。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


同原パターンのスタイル一貫性識別
Style Consistent Classification of Isogenous Patterns

Prateek Sarkar, George Nagy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 88-98 , January 2005

Keywords: Style, isogenous patterns, style consistency, style constrained classification, style-bound variant, style-shared variant, Optical Character Recognition, font recognition, field classification, mixture model.

パターン認識の多くの応用において、いわゆる“パターン”は同原のグループ(フィールド)として集合的に現れる。例えば、印刷文書にける単語は、同じフォントで印刷された文字のフィールドとみなすことができる。この同原性は、パターンの観測特徴における、スタイルの一貫性をもたらす。特定のフィールドで共起するパターンの特徴間には統計的に相互依存性がある。なぜならばそれらは、たとえ未知であったとしても、同じスタイルを持つからである。スタイル拘束識別器は、この、フィールド内パターン間の依存性をモデル化することで、より高い識別精度を実現する。フィールド特徴(パターン特徴の連鎖)の分布におけるスタイル一貫性の影響は、階層的混合(hierarchical mixture)によりモデル化できる。フィールド内では、パターンはクラス−スタイル条件付き混合ガウシアンから導出されるため、各フィールドは複数のスタイルの混合により導出される。このモデルに基づき、最適スタイル拘束識別器により、未知だが一貫しているスタイルにおけるパターンのフィールド全体を処理する。研究室レベルの実験において、スタイル拘束識別器は、単一識別器と比較して、活字数字のフィールドにおける認識エラーを25%近く減少させた。より多くの潜在情報が利用できるため、我々の識別方法には、より長いフィールドが好ましい。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


計量的3D再構築と単一非較正ビューからの回転表面のテクスチャ捕捉
Metric 3D Reconstruction and Texture Acquisition of Surfaces of Revolution from a Single Uncalibrated View

Carlo Colombo, Alberto Del Bimbo, Federico Pernici

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 99-114 , January 2005

Keywords: Surface of revolution, camera self-calibration, single-view 3D metric reconstruction, texture acquisition, projective geometry, image-based modeling.

画像中のオブジェクトの三次元構造と、その表面特性を、効率的に再現するために、画像解析とコンピュータビジョンを利用することができる。本稿では、三次元構造の測量的再構築と、回転表面(Surface of revolution: SOR)の単一非較正ビューからのテクスチャ捕捉について検討する。SOR構造の対象性により導かれる画像内の幾何学的拘束条件を利用し、未加工カメラの自己較正、3D測量的再構築及びテクスチャ捕捉を行う。単一軸の回転運動における幾何との類似性を利用して、単一SORビューにおける明確な輪郭と、二つの断面の可視セグメントにより、これらの計算を行うための充分な情報を与えることを示す。本稿の成果は以下の3点である。1)平面のために開発された、平面反射に基づいた単一ビュー自己較正と3D情報の計量的再構築を、局面のSORクラスを扱えるように拡張したこと、2)この自己較正が、SORのfixed entitiesのための3つの独立な線形拘束条件から得られるカメラ焦点距離(1パラメタ)、及び主点座標(2パラメタ)の両方を推測することで得られること、3)SORスケーリング関数の不変量に基づいた記述が、アファイン変換から透視変換に拡張されたこと。提案手法は、明確な輪郭とSORスケーリング関数を関連付ける、この変換の幾何特性と位相幾何特性を共に利用する。それゆえこの方法によれば、SORにおいて隠蔽された部分の測量的局所化(局所位置の同定)が可能で、これらの隠蔽を正確に扱うことができる。テクスチャ付SORの再構築のために、テクスチャ捕捉が行われるが、これは外部カメラ較正パラメタを必要とせず、自己較正により得られる内部カメラパラメタのみによる。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


頑健な形状追跡のための情報融合のフレームワーク
An Information Fusion Framework for Robust Shape Tracking

Xiang Sean Zhou, Dorin Comaniciu, Alok Gupta

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 115-129 , January 2005

Keywords: Shape tracking, subspace constraint, motion estimation with uncertainty, heteroscedastic noise, active shape model, model adaptation.

これまでの部分空間モデル制約を形状追跡に用いる方法は、測量の部分情報のみを利用し、分散をモデル化していた。本稿では、頑健な形状追跡のための統合フレームワークを提案する。提案方法は、異分散不確実性(heteroscedastic uncertainty)若しくは測量におけるノイズ、システムダイナミクスと部分空間モデルを最適に融合させる。結果として得られる非直行部分空間投影と融合は、直行投影を用いた典型的なモデル拘束の自然な拡張になっている。二つの動き測量アルゴリズムを示し、測量不確実性推定のための代替解を導入する。形状モデルを追跡データからオフラインで構築し、強いモデル適合を通じて正解情報初期化(the ground truth initialization)から情報をオンラインで利用する。本フレームワークを心臓エコー図における形状追跡に適用する。この例では、動き推定誤差は本質的に異分散であり、各心臓はそれぞれ独自の形状であり、心外膜及び心内膜境界の相対運動は、顕著な症状を示す。提案手法は従来の形状空間拘束追跡アルゴリズムよりも有意に優れている。異分散不確実性の完全な処置、強いモデル適応性、そして二重輪郭の結合追跡により、最も困難な場合であっても、頑健な性能が得られる。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


離散コサイン変換を用いた新しい文書ランキング法
A Novel Document Ranking Method Using the Discrete Cosine Transform

Laurence A.F. Park, Marimuthu Palaniswami, Kotagiri Ramamohanarao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 130-135 , January 2005

Keywords: Indexing methods, information search and retrieval, fast fourier transforms.

我々は離散コサイン変換(Discrete Cosine Transform: DCT)を用いた新しいスペクトルのテキスト検索方法を提案する。DCTの特性を利用することによって、そして高速クエリと、ベクトル空間法(vector space methods: VSM)で見つけた圧縮技術を使用することにより、クエリをVSMと同じくらい高速に処理することができること、そしてはるかに高い精度を達成できることを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネルベースの非線形部分空間識別器のための、部分空間次元選択のための探索法の利用について
On Utilizing Search Methods to Select Subspace Dimensions for Kernel-Based Nonlinear Subspace Classifiers

Sang-Woon Kim, B. John Oommen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 136-141 , January 2005

Keywords: Kernel principal component analysis (kPCA), kernel-based nonlinear subspace (KNS) classifier, subspace dimension selections, state-space search algorithms.

カーネルベースの非線形部分空間法(Kernel-based Nonlinear Subspace :KNS)で、部分空間次元は部分空間識別器の性能に対して強い影響を持っている。一般に、高い識別精度を得るためには、大きい次元が必要とされる。しかし、選択された部分空間次元が大きすぎれば、部分空間が重なり合うことで低性能になってしまうし、小さすぎれば、近似が上手く行かず識別誤差を増やしてしまう。最も一般的なアプローチは、それぞれのクラスに対してカーネル行列により計算される、いわゆる累積比率[13]に基づいて次元を選択する、アドホックな特性のものである。本稿では、規則的且つ効率的に最適、若しくは最適に近いKNS識別器のための部分空間次元を選択する新方法を提案する。この方法は、探索戦略と、重複基準(Overlapping criterion)と呼ばれるヒューリスティックな関数を用いる。この関数の論理的根拠は本稿の中で示される。この基準をヒューリスティックな関数として用いることで、最適部分空間次元選択は、与えられた問題領域の解空間から最良のものを見つけることに簡単化される。これにより、非常に効率的に最適解を見つけるために、探索空間を削減することができる。実験により、提案方法が識別精度を犠牲にすることなく、部分空間次元を効率的に選択することが示される。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


WARP:フーリエ記述子とタイムワーピング距離を用いた、高精度形状検索
WARP: Accurate Retrieval of Shapes Using Phase of Fourier Descriptors and Time Warping Distance

Ilaria Bartolini, Paolo Ciaccia, Marco Patella

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 142-147 , January 2005

Keywords: Shape matching, Dynamic Time Warping distance, discrete Fourier transform.

物体形状情報が、画像コンテンツを記述するための情報として適当であるにもかかわらず、大規模画像データベースからの効果的で効率的な類似形状検索は、未だ難しい課題である。本稿では、類似形状マッチングと検索のための、WARPと呼ばれるフーリエベースの新しい方法を提案する。WARPの特徴は、フーリエ係数の位相情報と、形状記述子の比較のための動的タイムワーピング(Dynamic Time Warping: DTW)距離の利用である。この位相情報は、フーリエ係数の振幅のみを利用する場合よりも正確な物体境界の記述を与えるが、DTW距離は(限られた)位相シフト量の場合でさえも正確な画像マッチングを可能にする。典型的な適合率/再現率測量では、位相情報やDTW距離を用いないフーリエベースの方法に比べ、WARPが、再現率20%レベルにおいて最大35%も適合率を改善させることを実験により示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


色画素識別を用いた皮膚領域切り出し:解析と比較
Skin Segmentation Using Color Pixel Classification: Analysis and Comparison

Son Lam Phung, Abdesselam Bouzerdoum, Douglas Chai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 1, pp. p p. 148-154 , January 2005

Keywords: Pixel classification, skin segmentation, classifier design and evaluation, color space, face detection.

本稿では、皮膚領域切り出しのための色画素識別における、三つの重要項目を検討する。それは、色表現(color representation)、色量子化(color quantization)、そして識別アルゴリズムである。代表的な色空間に対する、ベイズ識別器をヒストグラムと共に用いた解析により、色画素識別に基づく皮膚領域切り出し法が、色空間の選択に影響されづらいことが示される。しかし、色相情報のみを用いた場合には、識別性能が低下する。より大きなヒストグラムがより良い識別性能を与えるが、色量子化は各チャネル64binまで減少させうることも明らかにした。3種類の区分線形識別器、3種類の単峰性ガウス識別器、そしてガウス混合識別器と比較しても、ベイズ識別器をヒストグラムと共に用いる方法及び、多層パーセプトロンが他の識別器よりも良い性能を示すことが判った。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.27, No.2


HumanID歩行パターンの困難な課題:データセット、性能と分析
The HumanID Gait Challenge Problem: Data Sets, Performance, and Analysis

Sudeep Sarkar, P. Jonathon Phillips, IEEE, Zongyi Liu, Isidro Robledo Vega, IEEE, Patrick Grother, Kevin W. Bowyer, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 162-177 , February 2005

Keywords: Gait recognition, human motion analysis, biometrics, human identification, silhouette detection, spatiotemporal correlation.

ビデオ映像から抽出された歩行パターン(gait pattern)の解析による個人識別問題が、最近注目されてきている。しかしこの問題が「解ける」条件は理解されておらず、特徴も明らかにされていない。歩行パターン認識技術の比較と、特性記述のための手段を提供するために、我々はHumanIDという歩行パターン認識に関する困難な課題を導入する。この困難な課題は基準アルゴリズム、12の実験、そして大規模なデータセットから成り立つ。この基準アルゴリズムは背景除去によりシルエットを推測し、時間的な相関関係によって認識する。基準アルゴリズムによって計測できるように、12の実験は次第に困難さを増すように設定されており、これにより性能に対する5つの共変量の効果を調べる。本研究における共変量は、視角の変化、くつタイプの変化、歩く表面の変化、書類かばんを携帯するか否か、そして比較されるシーケンス間の経過時間、の5つである。12の実験の同定率は、最も容易な実験における78パーセントから、最も困難な実験の3パーセントに渡る。5つの共変数はすべて、性能に対して統計学的に有意な影響を与える。その中でも歩く表面と時差が最も大きい影響を持っている。データセットは5つの共変数に渡り、122人の被験者(1.2ギガバイトのデータ)からの1870のシーケンスからなる。歩行パターンデータ、基準アルゴリズムとスクリプトのソースコードはhttp://www.GaitChallenge.orgにおいて利用可能である。これらにより実験をPC上で実行し、得点付けおよび結果の解析を行うことができる。この研究インフラストラクチャーは、歩行パターン認識アルゴリズムの更なる開発と、新しいアルゴリズムの長所と短所を理解するための追加の実験を支援するものである。更に詳細な実験結果が示されることで、メタ解析が可能となり、より多くのものを理解することができる。このように、この困難な課題へ取り組むことで、伝統的なコンピュータビジョン研究の方法論からの急速な脱却が示される可能性がある。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一画像からの、テクスチャ表面の反射成分の分離
Separating Reflection Components of Textured Surfaces Using a Single Image

Robby T. Tan, Katsushi Ikeuchi, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 178-193 , February 2005

Keywords: Reflection components separation, specular reflection, diffuse reflection, dichromatic reflection model, chromaticity, specular-to-diffuse mechanism, specular-free image.

非均質オブジェクトにおいては、ハイライト(明るい部分)は散乱と鏡面反射成分の線形結合である。これら二つの成分を分離もしくは分解するために、多くの方法が提案されてきた。われわれの知る限りでは、単一の入力画像を用いるすべての方法は、複数の色を持つ表面を扱うために明確な色分割を必要とする。残念ながら、複雑なテクスチャの画像に対しては、現行の色分割アルゴリズムは十分な性能ではない。そのため、明確な色分割を用いない方法が必要不可欠であり、本稿ではその方法を提示する。提案方法は、色情報のみ、特に色度情報に基づいており、幾何学的情報をまったく必要としない。基本アイディアのひとつは、入力画像とその鏡面反射成分除去画像(specular-free image)の明度対数差分を反復的に計算することである。この鏡面反射成分除去画像は、入力画像の散乱成分とまったく同じ幾何学特性を持った画像であり、入力画像の各画素の明度と最大色度を非線形にシフトさせることで得られる。単一画像を用いる他の現行の方法と異なり、提案方法のすべての工程は、2つの隣接画素の最大値計算を含めて、局所処理である。この局所処理はテクスチャオブジェクトを、複雑な複数色のシーンで取り扱うために有効である。偏光フィルタとの比較による評価により、提案方法の効果を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


較正と3Dモデリングのための平行六面体による幾何学的拘束条件の利用
Using Geometric Constraints through Parallelepipeds for Calibration and 3D Modeling

Marta Wilczkowiak, Peter Sturm, Edmond Boyer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 194-207 , February 2005

Keywords: 3D modeling, calibration, geometric constraints.

本稿では、カメラ較正と3Dモデリングのための幾何情報の利用について述べる。幾何学的拘束条件を用いることで、より安定した結果が得られ、また、より少ない画像で較正を行うことができる。われわれのアプローチは、ユーザが幾何学的基関数と、それらの間の拘束条件を設定するような、半自動3Dモデリングのフレームワークに基づいて開発されたものである。これは、共面性、平行性、そして直行性などの拘束条件が平行六面体の場合にしばしば直感的によく当てはまるという観測に基づく。更に平行六面体はユーザが描きやすく、たとえば建築学的なシーンの主構造をモデル化する場合などに特に適している。本稿ではまず、平行六面体の形状パラメタとカメラの固有パラメタの間に存在する双対性について説明し、次に、この双対関係を利用する因数分解に基づいたアルゴリズムの開発について述べる。平行六面体の画像を用いることで、カメラ較正、六面体の形状復元、そしてシーン内のすべての物体の相対姿勢の推定を同時に行うことができる。平行六面体に関する拘束条件以外にも、カメラの自己較正拘束条件も同時に考慮する。この較正方法が特異な場合についての検討を行うことで、提案方法は完成する。平行六面体によるモデル化を用いない、シーンの基関数の再構成のための完全な方法についても簡単に述べる。複数視点、および単一視点の、実画像および合成画像を用いた様々な実験により提案方法を検証する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変形可能な物体形状の表現と検出
Representation and Detection of Deformable Shapes

Pedro F. Felzenszwalb, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 208-220 , February 2005

Keywords: Shape representation, object recognition, deformable templates, chordal graphs, dynamic programming.

本稿では、画像中の変形可能な物体の、形状の表現や検出に使用できるいくつかの技法を示す。変形テンプレートモデルの主な難点は、テンプレートが、非常に多数、もしくは無限数の、非剛体変形を持つことである。これにより、ある特定の画像に対して、変形可能テンプレートの最適マッチングを見つける問題は、信じがたいほどに困難になってしまう。変形可能なオブジェクト形状の新しい表現を用いることで、非剛体マッチング問題の大域最適解を如何に効率よく見つけられるかを示す。この表現は、三角ポリゴンによる物体形状の記述に基づいている。われわれのマッチングアルゴリズムはエネルギー関数の大きなクラスを最小化でき、これにより広範な問題に適用可能となっている。医療画像と自然シーンの画像におけるオブジェクト形状検出の実験結果を示す。われわれの方法は、初期化に依存せず、頑健で、乱雑な画像においても高い性能を示す。サンプル画像を用いた、オブジェクトクラスのための非剛体オブジェクト形状モデルの学習問題についても考える。マッチングアルゴリズムからの要求に沿った形でモデルを構成する際に、より良いモデルを学習する方法を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


三次元飛行姿勢推定のためのProcrustes方法の一次誤差伝搬
First Order Error Propagation of the Procrustes Method for 3D Attitude Estimation

Leo Dorst

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 221-229 , February 2005

Keywords: Rigid body motion analysis, pose estimation, attitude estimation, Procrustes method, orthogonal Procrustes problem, perturbation analysis, error propagation, polar decomposition.

よく知られているProcrustes法は、剰余項の二乗距離を最小にすることによって、2つの点雲を登録する最適な剛体運動を決定する。本稿で我々は、点雲における方位選択性ノイズがどのように剛体運動の推定パラメタに影響を与えるかを完全に明示して、三次元の場合における、この方法の一次誤差解析を行なう。この結果は数値解析で確立された誤差範囲より遥かに詳細である。応用分野での直接使用を助けとなるように、実験結果の直観的な解釈を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


KPCAプラスLDA:特徴抽出と認識のための完全なカーネルフィッシャー判別フレームワーク
KPCA Plus LDA: A Complete Kernel Fisher Discriminant Framework for Feature Extraction and Recognition

Jian Yang, Alejandro F. Frangi, Jing-yu Yang, David Zhang, IEEE, Zhong Jin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 230-244 , February 2005

Keywords: Kernel-based methods, subspace methods, principal component analysis (PCA), Fisher linear discriminant analysis (LDA or FLD), feature extraction, machine learning, face recognition, handwritten digit recognition.

本稿はヒルベルト空間でカーネルフィッシャー判別分析(KFD)の理論を検証し、二相KFDのフレームワーク、即ち、カーネル主成分分析(KPCA)そしてフィッシャーの線形判別分析(LDA)を展開する。このフレームワークはKFDの性質に対する新たな洞察を与える。このフレームワークに基づいて、著者らは完全なカーネルフィッシャー判別分析(CKFD)アルゴリズムを提案する。CKFDは「二重判別部分空間」で判別解析を行うために用いることができる。正則および非正則という2種類の判別情報をフルに利用できることが、CKFDをいっそう強力な識別器にしている。FERET顔画像データベースとCENPARMI手書き数字データベースを使って提案アルゴリズムを検証・評価した。実験結果はCKFDが他のKFDアルゴリズムを凌ぐことを示している。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コンテンツベースの画像検索で性能グラフを完成させる方法:一般性を加え、スコープを標準化すべし
How to Complete Performance Graphs in Content-Based Image Retrieval: Add Generality and Normalize Scope

Dionysius P. Huijsmans, Nicu Sebe, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 245-251 , February 2005

Keywords: Multimedia information systems, information retrieval, content-based image retrieval, performance evaluation.

精度−リコール率(訳者注:精度(Precision)はシステムが認識した結果における、正解の割合を、リコール率(Recall)は全試行に対して、システムが正確に認識できた割合を示す)、もしくは精度−スコープの形のグラフで表されるコンテンツベースの画像検索(CBIR)システムの性能は、対象となるシステムの不完全な姿を示すに過ぎず、画像中の無関係な物体(embedding)の影響は不明瞭である。本稿では、多数の予め定められたクエリに対する正解画像によって定義にされる、理想的な検索システムの性能と比較して、画像ランク付け性能の、包括的かつ良く正規化された説明方法を提案する。我々は特定の正規化されたスコープ値(検索された物体の数)に適切なクラスサイズと拘束条件に関する正規化を提唱する。我々は様々な画像中の物体に対する包括的な認識精度指標研究のために、新しい三次元及び二次元の性能グラフを提案する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


同等のサブバンド統計値を持つ視覚識別可能なパターン
Visually Distinct Patterns with Matching Subband Statistics

Joshua Gluckman, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 252-264 , February 2005

Keywords: Texture, statistical models, feature representation, moments.

視覚パターンの一般的な表現は、フィルター群(ガウス分布、ラプラス演算子、ガボール演算子など)のアウトプットから測られる統計的な分布である。テクスチャ識別、テクスチャ合成、物体検出、及び画像検索を含む、さまざまな視覚タスクに対して、フィルター応答の周辺分布と結合分布が提唱され、効率的に使用されてきた。本稿ではこれらの表現の、任意の視覚刺激対を識別するための性能を検証する。本稿で示すパターンの例は、おそらく同じ周辺及び結合分布の性質を持つが、それでも“視覚的に識別可能”であるように導出される。これは、画像対の周辺分布の上位k次元のモメントを合わせるための十分条件を示すことで達成される。更に、フィルター群が与えられた場合に、そのフィルター群との畳み込みを通じて生成されるサブバンド画像の周辺分布の統計的性質(marginal statistics)をどのように合わせるかを示す。次に結合分布の統計的性質(joint statistics)が検証され、類似したサブバンド応答の結合分布を持った画像が示される。最後に、任意のフィルターセットに対しても近似的に同じサブバンド統計値を持つ、視覚的に識別可能な周期パターンが導出される。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カメラ較正におけるパラメタ分離のための無限遠点の利用
Using Points at Infinity for Parameter Decoupling in Camera Calibration

Jean-Yves Guillemaut, IEEE, Alberto S. Aguado, John Illingworth

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 265-270 , February 2005

Keywords: Computer vision, camera calibration, invariants.

Gold Standardアルゴリズムを含むカメラ較正法の殆どが、点ベースの情報を用い、同時にすべての較正パラメタを推定する。これと対照的に、我々は線方位情報を利用する新しい較正方法を提案する。提案方法は較正問題を単純な二つのステージに分解する。我々は単一投影された画像中の線とそれらの消失点の間の横変位の最小化として、本問題を定式化する。以前の消失点を用いた方法と異なり、本方式では、平行した線対が必要とされない。更に消失点の不変特性は、推定パラメタの数を増やすことなく、純粋な変換(pure translation)によって関連する多数の画像を、較正のデータセットの拡張のために使用できることを意味する。我々は本方法を消失点方法及びGold Standardアルゴリズムと比較し、本方式が、それらに比肩する性能を持つことを実証する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大規模画像系列の外向き円運動解析
Outward-Looking Circular Motion Analysis of Large Image Sequences

Guang Jiang, Yichen Wei, Long Quan, Hung-tat Tsui, Heung Yeung Shum, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 271-277 , February 2005

Keywords: Structure from motion, circular motion, single axis motion, concentric mosaic.

本稿は、大規模環境アプリケーションのための、円軌道を描く較正済み外向きビデオカメラによる大規模画像系列の解析のための、新しい単純な方法を示す。以前の円運動アルゴリズムは主に、内向きのターンテーブルのような構成のアプリケーションのためのものだった。これらのアルゴリズムは、対応点の円錐起動が直線に縮退するような外向きカメラからの画像系列処理には不適切である。この較正されたカメラの円運動は、本質的に各フレームについてただひとつの未知の回転角を持つ。全画像系列に対する動き復元では、フレーム対の角運動を抽出するために、ラゲール方程式を用いてフレーム対のただひとつのF行列(fundamental matrix)のみを計算する。そして画像中の一点を少なくとも3フレームにわたり追跡することで、この未知の回転角の計算結果を他のフレームに伝播させる。最後に全画像系列の最適化のために最尤推定を行う。大規模な実験により、本方法の妥当性と画像ベースレンダリングにおける本方法の応用の実現可能性を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画素レベル拘束ヒストグラムの統計的統合による記号認識:新しい記述子
Symbol Recognition via Statistical Integration of Pixel-Level Constraint Histograms: A New Descriptor

Su Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 278-281 , February 2005

Keywords: Symbol recognition, graphics recognition, descriptor, feature extraction, feature representation.

記号認識のための新しい記述子を提案する。1)他の画素間の拘束の分布を示すために、各画素に対してヒストグラムを構成する。2)固定次元の特徴ベクトルを構成するために、すべてのヒストグラムは統計的に統合される。提案する記述子の頑健性と不変性を実験により確認する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


バックグランドミスマッチによる分配追跡の性能向上
Improving Performance of Distribution Tracking through Background Mismatch

Tao Zhang, Daniel Freedman, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 282-287 , February 2005

Keywords: Active contours, density matching, level set method, tracking, PDEs.

本稿では、バックグランドミスマッチに基づいた、非剛性の動オブジェクトの追跡のための新しい濃度マッチング法を提案する。本方法は、元々の濃度マッチング追跡器[7]のアイディアを拡張する。元々の追跡器は、モデル濃度と最もよく照合する閉領域測光濃度値を持つ輪郭を見つけることでオブジェクトを追跡する。そのためこの方法は、曲線の初期位置とモデル濃度に極めて敏感になることがある。本稿で提案する新しい方法では、最適化に第二項、即ちモデル濃度値と背景から抽出された濃度値との差異、を加えることで、この過敏性を解消している。この追加項を最大化することにより、提案アルゴリズムは実際の使用において際立って頑健になっている。更に滑らかな、もしくは拡散型の境界を持つオブジェクトの追跡も行えるという、本アルゴリズムの能力を示す。本追跡器は、変微分方程式の形式であり、レベルセットフレームワークを用いて実装されている。剛性画像と実画像の動画を用いた実験により、提案方式が効率的で頑健であることを示す。また実験既存のいくつかの方法との比較も行う。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクト間投影のためのフーリエ理論
A Fourier Theory for Cast Shadows

Ravi Ramamoorthi, Melissa Koudelka, Peter Belhumeur

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 288-295 , February 2005

Keywords: Cast shadows, convolution, Fourier analysis, eigenmodes,V-grooves.

オブジェクト間投影は、照明に依存しない認識や表面再構築のような、多くのコンピュータビジョンアプリケーションにおいて重要でありうるにもかかわらず、多くのアルゴリズムがそれらを無視する。その主な理由は、これらのアルゴリズムが非凸面領域における非局所的インタラクション持ち、形式解析が困難であるためである。しかし実際の多くの例は、壁、V字溝構造、あるいは小穴のある表面など、規準的構造に良く対応する。特に、我々はその表面がV字溝のような規準的な形状を含む苔、礫、あるいは台所スポンジのような3Dテクスチャを使って実験する。本稿は、理論的に多くの形状が畳み込みとフーリエ基底関数を使って数理的に解析できることを示しことで、オブジェクト間投影の形式解析を実現するための第一歩となる。本稿の解析結果は、オブジェクト間投影の数学的畳み込み構造を呈示し、反射と照度のための最近の信号処理フレームワークとの強い関係を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Spacetimeステレオ:三角測量からの奥行き計算のための統一フレームワーク
Spacetime Stereo: A Unifying Framework for Depth from Triangulation

James Davis, IEEE, Diego Nehab, Ravi Ramamoorthi, Szymon Rusinkiewicz, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 2, pp. 296-302 , February 2005

Keywords: Depth from triangulation, stereo, spacetime stereo.

三角測量からの奥行き計算は伝統的に、両眼立体視、レーザー走査のような方法と共に多くの独立した研究で検討され、これらの方法とは別個に考慮された構造化された光を想定して計算してきた。本論文で我々は、これらの方法の多くを統一し、そして一般化するspacetimeステレオと呼ばれる共通フレームワークを提案する。このフレームワークの実際の有用性を示すために、奥行き推定のための2つの新しいアルゴリズム、即ち予め規定されない照度変化からの奥行き推定アルゴリズムと、動画像における奥行き推定アルゴリズムを開発する。アルゴリズムの検証と解析により、既存の方法が殆ど能力を発揮できない状況においても、本稿で提案するspacetimeステレオフレームワークから得られた方法が、奥行きを再生するために使用できることを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.27, No.4


不定符号カーネルを伴うSVMの特徴空間の解釈
Feature Space Interpretation of SVMs with Indefinite Kernels

Bernard Haasdonk

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 482-492 , April 2005

Keywords: Support vector machine, indefinite kernel, pseudo-Euclidean space, separation of convex hulls, pattern recognition.

マシンラーニング法において、カーネルを利用する方法はますます流行しつつある。その中でもサポートベクターマシン(SVM)は識別には最も有名である。SVMは条件付正定値(cpd)のカーネル関数としてよく理解されている。しかし、現実には、不定符号(non-cpd)のカーネルが現れ,SVMの応用が要求される。これら不定符号SVMのプラグインがしばしば経験的好結果をもたらす。しかし、これらの幾何学的、理論的理解が得られてないので、結果解釈は困難である。本稿では、このような場合にSVM識別器を理解するための道順を示そう。まず、不定符号カーネル関数を有するSVMの幾何学的解釈を示す。このようなSVMは最適超平面識別器であるが、このマージンが最大になるという意味においてではなく、擬似ユークリッド空間において,凸包間距離が最小になるという意味においてである。これによって、不定符号SVMに対する健全な枠組みが与えられる。今後の理論的解析における基礎はこの解釈が基本になる。つまり、解のユニーク性、特徴抽出における不定符号SVMの適合性を導くための実際的ガイドラインへと拡張される。

EJ

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一画像で、遠隔照明の前提無しでの光源位置と反射推定
Light Source Position and Reflectance Estimation from a Single View without the Distant Illumination Assumption

Kenji Hara, Ko Nishino, Katsushi Ikeuchi, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 493-505 , April 2005

Keywords: Finite distance illumination, light source position estimation, reflectance parameter estimation, specular reflectance.

照明条件未知の条件での現実の画像表面反射特性の復元方法がいくつか開発されている。しかし、ほとんどの場合,光源位置は無限遠の仮定が入っており,例えば室内の反射特定モデルには、そのまま適用するわけには行かない。我々はここで、以前より条件の緩い条件での、照明光源が無限遠の仮定無しで、単一画像から表面反射特性を求める2種類の解法を示す。実画像とオブジェクトの鏡面反射3D幾何学的モデルを入力として、第1の方法では、Lambertian拡散成分を当てはめて光源位置を推定し、同時に逐次弛緩法によって鏡面反射と拡散成分を分離する。第2の方法は、第1の方法の拡張であり、単一画像中の複数の偏光光を解析して得られた鏡面反射成分を利用して,拡散反射の制約を除き,解を求める。この方法では、log変換されたTorrance-Sparrowモデルの線型性を最適化することで、同時に反射特性と光源位置の両方が求まる。このように、オブジェクトの反射特性と光源位置の両方を同時に得られる結果、任意の光源位置に対して対象物の合成画像を自由に作ることができる。実験の結果このモデルの妥当性が示された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ベクトル値をもつ画像のPDEによる正則化(Regularization)
Vector-Valued Image Regularization with PDEs: A Common Framework for Different Applications

David Tschumperle, Rachid Deriche

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 506-517 , April 2005

Keywords: Diffusion PDEs, color image regularization, denoising, inpainting, vector-valued smoothing, anisotropic filtering, flow visualization.

本稿ではベクトル値を有する画像の、変分法やPDE(偏微分方程式)に基づく正則化(regularization)法に注目する。まず、ここでの、PDEに基づく定式化では、かつて提案された多数のスカラーやベクトル値の正則化を含み、統一的表現が可能な,一般的な不均一拡散方程式を提案する。一つには,得られた式は、空間的適応性のあるガウシアンカーネルの局所フィルターとして、調整手順を簡単に解釈できる。他方、このプロセスは分解されて, 整合(regularization)を平滑化と見なすこともできる。このように一般的表現を目的に応じた望みの整合化と解釈できる。例えば,画像復元,画像修復、画像拡大、流れの可視化、などに。特定の具体的数値も示してある。これで、提案した式のフィルタリング特性を考慮して、整合化を正確に実装化できるであろう。最後に、選別された非等方拡散方程式の多様な応用結果をカラー画像で示す。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Assorted Pixelを利用した多次元画像軸方向への解像度の向上
Enhancing Resolution Along Multiple Imaging Dimensions Using Assorted Pixels

Srinivasa G. Narasimhan, IEEE, Shree K. Nayar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 518-530 , April 2005

Keywords: Image formation, multisampling, dynamic range, color, resolution, interpolation, structural models, learning, Bayer pattern.

多重サンプル作像法とは、撮像画素を同時に使うために、多次元画像(空間、時間、スペクトル、輝度、偏光など)を取得するための一般的枠組みである。赤、緑、青の画像をそれぞれのフィルターを通して得られる色別の個体画像素子の像はその代表例である。この多重サンプリングが他の次元においてどのように利用されるかについて簡単に述べる。一旦このような画像が得られたなら,各次元軸に沿ったデータは、通常の内挿アルゴリズムによって算出できる。一般的には内挿で大きく解像度を落とすことになり、結果的に画質も落ちる。しかし、実画像を写した光場(light field)は膨大な冗長性があり,各次元は高い相関を持っている。従って, 多様な学習用画像を使って予め学習させておいた局所的構造モデルを使うことで、内挿はうまく行く。我々が利用した構造モデルは、測定した画像強度の多項式である。これは効果的であるとともに、演算量が少ない。この構造的内挿の効果を次に3つの場合について紹介する。1)カラーフィルター画像のモザイク貼り合わせ合成,2)各種露出の異なるフィルター画像のモザイク貼り合わせによる高ダイナミックレンジ画像合成,3)各種カラーフィルター、各種露出フィルター画像のモザイク貼り合わせによる高ダイナミックレンジカラー画像。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時-空間の超解像
Space-Time Super-Resolution

Eli Shechtman, Yaron Caspi, Michal Irani

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 531-545 , April 2005

Keywords: Super-resolution, space-time analysis, temporal resolution, motion blur, motion aliasing, high-quality video, fast cameras.

同一動画像の多重低解像ビデオ画像系列を組合わせることで、高時空解像のビデオ画像系列を再構成する方法を提案する。超解像は時間と空間の両方に同時に行われる。時間超解像によって、通常のフレームレート以上の急速な動的事象を復元する。このような動的な事象は、スローモーションで調べても見ることができない(見えたとしても不正確)。空間と時間の次元は本来大変異なっているが、互いに関連はある。そのため、空間と時間や、新たな用途に対する、興味ある視的なトレードオフがの関係が導かれる。これには以下のものが含まれる;1) 時間解像度の向上によって、動きボケのような空間的模様ができたり、2) 異なる時空解像度の画像系列(例えば,NTSC, PALのような)の組合わせを入力して、高品質の動画像系列が得られる。さらに、時間的超解像に対して,空間的超解像の解析・比較が可能となる。これら解析の中には、必要なカメラの台数、のような実用的問題も含まれる。また、超解像法による解像度改善の上限はどの辺りなのか、超解像空間にできる「輪郭模様」効果に相当する時間的「輪郭模様」はあるのか?

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


閉曲線で囲まれた注視オブジェクトのRatio Contourによる抽出
Salient Closed Boundary Extraction with Ratio Contour

Song Wang, Toshiro Kubota, Jeffrey Mark Siskind, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 546-561 , April 2005

Keywords: Image segmentation, perceptual organization, boundary detection, edge detection, graph models.

ノイズの多い画像から閉曲線で囲まれた注視オブジェクトを抽出するグラフ理論に基づく方法であるRatio Contour法を紹介する。この方法はエッジ検出で検出される境界の断片に演算を加える手法である。境界抽出で得られたこれら境界断片の部分群を同定し、注目度(Saliency)が最大になるようこれらの断片を連結統合していく。新規な注視測度(salient measure)を境界に適用し、ギャップ長、断片を接続したときの閉境界を形成したときの平均曲率を導入することで、ゲシュタルト測(Gestalt laws)による近似性と連続性を導入できる。この新規な測度導入は、短い境界での偏りを除く目的がある。最も注視度の高い境界を見つけるための多項式時間(polynomial-time)を要するアルゴリズムを示す。またratio contourを実画像に適用できる補足的前処理ステップを示す。このような類似する2つの方法を適用して抽出した閉曲線境界を比較する。最短経路アルゴリズムによるElder and Zucker's法、スペクトル解析に基づくWilliams and Thornber's法と強連結成分法である。比較は実験と理論の両方で行われ、対象画像も合成画像と実画像の両方を使った。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所的流れパラメータからの、3次元的動きの回帰推定と表面構造
Recursive Estimation of 3D Motion and Surface Structure from Local Affine Flow Parameters

Andrew Calway

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 562-574 , April 2005

Keywords: Structure from motion, surface normals, affine motion models, Kalman filtering.

画像系列から取り出されたオプティカルフロー測定に基づく、動きから構造を回帰推定するアルゴリズムについて述べる。3D動作と深さ情報に加えて、表面の垂線成分も推定する。測定はアフィン的動きパラメータであり、シーンを平面近似表面パッチ表現した局所的流れ場を近似する。これらは時間的に積分され3Dパラメータの推定には拡張カルマンフィルターを利用する。同時にカメラの焦点距離も推定するが,3D推定も測定可能である。パラメータ測定は、前記のオプティカルフロー手法よりは計算量が少なく,回帰フィルターは耐ノイズ性を組み込んでいる。人工画像や自然画像に対する実験で、本アルゴリズムがうまく作動することが分かった。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


土地開発のための、衛星画像によるグラフ理論に基づく測定法の理論的実験的研究
A Theoretical and Experimental Investigation of Graph Theoretical Measures for Land Development in Satellite Imagery

Cem Unsalan, Kim L. Boyer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 575-589 , April 2005

Keywords: Land use classification, graph theoretical measures, measure fusion, satellite images, image analysis.

商用衛星画像の領域識別をすることで土地利用が高精度で判別できる。しかし、色々な理由から更に高精度の要求がある。この高精度画像は、政府機関による都市計画、運輸行政、救助活動などに役立つ。高精度識別を自動化する第1段階として、本論文はグラフ理論を中間調画像に適用してみる。グラフは光学測定を直線の線分と頂点で表し,グラフの辺は空間的関係を表す。次に、グラフの多様な性質に基づいて測定値集合を示す。これら測度は、構造が複雑になるに従ってほとんど単調に増加する。耕作活動が増加し、土地開発の増加は、これらの測度増加として分かり,特に道路網、建物や居住地を特別抽出する必要はない。この後者は特に計算時間のかかる処理で,しかも部分的にしか自動化できず、特定の画像にしか適用できない。ある種の用途には我々の測度で充分であろう。我々の理論的基礎を提示した後、広範な実験結果を示し,土地利用の人手による評価と比較する。次に郊外の居住地域に着目してテストしてみた。本用途は、多くの応用の中では特別重要なもので、抽出が特別難しい。この作業で,商業用IKONOSデータを利用した。これらが図は、地上の1平方メートルが1画素に較正してある。従って,地上の距離は画素距離に固定されている。我々のデータ集合は大量で変化に富み、海や海岸、辺地、森林,居住地、工業地、都市地域を含む。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統計的形状解析;クラスタリング、学習、テスト
Statistical Shape Analysis: Clustering, Learning, and Testing

Anuj Srivastava, IEEE, Shantanu H. Joshi, Washington Mio, Xiuwen Liu, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 590-602 , April 2005

Keywords: Shape analysis, shape statistics, shape learning, shape testing, shape retrieval, shape clustering.

平面形状の微分幾何学について、そのツールを示す;1) オブジェクト境界の形状に応じた階層的クラスタリング、2)形状クラスターの確立モデルの学習、3)競合確率モデル下での新たに観測された形状のテスト。階層のどのレベルにおいても、最小分散基準とマルコフプロセスによるクラスタリング。統計的手段によって形状が、階層順にクラスタリングされる、つまり、形状の階層が得られる。サンプルの存在する形状空間の接空間の有限次元近似によって、形状空間に確率モデルを課すことができ、ランダムサンプリングと識別によるその結果が示されている。結論として、階層的クラスタリングと仮想テストは形状検索には良く合っている。ETH, Surrey, and AMCOM databasesのデータベースへの適用結果が示されている。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非常に大きなデータ集合における、分解高速SVM学習アルゴリズム
Fast SVM Training Algorithm with Decomposition on Very Large Data Sets

Jian-xiong Dong, Adam Krzyzak, Ching Y. Suen, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 603-618 , April 2005

Keywords: Support vector machines (SVMs), algorithm design and analysis, algorithm efficiency, machine learning, handwritten character recognition.

巨大なデータ集合を数千のクラスで学習させるサポートベクトルマシンの課題は困難である。本論文ではこのような課題を解くための効率的アルゴリズムを提案する。この鍵は並列最適化であり、ほとんどの非サポートベクトルを取り除く。このとき、ブロック対角行列で元のカーネル行列を近似し、問題を部分問題に変換することで、高速化する。更に、学習の効率アップのためにカーネルキャッシュやカーネル行列の効率的実装化を行った。このアルゴリズムによると、計算量はクラス数とデータ集合の大きさに比例する。実験によって多くの利点が調べられ、その結果、Libsvm, SVM(light). SVM(Torch)よりも優れた能力が分かった。更に、いくつかの大きなデータベースの良好な一般的効率化が達成された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多様な2D+3D顔のバイオメトリックスの評価
An Evaluation of Multimodal 2D+3D Face Biometrics

Kyong I. Chang, Kevin W. Bowyer, Patrick J. Flynn

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 619-624 , April 2005

Keywords: Biometrics, face recognition, three-dimensional face, multimodal, multisample.

我々は今までで最も大規模な多様な2D+3D顔認識の実験的研究について報告する。これには198人がオブザーバーとして参加し、198個、あるいは、670個の経時的画像を対象としている。PCAに基づく方法を各様式ごとに別々に利用し、個別の顔空間でマッチングスコアを求め、これらをまとめて多モードの認識とした。その結果;1) 2D と 3D は、個々に見れば類似した認識特性を示す、2) 単純な重みをつけて 2D と 3D の結果を一緒に評価すると、個々独立に評価したより優れた結果を示す。 3) 2D画像だけを複数重みつきで評価したものは、いつでも2D画像よりも優れた結果を示す、 4) 2D+3D で一緒に評価すると、複数画像 2D 画像結果より優れている。この結果は大量の多様データに対する最初の制約付き実験的結果である。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


測光的準不変量によるエッジと輪郭の検出
Edge and Corner Detection by Photometric Quasi-Invariants

Joost van de Weijer, Theo Gevers, IEEE, Jan-Mark Geusebroek

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 625-630 , April 2005

Keywords: Edge and feature detection, invariants, color.

特徴量検出は画像セグメンテーション、オブジェクト認識、画像検索のようなコンピュータビジョンの多くの応用に利用されている。これらの用途において、影、陰、表面反射へのロバスト性(頑健性)が望まれている。測光的不変量の微分量に基づく特徴量は全不変量と呼ばれるが、適度なロバスト性を有している。しかし、測光的不変量の計算には、非線形変換を伴うので、これらの特徴量は不安定なだけでなく、多くの用途には不向きである。我々は準不変性を有する新規な導関数クラスを提案する。これらの準不変性は、全測光不変量と同様の不変量を共有する導関数であり、影、陰、表面反射のような測光的エッジに敏感でない。しかし、測光不変量のような本質的な不安定性は持ってない。実験によると、準不変導関数は、ノイズにそれほど敏感でなく、全不変導関数ほどのエッジの変位をもたらさない。さらに、準不変量は、全不変導関数よりは識別能力が勝る。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化モザイク貼り合わせ:偏光画像パノラマ
Generalized Mosaicing: Polarization Panorama

Yoav Y. Schechner, IEEE Computer Society, Shree K. Nayar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 631-636 , April 2005

Keywords: Mosaicing, color, image fusion, physics-based vision, illumination, transparent layers, biology-inspired.

広角の画像中のオブジェクトの偏光状態を合成する手法を紹介するが、同時に、画像のモザイク貼り合せ法の一般化によって、放射光のダイナミックレンジの改善を達成する。この手法は生物から学んだもので、ある種の動物では空間的に偏光感度が変化する様子をなぞったものである。本方式では、空間的に変化する偏光と減衰フィルターがカメラに付加していることを想定している。カメラが動くと、各情景中の特定の点が複数回撮影され、各々は、異なる偏光角や、異なる偏光量、異なる透過量で撮影される。一般化モザイク貼り合せ法において、偏光は追加次元である。このため、最近は高ダイナミックレンジ画像や多スペクトル画像が、別種のフィルターを利用して広範囲の情景に適用されるようになった。画像の取得は従来同様容易である。計算アルゴリズムは、非理想的偏光フィルター(部分偏光)であっても、あるいは、1つの画像中で可変露出、可変飽和であっても容易に処理できる。得られたモザイク貼り合せ画像は各情景点ごとに偏光状態を表現できた。この方法で得られたデータを使い、鏡面反射や準鏡面反射の減衰と強調の様子を示す。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


投影同心円の幾何的代数的制約と、そのカメラ較正への応用
Geometric and Algebraic Constraints of Projected Concentric Circles and Their Applications to Camera Calibration

Jun-Sik Kim, IEEE, Pierre Gurdjos, In-So Kweon, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 637-642 , April 2005

Keywords: Imaging geometry, concentric circles, projective plane, circular points, camera calibration.

2つの同心円を有する特徴パターンの投影特徴について調べた。この投影特長には幾何的・代数学的制約があることを示す。この制約によって3D平面のアフィン構造やユークリッド構造の復元が簡単になることを示す。この応用として、カメラ較正のための2つのアルゴリズムを評価する。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ブロック混合モデルにおけるEMアルゴリズム
An EM Algorithm for the Block Mixture Model

Gerard Govaert, Mohamed Nadif

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 643-647 , April 2005

Keywords: Block mixture model, EM algorithm, variational approximation.

オブジェクト、あるいは、変数、の最適分離のための多くのクラスタリング法があるが、同時に2つの集合を対象にし、データを均一なブロックとして扱うブロッククラスタリング法というものがある。このような条件を考慮して、最近ブロック混合モデルというものを提案された。この混合法では、オブジェクトと変数の両方を同時に埋め込ませることが可能である。この確率的モデルを、識別のための尤度法の観点から研究し、識別EM(maximum likelihood)アルゴリズムに基づく新規なアルゴリズムを提案する。本論文ではブロック識別課題をmaximum likelihood法として捉え、この手法のパラメータを推定することが目的である。残念なことに、EMアルゴリズムを直接ブロック混合モデルに当てはめることはできない。理由はモデル構造の従属関係にあり、そのため近似が必要である。変数近似を利用して、一般化EM法によるブロック混合モデルのパラメータ推定と、Bernoulliブロック混合を使ったバイナリーデータへの適用について検討する。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴量の欠如したパターン識別問題へのハイブリッドニューラルネットワーク法
A Hybrid Neural Network System for Pattern Classification Tasks with Missing Features

Chee-Peng Lim, Jenn-Hwai Leong, Mei-Ming Kuan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 4, pp. pp. 648-653 , April 2005

Keywords: Missing data, Fuzzy ARTMAP, Fuzzy c-Means Clustering, pattern classification.

ファジーARTMAPやファジーC--平均化クラスタリング法を使ったハイブリッドニューラルネットワーク法は、不完全な学習データを対象にしたクラスタリングのために提案されている。このハイブリッド法の評価のため、2つのベンチマークの課題と現実の医用のパターン識別の課題に適用した。他の方法とも比較解析した。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.27, No.5


自動可変重み付けk-meansタイプクラスタリング
Automated Variable Weighting in k-Means Type Clustering

Joshua Zhexue Huang, Michael K. Ng, Hongqiang Rong, Zichen Li

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 657-668 , May 2005

Keywords: Clustering, data mining, mining methods and algorithms, feature evaluation and selection

本稿では、自動的に可変重み付けを計算できるk-meansタイプクラスタリングアルゴリズムを提案する。現在のデータ分割に基づいた可変重み付けの反復的更新のためのk-meansクラスタリングプロセスに新しいステップを導入し、更に、重み付け計算のための方程式を提案する。そして新しいクラスタリングプロセスの収束定理も与える。本アルゴリズムにより算出された可変重み付けは、クラスタリングにおける変数の重要性を計測する。大規模かつ複雑な実データが使用されるデータマイニングアプリケーションにおいて変数選択のために本アルゴリズムを使用することも可能である。合成および実データを用いた実験結果により、提案アルゴリズムがクラスタ復元において標準的なk-meansタイプアルゴリズムを凌ぐ性能を持つことが示されている。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


筆記体文字認識のためのオンラインおよび擬似オンライン情報の統合
An Integration of Online and Pseudo-Online Information for Cursive Word Recognition

Tal Steinherz, Ehud Rivlin, Nathan Intrator, Predrag Neskovic

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 669-683 , May 2005

Keywords: Online, offline, handwriting, cursive, word recognition, classifier combination

本稿では、オンラインデータからの、ストローク順序非依存情報の新しい抽出方法を示す。我々が擬似オンライン情報と呼ぶこの情報は、単語のオフライン表現に関連する情報をもたらす。そしてこの情報に基づき、オンライン筆記体文字認識精度向上のために、オンラインおよび擬似オンラインの筆記体文字認識器により分類識別が実行される。オンライン情報とオフライン情報を組み合わせる類似の方法との比較における本アプローチの最も重要な側面は、擬似オンライン表現がオンライン信号に類似すること、そしてそれ故に単一の認識エンジンに基づいた処理を構成できることである。本研究の結果により、純粋なオンライン情報のみに基づく識別器よりも高い性能を示す識別器の組み合わせとして、擬似オンライン表現が有用であることが示される。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変動照明下における顔認識のための線形部分空間の獲得
Acquiring Linear Subspaces for Face Recognition under Variable Lighting

Kuang-Chih Lee, Jeffrey Ho, David J. Kriegman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 684-698 , May 2005

Keywords: Illumination subspaces, illumination cone, face recognition, harmonic images, harmonic subspaces, ambient lighting

これまでの研究により、変動照明下の多くのオブジェクトの画像変動(特に人の顔)が、複数の光源と影がある場合でも、低次元線形空間により効果的にモデル化できることが示されている。この空間の基底画像は以下の3つの方法のいずれかにより得られる。1)様々な照明条件下における大規模な画像データベースの構築と主成分解析(principal component analysis:PCA)を用いた部分空間の推定による方法。2)合成画像が三次元モデルから点光源条件下でレンダリングされ、主成分解析を用いて部分空間を推定する方法。3)球面調和関数に基づいた散乱照明条件下で3次元モデルからレンダリングされた(おそらく他の画像から再構築された)画像を基底画像としてそのまま用いる方法。本稿では、他の方法で得られるのと近い低次元線形空間の基底ベクトルとして、獲得したオブジェクトの画像を直接用いることができるような物理的照明条件を整える方法を示す。より具体的には、典型的には5〜9となるk個の光源方向の組み合わせが存在する。この組み合わせにおいては、これらk個の光源は、それぞれが単独である場合、結果として生じる部分空間は、広範な照明条件下における認識のための効果的な表現となるように選択される。部分空間が実画像から直接生成されるため、複雑かつ/もしくは不安定な、三次元再構築のような中間ステップを完全に除くことができる可能性がある。多数の訓練画像も、物理的に複雑な散乱(調和)照明場を構築する必要もない。この方法で構築された部分空間の有用性を顔認識において検証する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像からの表情理解のためのアクティブ且つダイナミックな情報統合
Active and Dynamic Information Fusion for Facial Expression Understanding from Image Sequences

Yongmian Zhang, Qiang Ji

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 699-714 , May 2005

Keywords: Facial expression analysis, dynamic Bayesian networks, visual information fusion, active sensing

本稿は、画像系列中の人間の表情のモデル化と理解のための、動的ベイズネットワーク(Dynamic Bayesian networks: DBNs)を用いた複数センサーからの情報統合法を調査する。我々の顔特徴検出法とアクティブIR照度に基づいた追跡法は、さまざまな照明、頭の動きの条件下で信頼性の高い視覚情報を与える。我々の表情認識へのアプローチの要点は、DBNとEkmanの顔の動きコーディングシステム(Facial Action Coding System:FACS)の組み合わせに基づいた、動的かつ確率論的フレームワークにある。このフレームワークにより自然な表情の動的かつ確率論的振る舞いをシステマティックにモデル化することができ、表情に関係する空間的および時間的情報を表すための、首尾一貫し統合された階層的な確率論的フレームワークを与えるのみならず、これにより、利用可能な情報源から、認識における曖昧さを最小化するために、最も重要度の高い情報を与える視覚キュー(visual cue)をアクティブに選択することができるようになる。現在の視覚的観測からだけではなく、以前の視覚的根拠(visual evidence)も融合することによって、表情認識が行われる。従って、明示的に表情の時間的振る舞いをモデル化することにより、認識はより頑健で正確になる。本稿では、提案した確率論的かつ動的な表情モデリングと理解のためのフレームワークの根底をなしている理論的な基盤を示す。我々のアプローチがさまざまな条件の画像系列において、自然な表情の認識ができることを実験により示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


低レベルおよびセマンティックキューの確信度に基づいた統合による、自動画像方位検出
Automatic Image Orientation Detection via Confidence-Based Integration of Low-Level and Semantic Cues

Jiebo Luo, IEEE, Matthew Boutell, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 715-726 , May 2005

Keywords: Image orientation, semantic cues, low-level cues, Bayesian networks, probabilistic inference, classification confidence

自然画像のための自動画像方位検出は有用だが未だ難しい研究課題である。人間はシーンのコンテキストとセマンティックなオブジェクト認識を用いて正しい画像方位を識別する。しかし現在のオブジェクト認識アルゴリズムはそのスコープと頑健性が極めて限られているため、人間と同じようにコンピュータがこのタスクを実行することは難しい。結果として、現在の方位検出法は、色やテクスチャの空間的な分布のような、低レベル視覚特徴に基づいて作成されている。これらの方法の方位の誤検出率については、これまでにも報告されている。我々は、ベイズフレームワークにおける、これらの低レベル特徴とセマンティックキュー(semantic cue)の確信度ベースの統合による、画像方位検出のための確率論的アプローチを開発した。現在の我々のアルゴリズムは、非拘束条件下における一般人撮影の画像において90%の認識率を達成しており、最近行われた心理物理の調査結果を考慮すれば、これは素晴らしいレベルである。提案されたフレームワークはコンピュータビジョンと、人間の視覚系とのギャップを埋める試みであり、セマンティックなシーンのコンテンツ理解などの、他の問題にも適用できる。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


幾何学的拘束を用いた逐次的モデルベース推定
Incremental Model-Based Estimation Using Geometric Constraints

Cristian Sminchisescu, Dimitris Metaxas, Sven Dickinson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 727-738 , May 2005

Keywords: Shape recovery, object tracking, parametric models, geometric constraints, bundle adjustment, optimization

単眼画像系列における、逐次的かつ適応的なオブジェクト形状推定と追跡のためのモデルベースのフレームワークを示す。パラメトリック構造と動き推定方法は通常、認識対象の形状表現(スプライン、可変二次曲面等)の固定されたクラスと、追跡に先立っての初期化を想定する。形状モデルが対応できる範囲があらかじめ決まっているがゆえに、逐次的な構造復元は追跡から分離して考えられ、またそれがスコープと頑健性両方のプロセスに対する制約になっている。本研究では、モデルベースのフレームワークを示す。これにより低レベルの幾何学的プリミティブ(線分)の自動検出と統合が逐次行われる。このようなプリミティブは最初のモデルでは明示的に捕えられないが、一貫してその画中速度で動いている。新しい構造を識別するのに用いられる整合性試験は、幾何学的プリミティブ間のtrinocular拘束条件に基づいている。本方法は、モデルのスコープを拡大させるだけでなく、新たに復元された特徴をその状態推定に含めることにより、追跡精度も向上させる。事前の形状表現の可用性と、それらが無い場合に完全にボトムアップの再構築に必要な特徴の数、それぞれに対する緩い仮定を許容するがゆえに、この定式化は自動モデル構築に向けた第一歩である。複雑な三次元オブジェクト構造と動きを持つ、二つの別個の画像ベースの追跡ドメインにおいて、提案アプローチを実証する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚動き解析と解釈のための投票に基づいた計算フレームワーク
A Voting-Based Computational Framework for Visual Motion Analysis and Interpretation

Mircea Nicolescu, Gerard Medioni, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 739-752 , May 2005

Keywords: Motion, image models, scene analysis

殆どの動き解析のアプローチは、制約が多いパラメトリックモデルに依存し、初期条件に大きく依存し、また不安定になりがちな反復手法を伴う。画像中の動き境界などの動きが滑らかでない領域においては、これは更に困難になる。本研究では、ノイズを含み、且つ4次元空間におそらく粗に散らばった点からの動き階層推測(inference of motion layers)として、視覚動き解析と解釈を定式化する問題を扱う。本方法の中核部分は、データの階層型4次元表現と、類似性伝播のための投票スキームに基づいている。2次元情報から3次元情報を復元する場合に直面する結果のあいまいさにより生じる問題は、今回のように3次元情報から4次元情報を復元する場合にも継承される。通常このような問題は、剛性の仮定のような追加の拘束条件を付与することにより扱われるが、ノイズと複数の独立した動きが同時にある場合にこのような拘束条件を適用することは問題を生じやすい。マッチング、はずれ値除外、分割、そして解釈それぞれのプロセスを分離することにより、画像の動きに基づいて正確な動き層(motion layers)を抽出する。そしてその三次元構造と動きを推測するために、それぞれの層に局所的に剛性の仮定を適用する。提案フレームワークは非反復型であり、滑らかな動き領域と、動きの断絶の両方を、動きモデルの事前知識なしに整合的に扱うことができる。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


散乱画像からの視点不変知覚表現の学習
Learning Viewpoint Invariant Perceptual Representations from Cluttered Images

Michael W. Spratling

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 753-761 , May 2005

Keywords: Computational models of vision, neural nets

オブジェクト認識を行なうためには、オブジェクト同士を区別するのに充分に特定な知覚表現を構成する必要がある。しかしこの知覚認識は、場所、回転、そしてスケールの変化を一般化するのに充分な柔軟性も同時に持たねばならない。視点不変の知覚表現を学習するための標準的な方法は、オブジェクトの変形を表す画像系列間の時間的関係を構成することである。しかしこの方法は、各刺激が独立して泡割れることを必要とし、それゆえ入力画像に複数のオブジェクトが同時に存在するような実際のアプリケーションでは上手く働かないと考えられる。本稿は、このような制約を克服し、不変表現のより頑健な学習を達成するために、従来の学習法の単純な変形を提案する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


頑健な表面相互浸透測量と拡張遺伝アルゴリズムを用いた正確な奥行き画像登録
Precision Range Image Registration Using a Robust Surface Interpenetration Measure and Enhanced Genetic Algorithms

Luciano Silva, Olga R.P. Bellon, Kim L. Boyer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 762-776 , May 2005

Keywords: Range image registration, genetic algorithms, robust methods, stochastic search

本稿は、オーバーラップが少なく、且つ強いノイズを含む可能性のある画像のための、奥行き画像登録問題を扱う。現在の奥行き画像登録における最先端の技術は、よく知られた反復的最近点アルゴリズム(iterative closest point)とその様々なバリエーションである。この方法は多くのドメインで有効であるが、二つの大きな制約がある。それは、登録される面がある程度のアライメントを持つ必要があることと、ノイズや表面オーバーラップの少なさにより生じるはずれ値に対する頑健性が低いことである。本稿では、これらの問題を回避するための新しいアプローチを提案する。そのために、本研究には2つの鍵となる新規性がある。ヒルクライム法及び併進法を含む新しいハイブリッド遺伝アルゴリズム、そしてこれと共に用いられる表面解釈に基づいた新しい頑健な評価指標である。これまでの研究では、この評価はただ質的なものしかなかったが、我々はこの評価のための初の定量測量を定義した。一般的に遺伝アルゴリズムは変換空間を検索するがゆえに、表面間のオーバーラップが少ない場合でも表面の登録が可能で、また表面位置のアライメントに対する制約も少ない。本稿で提案する新しい遺伝アルゴリズムによる検索方法は、新しい評価指標がより正確なアライメントを可能にするため、ノイズが強い場合でも、最小二乗誤差法や他の良く知られた頑健なコスト関数などの従来手法よりも格段に早く収束する。本稿では、これら二つの新規性により得られる性能向上を実験結果により示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


HMMでコーディングに基づいた平行線検出アルゴリズム
A Parallel-Line Detection Algorithm Based on HMM Decoding

Yefeng Zheng, Huiping Li, David Doermann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 777-792 , May 2005

Keywords: Line detection, form processing, form registration, form identification, hidden Markov model, document image analysis

平行線グループの検出は、フォーム処理や罫線のある書類などからの文字(手書き文字)抽出などのアプリケーションで重要である。これらのタスクは、罫線が酷く損なわれた劣化画像などにおいては非常に難しい課題となりうる。本稿では、高レベルコンテキスト情報を利用する新しいモデルベースの平行線抽出法を提案する。前処理(スキュー補正やテキストフィルタリングなど)を施した後、訓練された隠れマルコフモデル(Hidden Markov Models: HMM)を用いて、Viterbi符号に基づいた水平及び垂直投影プロファイルにおける、すべての線の最適位置を同時に同定する。様々なアプリケーションシナリオに適用できるように、このアルゴリズムはトレーニング可能である。よく知られたフォーム処理問題と、罫線検出問題でそれぞれ行なわれた実験結果により、提案方法が頑健であること、そして他の広く使われている線検出方法よりも良い結果をもたらすことを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


合成開口レーダ(Synthetic Aperture Radar)の多領域レベルセット分割
Multiregion Level-Set Partitioning of Synthetic Aperture Radar Images)

Ismail Ben Ayed, Amar Mitiche, Ziad Belhadj

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 793-800 , May 2005

Keywords: Image segmentation, active contours, level sets, statistical modeling, synthetic aperture radar

本研究では、アクティブ輪郭(active contour)とレベルセットを用いた、合成開口レーダ画像(Synthetic Aperture Radar:SAR)の、任意の与えられた数のガンマ同種領域への分割について調査する。SAR画像の分割は、顕著で複合して現れることのあるノイズとしてモデル化される、スペックル(レーダ画像などにおける斑点状の干渉模様のこと:訳者注)のために難しい問題となっている。提案アルゴリズムは、曲線内部と分割領域の間の明示的な対応に含まれる、単純な平面上の閉曲線の展開により構成され、ノイズのスペックルモデルデータの調和項と、正規化項を含む評価指標を最小化する。合成画像と実画像療法に対する実験結果を示す。合成画像と実画像両方を用いた実験結果を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


クラスタリングのための新しいカーネル法
A Novel Kernel Method for Clustering

Francesco Camastra, IEEE, Alessandro Verri

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 801-804 , May 2005

Keywords: Kernel methods, one class SVM, clustering algorithms, EM algorithm, K-Means

カーネル法は、内積を適当な正有限関数で置き換えることで、入力データから高次元特徴空間への非線形マッピングを暗黙的に行なうアルゴリズムである。本稿では、古典的なK近傍アルゴリズムに触発されたクラスタリングのためのカーネル法を示す。この方法では、各クラスタは、単一クラスサポートベクトルマシンを用いて反復的に洗練される。幸いなことに我々の方法は、K近傍法、ニューラルガス(Neural Gas)、自己組織化マップなど他のクラスタリングアルゴリズムに比べ、合成データセットと3つのUCI実データベンチマーク(IRIS data, Wisconsin breast cancer database, Spam database)に対して簡単に実装可能である。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


再帰的エラー補正を用いた顔画像からのメガネ除去
Glasses Removal from Facial Image Using Recursive Error Compensation

Jeong-Seon Park, You Hwa Oh, Sang Chul Ahn, Seong-Whan Lee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 805-811 , May 2005

Keywords: Kernel methods, one class SVM, clustering algorithms, EM algorithm, K-Means

本稿では、人間の顔画像からメガネを取り除く新しい方法を提案する。最初にメガネにより隠蔽される領域を検出し、PCA再構成を用いた再帰的エラー補正により、自然に見えるようなメガネなしの顔画像を生成する。処理結果の画像には、メガネフレーム及び反射の跡や、メガネの影などはなくなっている。提案手法がメガネ隠蔽問題に対して有効な解答を与えることを実験結果により示す。我々はこの方法が顔認識の精度向上のために使用できると信じている。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動いているか音人のビデオデータベース
A Video Database of Moving Faces and People

Alice J. O'Toole, Joshua Harms, Sarah L. Snow, Dawn R. Hurst, Matthew R. Pappas, Janet H. Ayyad, Herve Abdi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 812-816 , May 2005

Keywords: Face database, face recognition, face tracking, digital video

本稿では、人の顔と人の全身像の静止画とビデオのデータベースについて述べる。これは顔及び人認識、頭/目の追跡、そして人間の自然な動きのコンピュータグラフィックモデリングのためのアルゴリズムを試験するのに役に立つ。本データベースでは、それぞれの人に対して、9つの静止“口周辺部画像”、そしてビデオストリーム系列を登録する。このビデオには“動いている口周辺部画像”と、しゃべっているときの顔の動画、ひとつ以上のダイナミックな表情の動画、二つの歩行パターン動画(gate video)、そして適当な距離から撮影された会話のビデオが含まれる。284人の被験者に対する完全データセットが利用可能であり、オリジナルのセットの後に撮られた重複データセットに関しては229人分利用可能である。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


散乱不変ATR
Clutter Invariant ATR

Dmitri Bitouk, Michael I. Miller, IEEE, Laurent Younes

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 817-821 , May 2005

Keywords: Riemannian metrics, deformable templates, Automated Target Recognition (ATR)

自動ターゲット認識における中心的問題のひとつは、実際の軍事的環境における無限の散乱の多様性に適応することである。本稿では主に、指標空間の構築に焦点を当てる。この空間では、散乱の無限のバラエティーに非依存の注目オブジェクト間距離を特定のメトリクスにより計測する。このようなメトリクスは二次確率場モデルを用いて定式化される。本研究の結果により、本アプローチが散乱環境下における検出/識別率を顕著に向上させることを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オリエンテーションinマンハッタン:等射影クラスと連続推定
Orientation in Manhattan: Equiprojective Classes and Sequential Estimation

Andre T. Martins, Pedro M.Q. Aguiar, Mario A.T. Figueiredo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 822-826 , May 2005

Keywords: Camera orientation, sequential estimation, Manhattan world assumption, camera calibration

画像系列からの三次元方位推定問題は、ほとんどの場合画像特徴間の対応を計算することにより扱われてきた。最近になってこの中間処理段が、これらのアプローチのボトルネックであるとみなされてきている。本稿では、フレーム間特徴対応処理を回避できる、都市空間(室内および室外)のための新しい三次元方向推定法を提案する。我々の方法で利用されるシーンの特性は、多くのエッジが3つの直行軸方向に沿っている、ということであり、これは近年マンハッタン世界(Manhattan world:MW)という仮定として紹介されている。本研究の主な成果は、等射影クラス方位の等価クラスの定義、新しい小回転モデルの導入、カメラが滑らかに動くことの定式化、そして縦方向および回転方向角の推定と、コンパス角推定の分離である。我々はMW尤度モデルに基づいた確率的連続方位推定法を構築し、前述の成果により、それぞれの方位推定のための検索空間の劇的な削減を達成した。我々の方法の性能を実画像系列を用いて実証する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像系列からの背景除去のための効果的なガウス混合学習
Effective Gaussian Mixture Learning for Video Background Subtraction

Dar-Shyang Lee, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 5, pp. 827-832 , May 2005

Keywords: Adaptive Gaussian mixture, online EM, background subtraction

適応的ガウス混合は、ビデオ監視アプリケーションにおける画素の非静止時間分布のモデル化に用いられてきた。しかしこの種のアプローチに共通する問題として、モデル収束速度と安定性のバランスである。本稿では、モデルの安定性を犠牲にせずに収束率を向上させる効率的なスキームを提案する。大域的な静止保持係数(static retention factor)を、それぞれのガウシアンに対してフレームごとに計算される適応的学習率で置き換えることにより、これは実現される。合成および実画像系列において顕著な性能向上が見られる。背景除去のための統計的フレームワークに対してこのアルゴリズムを適用した場合、通常の方法に比べ分割性能を向上させることができる。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.27, No.6


エビデンスの蓄積を利用した多重クラスタリングと複数クラスタリングの結合
Combining Multiple Clusterings Using Evidence Accumulation

Ana L.N. Fred, Anil K. Jain, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 835-850 , June 2005

Keywords: Cluster analysis, combining clustering partitions, cluster fusion, evidence accumulation, robust clustering, K-means algorithm, single-link method, cluster validity, mutual information.

複数のクラスタリング結果を結合するためにエビデンス集積の考え方を探索してみる。まず第一に、オブジェクトの分割集合であるクラスタリングアンサンブルを生成する。d次元中のn-個のオブジェクトか、あるいは、パターンのデータ集合が与えられ、以下のように異なるいくつかの方法によるクラスタリング法によるデータ分割、1)異なるデータクラスタリングアルゴリズムを試み、2)同一クラスタリングアルゴリズムを異なるパラメータか、あるいは、異なる初期値条件で適用する。更に、異なる特徴空間における異なるデータ表現と異なるアルゴリズムの組合せによって極めて多数のデータ分割法が得られる。与えられたクラスタリングアンサンブル中の多様なクラスタリングが与えられているものとして、これと整合性のあるクラスタリングを抽出するための単純な枠組みを示す。エビデンス累積(EAC)法の考え方に従えば、各々の分割はデータ整理の独立したエビデンス集積とみなされる。ここでは個々のデータ分割が結合され、投票方法に依存して、n個のパターン中にn×n個の類似マトリックスが作られる。n個のデータパターンの最終的分割は、このマトリックスに階層的混合クラスタリング(hierarchical agglomerative clustering)アルゴリズムを適用して得られる。ここに提案するクラスタリング組合わせ戦略とその評価を解析するための理論的枠組みは、データ分割の相互情報量の考え方に基づいている。結果の安定性を評価するために、ブートストラップ法を適用した。更に詳しい議論が、k-meanクラスタリング法に基づく分割併合戦略を用いた、エビデンス累積に基づくアルゴリズム、について行われた。本手法を合成データや実データに適用した実験結果が、他の組合せ戦略や既知の有名な個々のクラスタリングアルゴリズムとともに比較検討された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自由形状ソリッド上の凹凸特徴量のエッジによる同定
Edge-Based Identification of DP-Features on Free-Form Solids

T. Lim, H. Medellin, C. Torres-Sanchez, J.R. Corney, J.M. Ritchie, J.B.C. Davies

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 851-860 , June 2005

Keywords: Three-Dimensional geometric feature recognition, geometric modeling, CAD, CAM, CAPP.

機械図面のCAD/CAMへの多様な用途には、自由形状(B-Spline)モデル表面上での凹凸特徴(DP-特徴)を同定するためのロバストなアルゴリズムが必要となる。本稿では、まずDP特徴量の境界エッジを同定し、次に、凹部か、あるいは孤立した凸部かを覆う表面パッチを形成するための分割アルゴリズムについて述べる。この手法の新規な点は、多数の面と図形に交叉するDP特徴境界を同定するため、エッジセグメント間の接線の連続性を利用していることである。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線画設計図から、面を見つけるための進化した方法
Evolutionary Search for Faces from Line Drawings

Jianzhuang Liu, Xiaoou Tang, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 861-872 , June 2005

Keywords: Three-dimensional object reconstruction, face identification, genetic algorithms, line drawing, minimal edge face phenomenon, simulated annealing.

単純な2Dの線画図面は3Dオブジェクトを直接的に表現する方法の1つである。線画によってオブジェクトの面を描写する方法は3Dの幾何学的状態を再現するための非常に有用な情報である。最近提案した面の線画による2つの同定方法は2つのステップからなっている;面候補の閉回路を探し、次に、ある基準の元に集合内から真の面を探す。しかし、この2つのステップには2つの組合せ問題が内包されている。第一のステップに含まれる閉回路で生成される回路の数は、描かれる線画の辺の数に指数関数的に依存している。これら閉回路を使って第2の組合せ探索ステップがなされる。もっと多くの面を持つオブジェクトを扱う場合は、現実的な時間内に解を求めることは不可能である。本稿は色々な長さの遺伝的アルゴリズムによって面の同定問題を解く新規な方法を提案するが、それには新規な発見的方法と局所探索を制約する幾何学的制約からなっている。ハイブリッド遺伝的アルゴリズムは2つの組合せ問題を同時に解く。実験結果によると、我々のアルゴリズムは30個以上の面を持つ線画図面を効果的に解くことができる。更に、比較のためにシミュレーテッドアニーリング法も示してある。

EJ

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自動的手話解析:語彙的意味を越えて展開するその将来と調査
Automatic Sign Language Analysis: A Survey and the Future beyond Lexical Meaning

Sylvie C.W. Ong, Surendra Ranganath

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 873-891 , June 2005

Keywords: Sign language recognition, hand tracking, hand gesture recognition, gesture analysis, head tracking, head gesture recognition, face tracking, facial expression recognition, review.

手話の自動解析の目的の多くは、連続的手話中の身振りの語彙の認識であり、これを大語彙にまでスケールアップするアルゴリズムの開発である。しかし、手話の語彙の理解にはなお不完全で、手話の完全理解には至ってない。手話の見かけ上の系統的変動を伴う、手の動きに表れない信号や文法手順は、このコミュニケーションの統合結果となるが、このことは文献にはほとんど触れられてない。本調査を通じて、手話ジェスチャーの解析に利用されている、データ取得、特徴抽出、識別方法について検討した。これらは、連続するサインの間のモデルの遷移、モデル化の屈曲プロセス、手話者独立性、適応化などについて考察された。更に、手に表れない信号を解析するため試み、手話ジェスチャーの統合に関する事柄を考察した。また、手話を日ごろ使っている人の自然な手話による情報交換を目指した全体的手話理解の進歩について考察した。本研究の将来性とともに、他の研究分野への寄与の可能性についても示唆した。図によるのいくつかの解説や、ビデオ、手話などの、ウェブ上の付録資料も、www.computer.org/publications/dlib.にまとめられている。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多重スケール連結性を用いたオブジェクトベース画像解析
Object-Based Image Analysis Using Multiscale Connectivity

Ulisses Braga-Neto, John Goutsias, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 892-907 , June 2005

Keywords: Connectivity, connection, hierarchical clustering, hierarchical segmentation, mathematical morphology, multiscale image analysis, multiscale image decomposition, object-based image analysis, reconstruction opening.

本稿では、多重スケールの連結性を利用した新規な画像解析手法を紹介する。この手法は、オブジェクトベース画像表現や多重スケールの連結性構造の解析の新規なデザインツールとして利用する。より厳密には、非線形ピラミッド構造画像表現を提案するが、これは多重スケール粒度フィルターによって画像を階層的に異なるスケールに分割する。これらのフィルターによって、ある目的には合致しない連結成分を徐々に除去する。また、多重スケール連結性の考え方を利用して、階層的データ分割する。つまり、成分ツリーの考え方で、従来とは異なる画像分割表現を実現し、その結果、階層的スケールのコンセプトで整理する。更に、幾何学的方向性を有する階層的クラスタリングアルゴリズムを提案し、従来の古典的単連結アルゴリズムを一般化することを目的とする。最後に、2つのオブジェクトに基づく多重の画像要約表現を提案するが、これは、有名な形状的パターンスペクトル表現を連想させる。これによって画像解析や画像理解への応用が可能である。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多重スケール自己畳み込み(Multiscale Autoconvolution)を利用したアフィン不変のパターン認識
Affine Invariant Pattern Recognition Using Multiscale Autoconvolution

Esa Rahtu, Mikko Salo, Janne Heikkila

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 908-918 , June 2005

Keywords: Affine invariance, affine invariant features, pattern classification, target identification, object recognition, image transforms.

本稿は、多重スケール自己畳み込み(MSA)と呼ばれるアフィン変換に不変な新規な画像変換法を提案する。この提案手法は画像関数の確率的解釈に立脚している。これは孤立したオブジェクトには直接応用が出来るため、境界の抽出や注視点を抽出が不要であるばかりでなく、FFTの利用によって、著しく計算量を削減できる。変換値はアフィン変換不変の記述子としてパターン分類に利用できる他、多様な分類課題への適用効率を示す。他のアフィン不変変換法との比較によって、この新規な方法は、アフィン変換で変形される画像の識別課題に向いているようだ。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ウェーブレット変換による欠陥送信デバイスの同定
Identification of the Defective Transmission Devices Using the Wavelet Transform

Bingchen Wang, Sigeru Omatu, IEEE, Toshiro Abe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 919-928 , June 2005

Keywords: Automatic identification, feature extraction, wavelet transform, LVQ, GA.

本論文では、システムを構成する既知の送信デバイス中のどれが欠陥品であるかをウェーブレット変換を使って自動的に同定する方法について述べている。高価なシステムが故障した場合、その故障モードを特定することは、現実には有用である。本システムでは振動メーターをわざわざ挿入するのではなく、システムの外部に音響センサーを置き、作動中の送信機データを取得する。熟練工場労働者は統計的な識別の取り扱いには不慣れであるが、特定の故障モードに対応する特徴ベクトル抽出には必要である。故障を自動同定するプロセスでは、改良された、正規化入力信号の学習ベクトル量子化(LVQ)法を提案するが、これは実際のデータによくある変動を補償する。生産現場で採取された音響データを使って、同定の能力をテストした。この実験で、実際の送信デバイスの特定の故障を同定することができ、故障の原因を見つけることに成功した。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


QR分解を使った2段階線形識別解析法
A Two-Stage Linear Discriminant Analysis via QR-Decomposition

Jieping Ye, Qi Li

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 929-941 , June 2005

Keywords: Linear discriminant analysis, dimension reduction, QR decomposition, classification.

線形判別法(Linear Discriminant Analysis: LDA)は特徴抽出と次元縮退のための良く知られた方法である。これらはテキスト識別などの高次元データを使用する多くのアプリケーションで広く用いられてきた。古典的なLDAの本質的な制約として特異問題がある。これは全ての散布行列が特異である場合にLDAが使用できないという問題である。この問題を克服するために、多くの拡張LDA法が提案されてきた。この中でも2段階方式となるPCA+LDA法が特に注目を集めてきた。PCA+LDA法では、主成分分析(Principal Component Analysis:PCA)による中間的次元縮退処理がまず行われ、その後でLDAが行われる。殆どの拡張LDAは計算コストが高く、拡張性に問題がある。これは、これらの方法が、特異値分解(Singular Value Decomposition)もしくは一般化特異値分解(Generalized Singular Value Decomposition)を使用していることによる。本稿では、LDA/QR法と呼ばれる2段階方式のLDA法を提案する。これは高い計算効率及び拡張性と、古典的なLDAの特異問題の克服の両立を目指したものである。LDA/QR法とPCA+LDA法の最大の違いは第一段における処理にある。この段では、PCA+LDA法が全ての訓練データ点を含む合計散布行列へのPCAを行うのに対して、LDA/QR法は、クラス中央値を含む、小さい行列に対するQR分解を行う。LDA/QR法と以前のLDA法の関係を示すことにより、提案手法に対する更なる裏づけを行う。顔画像とテキスト文書に対する大規模な実験により、提案手法の高効率性を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数識別器システムのための線形結合器の理論的及び実験的解析
A Theoretical and Experimental Analysis of Linear Combiners for Multiple Classifier Systems

Giorgio Fumera, Fabio Roli, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. 942-956 , June 2005

Keywords: Multiple classifier systems, linear combiners, classifier fusion, pattern classification

本稿では複数識別器システムのための線形結合器に対する理論的及び実験的解析を示す。線形結合器は、ルールの結合に最も頻繁に用いられている方法であるにもかかわらず、パターン識別における線形結合器の振る舞いに関する多くの重要な事項は論理的基盤を持っていない。我々の解析法がよりどころとするTumer and Ghosh[30], [31]のフレームワークに対して批判的レビューを加えた後、線形結合器の最も単純且つ最も広く用いられている実装に焦点を当てる。この実装においては非負の重みを各識別器に割り当てる。更に我々は結合ルールの理想的性能、即ちそれぞれの識別器に対して最適な重みが割り当てられた状態における性能、も考慮する。これまでに論じられてきた重み推定の問題に関しては考慮しない。理論的解析により、誤識別確率の面で、線形結合機の性能がどのように各識別器の性能および出力間の相関に依存するかを示す。特に、重み付け平均を用いた場合に得られる理想的性能の向上を評価し、どのような場合に各識別器に依存するのかについて調査する。実データにおける実験の結果が、我々の解析的モデルによる予測と合致することを示す。最後に、本研究の成果と、複数識別器システムのための線形結合器の理論的解析および実験的解析の、実際的な関連性について議論する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


疎な多項ロジスティック回帰:高速アルゴリズムと一般化拘束
Sparse Multinomial Logistic Regression: Fast Algorithms and Generalization Bounds

Balaji Krishnapuram, Lawrence Carin, Mario A.T. Figueiredo, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. 957-968 , June 2005

Keywords: Supervised learning, classification, sparsity, Bayesian inference, multinomial logistic regression, bound optimization, expectation maximization (EM), learning theory, generalization bounds

近年開発された疎な識別器学習のための方法は、教師付学習の最先端の研究に含まれる。これらの方法では、基底関数の重み付き合計を、更新頻度の低い事前確率と組み合わせるような識別器の学習を行う。これにより、推定される重みが顕著に大きくなるか、厳密にゼロになるか、どちらかになるように促している。学習理論的な側面から見れば、これらの方法は、使用される基底関数の数を最小化することで学習済み識別器の能力を管理しているといえる。結果としてこれはより良い一般化をもたらした。本稿は疎な識別器の学習に関する3つの成果を示す。まず多項ロジスティック回帰に基づいた厳密な複数クラスの定式化を導入する。次に拘束最適化アプローチとコンポーネント毎の更新手順を組み合わせることにより、高速且つ厳密な、疎なマルチクラス識別器の学習のためのアルゴリズムを導出する。このアルゴリズムは、訓練データのサンプル数と特徴次元数の両方において拡張性の高いものである。これにより高次元特徴空間の大規模データに対してさえも適用可能となっている。我々の知る限りでは、更新頻度の低い事前確率を用いて厳密な多項ロジスティック回帰を行うものとしては、これらのアルゴリズムが最初である。第三に、この識別器のための自明でない一般化拘束が、二項条件下でどのようにして導出されるのかを示す。標準的なベンチマークデータセットを用いた実験結果により、提案手法の精度、疎なデータへの対応性、そして効率を証明する

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


角度差分関数と、その画像位置あわせへの応用
The Angular Difference Function and Its Application to Image Registration

Yosi Keller, IEEE, Yoel Shkolnisky, Amir Averbuch

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 969-976 , June 2005

Keywords: Global motion estimation, Fourier domain, pseudopolar FFT, image alignment.

事前情報無しに大きな動きを推定することは画像位置合わせ問題では重要な課題である。本論文では、角度差分関数(ADF)を提案し、これによる回転角度推定への応用例を示す。回転角度方向のスペクトル差分の積分として、2つの関数のADFが定義される。これは、擬似角度フーリエ変換を利用することで、球面格子近傍の画像の離散フーリエ変換が計算できる。フーリエ変換を使った他の方法と比べ、この方法では内挿(interpolation)が必要ない。このため、精度が高いだけでなく、計算は遥かに高速である。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


制御されたサブピクセルの動き検出を利用した超解像ビデオ画像
Video Super-Resolution Using Controlled Subpixel Detector Shifts

Moshe Ben-Ezra, Assaf Zomet, Shree K. Nayar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 977-987 , June 2005

Keywords: Sensors, jitter camera, jitter video, super-resolution, motion blur.

ビデオカメラでは、ある時間間隔で、かつ、適当な深度で画像を撮る必要がある。このため、空間解像力には不可避な物理的制約が課せられる。結果として、現在のカメラの低解像画像しか提供できない。しかし、カメラを動かすことで、計算を利用した超解像アルゴリズムが適用できる。その場合、カメラの動きによって動きによる像ボケが生じ、超解像品質に限界が出る。この効果を解析し、動きボケが超解像の画質劣化に大きく寄与することを理論的に示す。結論として、解像度を最大にするには、動きボケを避ける必要があること。動きボケはビデオの時空体積を特別な方法でサンプリングすることで、動きボケの最小化が可能である。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オクルージョンを利用した動きの分離
Motion Segmentation Using Occlusions

Abhijit S. Ogale, Cornelia Fermuller, Yiannis Aloimonos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 988-992 , June 2005

Keywords: Motion, occlusions, segmentation, ordinal depth, video analysis.

撮影画像が限られている場所での動くオブジェクトを瞬時に見つけるため、オクルージョンの果たす重要な役割について調べた。この課題では、画像の動きは、カメラの動き(egomotion)、構造によるもの(depth)、および、情景自体による独立な動き、から成る。限られた情景の中で、フレーム間の動きが小さい場合は、一般的に、小さなノイズがあったとしても見かけ上の流れ場に対応する一組の3Dのカメラ動きが存在し、不明確な3D動き予測結果をもたらす。もし、分離可能な一組の解が存在するなら、動き基づくクラスタリングは動くオブジェクトの1カテゴリーが検出できることになる。もし、一つの分離不可能な一組の解が見つかったとしても、オクルージョン情報を使って深さ順序を抽出でき、これによって、新たな動くオブジェクトが同定可能となる。深さ順序を見つけるには、オクルージョンが知られているだけでなく、オクルージョンが、隣接領域からのオプティカルフローによって埋め尽くされていなければならない。我々はオクルージョンを埋め尽くす新規なアルゴリズムを紹介し、一般的状況から、深さ順序を導出する。最後に、動きから推定した構造と、それとは異なる情報源(例えばステレオ)から推定した構造の主要な比較によって検出された動くオブジェクトのカテゴリーについて述べる。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


固定点演算による自動的署名照合のためのオフライン幾何パラメータ
Offline Geometric Parameters for Automatic Signature Verification Using Fixed-Point Arithmetic

Miguel A. Ferrer, Jesus B. Alonso, Carlos M. Travieso

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 993-997 , June 2005

Keywords: Automatic Signature Verification (ASV), Hidden Markov Models (HMM), Support Vector Machines (SVM), fixed-point arithmetic.

本論文は、署名の幾何学的特徴量集合をオフラインで自動的に照合する方法について述べており、局座標、直交座標での署名の包絡と、その内部のストローク分布を利用する。特徴量は16ビット固定点演算で実行し、隠れマルコフモデル、サポートベクトルマシン、ユークリッド距離識別器のような異なる識別器で識別される。ランダム偽造や単純な偽造に関しては、有望な耐性を示した。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


信頼性に基づくダイナミックプログラミングを用いた高速であいまい性の無いステレオマッチング
Fast Unambiguous Stereo Matching Using Reliability-Based Dynamic Programming

Minglun Gong, Yee-Hong Yang, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 998-1003 , June 2005

Keywords: Stereo, dynamic programming.

効率的なあいまい性の無いステレオマッチング法を本論文で紹介する。我々の主な貢献は、ダイナミックプログラミング法全般に対する信頼性の尺度を導入したことである。ステレオ画像応用の場合、提案マッチング法の走査ライン上の信頼性を次のようなコストの差として定義する: マッチングも含むグローバルに“差異最適な配置”、と、マッチングを含まないグローバルに “最適な配置”。信頼性に基づくダイナミックプログラミング法が、これから導かれるが、対応する信頼性が与えられた閾値を越えると、選択的に画素に対して差異量を与える。実験結果は、新規なこの方法は、密(70%以上がオクルージョンしてない)で、高信頼性(誤り率は0.5%以下)のマッチングスピード(0.2 秒以下、2GHz P4)を示した。(使用画像はMiddlebury stereo data sets)。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


回転不変テクスチャー解析におけるラドン変換による方位推定
Radon Transform Orientation Estimation for Rotation Invariant Texture Analysis

Kourosh Jafari-Khouzani, Hamid Soltanian-Zadeh, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 6, pp. pp. 1004-1008 , June 2005

Keywords: Texture classification, Radon transform, wavelet transform, rotation invariance.

本論文は、新規な回転不変のテクスチャー識別法を紹介する。本提案手法は、以下の特徴を利用する:ほとんどの画像は方向性を有している(不均一なテクスチャー)か、あるいは、特定の方向性を持ってない(均一テクスチャー)。方向性を有するテクスチャーのウェーブレットエネルギー特徴量は画像が回転すると大きく変化する。しかし、均一画像では、ウェーブレット特徴量は回転に敏感ではない。したがって、方向性を有するテクスチャーでは、特定方向へのウェーブレット特長量を計算することが基本である。提案手法では、ラドン変換を最初に使って主要方向を決定する。次に、主方向が0度になるよう、テクスチャーを回転する。ウェーブレット変換を作用させ、テクスチャー特徴量を抽出する。これによって特徴空間に小さなクラス内変化をもたせることができる。したがって、異なるクラス間を分離できる。この手法の効果を評価するために3つのテクスチャー集合を使った。その結果本手法の優越性が示された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.27, No.7


確率的有限状態機械(Probabilistic Finite-State Machine)パートI
Probabilistic Finite-State Machines-Part I

Enrique Vidal, IEEE Computer Society Franck Thollard, Colin de la Higuera, Francisco Casacuberta, IEEE Computer Society Rafael C. Carrasco

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 7, pp. 1013-1025 , July 2005

Keywords: Automata, classes defined by grammars or automata, machine learning, language acquisition, language models, language parsing and understanding, machine translation, speech recognition and synthesis, structural pattern recognition, syntactic pattern recognition

確率的有限状態機械は、パターン認識、あるいはパターン認識と関係する様々な分野で使われている。これらの分野としては、例えば計算言語学、機械学習、時系列分析、回路試験、計算生物学、音声認識と機械翻訳などがある。本論文の第1部では、これらの現在活発な研究領域を調べ、その定義と特性を調査する。第2部では、確率的有限状態オートマトンと、隠れマルコフモデルやn-gramsなどの手段を生み出す、他の良く知られた機構との関係を調べ、これらの背景にある理論とアルゴリズム、そしてこれらの研究領域の最先端の成果を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率的有限状態機械(Probabilistic Finite-State Machine)-パートII
Probabilistic Finite-State Machines-Part II

Enrique Vidal, IEEE Computer Society Frank Thollard, Colin de la Higuera, Francisco Casacuberta, IEEE Computer Society Rafael C. Carrasco

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 7, pp. 1026-1039 , July 2005

Keywords: Automata, classes defined by grammars or automata, machine learning, language acquisition, language models, language parsing and understanding, machine translation, speech recognition and synthesis, structural pattern recognition, syntactic pattern recognition

確率的有限状態機械は、パターン認識、あるいはパターン認識と関係する様々な分野で使われている。本論文の第1部では、これらの研究領域を調べ、その定義と特性を調査した。第2部では、確率的有限状態オートマータと、隠れマルコフモデルやn-gramsなどの手段を生み出す、他の良く知られた機構との関係を調べ、これらの背景にある理論とアルゴリズム、そしてこれらの研究領域の最先端の成果を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率的かつ厳密に局所試験可能な木言語の解析
Parsing with Probabilistic Strictly Locally Testable Tree Languages

Jose Luis Verdu-Mas, Rafael C. Carrasco, Jorge Calera-Rubio

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 7, pp. 1040-1050 , July 2005

Keywords: Parsing with probabilistic grammars, stochastic learning, tree grammars

(文字列の場合に通常k-gramモデルとして知られる)確率的k-試験可能モデル(probabilistic k-testable model)は、サンプルから簡単に同定することができ、またパターン識別において見えないイベントを扱うための平滑化法の使用を可能とする。本稿では、確率論的なk-試験可能木言語の一種を導入し、どのようにしてこれらのモデルがあらゆる確率論的合理木言語を近似できるのかを示す。このモデルは、構文解析された文のサンプルから、確率論的なk-試験可能モデルの学習というタスクに適用される。特に平滑化を用いる自然言語文法のための構文解析器について示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


生物情報学での文法的推論
Grammatical Inference in Bioinformatics

Yasubumi Sakakibara

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 7, pp. 1051-1062 , July 2005

Keywords: Grammatical inference, bioinformatics, molecular biology, hidden Markov model, stochastic context-free grammar

生物情報学は、分子生物学における解析のための情報システムの開発を目的とした活発な研究エリアである。統計理論、学習理論などの形式言語理論に基づいた多くの方法が、DAN、RNAそしてたんぱく質などの生物学的配列のモデル化と解析のために開発されてきた。特に文法推論法は、これらの生物学的配列のなかから隠された文法構造を見つけることができると期待されている。本稿では、我々が開発してきた、いくつかの生物学的配列解析のための文法解析を用いたアプローチの概略と関係する研究について説明し、そして生物学的配列からの確率論的文法学習と、学習済み確率論的文法に基づいて予測された、これらの配列の機能に焦点を当てる。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スマートな状態ラベル付けのための進化的アルゴリズムを用いた決定論的有限オートマータの学習
Learning Deterministic Finite Automata with a Smart State Labeling Evolutionary Algorithm

Simon M. Lucas, T. Jeff Reynolds

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 7, pp. 1063-1074 , July 2005

Keywords: Grammatical inference, finite state automata, random hill climber, evolutionary algorithm

決定論的有限オートオートマトン(Deterministic Finite Automaton:DFA)のラベル付けされたトレーニングセットによる学習は、機械学習コミュニティで研究されてきた困難な課題である。これは形式言語を例により学習することと等価であり、言語モデリングで応用されている。本稿では、DFA学習のための新たな進化的方法を示す。この方法は、遷移行列のみを展開し、状態ラベルを最適に付与するために単純な決定論的手続きを用いる。また本稿では、この方法の性能を、最も強力なDFAアルゴリズムのひとつである、エビデンス駆動型状態マージ(Evidence Driven State Merging:EDSM)と比較する。さまざまなターゲットサイズとトレーニングセット密度の条件下での確率的DFA誘導問題における結果を示す。提案方法とEDSMに対するノイズを含むトレーニングデータの影響についても検討する。ノイズなしデータによる小規模の疎なデータセットにおいては、提案方法はEDSMを凌ぐことがわかった。ノイズを含むトレーニングデータの場合でも、我々の方法は常にEDSMや最近2回のコンペティションで示された他の著名な方法を凌ぐことがわかった。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


構造的なセマンティック相互結合:語意明確化のための知識ベースアプローチ
Structural Semantic Interconnections: A Knowledge-Based Approach to Word Sense Disambiguation

Roberto Navigli, Paola Velardi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 7, pp. 1075-1086 , July 2005

Keywords: Natural language processing, ontology learning, structural pattern matching, word sense disambiguation

語意明確化(Word Sense Disambiguation: WSD)は、従来人工知能による解決が難しい問題だと思われてきた。この問題に対するブレークスルーは、Web情報検索、より良いWebサービスへのアクセス、情報検出など、 多くの関連するWebベースアプリケーションに大きな影響を与えるだろう。知識表現テクニックに基づいたWSDに対する初期のアプローチは、この数年間でより頑健な機械学習と統計手法により取って代わられてきている。しかし、最近のWSDシステムの比較検討の結果は、これらの方法には固有の制限があることを示している。他方、大規模かつ潤沢な語彙情報のリソースが近年充実してきていることは、知識ベースのアプローチへの新しい挑戦的課題を示しているように見える。本稿では、構造的セマンティック相互結合(structural semantic interconnections:SSI)と呼ばれる方法を示す。この方法は、文脈中の単語のとりうる語意の構造的仕様を生成し、語意仕様間の関係を記述する文法Gに従って最良の仮説を選択する。この語意仕様は、利用可能ないくつかの語彙情報リソースから生成される。このリソースの内のいくつかは手動で統合され、いくつかは自動化された手順により統合がサポートされている。SSIアルゴリズムは、自動オントロジー構成、一般文書における構文明確化、グロッサリー定義における語意の明確化等、さまざまなセマンティック明確化問題に適用されてきた。標準的な明確化の試験のための実験設定と共に、特定の知識ドメイン(たとえば観光事業、コンピュータネットワーク、企業における共通運用性など)においても評価実験を行った。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


属性付の木(Attributed Trees)のための多項式時間距離
Polynomial-Time Metrics for Attributed Trees

Andrea Torsello, Dzena Hidovic-Rowe, Marcello Pelillo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 7, pp. 1087-1099 , July 2005

Keywords: Metrics, tree matching, polynomial-time algorithms, shape recognition

本稿で我々は属性付の木の比較問題を扱い、最大類似度共通部分木という中心的アイディアに基づく4つの新しい距離尺度を提案する。提案測量は、汎用的なものであり、シンボリックもしくは連続量の属性を与えられた木に対して定義され、またrootを持つ木と共に、rootを持たない木にも適用できる。提案する尺度が、メトリクスとしての制約を満たしていることを証明し、これらを計算する多項式時間アルゴリズムを与える。これは注目に値する、そして魅力的な特徴である。なぜならば典型的な編集距離に基づいたメトリクスの計算は、少なくとも順位付けされていないケースでは、一般的にはNP完全であるからである。我々のメトリクスの有用性を形状マッチングタスクにおいて検証し、(近似的に)編集距離に基づいた方法と比較との比較を行う。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Random-walkを用いた、正確及び近似グラフマッチング
Exact and Approximate Graph Matching Using Random Walks

Marco Gori, IEEE Marco Maggini, IEEE Computer Society Lorenzo Sarti

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 7, pp. 1100-1111 , July 2005

Keywords: Exact graph matching, approximate graph matching, random walks, PageRank, image retrieval.

本稿では、パターン認識のさまざまな問題に適したグラフマッチングのための一般的なフレームワークを提案する。ここで我々の想定するパターン表現は、従来の統辞論や構造額的なアプローチのように高度に構造化されたものであり、またコネクショニストと統計的アプローチのように、実値特徴に加えてサブシンボリックな性質も持つものである。GoogleのPageRankからアイディアを得たRandom-walkに基づいたモデルを示す。これによりグラフの位相的特徴を程よく強調するスペクトル理論を与える。単刀直入な結論として、マルコフ連鎖スペクトルにおいて分節可能なグラフ(Markovian spectrally distinguishable graphs: MSD)を扱うための制約下における従来のグラフ同形問題のための多項式アルゴリズムを導出する。MSDは、これまでの研究で提案されてきた、他のグラフに縮約することが簡単ではないと思われるグラフ群(a class of graphs)である。我々の実験結果により、TC-15のさまざまなテストベッドグラフデータベースにおいて、今回定義したMSDクラスが“殆ど常に”データベースの内容をカバーすること、そして提案アルゴリズムが同じデータに対して他の最優秀VFアルゴリズムを凌ぐ効率を持っていることを示す。最も興味深いことは、提案アルゴリズムが、たとえば画像検索などにおける部分グラフ及び漸近グラフマッチング問題に非常に適しているということである。COIL-100ビジュアルコレクションに含まれるオブジェクトを考慮し、ノードのラベルが適切な視覚特徴を含むグラフベースの表現を与える。従来の二分グラフマッチングアルゴリズムの適用により、グラフ同形問題のためのアルゴリズムが一般化されることを示す。最後に、COIL-100ビジュアルコレクションに対する非常に有望な実験結果について報告する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


代数的グラフ理論からのパターンベクトル
Pattern Vectors from Algebraic Graph Theory

Richard C. Wilson, IEEE Computer Society Edwin R. Hancock, Bin Luo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 7, pp. 1112-1124 , July 2005

Keywords: Graph matching, graph features, spectral methods

グラフ構造はパターン解析のためには計算上扱いづらいことが判っている。この理由は、グラフがパターンベクトルに変換される前に、潜在的に異なるサイズの構造のノード間対応を確立しておかねばならないことである。本稿ではこの問題を克服するためにラプラシアン行列のスペクトル分解を用いる。順列不変である対称多項式を構成するためにラプラシアンのためのスペクトル行列の要素をどのように用いることができるのかを示す。これらの多項式の係数は、ベクトル符号化されたグラフ特徴として使用することができる。我々はこの表現を、ラプラシアンの複雑な類型として見ることができるハミルトニアン特徴行列のスペクトル分解を用いて、ノードの単項特徴とエッジにおける二項特徴を持つグラフに拡張する。このグラフをパターン空間に埋め込むために、主成分解析(principal components analysis: PCA)、多次元スケーリング(multidimensional scaling: MDS)、そして局所保存投影(locality preserving projection: LPP)を含む、多数の代替戦略を用いて不変量のベクトルが低次元空間に埋め込み可能かどうか調べる。実験により、この埋め込みが良いグラフクラスタをもたらすことを示す。合成データを用いた実験により、その構造に基づいてスペクトル特徴ベクトル間の距離がグラフの識別に用いられることを示す。実世界データにおける実験により我々の方法がグラフのクラスタ設定に使用できることを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフスペクトルを用いた階層構造のインデックス付け
Indexing Hierarchical Structures Using Graph Spectra

Ali Shokoufandeh, IEEE Diego Macrini, IEEE Computer Society Sven Dickinson, IEEE Kaleem Siddiqi, Steven W. Zucker

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 7, pp. 1125-1140 , July 2005

Keywords: Structural indexing, graph spectra, object recognition, shock graphs

階層的な画像構造は、コンピュータビジョン分野によく見られるものであり、部分構造、スケール空間、そして様々な多重解像度特徴の符号化に用いられてきた。本稿では、位相幾何学的構造 非循環有向グラフ(directed acyclic graph: DAG)を低次元ベクトル空間に埋め込む表現をインデックス付けするためのフレームワークを示す。DAGの新しいスペクトル特徴に基づいて、この位相幾何学的信号により、単純な最近傍検索法を用いてモデルデータベースから有望な候補を効率的に検索することが可能となる。ノイズ、隠蔽、そしてノードの分割統合による、グラフ構造の細かな摂動の信号に対する低感度化を確立した。大規模な隠蔽に対応するために、クエリの各非葉ノードに根を持つDAGは、モデルDAGの位相幾何学的部分空間における局所エビデンスを効率的に集積する「部分」を共有するモデルオブジェクトに対して投票を行う。ショックグラフを用いた視野に基づく三次元オブジェクト認識分野における一連のインデックス付け実験を通じてこのアプローチを実証する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


例からの一般的モデル抽象化
Generic Model Abstraction from Examples

Yakov Keselman, Sven Dickinson, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 7, pp. 1141-1156 , July 2005

Keywords: Image abstraction, automatic model acquisition, learning from examples, shape description, object recognition, graph algorithms.

認識コミュニティは、古典的な低次画像特徴と一般モデルの間の表現ギャップ(representational gap)を埋めることを避けてきた。その代わり、理想化されたテキストを含まないオブジェクトを含む単純なシーンを用いて「画像」側を「モデル」側に近づけるか、3D CADモデルテンプレートや二次元アピアランスモデルテンプレートを用いて「モデル」側を「画像」側に近づけるかして、巧みにこのギャップを消してきた。本稿はモデル獲得分野のための表現ギャップの橋渡しを試みる。特に、あるクラスに属するサンプルオブジェクトを含む画像集合からの、一般的二次元ビューベースのクラスモデルの自動獲得問題を扱う。新しいグラフ理論に基づいたこの問題の定式化を導入する。この問題では、入力画像の隣接領域グラフ表現が取りうる全ての領域グループ化の空間を表す多種類の格子の中から、最小共通アブストラクションを探索する。これは多項式アルゴリズムが与えられない問題である。本稿では有効な解を得るための最短パスに基づいた近似アルゴリズムを示す。実画像で本アプローチを実証する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所変換による顔マッピングの確率的モデルと個人認識への応用
A Probabilistic Model of Face Mapping with Local Transformations and Its Application to Person Recognition

Florent Perronnin, Jean-Luc Dugelay, Kenneth Rose, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 7, pp. 1157-1171 , July 2005

Keywords: Biometrics, face recognition, image processing, hidden Markov model, distance

本稿では顔画像間の“距離”に対する新しい測量を提案する。この測量は同一人物の顔画像間の可能な変換セットの推定を含む。直接モデリングためには複雑すぎると思われる大域変換を、隣接する局所変換の間の整合性を取る拘束条件下における局所変換の寄せ集めにより近似する。提案システムの局所変換と隣接関係を利用した拘束条件は、二次元隠れマルコフモデルの確率的フレームワークにより埋め込まれている。特に、表情バリエーションと照明を含む2種類のクラス間変量をモデル化する。これらにより得られるシステムの性能を、4つの顔データベースからなる大規模データセットにより検査する。特に、提案手法は、現在の最高精度の顔認識アプローチである、ベイズ個体内/個体間識別器(Bayesian intra/extrapersonal classifier)を凌ぐ性能を持つことが示される。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像プリミティブのグループ化のための学習済みスピングラスモデル
A Trained Spin-Glass Model for Grouping of Image Primitives

Joes Staal, Stiliyan N. Kalitzin, Max A. Viergever

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 7, pp. 1172-1182 , July 2005

Keywords: Statistical pattern recognition, spin-glass model, statistical learning, Bayesian grouping

画像プリミティブの局所識別性能を向上させるためにグループ化を用いる方法を示す。グループ化のプロセスはスピングラスシステムに基づいている。このシステムでは、画像プリミティブはスピンを持つものとして扱われる。このシステムは、局所と二重局所項(bilocal part)により構成されるエネルギー関数に従い、画像プリミティブ間の相互作用を可能とする。最低エネルギー状態をグループ化の結果として定義する代わりに、システムの平均状態を利用する。このようにして複数のエネルギーの極小値による不安定性を回避している。スピンの平均はグループ化の結果の事後確率として算出される。本稿では、このエネルギー関数をどのようにしてサンプルデータから学習するかについて示す。このエネルギー関数は、エレメント間に相互作用がない場合にはスピンの平均値は事前局所確率に一致するように定義される。グループ化プロセスにより、事前の局所および二重局所確率を事後確率に融合させることができる。合成画像中の線分エレメントと、眼底画像における血管検出において、本方法を例証する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.27, No.8


レーダー発信機識別のためのオンラインクラスタリングアルゴリズム
Online Clustering Algorithms for Radar Emitter Classification

Jun Liu, IEEE, Jim P.Y. Lee, IEEE, Lingjie Li, Zhi-Quan Luo, IEEE, K. Max Wong, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1185-1196 , August 2005

Keywords: Emitter classification, online process, MDL criterion, cluster validation, clustering, competitive learning, computational complexity

レーダー発信機識別は、受信したレーダーパルスデータを使った未知のレーダー発信機の識別をするための特別な応用例である。この応用の主要な課題は、レーダーパルスデータが高次元で、取得データ数が少なく、レーダー発信機が互いに密接して設置されていることである。本論文では、レーダー発信機識別のために2つの新規なオンラインクラスタリングアルゴリズムが開発されたことを報告する:1つは最小記述原理(Minimum Description Length (MDL))を利用したモデルに基づく基準であり、もう1つは競合学習法に基づく方法である。両者の計算複雑度を解析し比較した。シミュレーションから、競合学習法より、モデルに基づく方法のほうが、識別度が高精度であり、柔軟性も安定性も高いことがわかった。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化C平均クラスタリングモデル
General C-Means Clustering Model

Jian Yu, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1197-1211 , August 2005

Keywords: Partitional clustering, mean, fixed point, optimality test, cluster validity, density estimator, Occam's razor, Hessian matrix

分割クラスタリング法とはクラスター解析法の重要部分である。多様な理論に基づく多数のクラスタリングアルゴリズムが開発されてきた。データに基づく方法では、オッカムの剃刀の原理が重要な役割を演ずることが文献で紹介されているが、分割クラスタリング法もデータに基づく一方法として認識されている。しかし、この論文で考察するように、オッカムの剃刀と分割クラスタリング法の関係は見つかっていなかった。本論文での3つの新規な発見は、1)新規な「平均」の定義によって、一般化c−平均クラスタリングモデル(GCM)と呼ばれる分割クラスタリングアルゴリズムのための統一的な生成フレームワークを示し、考察すること。2)GCMの局所最適化テストに基づいて、初めてオッカムの剃刀の原理と、分割クラスタリング法の関係が確立されたこと。その応用として、GCMに基づく既存の目的関数に基づく広範なクラスタリングアルゴリズムを再検討したこと。3)分割クラスタリングについての一般的仮定の元に、クラスタリングアルゴリズムを工夫し、実装するためのガイドが見つかったこと。コレラの結果は数値実験によって実証された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歴史的手書き文書からの自動的単語切り出しのためのスケール空間法
A Scale Space Approach for Automatically Segmenting Words from Historical Handwritten Documents

R. Manmatha, IEEE Computer Society, Jamie L. Rothfeder

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1212-1225 , August 2005

Keywords: Segmentation, document and text processing, document analysis, handwriting analysis, document indexing, smoothing, optical character recognition

多くの図書館、博物館やその他の組織には多量の歴史的手書き文書が存在する。例えば、ジョージワシントンに関する書類はアメリカ議会図書館にある。まず、認識/検索ツールを用意するための最初のステップは、自動的に手書きページを単語に切り出すことである。最新のセグメンテーション技術であるギャップマトリックスアルゴリズムは、銀行小切手や郵便のあて先住所のような特定目的に開発されてきた。これらは手書き文書だけから成るページに対してはほとんど研究されたことはなく、テストは単に研究用に用意されたクリーンで人工的な文書に対してなされてきたに過ぎない。歴史的手書き画像は多くのノイズを含むため、ずっと困難である。ここに新規なスケール空間アルゴリズムがあるが、これは自動的に手書き文書を単語に切り出すことができる。まず、ページのノイズが除去され、マージン部分が除かれる。次に、中間調レベルの投影断面によって、行を見つける。各行は複数のスケールを有する異方性ラプラシアンフィルターにかけられる。これによって、小さな文字や、単語に相当する画像に対応する部分に黒い斑点が形成できる。重要なのは、斑点が単語に対応するように最適スケールを選択することである。このため斑点領域の最大値を見つけることが必要である。この最大スケールは3つの方法で推定される。最適スケールで生成された斑点は、通常の矩形の箱で区切られ、これが単語の大きさに一致するであろう。次に、後処理として、異常な矩形サイズのものはノイズとして除かれる。ジョージワシントンコーパスから得られた100個の手書き画像サンプル文書について試した結果誤り率は17%であった。この手法は、本画像については、最新のギャップマトリックスによる単語切出しを凌駕した。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


相互情報量に基づく特徴量の選択:最大依存性、最大関連性、そして、最小融通性の各基準
Feature Selection Based on Mutual Information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy

Hanchuan Peng, IEEE, Fuhui Long, Chris Ding

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1226-1238 , August 2005

Keywords: Feature selection, mutual information, minimal redundancy, maximal relevance, maximal dependency, classification

パターン識別システムでは特徴量の選択は重要な課題である。我々は相互情報量に基づく最大統計的依存基準を使って、望ましい特徴量の選択について研究した。最大依存性条件を直接実装することは困難であるため、最初に、最小冗長性-最大関連性基準(mRMR)と呼ばれる、等価な一次の追加式特徴選択法を導いた。そして、mRMRと、他のより巧妙な特徴選択子であるwrappersを結びつけた、二段階の特徴選択アルゴリズムを示す。これによって、きわめて低い計算量でコンパクトな優れた特徴量集合を選択することが可能となる。この我々のアルゴリズムと他の手法を利用して、異なる3つの識別器を利用した徹底的比較実験を行った。3つとは、ナイーブBayes法、 サポートベクトルマシン(support vector machine), そして、線形判別分析法(linear discriminate analysis)であり、これを4つの異なるデータ集合(手書き数字、数字、NCRガン細胞系列、リンパ腫組織)に適応した。その結果mRMR法が特徴選択と識別精度において最も有望であることが解った。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Swendsen-Wang法を一般化した任意の事後確率サンプリング法
Generalizing Swendsen-Wang to Sampling Arbitrary Posterior Probabilities

Adrian Barbu, Song-Chun Zhu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1239-1253 , August 2005

Keywords: Swendsen-Wang, cluster sampling, Markov chain Monte Carlo, Bayesian inference, image segmentation, stereo matching

多くの画像問題はグラフ分割問題として定式化できるが、この方法はエネルギー関数を最小化できる。このような一般的課題にはGibbsサンプリングが知られているが、これはあまりにも遅い。これに対して他の手法として、Ncut, graph cutがあり、計算は速いが、エネルギーの形態が特別のものだけに有効であるため一般化は難しい。本論文では、Swendsen-Wangを一般化した、グラフ分割で定義された任意の確率に当てはまる新しい推論アルゴリズムを紹介する。まず、局所的画像特徴に基づくグラフエッジ重みの計算から始める。次に、2ステップからなるアルゴリズムを示す。1)グラフ-クラスタリング:重みが確率に依存してエッジを切断する。2)グラフの再ラベル化:一つの連結成分を選び、全頂点要素の色を確率的に入替える。こうして、分割と併合が実行でき、多数のグラフの再グループ化が可能となる。これはたった1個の頂点だけを入替えるGibbsのサンプラーとは異なる。このアルゴリズムでは、グラフ分割空間でのエルゴード的で可逆なマルコフ鎖のジャンプが可能で、事後確率事象や、グラフ上で定義された関数に応用可能なことを示す。このアルゴリズムをコンピュータビジョンの典型的2つの課題である画像セグメンテーションと、ステレオビジョンに適用する。実験の結果、本方法は古典的なGibbs samplerに比べて100-400倍の高速演算であり、DDMCMCセグメンテーションアルゴリズムに比べ20-40倍高速演算であることが示された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


例に基づく測光的ステレオ:一般化、変動BRDF法による形状復元
Example-Based Photometric Stereo: Shape Reconstruction with General, Varying BRDFs

Aaron Hertzmann, Steven M. Seitz, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1254-1264 , August 2005

Keywords: Photometric stereo, shape reconstruction, shape-from-shading, bidirectional reflectance distribution function (BRDF), specular materials, clustering materials

本論文は、画像からの一般的反射特性を有するオブジェクトの計算手法を紹介する。変化しつつある物質特性を有する表面について、物質ごとにセグメンテーションする。ここでカメラの視点は固定しているが、照明は絶えず変化しているとする。1つ以上の、既知の形状の類似標本が同一照明下に存在しているとする。形状復元に関する他の研究と異なり、本手法では、任意で空間的に変化しつつあるBRDF(bidirectional reflectance density function)を扱うことが出来る。更に、本手法は任意の距離や未知の照明条件にも有効である。最後に、本方式は、ほとんどキャリブレーション(更正)が不要なため、応用が極めて容易である。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所的Affine領域を利用しての疎なテクスチャー再現
A Sparse Texture Representation Using Local Affine Regions

Svetlana Lazebnik, IEEE, Cordelia Schmid, IEEE, Jean Ponce, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1265-1278 , August 2005

Keywords: Image processing and computer vision, feature measurement, texture, pattern recognition

本論文は、視点変更、非剛性変形を含む広範囲の変形条件下でのテクスチャー表面の認識に適したテクスチャー再現方法を紹介する。特長量抽出の段階では、画像中の、疎なaffine Harris and Laplacian 領域集合を見つける。つまり、同一のaffine変換を受けていると思われる領域集合の検出である。各領域は、楕円形状の特徴的外観のテクスチャー要素を持つことが期待される。そのため、形状正規化の後、スピン画像とRIFT記述子という新規な記述子を経たaffine不変量によって、このパターンが認識される。もし、affine不変性が不必要であるなら、楕円形状は、テクスチャー認識に必要な別の記述特長量に置き換えても良い。この提案手法は、全部のBrodatzデータベースと、公に入手可能な1000個のテクスチャー表面写真(各種視点の)を対象にした検索と識別実験によって評価された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


霊長類の視覚系に基づいた、動きからの衝突までの時間推定
Time-to-Collision Estimation from Motion Based on Primate Visual Processing

John M. Galbraith, IEEE, Garrett T. Kenyon, Richard W. Ziolkowski, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1279-1291 , August 2005

Keywords: Motion processing, autonomous robotics, neuromorphic computing, computer vision, depth cues, time-to-collision, optic flow

霊長類の視覚系の動き処理に関する確立したモデルである、個体数符号化アルゴリズムでは、動いているロボットのビデオ画像から実世界環境に存在するオブジェクトにぶつかるまでの時間を計算する。4組の変換は、まず動きエネルギーから開始する;空間時間頻度に基づく動き特徴を利用した計算。これは以下の処理段階を経て、オプティックフロー変換と似ているが異なる併進特徴量である、画像速度特徴量を抽出する。これには、アパーチャー問題(狭い視野から動きを推定することに起因する誤差)などに起因する速度誤差を含むが、結局のところ、衝突までの時間を推定する。生物に動機付けされたこのポピュレーション符号化法は、以前のLucas and Kanadeによる3種類の近づきつつあるオブジェクトを使うオプティックフロー法とは区別され、ノイズやアパーチャー問題があってもロバストに衝突までの時間を与える。このパーフォーマンスの向上では計算量の増大を伴ったが、特殊なハードウエアの採用で緩和されるであろう。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的視覚追跡のための疎なベイズ学習法
Sparse Bayesian Learning for Efficient Visual Tracking

Oliver Williams, Andrew Blake, IEEE, Roberto Cipolla, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1292-1304 , August 2005

Keywords: Probabilistic algorithms, robust regression, tracking, object recognition

本論文は、統計的学習アルゴリズムを拡張し、オブジェクト位置測定に利用することである。カーネル-SVMの利用によるオブジェクト認識法は、SVMの空間摂動によって見事に位置測定に適用することができる。このSVMはビデオの各フレームに独立に適用することができるが、データを時間的に融合することによる利点は良く知られている。このことは、完全に確率的な関連性ベクトルマシン(Relevance Vector Machine (RVM))の利用によって、対象がガウス分布であれば、終局的には完全に融合した状態を記述することができる。認識器を適合させる代わりに、ターゲット領域からの変位を推定する、変位エキスパートを作った。オブジェクト検出器は、オブジェクト確認、自動的初期化や復元のために、2つ並べて使った。この手法は実時間追跡システムにおいて実証されたが、フレーム速度での利用においても、RVMが疎であることから、ほんの少しのCPU時間で追跡可能である。この実験を最新の手法と比較評価した結果、長時間の領域追跡には、本手法の有用性が示された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


連続的ビデオ画像を3D点群上に整列
Alignment of Continuous Video onto 3D Point Clouds

Wenyi Zhao, IEEE, David Nister, IEEE, Steve Hsu, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1305-1318 , August 2005

Keywords: Alignment, pose estimation, motion stereo, range data, sensor fusion, 3D model and visualization

我々は連続したビデオ画像を3Dセンサーデータ上に整列する一般的枠組みを提案する。3Dセンサーから直接得られた点群上に、ビデオから算出された点群を並べる。これは、従来の3Dセンサーから直接得られた点群上に2D画像を並べるのとは、対照的である。点群を利用することで、従来難しかった樹木のような多数のオブジェクトの整列が可能となる。ビデオから3D点群を算出するために、モーションステレオ法と最新のカメラ位置推定法アルゴリズムも利用した。実データによる実験の結果、郊外風景のような大規模なモデルのテクスチャー付けが、本手法の位置合わせ法の有用性が実証できた。3Dセンサーデータから3Dモデルを作る前にビデオを整列させることは、3Dモデル化の新しくて現実的な方法と言える。3Dセンサーとビデオの両方から得られた3D情報を融合する新規な位置あわせによるモデル化を紹介する。実データを使った初期実験から、本手法の可能性が示せた。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歯のバイオメトリックス:歯のX線画像の整列とマッチング
Dental Biometrics: Alignment and Matching of Dental Radiographs

Hong Chen, IEEE, Anil K. Jain, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1319-1326 , August 2005

Keywords: Dental radiographs, curve alignment, shape registration, spline, biometrics

歯のバイオメトリックスは歯のX線画像を利用して人間を同定する。歯のX線画像は歯と輪郭画像と隣接歯の相対位置、および、歯冠、詰め物、歯橋などの歯科医が作業した形跡情報を与える。ここに提案するシステムは2つのステップから成っている;特徴量抽出とマッチングだ。特徴量抽出ステップでは不均一拡散を利用して画像強調し、ガウス分布混合モデルによって歯科医の作業をセグメント化する。マッチングには3つの逐次処理が続く;歯高のマッチング、画像距離計算、対象者同定。歯高マッチングでは両者の輪郭は形状登録法によってマッチングされる。歯科医の作業は重複領域で行われる。歯の外形間の距離と、歯科医の作業の間の距離は、事後確率を利用して統合される。第2のステップとしての、与えられた問い合わせ事項(死後)のX線画像とデータベース(生前)のX線画像との歯の対応関係は確立している。対応した歯に基づく距離を利用して、2つのX線画像の類似度が利用できる。最後に、死後と生前の全ての距離が示された後、これらが統合され、死後のX線による候補つき同定法として確立された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


中心カタディオプトリックな直線画像の幾何学的性質とそのキャリブレーションへの応用
Geometric Properties of Central Catadioptric Line Images and Their Application in Calibration

Joao P. Barreto, Helder Araujo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1327-1333 , August 2005

Keywords: Catadioptric, omnidirectional vision, projective geometry, lines, calibration

中心カタディオプトリック系においては、情景中の直線は円錐曲線として投影される。本研究は直線の中心カタディオプトリック投影の幾何学についてであり、これのキャリブレーションへの利用について述べる。直線が写像されている部分の円錐曲線はいくつかの投影不変特徴を持っていることが証明できる。これらの特徴を使うことで、3本あるいは4本の直線画像から、中心カタディオプトリック系は完全にキャリブレーションが可能である。完全円錐画像、カメラとミラーの相対姿勢、および、反射表面は、直線が投影されている円錐座に基づく幾何学的キャリブレーションによって、復元可能である。この結果はどんな中心カタディオプトリック系に対しても有効で、以前の結果を一般化してカタディオプトリックセンサーに適用することも可能である。さらに、双曲線/楕円ミラーは2つの直線の画像のみからのキャリブレーション可能である。もし、ミラーの曲面形状と位置関係が両方とも既知であるなら、2つの直線だけで、カメラの固有パラメータを符号化している完全円錐画像の決定が可能である。この手法の誤差の感度が評価され、現実のカメラがキャリブレーションされた。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像のユークリッド距離について
On the Euclidean Distance of Images

Liwei Wang, Yan Zhang, Jufu Feng

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1334-1339 , August 2005

Keywords: Image metric, Euclidean distance, face recognition, positive definite function

画像のための新規なユークリッド距離を提案し、これをIMage Euclidean Distance (IMED)と呼ぶことを提案する。従来のユークリッド距離と異なり、IMEDは空間的関係を考慮する。従って、画像の小さな変動に対してロバストである。IMEDは画像のユークリッド距離に関しては直感的に妥当であるかどうかを議論する。次にこれを画像認識に応用する。この距離の尺度の利点は、ほとんどの画像識別手法である、SVM, LDA,および PCAに埋め込むことが出来ることである。この埋め込みは、標準化変換(Standardizing Transform (ST))と呼ばれる変換を内蔵することで効率的になる。このSTは変換領域での平滑化であることを示す。顔認識手法のデータベースと、2つの最新顔同定アルゴリズムを利用して、従来のアルゴリズムに新規な尺度を埋め込ませることで、効率の向上を実証する。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


FastMap と多変量データの凸胞体(Convex Hull):高速でロバストな次元削減
On FastMap and the Convex Hull of Multivariate Data: Toward Fast and Robust Dimension Reduction

George Ostrouchov, Nagiza F. Samatova

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1340-1343 , August 2005

Keywords: Dimension reduction, convex hull, FastMap, RobustMap, principal components, multidimensional scaling, robust statistics, Euclidean distance

FastMapは次元削減手法の1つで、オブジェクト間の距離に作用する。距離だけしか利用しないが、オブジェクトは、“p次元”ユークリッド空間内の点である。これは、遠距離の点(ピボットと呼ばれる)対で定義される“k≦ p”直交軸を選択する。FastMapは、データ集合の外包絡のみを利用することを示す。ピボットとしては、通常凸胞体である表面の頂点、それも、元のユークリッド空間の頂点を使うことが多い。これによって、ロバストな統計への橋渡しとなり、凸胞体が多変量の外れ点の検出やロバストな推定法の道具として利用可能である。この関係に気付くことで、FastMapに脚光が当たることになる。特に、外れ点に対する敏感さによって、新規な次元削減アルゴリズムであるRobustMapsの可能性が注目されるとともに、FastMapの高速性を保持しながら、ロバスト統計へアイデアを広げる。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


遺伝的アルゴリズムに基づくEMアルゴリズムによって混合ガウスモデルを学習
Genetic-Based EM Algorithm for Learning Gaussian Mixture Models

Franz Pernkopf, IEEE, Djamel Bouchaffra, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1344-1348 , August 2005

Keywords: Unsupervised learning, clustering, Gaussian mixture models, EM algorithm, Genetic algorithm, minimum description length

我々は遺伝的アルゴリズムに基づく期待値最大化アルゴリズム(GA-EM)を、多変量データのガウス混合モデルの学習に提案する。このアルゴリズムは最小記述長(MDL)基準を用いてモデルの多数の成分を選択することが可能である。我々は、遺伝的アルゴリズム(GA)の特徴の利点とEMの利点を組合せ、手続きを単一化する。GAは処理した成否の個数で判定するが、EMに比べて探索範囲が大きい。従って、我々の方法は、初期値へ依存度が小さく、局所的最小点から抜け出ることが可能である。GA-EMアルゴリズムは、単調な収束性を有するEMアルゴリズムの性質を保持した優れた方法である。シミュレーションと実データの両方に適用した結果は、GA-EMは以下の点においてEMを凌駕する。1) 同じ終了条件を与えた場合、MDLスコアが良い。2)EMに比べて、根底にあるデータを生成するための多数の成分を、より高頻度に見つけられる。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.27, No.9


画像モデリングのための反復カーネル主成分分析
Iterative Kernel Principal Component Analysis for Image Modeling

Kwang In Kim, Matthias O. Franz, Bernhard Scholkopf

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 9, pp. 1351-1366 , September 2005

Keywords: Principal component analysis, kernel methods, image models, image enhancement, unsupervised learning

近年、ノイズ除去や圧縮のような画像モデルを必要とする様々な画像処理に対して、カーネル主成分分析(KPCA)の有益性が示唆されてきている。しかし元来KPCAは、処理できる訓練画像数の制約により、かなり限定された画像クラスにのみ適用できるものである。それゆえ本稿で我々は、KPCAの性能向上のための、新しい反復的方法を提案する。これはカーネルヘブ型アルゴリズム(Kernel Hebbian Algorithm)と呼ばれ、わずか線形オーダーのメモリ複雑性において、カーネル主成分を反復的に推定する。我々が行った実験では、顔や自然画像などの多数の訓練画像を必要とする、複雑な画像クラスのモデルを計算する。この結果得られる画像モデルを、単一フレーム超解像度処理とノイズ除去アプリケーションにおいてテストする。KPCAモデルはこれらのタスクに対して特殊にチューニングされているわけではない。事実、超解像度処理では、様々な入力解像度に用いることができ、またノイズ除去処理では未知のノイズ特性に対しても使用できる。提案手法は、このような特徴にもかかわらず、超解像度処理、ノイズ除去処理ともに既存方法に伍する性能を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像サブモダリティモデル、冗長性削減処理、そして生物学的視覚処理における学習からアイディアを得た新しい画像表現アルゴリズム
A New Image Representation Algorithm Inspired by Image Submodality Models, Redundancy Reduction, and Learning in Biological Vision

Nikhil Balakrishnan, Karthik Hariharakrishnan, Dan Schonfeld, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 9, pp. 1367-1378 , September 2005

Keywords: Computer vision, feature representation, statistical models, clustering algorithms, machine learning, color

我々は生物学への適用を前提に、新しい自然画像を表現する新しいアルゴリズムを開発した。このアルゴリズムでは補部分空間への連続投影を用いる。入力画像はまずICA基底を用いて張られたエッジ部分空間に投影される。この基底はエッジやカーブなどの鋭い特徴を捉えるように、自然画像に適応している。鋭い画像特徴を取り除いた後の残余画像を、確率的主成分分析モデル(probabilistic principal component analyzers:MPPCA)を用いて近似する。このモデルは、細胞、機能、情報理論、及び視覚経路における学習パラダイムと整合している。我々のモデルが、色や輝度などの自然画像の様々な特徴を効率的に表現できることを実証する。離散コサイン変換(discrete cosine transform:DCT)、独立成分分析(independent component analysis:ICA)、そして主成分分析(principal components analysis:PCA)などの広く用いられているエントロピーベースの表現方法と、我々のモデルの比較を行う。この比較では表現の品質について調べる。画像の色相と輝度成分は、DCT、ICA、そしてPCAよりも低いエントロピーのコードで表現されるにもかかわらず、同程度の品質を確保している。提案モデルは、エッジを表現するために疎で且つ独立なコードを用い、残余部分空間における確率を明示的に評価することで、画像を用いた学習をかなり単純化することに成功した。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


教師なしカーネル回帰による主平面
Principal Surfaces from Unsupervised Kernel Regression

Peter Meinicke, Stefan Klanke, Roland Memisevic, Helge Ritter

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 9, pp. 1379-1391 , September 2005

Keywords: Dimensionality reduction, principal curves, principal surfaces, density estimation, model selection, kernel methods

Nadaraya-Watsonカーネル回帰推測器の教師なし定式化に基づいた、主平面学習へのノンパラメントリックなアプローチを提案する。主曲線と主平面のための従来のアプローチと比較しても、提案手法は幾つかの利点を持つ。まずモデル選択問題に対して現実的な解を示す。これは本アプローチでは、全てのパラメタが、追加計算コストなしでleave-one-out cross-validationにより推定されるからである。これに加え、我々のアプローチは、パラメタ初期化のために非線形スペクトル法を簡単に取り入れる事ができ、これにより線形PCAに基づいた典型的な初期化を凌ぐ性能を持つ。更にこれは、通常のデータ空間設定を凌駕する、一般的特徴空間における主平面フィッティングのための単純な方法を示す。合成データと実データにおける実験結果により、このような本アプローチの便利な特徴を例証する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率的グラフィックモデルにおける推論・学習のアルゴリズム比較
A Comparison of Algorithms for Inference and Learning in Probabilistic Graphical Models

Brendan J. Frey, IEEE, Nebojsa Jojic

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 9, pp. 1392-1416 , September 2005

Keywords: Graphical models, Bayesian networks, probability models, probabilistic inference, reasoning, learning, Bayesian methods, variational techniques, sum-product algorithm, loopy belief propagation, EM algorithm, mean field, Gibbs sampling, free energy, Gibbs free energy, Bethe free energy.

不確定性の下での推論法の研究が、人工知能研究において最もエキサイティングな研究領域になっている。これは近年大規模データの記録、蓄積、そして処理が可能になったことに大きく依存する。手書き文字認識、顔認識、話者同定、そして遺伝子機能予測などのパターン認識問題において輝かしい成果が上げられている。データの大規模な組み合わせ解析やこのようなデータの相互作用を持つコンポーネントへの分解などを行うことができるシステムをまさに導入しようとしている研究者たちは、これらにもまして興奮している。例えば自動シーン解析の計算論的方法がまさにコンピュータビジョンの分野に取り入れられようとしている。これらの方法は入力画像をそれらの構成オブジェクト、照明条件、動きパターン、等に分解する。二つの主な挑戦的課題の研究により、特定の応用分野における効率的な表現とモデルが見つかってきている。また、これらのモデルの推定と学習のための効率的なアルゴリズムも見つかっている。本稿では、グラフベースの確率モデルとその関連する推測および学習アルゴリズムの使用を提唱する。我々は厳密な手法と、様々な近似的で計算効率が高い技法をレビューする。これには、反復型条件モード、期待値最大アルゴリズム(EMアルゴリズム)、ギブスサンプリング、平均場方法、様々な派生技法、構造化された変分法的技法、そして和積アルゴリズム(“ループ型/変則型”信用伝播)を含む。我々はこれらの技法がどのようにして、複数の隠蔽されたオブジェクトを含む視覚モデルに適用されるかを示す。統一されたコスト関数と自由エネルギーを用いてこれらの技法の振る舞いと性能を比較する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最近傍サブクラス識別器:最近傍平均と最近傍識別器の妥協点
The Nearest Subclass Classifier: A Compromise between the Nearest Mean and Nearest Neighbor Classifier

Cor J. Veenman, Marcel J.T. Reinders

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 9, pp. 1417-1429 , September 2005

Keywords: Classification, regularization, cross-validation, prototype selection

我々は最近傍サブクラス識別器(Nearest Subclass Classifier:NSC)を紹介する。これは最近傍識別器の柔軟性と最近傍平均識別器(nearest mean classifier)の頑健性を統合するものである。このアルゴリズムは最大分散クラスタアルゴリズム(Maximum Variance Cluster algorithm)に基づいており、また同じようにプロトタイプに基づいた識別器に分類される。クラスタアルゴリズムの分散拘束パラメタにより識別器を正規化し、これにより過剰適合を防ぐ。この識別器の特性は、分散拘束値が低い場合、最近傍識別器のものとなり、分散拘束値が高い場合には、最近傍平均識別器となる。言い換えれば、プロトタイプの数は、全訓練集合数から、各クラスにひとつまで、幅広く変動する。NSCと、いくつかのプロトタイプに基づいた方法を、性能とデータセット圧縮比について比較する実験を行った。いくつかのデータセットにおいて、NSCは、多くの分野で確立されているk最近傍識別器に近い性能を示した。ストレージ要求と識別速度に関して、NSCは好ましい特性を持っている。つまり識別性能と効率がバランスよく達成されている。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


投影カーネルを用いた実時間パターンマッチング
Real-Time Pattern Matching Using Projection Kernels

Yacov Hel-Or, IEEE, Hagit Hel-Or, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 9, pp. 1430-1445 , September 2005

Keywords: Pattern matching, template matching, pattern detection, feature extraction, Walsh-Hadamard

パターンマッチングのための新しいアプローチを示す。この方法では、従来のアプローチに比較して、二桁も時間複雑性が削減される。提案アプローチは、きわめて少ない平均計算により、効率的な投影スキームを用いてパターンと画像ウィンドウ間の距離を計算する。照合パターンとの違いが大きい画像ウィンドウを高速に棄却するための棄却スキームと投影フレームワークを組み合わせる。実験によりこのアプローチが、ノイズの多い条件下でも効果的であることを示す。本稿で説明されるアプローチは、投影値を有益且つ高速抽出可能な入力特徴として用いる識別スキームにも使用することもできる。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的且つパラメタを用いない四辺形ベースの画像分割方法
An Efficient Parameterless Quadrilateral-Based Image Segmentation Method

Ronald H.Y. Chung, Nelson H.C. Yung, Paul Y.S. Cheung

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 9, pp. 1446-1458 , September 2005

Keywords: Approximate methods, object representations, region growing, quadrilateral-based segmentation.

本稿では一般的な画像分割のための四辺形ベースのフレームワークを提案する。このフレームワークではエッジマップから四辺形を構成し、隣接する四辺形のうち、注目する特徴値が近いものを統合することで領域を構成する。提案フレームワーク下では四辺形を用いることで、局所変動や不必要な詳細を削除ことができる。これにより、この四辺形を統合して得られる領域の分割が、高精度且つ完全なものになる。提案フレームワークの有効性を示すために、本フレームワークを用いて効率的且つ高性能なパラメタ無し四辺形ベースの領域分割アルゴリズムを導出した。提案アルゴリズムにより、本フレームワークにより得られる領域は、複数のレベルの四辺形に分割され、これにより各領域を極度の過剰分割や過少分割なしに正確に表現される。主観および客観試験により、提案アルゴリズムが、他の3つの分割手法、即ち基点あり領域成長法(seeded region growing)、K-meansクラスタリング、そして拘束重力クラスタリング(constrained gravitational clustering)よりも優れた性能を持ち、コンテンツベースのアプリケーションにおける使用につながる効率的な分割されたオブジェクトの表現を持つことを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一画像からの固有画像(intrinsic image)復元
Recovering Intrinsic Images from a Single Image

Marshall F. Tappen, William T. Freeman, IEEE, Edward H. Adelson, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 9, pp. 1459-1472 , September 2005

Keywords: Computer vision, machine learning, reflectance, shading, boosting, belief propagation

実世界画像の解釈には、最終的な画像の見えを得るために、シーンの様々な特徴を識別する能力が必要とされる。これらの特徴のうち、最も重要な二つをあげるならば、シーン内の各点における投影と反射である。我々は、複数のキューを用いて投影と反射の固有画像を、単一画像から復元するアルゴリズムを示す。色情報と、照明方向が既知の条件下でグレースケールのパターンを認識するように訓練された識別器とを用いて、各画像の導関数を以下の二つの状態に分類する。1)他のオブジェクトの影が投影されている、2)表面反射率が変化している。この識別器は表面の形状と色に関する局所的な根拠(local evidence)を集め、これらを一般化信用伝播アルゴリズム(Generalized Belief Propagation algorithm)を用いて伝播させる。この伝播により、画像中の、局所的根拠だけでは上記分類が不明確だった領域を分類する。実世界画像とその結果を用いて、本システムの各部処理が最終結果にどのように影響するかを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


相対位置の不完全情報による空間的推論
Spatial Reasoning with Incomplete Information on Relative Positioning

Sidi Mohammed Reda Dehak, IEEE, Isabelle Bloch, IEEE, Henri Maitre, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 9, pp. 1473-1484 , September 2005

Keywords: Probabilistic geometry, spatial reasoning, geometrical inference.

本稿では、第三の点に対する空間的相対位置が既知の基準点に対する、同じくこの第三の点に対する相対位置が既知である点の位置を推測するための確率的方法を示す。我々はこの問題を、空間的角度情報のみが既知という、相対位置情報が不完全な場合において扱う。確率的表現を導入することで、事前知識のモデル化が可能となる。我々は、2つの既知の角度を用いて、この相対位置の条件付確率をあらわす厳密な公式を導出する。典型的な例としては、これらは、矩形もしくは円形領域における均一もしくはガウシアン事前確率分布として与えられる。二つの異なるシミュレーションに対する結果を用いて提案方法を例証する。第一のシミュレーションは角度に関する相対情報のみを用いた携帯電話の位置特定であり、第二は都市部における位置特定である。後者は角度に関する相対情報と、位置に関する追加の知識を用いて推論を行う

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スケール乗算によるCannyエッジ抽出器の性能向上
Canny Edge Detection Enhancement by Scale Multiplication

Paul Bao, Lei Zhang, Xiaolin Wu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 9, pp. 1485-1490 , September 2005

Keywords: Edge detection, scale multiplication, multiscale analysis.

Cannyエッジ抽出器のフレームワークにおいて、スケール乗算技法を解析する。スケール乗算機能は、2つのスケールにおけるフィルター出力の積として定義される。スケール乗算結果を閾値処理し、その極大値を取ることでエッジマップが得られる。検出基準を僅かに妥協することで、スケール乗算により位置特定基準は大幅に改善される。スケール乗算のための二つの基準の積は、単一スケールのそれよりも大きい。そしてそれにより、より良いエッジ抽出性能が得られる。本アプローチの実験結果を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴ベースのアフィン不変顔画像同定
Feature-Based Affine-Invariant Localization of Faces

M. Hamouz, J. Kittler, IEEE, J.-K. Kamarainen, P. Paalanen, H. Kalviainen, IEEE, J. Matas, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 9, pp. 1490-1495 , September 2005

Keywords: Face localization, face authentication

本稿で我々は、個人識別シナリオにおける顔画像同定のための新しい方法を示す。このようなシナリオでは、顔正面の高解像度画像を期待することができる。提案アルゴリズムは色情報を必要とせず、背景が一様でない場合もうまく扱うことができ、また目の中心を含む顔領域の同定精度も高い。XM2VTSデータベース、そして実際的なBioIDとBANCA顔画像データベースにおける大規模な解析と評価を示す。提案アルゴリズムが、本稿で参照している方法を凌ぐ性能を持つことを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


LESS:疎な部分空間のためのモデルベース識別器
LESS: A Model-Based Classifier for Sparse Subspaces

Cor J. Veenman, David M.J. Tax

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 9, pp. 1496-1500 , September 2005

Keywords: Classification, support vector machine, high-dimensional, feature subset selection, mathematical programming

本稿では、特にオブジェクト数よりも一桁大きい次元数を持つ高次元データセットに注目する。識別器設計の見地から、このような小さい標本サイズの問題は、興味深い挑戦的課題である。最初の課題は、クラスを分ける全ての超平面から、将来入力されるデータをうまく識別するために、高度に一般化される分離超平面を見つけることである。次に重要な課題は、これらのクラスを識別するために、どの特徴が必要かを決めることである。これらの問題に取り組むために、我々はLESS(Lowest Error in a Sparse Subspace)識別器を提案する。これにより、疎な部分空間において効率的に線形判別式を見つけることができる。高次元データセットに対する多くの識別器とは対照的に、LESS識別器は(単純な)データモデルを用いる。更にいくつかの高次元データセットに対してLESS識別器がどのように働くかを示し、最先端の他の識別器との性能比較を行う。これには例えばLASSOによる線形リッジ回帰や、サポートベクトルマシンなどが含まれる。少ない次元数の場合に、LESS識別器が、これらの識別器と伍する性能を持つことを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二次元および三次元CT画像における、PSFに起因する曲面の位置ずれ補正
Correction for the Dislocation of Curved Surfaces Caused by the PSF in 2D and 3D CT Images

Henri Bouma, Anna Vilanova, Lucas J. van Vliet, Frans A. Gerritsen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 9, pp. 1501-1507 , September 2005

Keywords: Edge and feature detection.

従来のエッジ検出法はPSFに起因する曲面の位置ずれに苦しんできた。本稿で我々は、この問題を回避する新しい等照線(isophote)曲率を用いた方法を提案する。オブジェクトサイズが小さい場合(例えば血管)や、入力にノイズが含まれる場合でさえも、局所的に曲率が一定のオブジェクトに対しては、本アプローチは高精度である。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.27, No.10


制約無し手書き単語の認識と確認
Recognition and Verification of Unconstrained Handwritten Words

Alessandro L. Koerich, IEEE, Robert Sabourin, IEEE, Ching Y. Suen, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1509-1522 , October 2005

Keywords: Word hypothesis rejection, classifier combination, large vocabulary, handwriting recognition, neural networks.

本論文は、オフラインで書かれた手書き単語の認識システムで、大語彙から生成されたと仮定される単語の照合問題に関する新規な方法を提案する。単語のイメージが与えれたとき、この認識システムはN個の最適認識結果を以下の順位付きリストとして出力する;認識結果テキスト、仮想単語から文字への区切り境界、認識スコア。この結果の確認は、各切り出した単語のセグメントの推測の確率からなっている。次に文字の確率が組み合わされて単語の確信スコアを生成し、これが更に認識システムが生成する認識スコアと統合される。N個の最適順位は、統合スコアによって再ランク付けされリスト化される。最後に、拒絶ルールが起動され、最適認識結果を受け入れるか、拒絶するかの選択を行う。確認手法を導入したことで単語認識率だけでなく認識システムの信頼性も向上させたが、認識プロセスに大きな遅延を伴うことはなかった。我々のシステムについて詳述するとともに、封筒に書かれた手紙のあて先から制約の無い手書き単語を抽出した、大規模なデータベースに適用した。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ガイド付きMLESAC:マッチング先見確率を利用した、より早い画像変換推定
Guided-MLESAC: Faster Image Transform Estimation by Using Matching Priors

Ben J. Tordoff, David W. Murray, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1523-1535 , October 2005

Keywords: Random sampling, correspondence, image transformation, maximum-likelihood estimation.

MLESACは、ランダムサンプリングによる最尤度推定のための確立したアルゴリズムである。これは複数の画像特徴から、対応する基本的行列を見つけるような計算のために考案された。この手法の至らない点は、対応関係の正当性の先見知識がほとんど知られてないと仮定せざるを得ないことである。本論文は、この欠如した知識の結果について述べ、先見知識を導入することで如何に理論的立場と実用的な効率が強化されるかについて説明する。ガイド付きMLESAC:を利用することで、対応関係が1つの画像変換とその他の乱雑データ(乱雑な対応)で与えられるとき、計算速度のオーダーが1つ上がることが解った。本論文は更に2つの改良を加えたガイド付きMLESACについても述べている。第1に、対応関係の中から最適の1つを取り出す代わりに、計算時間が増えるにもかかわらず、すべての推定マッチングをどのように利用したか、を示す。第2に、1つのフレームの結果を次のフレームにどのように引き継ぐかを述べる。ガイド付きMLESAC法では、対応集合を2つの変換と、その他データによってモデル化するため、付加情報によって計算時間を現実的なビデオレート処理へ高速化できる。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


強化学習を利用した画像検索のための関連性フィードバックシステム
Integrating Relevance Feedback Techniques for Image Retrieval Using Reinforcement Learning

Peng-Yeng Yin, Bir Bhanu, IEEE, Kuang-Cheng Chang, Anlei Dong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1536-1551 , October 2005

Keywords: Content-based image retrieval, long-term learning, reinforcement learning, relevance feedback, short-term learning

関連性フィードバック(RF)は、特定の問合せに対して、それ以前の検索結果をフィードバックすることによって検索を高品質化する対話型プロセスである。ほとんどの研究者は新規な検索手法の開発に余念が無いが、従来の手法の利点を忘れている。本論文では、従来のコンテンツに基づく検索システムにRF手法を統合化することで、画像の関連性による強化学習モデルを提案する。色々な統合化概念を示し、長期の共有メモリを使って、複数のユーザーからの検索実験を実施する。また、蓄積要求の複雑さを緩和するために、コンセプト要約法を提案する。実験によって、多数のRF手法の統合は、単一のRF手法よりは高効率であること、また、複数の問合せのセッション間の知識の共有化は、顕著に効率の向上に寄与することがわかった。さらに、概念の要約化によって蓄積容量は著しく減少することも分かった。データベースサイズの増大に伴い、本提案モデルの階層化可能性が示された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


前後関係と局所不連続性による適応的スムージング
Adaptive Smoothing via Contextual and Local Discontinuities

Ke Chen, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1552-1567 , October 2005

Keywords: Adaptive smoothing, inhomogeneity, spatial gradient, noise removal, feature preservation, anisotropic diffusion, local scale control, multiple scales, the termination problem, extraction of hydrographic objects.

ノイズ除去と特徴量保存のための新規な適応型平滑化手法を提案するが、これは2つの異なる不連続尺度を同時に採用することによって画像中の不連続性を検出する。不均質性を有する画像を多段階スケール尺度として採用し、これから特徴量保存のためと平滑化速度の制御のための不連続性の検出を行う。このとき、平滑化途中の変動する局所的不連続性検出には空間的勾配が利用される。従来の適応的平滑化と異なり、2つの不連続尺度は、単純でない特徴量を保持するため、アルゴリズム中に統合されているが、そのため相乗効果を発揮し、これが内在的制約付き不均一拡散プロセスの選択的平滑化を可能にする。内在的なこの制約を利用するおかげで、この平滑化法は、繰り返し処理回数には敏感でない。従って、反復処理の回数の自由度は大きく、多様なコンピュータビジョン用途の初期処理としてほとんど理想的である。本アルゴリズムは正式に解析され、不均一拡散法と関連している。比較結果から、我が手法は望ましい平滑化結果を与えることから、この手法の水路のオブジェクト応用には有効で、画像の初期処理には有用であることが実証された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


リモートセンシングにおける教師無し線状ネットワーク抽出のための点プロセサー
Point Processes for Unsupervised Line Network Extraction in Remote Sensing

Caroline Lacoste, Xavier Descombes, Josiane Zerubia, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1568-1579 , October 2005

Keywords: Stochastic processes, Monte Carlo, simulated annealing, edge and feature detection, remote sensing.

本論文では、リモートセンシング画像から、道路や水路のような線状ネットワークの抽出を教師無しで実行する抽出法について述べる。目的の線状ネットワークのモデル化はオブジェクト処理によって行い、このオブジェクトは相互作用する線分に対応する。"Quality Candy”と呼ばれる事前知識モデルは、対象としているネットワークの位相的性質を出来るだけ完全に保とうとするし、他方、統計的テストに基づくデータを利用してネットワークの放射特徴量をモデル化できる。この条件項を計算するために2種類の手段が利用された。その1つ目は、出来るだけ正確に計算すること、第2は、計算速度を向上させること。モデルパラメータを最適選択するために、キャリブレーション法が適用された。最適化には、Reversible Jump Markov Chain Monte Carlo (RJMCMC)法による計算焼き鈍し法が使われた。アルゴリズムの収束を高速化するために適当なカーネルを提案した。衛星画像や航空画像への適用の結果は、マニュアル抽出と対比し、数値的な評価として得られた。以前のCandyモデルに比べて、事前統計分布モデルとの関連を有するCandyという品質係数を追加することによる効果を見ることができる。このデータの潜在的効果は、オフライン計算による関連性も示されている。特に、もし、RJMCMCアルゴリズムに提案カーネル法が追加されたばあいの効果について追加した。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化尤度検出法による複雑なガウステャネルのための誤差分布推定
Estimates of Error Probability for Complex Gaussian Channels with Generalized Likelihood Ratio Detection

Michael D. DeVore, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1580-1591 , October 2005

Keywords: Complex Gaussian channels, probability of error, model inaccuracy, moment estimators, Johnson's systems of distributions

2つの仮説がゼロ平均の複素ガウス分布で表される2クラス仮説検証問題のための近似表現を導く。これらの誤差表現は、採用される検証仮説のモーメントの項で与えられるが、これらのモーメントを尤度比検証(クラス分布が既知のとき)と、一般化尤度比検証(クラス分布が、確かに学習データから推定されたとき)の両方について導く。これらのモーメントはクラス分布パラメータの関数であり、一般的にはこのパラメータは未知である。従って、学習データに基づいて偏りの無いモーメント推定器を開発する。これによって、最適で、かつ、プラグイン可能な、正確な誤差分布推定が高速計算可能となる。この推定器の詳細な振る舞いについて、一般的なパターン認識問題への適用例を紹介する。この中には、より大きな学習データを順次追加したときの増分をどのように選ぶか、多数のセンサーデータを融合する際どのような配置にすべきか、可能な特徴量の中からどれを選ぶかなどの例を含む。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最近傍識別器の視覚化と集約化
On Visualization and Aggregation of Nearest Neighbor Classifiers

Anil K. Ghosh, Probal Chaudhuri, C.A. Murthy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1592-1602 , October 2005

Keywords: Bayesian strength function, misclassification rates, multiscale visualization, neighborhood parameter, posterior probability, prior distribution, weighted averaging.

最近傍識別器は最も単純で最も人気のある統計的パターン認識法の1つである。k-近傍識別法の主な問題点は、近傍パラメータであるkの最適値をどのようにして決定するかということである。実際、この値は一般的に交差検証によって推定される。しかし、識別問題における理想的なkの値はデータ集合に依存するだけでなく、識別対象の観察状態にも依存する。kに単一の値を与えるのではなく、本論文では、指標kを有する識別器の有限系列の識別結果について調べる。通常の事後確率推定と共に、異なるクラスのevidenceの測度としてベイズ強度測度と呼ばれる新規測度を提案する。これらの識別器の結果と対応する誤識別の確率は網点の縞模様によって視覚的に示された。これらの試みによって、異なるクラスに属するデータのevidenceの効果的な視覚化を行うことができる。また、異なる最近接識別器による単純な重み付き平均荷重ポリシーの採用で効果的な識別が可能となる。いくつかのベンチマークデータに対する解析によって、提案手法の優位が判明した。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コンピュータビジョンソフトウエアに関する統計的妥当性のための誤差伝播法の利用
On the Use of Error Propagation for Statistical Validation of Computer Vision Software

Xufei Liu, IEEE, Tapas Kanungo, IEEE, Robert M. Haralick, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1603-1614 , October 2005

Keywords: Statistical analysis, multivariate hypothesis testing, 3D parameter estimation, error propagation, software validation, software engineering.

コンピュータビジョンソフトウエアは複雑であり、プログラム行が数万行に及ぶこともある。プログラムミスは少なくない。コンピュータビジョンアルゴリズムが、アルゴリズムの予想がすべて満たされるような管理されたデータを処理している場合、その結果も多くの場合予想可能である。このことから、コンピュータビジョンソフトウエアの妥当性と理論的派生結果の妥当性を統計的に評価することが可能である。本論文では、いくつかの関連のある統計的試験に関する一般的理論をレビューし、それから、この実験的手法を使って、建築物パラメータ推定ソフトウエアを評価する。本ソフトウエアは建築物頂点(コーナー)の3D位置を推定する。この決定には、多数の写真画像の切除計算から得られたデータと、建造物の点、直線、平面の3D幾何学的相互関係の情報を利用する。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所記述子の記述能力評価
A Performance Evaluation of Local Descriptors

Krystian Mikolajczyk, Cordelia Schmid

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1615-1630 , October 2005

Keywords: 本論文では、Harris-Affine検出器のように、局所的な関心領域を記述する能力を比較評価する。従来、多くの記述子が提案されてきた。しかし、どの記述子が優れているのか、その能力はどの程度記述子に依存しているのかが不明であった。記述子は特徴的でなければならず、同時に観察条件や、エラーに対してロバストである必要がある。この評価のために、異なる画像変換した後の基準リコールの精度を基準として利用する。そのために、形状、steerable filter、PCA-SIFT不変変換、および、各種の関心領域の交差相関を比較する。またSIFT記述子の拡張を提案し、これが元の性能を大きく上回ることを示す。更に、記述子の順位は、関心領域の検出器にはほとんど独立であり、SIFTに基づく記述子が最良であることが分かる。モーメントとsteerable filterは、低次元の記述子として最高の性能を示す。

Local descriptors, interest points, interest regions, invariance, matching, recognition.

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


識別可能な追跡特徴量のオンライン選択
Online Selection of Discriminative Tracking Features

Robert T. Collins, IEEE, Yanxi Liu, IEEE, Marius Leordeanu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1631-1643 , October 2005

Keywords: Computer vision, tracking, time-varying imagery, feature creation, feature evaluation and selection.

本論文は追跡性能を改善するために一群の特徴量を追跡し、調整しながら、多数の特徴量を評価するオンライン特徴選択手法を紹介する。我々の論拠は、オブジェクトと背景を区別する最良の特徴量は、オブジェクト追跡にも最適である、という仮定である。種となる特徴量集合が与えられたとき、オブジェクトと背景から、局所的なオブジェクト/背景の識別課題を達成するための新規な候補特徴量を形成するために、クラス条件付サンプル分布のlog尤度率を計算する。2クラス変動率を利用して、これら新規な特徴量がサンプル分布を背景からの識別能力によってランク付けを行う。この特徴量評価法は、平均シフト追跡システムに内蔵されており、識別のために適応的に最高性能の識別特徴量を選択する。例によって本方式が如何にうまく変化する情景に適応的に対応してオブジェクトと背景を追跡できるかを示す。この変動率による特徴量選択法の感度が、空間的に相関する背景のゴタゴタ画像の影響を受けやすく、そのため、更に、対応ミスを極小化するための手法を開発した。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフカットを利用した、隠蔽のある画像からの動きレイヤーの抽出
Motion Layer Extraction in the Presence of Occlusion Using Graph Cuts

Jiangjian Xiao, IEEE, Mubarak Shah, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1644-1659 , October 2005

Keywords: Layer-based motion segmentation, video analysis, graph cuts, level set representation, occlusion order constraint.

ビデオ画像から、動きレイヤーを抽出することは、表現法、解析、圧縮、合成にとって重要である。情景は、複数の平面領域で近似できると近似し、これらの領域によって誘発されたアフィン変換、あるいは、投影変換された領域を、新規なロバストな方法で自動的に抽出し、連続するフレームにわたって隠蔽画素を検出し、いくつかの動きレイヤーにセグメント化する方法についてのべる。最初に、2つのフレーム中の対応関係を利用して種領域を決定した後、種領域を拡大し、レベル設定表現法とグラフカットを統合した手法によって、外れ点(outlier)を除く。次に、これら初期領域は、いくつかの類似運動領域に併合される。3番目に、複数フレームにわたる隠蔽順序の制約を調べ、多くの連続するフレームにわたり短時間での整合性が保てるようセグメンテーションするが、このとき、隠蔽領域は時間順序と共に増加する。そして、グラフカットアルゴリズムによって正しいセグメンテーションレイヤーが連続フレームにわたって得られる。ここで、オーバーラップ領域間の隠蔽が明瞭に決定される。いくつかの実験によって、我々の手法の有効性が効果的でロバストであることが実証された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


領域に基づく不変変換を利用した明瞭なオブジェクトの認識
Recognizing Articulated Objects Using a Region-Based Invariant Transform

Isaac Weiss, Manjit Ray

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1660-1665 , October 2005

Keywords: Object recognition, invariance, range images, transform

本論文では、オブジェクト領域の不変量に基づいて表現し、認識指揮する新規な方法を紹介する。我々はこの方法を、明瞭であるが、低解像でノイズの多い距離画像に応用する。鍬の背面(back hoe)のような明瞭なオブジェクトは、視点に関する多くの未知の自由度を持つ。画像中のそのようなオブジェクトを認識するためには、上記の未知変数を含む、高次元空間の探索を実施しなければならない。ここで、不変量を利用して、探索空間を、現実的に扱えるレベルまで縮小する。我々が使う距離画像の解像度は低いので、不変量としてよく使われるエッジのような特徴量を使うわけにはいかない。従って、新規な「特徴の無い」手法を利用し、特徴検出の必要性を無くした。局所特徴の代わりに、オブジェクト全体を扱う。画像を不変な格子上の不変表現に転換する変換法を定義する。これは、格子点の周りに存在する画像全体の不変表現に基づく方法である。このような領域に基づく不変的表現方法を使って、インデックス付けと認識をする。ここでは明瞭な画像を対象にしており、決まったオブジェクトのオクルージョン問題も扱うことが出来る。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ホモグラフィー上の確率の扱い方
How to Put Probabilities on Homographies

Evgeni Begelfor, Michael Werman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1666-1670 , October 2005

Keywords: Homography, lie groups, normal distribution, Bayesian statistics, geodesics

我々はマトリックスグループに属する正規分布ファミリーを示し、そのパラメータの単純な推定法を示す。特に、一群の要素の平均値の算出法を示す。この手法は、同形平面投影に応用可能で、事前確率をこのように定義することでオブジェクト認識性能を向上させることが可能となる。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


改善された回転不変細線化アルゴリズム
An Improved Rotation-Invariant Thinning Algorithm

Peter I. Rockett

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1671-1674 , October 2005

Keywords: Thinning, skeletonization, graph theory.

Ahmed and Wardは最近エレガントなルールによる回転不変な細線化アルゴリズムを使って、2値画像から、単画素幅の芯線を生成することに成功した。このアルゴリズムにおいて、2画素幅の線で失敗する場合を示し、グラフ連結性を考慮して、改良した。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚データ表示のためのクラスター化したブロック単位のPCA
Clustered Blockwise PCA for Representing Visual Data

Ko Nishino, IEEE, Shree K. Nayar, IEEE, Tony Jebara, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1675-1679 , October 2005

Keywords: Principal component analysis, singular value decomposition, eigenvalues and eigenvectors, natural image statistics, clustering, region growing/partitioning.

主成分分析(PCA)は、コンピュータビジョンや画像処理に広く利用されている。この方法によって最小2乗の意味で最適な線形部分空間が得られるので、次元の縮小や部分空間の解析のために、いろいろな場面で利用されてきた。しかし、内在的な複雑性のため、これをスケール可変にすることは困難であった。このPCAを可視データに利用して、空間時間相関を取り、このようなデータ中にしばしば存在する周波数の変動を制限することができる。画像データ全体にPCAをかけるのではなく、ブロックに分け、ブロックごとにPCAを作用させる。次に、ブロックに対応する部分空間をグループ化し、これらを併合する。結果として、可視データが効率よく表現できるだけでなく、大きなデータ集合を扱うときのスケール付けすることができる。この計算複雑度を徹底的に解析し、蓄積するときの利点を述べる。本アルゴリズムをいくつかのビデオに適用した。容量と測度の利点に加えて、本方法は可視データの表現の上からも有用である。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


等距離データ埋め込みのための最小全長を有するk-エッジディスジョイントスパンツリーの構築
Building k Edge-Disjoint Spanning Trees of Minimum Total Length for Isometric Data Embedding

Li Yang, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 10, pp. 1680-1683 , October 2005

Keywords: Data embedding, dimensionality reduction, manifold learning, minimum spanning tree, neighborhood graph.

等距離データの埋め込みには全データ点を張る近傍グラフを構築し、最近接経路に沿った距離によって、どのデータ対の測地距離も推定可能する必要がある。本論文では、k-エッジ点によって接続した近傍グラフの生成方法を紹介する。そのためには、全長が最短となるk-エッジ点が張る木を見つけるとよい。この方法は、測地線距離推定において、最近傍法をはるかに上回ることが実証された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.27, No.11


信号変換を用いたオープンセット顔認識
Open Set Face Recognition Using Transduction

Fayin Li, Harry Wechsler, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1686-1697 , November 2005

Keywords: Biometrics, confidence, credibility, data fusion, information quality, Kolmogorov complexity, face recognition, open set recognition, performance evaluation, PSEI (pattern specific error inhomogeneities), randomness deficiency, strangeness, face surveillance, (multiclass) transduction, watch list, clustering, outlier detection

本稿では、オープンセット顔認識タスクを扱う信号変換推定の新しい実現方法について説明を加える。オープンセットは、ある特定のテスト顔画像が、必ずしも類似の画像をセット内に持たないという仮定の下に運用されている。画像セットの中にバイオメトリクス的信号を検出し、それが検出対象かどうかを検証も行う。即ちこれは“上記のいずれの”解も与えない。本研究の主な成果はオープンセットTCM-kNN(Transduction Confidence Machine-k Nearest Neighbors)である。これは、分類されるべきクラスが無い画像が入力された場合に、棄却を選択肢として考慮しなければならないような実用的シナリオに適したマルチクラス認証である。信号変換とコルモゴロフ複雑性の関係により駆動されるオープンセットTCM-kNNは、検出タスクに必要とされる尤度比率の局所推定を与える。本稿で我々は大規模な実験のデータにより、実行可能性、頑健性、そしてオープンセット認証および挑戦的なFERETデータを用いた見張り(監視)タスクにおける、TCM-kNNの有利点を示す。最後に、認証タスクにおけるほとんどのエラーは、比較的少数の顔パターンによるものであるという事実に基づいてエラー構造を解析する。オープンセットTCM-kNNは、認識困難な顔画像の同定のためのPSEI(pattern specific error inhomogeneities)エラー解析に適していることが示される。PSEI解析は、認識困難な少数の顔パターンを取り除くこと、および/もしくはデータ融合(data fusion)により、バイオメトリクス性能を向上させる。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


固有掌紋と固有指特徴に基づいたバイオメトリクス識別システム
A Biometric Identification System Based on Eigenpalm and Eigenfinger Features

Slobodan Ribaric, IEEE, Ivan Fratric

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1698-1709 , November 2005

Keywords: Biometrics, multimodal systems, hand-based identification, K-L transform, eigenpalms, eigenfingers.

本稿では、人間の手の特徴に基づいたマルチモーダルバイオメトリクス同定システムを示す。マッチングスコアレベルで情報融合される固有指と固有掌紋特徴を用いた、個人識別のための新しいバイオメメトリクス的アプローチについて述べる。識別プロセスは次のフェーズに分けることができる。画像取得、前処理、掌の画像および細片状に分けられた指画像の抽出と正規化、K-L変換に基づいた固有掌紋と固有指特徴の抽出、マッチングと融合、そして最後に(k, l)-NN識別器と閾値処理に基づく決定。237人(1820の手の画像)のデータベースを用いて、本システムをテストした。実験結果により、認識率(100%)、等価エラー率(Equal Error Rate=0.58%)、そして総合エラー率(Total Error Rate=0.72%)の面での本システムの有効性を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


データ集約に基づいた、大規模のデータベースのためのモデルベースの拡張可能クラスタリング
Scalable Model-Based Clustering for Large Databases Based on Data Summarization

Huidong Jin, IEEE, Man-Leung Wong, IEEE, K.-S. Leung, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1710-1719 , November 2005

Keywords: Scalable clustering, Gaussian mixture model, expectation-maximization, data summary, maximum penalized likelihood estimate.

データマイニングにおける拡張性問題は、メモリサイズや計算時間などの計算リソースが限られている場合に大規模データベースを扱うための方法の開発を必要とする。本稿では、二つの拡張可能なクラスタリングアルゴリズム、即ちbEMADSとgEMADSをガウス混合分布モデルに基づいて示す。両者は共にデータをサブクラスタに集約し、そしてこの集約からガウス混合分布を生成する。これらの中核となるアルゴリズム、EMADSは、このデータ集約と、ガウス混合分布モデルでのデータの各サブクラスタの集合としての振る舞いの近似において定義される。EMADSは収束性があると思われる。実験結果により、提案アルゴリズムは共に期待値最大化アルゴリズムと比べ、若干精度は劣るものの、計算速度は数桁早いことを示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き文字同定のためのテクスチャー
Texture for Script Identification

Andrew Busch, IEEE, Wageeh W. Boles, IEEE, Sridha Sridharan, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1720-1732 , November 2005

Keywords: Script identification, wavelets and fractals, texture, document analysis, clustering, classification and association rules.

手書き文字と文書画像で使用されている言語を特定する問題には、ドキュメント解析において、多くの重要な応用がある。例えばインデックス付けや大規模文書画像コレクションの整理やOCR(Optical Character Recognition:光学的文字認識)の前処理などである。本稿では文書画像の手書き部分の特定のためツールとしての、テクスチャーの利用価値について検討する。新しく作った手書き文字データベースにおいて、多くの良く用いられるテクスチャー特徴を実験的に評価した。これにより、このタスクのためにどの特徴が最も有用かを示す定性的尺度を得る。限られた訓練データと複数のフォントが混在する条件下での識別性能向上のための戦略もあわせて示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


隠れマルコフモデルを用いた静的署名の筆跡推定
Estimating the Pen Trajectories of Static Signatures Using Hidden Markov Models

Emli-Mari Nel, Johan A. du Preez, Member, B.M. Herbst

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1733-1746 , November 2005

Keywords: Pattern recognition, document and text processing, document analysis, handwriting analysis.

文書上の手書きイメージとして静的署名は生まれ、定義上いかなる動的情報(筆順などに関する情報:訳者注)も含まない。この動的情報の欠如が、静的署名検証システムを、動的なものよりも著しく信頼性の低いものにしている。本研究は静的画像からの動的情報の抽出、特にペンの筆跡情報の抽出を含む。我々は静的画像の動的バージョンが利用可能である(典型的には、これは以前の登録プロセスで得られる)と仮定する。その上で、我々は静的画像から隠れマルコフモデルを導出し、これを静的画像の動的バージョンに適合させる。この適合により静的画像の推定ペン筆跡を得る。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


焼き鈍し平均場解析による変分的事後確率最大化
Variational Maximum A Posteriori by Annealed Mean Field Analysis

Gang Hua, IEEE, Ying Wu, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1747-1761 , November 2005

Keywords: Mean field variational analysis, deterministic annealing, maximum a posteriori estimation, graphical model, Markov network

本稿では、複雑な確率システムの事後確率最大化(maximum a posteriori:MAP)推定のための決定論的焼き鈍しを用いた、新しい確率的変分法を提案する。MAP推定は、大域的最適化を伴うため一般に非常に難しい。そのためほとんどの確率的推論アルゴリズムは、厳密な事後確率分布かその近似値のいずれかのみ得ることができる。我々の方法は平均場変分分布を多変量ガウス分布となるように制約を加える。そして決定論的焼き鈍し手順を、平均場不動点反復(mean field fix-point iteration)にうまく取り込み、最適なMAP推定を得る。これは、変分法的ガウス分布の共分散が0に近づくとき、変分法的ガウシアンと実際の事後確率間のKullback-Leibler(KL)divergenceの下限点が、実際の事後確率の上限点に等しくなるという観測に基づいている。大域最適性は保障されないかもしれないが、我々の合成データおよび実データによる大規模な実験は、提案方法の有効性と効率を照明している。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像領域の教師なし分割とマッチングのためのダイナミックツリー
Dynamic Trees for Unsupervised Segmentation and Matching of Image Regions

Sinisa Todorovic, IEEE, Michael C. Nechyba, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1762-1777 , November 2005

Keywords: Generative models, Bayesian networks, dynamic trees, variational inference, image segmentation, image matching, object recognition

教師なし画像分割および、それに続く分割後の画像領域と与えられた画像セットとのマッチングのための、ダイナミックツリー(Dynamic Trees:DT)として知られる、確率論的フレームワーク、所謂マルチスケール生成モデルを示す。これらの新しいDTの応用に加え、我々はこのモデリングパラダイムに重要なものを提案する。最初に新しいDTアーキテクチャを導入する。これにはマルチレイヤーの観測可能データがモデルの全てのスケールにおいて組み込まれている。第二に、DTのための新しい確率論的推論アルゴリズムを導出する。これは構造化変分法的近似(Structured Variational Approximation:SVA)と呼ばれるもので、近似事後確率分布におけるノード位置とモデル構造の統計的依存性を明示的に考慮し、これにより以前の研究でほとんど正当化されないまま使用された独立した仮定を緩やかなものにする。最後に、画像全域にわたり、分割された画像領域を表すDTモデルのマッチングのための類似性尺度を提案する。いくつかのデータセットに対する我々の実験結果は、DTは、オブジェクトとその部分において、重要なコンポーネント−サブコンポーネント関係を取り込むことができることを示している。また、DTは画像をそれらしい画素クラスタに分割することにおいても良好である。他の推論アルゴリズムと比較して十分に早い収束率と、推測モデルのための大きな事後確率の面で、SVAアルゴリズムの顕著に改善された性能を証明する。更に教師なしオブジェクト認識の結果は、本稿で提案した、DT確率モデルのマッチングのための類似性尺度の実現性を証明している。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ダイナミックシーンにおけるオブジェクト検出のためのBayesianモデリング
Bayesian Modeling of Dynamic Scenes for Object Detection

Yaser Sheikh, IEEE, Mubarak Shah, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1778-1792 , November 2005

Keywords: Object detection, kernel density estimation, joint domain range, MAP-MRF estimation

動くオブジェクトの正確な検出は安定したオブジェクトトラッキングや認識のための重要な前処理である。本稿で我々は現行のアプローチに対して3つの革新的利点を持つ新しいオブジェクト検出スキームを示す。第一に、独立確率変数としての画素の明度のモデルに取り組む。そして空間的に近い画素の明度に有用な相関情報があることを明確に示す。この相関は、背景が変化する場合においても高い検出精度を達成するために利用される。画素の結合ドメイン−レンジ表現(joint domain-range representation)に適用されるノンパラメトリック密度推定法を用いることで、マルチモーダルな空間的不確定性とドメイン(位置)とレンジ(色)の間の複雑性の依存関係が、直接的にモデル化される。我々は単一の確率密度としての背景モデルを提案する。第二に、時間的な持続性をオブジェクトの検出基準として提案する。背景の適応的モデルを構築することでオブジェクトを検出するような、従来のオブジェクト検出のアプローチと異なり、オブジェクトの検出精度を向上させるために(明示的なトラッキングを用いないで)前景をモデル化する。これは、以前のフレームには、現在のフレーム中のオブジェクト検出のための重要な根拠が含まれるからである。最後に、背景モデルと前景モデルをMAP-MRF決定フレームワークにおいて競合的に用いる。興味あるオブジェクトの検出の条件としての空間的コンテキストに重みを置き、容量制限付きグラフの最小カットを見つけることで、事後確率関数を効率的に最大化する。様々なダイナミックシーンにおける提案手法の実験的な検証を行いその結果を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


不完全輪郭表現のための形状記述子の頑健性
Robustness of Shape Descriptors to Incomplete Contour Representations

Anarta Ghosh, Nicolai Petkov

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1793-1804 , November 2005

Keywords: Contour, COIL, deletion, depletion, distance multiset, Gollin, incompleteness, ICR test, MPEG-7, object recognition, occlusion, psychophysics, shape, shape context.

人間の視覚システムの心理物理額の研究から着想を得て、新しいアスペクトと、不完全な輪郭に対する頑健性を考慮した輪郭に基づいた形状認識アルゴリズムの性能評価のための方法を提案する。リファレンス(訓練)画像セットとして、オブジェクトの完全な輪郭表現を用いる。同オブジェクトの不完全な輪郭表現はテストセットとして用いられる。(訳者注:両者の比較により、テストセットにおいて)保持される輪郭の割合の関数としての認識率を用いて、アルゴリズムの性能が報告される。我々はこの評価手順をICRテストと呼ぶ。我々は三種類の輪郭不完全性即ち、分割における輪郭欠失、隠蔽、そしてランダムな画素欠損(random pixel depletion)を考慮する。実例として二つの輪郭不完全性のための形状認識アルゴリズムを評価する。これらのアルゴリズムは形状コンテキストと距離マルチセット(distance multiset)を局所形状記述子として使用している。これらの認識性能が、輪郭の完全性の向上に従い一様に増加すること、またランダムな画素欠損のときに最高の性能を示し、隠蔽の場合に最低の性能になることを示す。これらの意味で、両アルゴリズムは質的には人間の視覚知覚を模擬したものであると言える。本テストフレームワークにおいては、形状コンテキスト法よりも距離マルチセット法が良い性能を示す。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


可変数の相互作用している目標のトラッキングのためのMCMCに基づいた小片フィルタリング
MCMC-Based Particle Filtering for Tracking a Variable Number of Interacting Targets

Zia Khan, Tucker Balch, IEEE, Frank Dellaert, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1805-1918 , November 2005

Keywords: Particle filters, multitarget tracking, Markov random fields, Markov chain Monte Carlo.

相互作用している複数の目標を効果的に扱うことができる小片フィルタについて説明する。これらのターゲットは近接度合い及び/もしくは他のオブジェクトの振る舞いに影響を受ける。この小片フィルタは、マルコフ確率場(Markov random field:MRF)運動事前確率(motion prior)を含む。これはターゲットのアイデンティティを相関がある間中保持するのに役立つ。小片フィルタの重要度重み付けに追加の相互作用要因を含むことで、このMRF事前確率が、簡単に実装可能であることを示す。しかし結果として得られる複数目標フィルタは計算に計算コストが高く、多数の目標に対しては適用不可能である。結果として、従来の重要度サンプリング段を新しいマルコフチェーンモンテカルロ(Markov chain Monte Carlo:MCMC)サンプリング段で置き換える。これにより効率的なMCMCに基づいた複数目標フィルタを得る。更に、可変数の相互作用している目標を扱えるように、どのようにしてこのMCMCに基づいたフィルタを拡張するかについても示す。最後に、定性的及び定量的実験結果を示し、結果として得られる小片フィルタが、複雑な目標間の相互作用を効率的且つ効果的に扱えることを証明する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歩行パターン識別(gait classification)のためのモデル検証アプローチ
A Model (In)Validation Approach to Gait Classification

Maria Cecilla Mazzaro, IEEE, Mario Sznaier, IEEE, Octavia Camps, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1820-1825 , November 2005

Keywords: Gait classification, activity recognition, model (in)validation, risk-adjusted (in)validation.

本稿は頑健なモデルの検証という側面から、人間の歩行パターン(gait)識別問題を扱う。中心となるアイディアは、制限された不確定性と観測ノイズの制約下で、歩行パターンの各クラスをノーマルモデルと関連付けることである。このコンテキストにおいては、連続フレーム画像からの認識という問題は、この入力パターンが、与えられた3つの情報(モデル、不確定性、及びノイズ)で生成できるものか否か、を決める問題として定式化できる。補間理論を利用することで、この問題は、非凸最適化問題として計算することができる。効率的にこれを解くために、二つの凸弛緩法を提案する。ひとつは決定論的なものであり、他方は確率論的なものである。実験的に例証したように、ノイズを含むデータにおける顔認識タスクでさえも、これらの弛緩法はそれぞれ83パーセント、86パーセント以上の成功率を達成する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サンプリング不変測量のための構造化要素としての線分の使用
Using Line Segments as Structuring Elements for Sampling-Invariant Measurements

C.L. Luengo Hendriks, IEEE, L.J. van Vliet, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1826-1831 , November 2005

Keywords: Mathematical morphology, granulometry, rotation invariance, translation invariance.

デジタル化された画像で測定を行なうとき、画素間隔は必ずしも実現可能な精度を制限しない。バンドが制約されたアナログ画像(band-limited continuous-domain image)の適切なサンプリングは、デジタル化される前の画像中の全ての情報を保持する。それゆえこれは(理論的には)デジタル化された画像から測量を得ることは可能であり、これらの測量はアナログ画像での測量と同一である。選択されたサンプリング間隔に依存しないため、このような測量はサンプリング不変である。数学的形態学におけるフィルタは、その非線形性ゆえに、厳密なサンプリング不変性を達成することは不可能である。しかし、追加の計算コストをかけることで任意の精度でサンプリング不変性を近似することはできる。本稿では、線分を構成要素として用いる形態学的フィルタについて研究する。このフィルタを実装するための、3つの良く知られた技法、及び3つの新しい技法について比較を行う。精度と計算コストのバランスの良いこの方法は、(サブピクセルレベルでの)傾き(skew)を画像に加え、そして次に離散線分を用いてグリッド軸に沿ったフィルタ処理を行い、そして傾きを元に戻す。ランダムな方位での線分への段階的近似は、水平もしくは垂直の線分を傾けることでモデル化できる。二値の線分を傾けるよりも、我々は画像データを傾ける。これにより顕著に量子化エラーを削減することができる。我々は未知の方位の線分の長さを計測するのに用いるのに最適な方位数を決定する。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状コンテキストを用いた効率的形状マッチング
Efficient Shape Matching Using Shape Contexts

Greg Mori, IEEE, Serge Belongie, IEEE, Jitendra Malik, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1832-1837 , November 2005

Keywords: Shape, object recognition, optical character recognition

本稿で我々は、形状コンテキストを用いて、類似形状の検索ツリーを高速に枝狩りできることを示す。高速形状検索のための二つのアルゴリズムを示す。一つは、少数の形状コンテキストの比較に基づいた代表的形状コンテキストであり、他方は基本となる形状の断片を得るために、形状コンテキスト空間でベクトル量子化を用いるshapemesと呼ばれるアルゴリズムである。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対パラメトリック動的輪郭
Coupled Parametric Active Contours

Christophe Zimmer, IEEE, J.-C. Olivo-Marin, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11, pp. 1838-1842 , November 2005

Keywords: Segmentation, tracking, active contours, topology, 2D video.

一時的に接触する非隠蔽オブジェクトのトラッキングのために設計されたパラメトリック動的輪郭の拡張を提案する。パラメトリック法、単一レベルセットに基づいた方法のいずれもが、このタスクにおいては通常失敗する。我々の技法は、全ての輪郭に同時に依存するコスト汎関数を最小化する。またこの汎関数は輪郭のオーバーラップにペナルティを科す。このスキームにより、オブジェクトトポロジーの既知の拘束条件、即ちオブジェクト同士は融合できないこと、を利用することができる。対になった輪郭は、以前に独立したオブジェクトであったときのアイデンティティを、オブジェクト同士の接触の最中及びその後も保持する。これにより求められるとおりオブジェクトの分割とトラッキングを行うことができる。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.27, No.12


プロジェクターカメラの自動キャリブレーション
Autocalibration of a Projector-Camera System

Takayuki Okatani, IEEE, Koichiro Deguchi, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1845-1855 , December 2005

Keywords: Camera calibration, imaging geometry, projector-camera system, autocalibration, homography

本論文は、プロジェクターカメラ系(投影スクリーンの投影像に追記が可能で、これを別のカメラで撮影する)の校正(キャリブレーション)法について述べる。これは、複数の投影系から構成されるか、あるいは、単一プロジェクターの複数のポーズから構成される。この問題は、スクリーンとカメラの画像平面のホモグラフィー(平面射影行列)推定問題と考えるか、あるいは、スクリーン表面に関する事前知識が無いスクリーンカメラホモグラフィー問題と考えるか、のどちらかである。各プロジェクターの姿勢は未知であり、内部の幾何学的関係は既知であると仮定する。従って、スクリーンカメラホモグラフィーは、プロジェクターで投影される画像だけから求まることを示す。そして、カメラによって、投影画像は高々4つの自由度の変換によって撮影・変換される。この変換はスクリーン平面内の2次元座標系を任意に選択できることに対応する。もし、座標系が選択されると、スクリーンとカメラのホモグラフィーのみならず、プロジェクターの未知のポーズまで一意に決定される。3個または4個の画像から、ホモグラフィーが計算される、非逐次アルゴリズムを示す。いくつかの実験や実画像から、本手法の有効性を示す。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


円状不変クラスタリングのための変形k-mean法
A Modified K-Means Algorithm for Circular Invariant Clustering

Dimitrios Charalampidis, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1856-1865 , December 2005

Keywords: Clustering, algorithms, similarity measures

パターン認識の重要な応用として、特徴ベクトルの抽出とベクトルのクラスタリングを考える。方向を有するパターンは、一般的にはM方向に均一に抽出される回転依存ベクトルで表現される。本論文は、距離を定義し、k-meanに基づくアルゴリズム、特に、円状のk-mean(CK-means)法によって、方向情報を持つ、円状のシフト不変ベクトルのクラスタリングを紹介する。円状シフトはパターンの回転に相当する。従って、このアルゴリズムは回転不変である。提案法の効果的フーリエ領域表現を示し、これによって計算量を減らせることをしめす。分割・併合法は、提案したCK-mean手法に適しているが、また、局所最小値に落ち込む可能性を減少させ、正しいクラスター数の推定に適している。テクスチャー画像を適用した実験では、従来のk-mean法と回転不変特徴ベクトルの両方を使う方法に比べ、本手法の方向性ベクトルのクラスタリング性能の優位性が示された。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


クラスタリング集合:合意モデルと、弱い分割のモデル
Clustering Ensembles: Models of Consensus and Weak Partitions

Alexander Topchy, IEEE, Anil K. Jain, IEEE, William Punch

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1866-1881 , December 2005

Keywords: Clustering, ensembles, multiple classifier systems, consensus function, mutual information

クラスタリング集合は、ロバストで、安定な教師無しクラスタリング解を得るための強力な手法である。しかし、多数の分割の中から、合意できるクラスタリングを見つけることは困難な問題であり、グラフを利用したり、組合せを利用したり、統計的展望を利用することが出来る。まず第1に複数クラスタリングの統一的表現を紹介し、対応するカテゴリー化クラスタリング問題を定式化する。第2に、クラスタリング空間において有限混合多項分布を利用した統計的合意モデルを提案する。組合わせた分割は、対応するEMアルゴリズムを利用した最大尤度問題の解に一致することが分かった。第3に一般化相互情報の定義を利用した古典的クラス内変動規準に関連する新規な合意関数(consensus function)を定義する。最後に、データの投影と、ランダムデータ分割を利用した弱いクラスタリング法によって生成された結合された分割法の有効性を実証する。このような弱いクラスタリング成分の組合せ法の振る舞いについて単純な説明モデルを示す。結合精度は、成分分割の能力と解像度を制御するいくつかのパラメータ、および、分割数の関数として、組合せ精度を解析した。また、不完全情報と、不明クラスターラベルの影響が全体の合意の品質に及ぼす影響をクラスタリング集合について解析した。いくつかの実データ集合に対しての実験結果は、提案手法の有効性を実証した。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ノイズの多いテキストのカテゴリー化
Noisy Text Categorization

Alessandro Vinciarelli

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1882-1895 , December 2005

Keywords: Text categorization, noisy text, indexing, offline cursive handwriting recognition, optical character recognition

本研究はノイズの多いテキストのカテゴリー化実験に関するものである。ここで言うノイズの多いとは、ディジタルではない他のメディア(録音された音声言語から認識装置によってテキスト変換したもの)からの抽出過程で誤りが混入されたテキストを指す。清書されたテキストとノイズのあるテキスト(単語誤り率は10%から50%)について、カテゴリー化の効率を比較する。ノイズの多いテキストは手書き文字認識とOCRのシミュレーションによって得られた。その結果、ノイズの原因によって、効率の低下は受容できるものであり、リコール率で、最大60-70%であった。新規な抽出法の尺度によって、カテゴリー化の結果は、より合理的な説明が可能となった。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動画中の形状系列のマッチングと人物の動き解析への応用
Matching Shape Sequences in Video with Applications in Human Movement Analysis

Ashok Veeraraghavan, IEEE, Amit K. Roy-Chowdhury, IEEE, Rama Chellappa, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1896-1909 , December 2005

Keywords: Shape, shape sequences, shape dynamics, comparison of shape sequences, gait recognition

変形する形状の2つの画像系列の比較方法について、1つはパラメトリック、他は、ノン・パラメトリックな方法を紹介する。本方法では、形状抽出には、Kendallの形状定義法を利用する。形状特徴量は非ユークリッド多様体上に存在するので、自己回帰モデルのようなパラメトリックモデルと接空間での自己回帰移動平均モデルを提案し、これによって歩調に基づく人間の認識実験を利用した、形状変形把握モデルの能力を実演する。ノンパラメトリックモデルは動的時間歪み(Dynamic Time Warping)に基づく。この動的時間歪アルゴリズムの変形として、形状が変化する非ユークリッド空間内の性質も含むように提案する。また、このアルゴリズムを歩調に基づく人間の認識に応用した場合の効率を示す。シルエットから、人間を区別する特徴量として形状変形を活用し、ノンパラメトリックモデルによるその認識結果を示す。解析の結果、形状の役割と、歩調に基づく自動的人間の同定(authentication)について、興味ある観察がなされた。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像系列中からの、関節表現された手の動き解析と認識
Analyzing and Capturing Articulated Hand Motion in Image Sequences

Ying Wu, IEEE, John Lin, IEEE, Thomas S. Huang, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1910-1922 , December 2005

Keywords: Motion, tracking, video analysis, statistical computing, probabilistic algorithms, face and gesture recognition.

ビデオ画像から人の手の動きを捕まえるには、全体的な剛体としての手の姿勢推定のみならず、非剛体である個々の指の動きの意味付けが必要である。意味づけされた手の、高い自由度によって生じる複雑度は多くの映像追跡手法に挑戦状を突きつけている。例えば、粒子フィルタリング法を使う場合は、膨大な粒子数と粒子の縮退に悩まされることになる。本論文はビデオ中の意味付けする手を追跡し、自然な手の動きを事前知識とした学習と、統合による新規な手法を紹介する。指の動きの意味付けのために、本論文では、強力な逐次モンテカルロ追跡アルゴリズムを採用したが、これは重要度サンプリング法に基づいている。ここで、重要度関数は動き把握データによって学習された手の動きの意味付け構成空間(articulation configuration space)の初期多様体モデルから作られる。更に、本論文では、「分割と征服」戦略を紹介し、これによって、手のポーズや指の動きの意味付けを分離し、これらを統合した逐次処理フレームワークとし、課題の複雑度を減少させる。我々の実験によれば、この方法は効果的であり、意味づけされた手の動きの追跡効率が良かった。この手法を拡張し、他の明確化の必要のある標的を追跡した。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


制限が拡張されたtrellisを用いた多経路の抽出
Multiple Paths Extraction in Images Using a Constrained Expanded Trellis

Changming Sun, Ben Appleton

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1923-1933 , December 2005

Keywords: Multiple paths extraction, constrained expanded trellis, feature extraction, object segmentation.

最短経路の抽出アルゴリズムは、ネットワークフローや、画像解析など多くの用途に利用されてきた。画像解析では最短経路法はオブジェクト境界検出、ひび検出、ステレオ画像対の不一致推定に使うことが出来る。また時には、ネットワークや画像において、ある種の制約を満たす、単一の経路ではなく、複数の経路が必要な場合がある。本論文では、制約条件拡張trellis法を利用して、画像中から同時に複数の経路やオブジェクトを抽出する新規のアルゴリズムを提案する。また、この多経路抽出アルゴリズムの多数の用途も示す。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線形特徴量抽出法は、どんな応用があるか?
Where Are Linear Feature Extraction Methods Applicable?

Aleix M. Martinez, IEEE, Manli Zhu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1934-1944 , December 2005

Keywords: Feature extraction, generalized eigenvalue decomposition, performance evaluation, classifiers, pattern recognition.

コンピュータビジョンやパターン認識における基本的課題は、どんな場面で、もっと大切だが、なぜ、ある手法が向いているかを決定することである。これは、ある場面でどの手法が適用化可能かの決定を助けることが理由で必要性が高いばかりでない。もし、注目アルゴリズムが不適当かが分かれば、問題に適したロバストな新規アルゴリズムのデザインが容易になる。本論文では、どんな場合に何故一般化固有値に基づく線形方程式がうまく行かないかを実証する理論的研究について報告する。特に、最大化すべきi-番目の固有ベクトルと、最小化されるべき最初の1-固有ベクトルの間の最小角度がゼロに近いとき、我々の導いた結論は正しいとは限らない。このような例に当てはまるいくつかの例を示す。図示によって、識別と特徴量抽出の古典的な応用例に注目しよう。さらに、この発見をどのようにして、もっとロバストなアルゴリズムに利用できるかを示す。我々の結果が、より広範囲な影響を有することを考察と共に結論としたい。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化主成分分析法
Generalized Principal Component Analysis (GPCA)

Rene Vidal, IEEE, Yi Ma, IEEE, Shankar Sastry, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1945-1959 , December 2005

Keywords: Principal component analysis (PCA), subspace segmentation, Veronese map, dimensionality reduction, temporal video segmentation, dynamic scenes and motion segmentation.

本論文では、未知で変化しつつある次元の標本データから、未知の数の部分空間をセグメント化する代数-幾何的解法を示す。ここでは部分空間を、次数が部分空間数と等しく、データ点における導関数が部分空間への垂直ベクトルであるような均一な多項式集合で表現する。部分空間数が既知であるなら、これら多項式はデータから線形推定可能であることを示す。ある種の距離関数の最小化することで、データ集合から最適なデータ点を選ぶ。その結果、部分空間のセグメンテーションは適度なノイズであれば自動化可能である。各部分空間の補空間の基底は、標準的PCAを導関数(垂直ベクトル)に適用することによって復元できる。高次空間中のデータを扱ったり、未知の数の部分空間を扱う、一般化主成分分析(GPCA)の拡張の両方とも紹介する。低次元データへのGPCAのコンピュータビジョンへの適用実験では、多項式の因子分解に基づく既存の代数的アルゴリズムを凌駕するとともに、K-部分空間法や期待最大化法のような逐次的手法の優れた初期化法となる。さらに、顔クラスタリングや、ビデオの時間的セグメンテーション、複数のaffine視野中の点対応による画像3D動きセグメンテーションのようなコンピュータビジョン問題への応用例を示す。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パラメトリックな動き曲線と動き推定のための幾何学的要素、ユークリッド関係、動き曲線の統合
Integration of Geometric Elements, Euclidean Relations, and Motion Curves for Parametric Shape and Motion Estimation

Pierre-Louis Bazin, Jean-Marc Vezien

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1960-1976 , December 2005

Keywords: Shape and motion recovery, model-based estimation, geometric relations, geometric reduction, constraint reconstruction, motion modeling, model selection, Bayesian estimation.

本論文では、異質の知識をユニークなモデルに基づく枠組みに統合化する形状や動き推定するための手法について述べる。観察されたシーンの記述に、構造を持った幾何学的要素(点、線分、矩形、3D頂点)を利用し、ユークリッド関係(直交性、平行性、共線性、共平面性)によって表す。カメラの軌跡は適応モデルで表現されるが、これは通常のカメラの動きを制約する。2つの異なる自動モデル化戦略によって、形状と動きの推定に要するパラメータは最小で済む。モデルの採用で、ノイズやオクルージョンへのロバスト性が増し、再構成性能を増加させ、観察シーンの高レベルな表現を与える。このパラメータは、逐次ベイズ推定法の手続きの中で最適に計算される。これを人工的、および自然ビデオ画像に適用した結果、正確で高い信頼性の結果が求まった。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分的変形や部分的隠蔽に強靭(ロバスト)な、ICAを利用した顔認識のための効果的表現法
Effective Representation Using ICA for Face Recognition Robust to Local Distortion and Partial Occlusion

Jongsun Kim, IEEE, Jongmoo Choi, IEEE, Juneho Yi, IEEE, Matthew Turk, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1977-1981 , December 2005

Keywords: Face recognition, part-based local representation, ICA, LS-ICA.

部分空間投影を利用した顔認識手法の効率は、基底画像の特徴に直接関連しており、特に局所的変形や部分的隠蔽(オクルージョン)に関連している。部分空間投影法が局所的変形や部分的隠蔽にロバストであるためには、本手法で生成された基底画像は部品に基づく局所表現を表現している必要がある。効果的な部品に基づく局所表現法として、顔認識のために、局所的顕著特徴なICA(Independent Component Analysis=独立成分分析) (LS-ICA)法を提案する。このLS-ICA法は、「部品によって認識する」利点を最大限利用するため、局所的な重要特徴情報だけを利用する。ICAアーキテクチャ1に基づく画像を計算する過程で更に局所的制約を加えて、部品に基づく局所的画像を生成する。他の部品による表現、例えばLNMF (Localized Nonnegative Matrix Factorization) や LFA (Local Feature Analysis)によってもLS-ICA法を生成した。実験結果によると、LS-ICA法はPCA, ICA アーキテクチャ I, ICA アーキテクチャ II, LFA, および LNMFを凌いだが、特に部分隠蔽や局所変形画像では効果が顕著であった。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔−ARGマッチングを用いた顔認識
Face Recognition Using Face-ARG Matching

Bo-Gun Park, Kyoung-Mu Lee, IEEE, Sang-Uk Lee, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1982-1988 , December 2005

Keywords: ARG matching, face recognition, structural representation, stochastic analysis.

本稿では、新しい線特徴に基づいた顔認識アルゴリズムを提案する。本手法においては、各顔は、顔−ARGモデルにより表現される。これにより全ての幾何量と構造情報が属性関連グラフ(Attributed Relationial Graph)構造により符号化され、部分ARGマッチングにより顔−ARGマッチングを行う。実験結果は提案アルゴリズムが、各人に対して単一のサンプルのみが与えられる条件下においてさえも、様々な表情の変化、及び変化する証明条件及び隠蔽に対して非常に頑健であることを示している。

TS

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2値識別問題における多数決法の効率に関する理論限界
Theoretical Bounds of Majority Voting Performance for a Binary Classification Problem

Anand Narasimhamurthy, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1988-1995 , December 2005

Keywords: Classifier design and evaluation, Majority voting, theoretical bounds, classifier diversity measures.

多数決法が識別器と独立であると仮定した過去多くの理論的解析に関する研究がなされてきた。この多数決法を、線形の制約条件下の最適問題として捉える。識別器の独立性の仮定はしない。2値識別問題として、識別器の精度が与えられたとき、これらを組み合わせたときの多数決法の理論的上限(上界)および下限(下界)は、対応する最適化問題の解となることを示す。最適化問題の目的関数は、識別器の個数が偶数で拒絶が許されるときは、非線形となり、その他のとき、目的関数は線形となる、つまり、線形問題となる。このフレームワークを使って、2つの候補識別器の多様性尺度(diversity measure)と多数決法の効率に関する考察と、両者の関係を調べる。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ルジャンドルモーメントの計算に関する効率的手法
An Efficient Method for the Computation of Legendre Moments

Pew-Thian Yap, Raveendran Paramesran, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 12, pp. 1996-2002 , December 2005

Keywords: Moments, feature representation.

ルジャンドルモーメントは連続的モーメントであり、離散空間画像に適用した場合数値的近似が入り、誤差が生じる。本論文は、ルジャンドル多項式を画像の画素に対応する区間で数学的積分を実施することで正確なモーメント値が得られる。実験結果で得られた値は理論的計算値と一致した。また、これらのモーメント値から得られた再構成された画像は、同じ次数の従来手法より、誤差が低かった。正確なルジャンドルモーメントの同じ集合は幾何学的モーメントから、間接的に得られるが、それに必要な計算時間は、本手法よりずっと長い。

Ej

Copyright (c) 2005 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[インデックス] [前の年] [次の年]