AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.30, No.1


千切れた文書ページのグローバルな整合性を保った復元
Globally Consistent Reconstruction of Ripped-Up Documents

Liangjia Zhu Zongtan Zhou Dewen Hu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 1-13 , 1 2008

Keywords: Reconstruction of ripped-up documents, compatibility, global consistency, gradient projection, relaxation

千切れた文書ページを自動的に復元するというのは、曖昧な個々の領域について、ページ全体にわたって整合させる必要があり、非常に困難な課 題の一つだ。しかし、この研究は用途を限定した特徴を使わないで、一般的は枠組みではほとんど行われたことがない。本論文では千切れたペー ジの復元を文書の断片輪郭として曲線を利用した候補マッチングを行い、続いて弛緩法によって徐々に曖昧性を除去した元画像を復元するプロセ スを採用する。候補となる曖昧性除去問題は、弛緩法として定式化されるが、この中で、隣接領域との適合性の定義をおこない、グローバルな整合 性はグローバルな基準で行う。当初、グローバル適合性確信度は各候補マッチに割り当てられる。次に、全体的に隣接適合性が計算され評価される 。そして、この基準を最大化するために、勾配投影法によって(gradient projection)確信度が繰返し更新される。この方法によってグローバルな整合 的結果として、しっかりした文書復元がなされた。本方法における現実的な用途で実施された結果を示す。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ノイズの多い、汚れた文書画像中の手書き文字と言語の同定
Script and Language Identification in Noisy and Degraded Document Images

Lu Shijian Chew Lim Tan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 14-24 , 1 2008

Keywords: Document analysis, shape, script identification, language identification, clustering, classification, association rules

本論文は、ノイズが多く汚れた文書画像の手書き文字とその言語の同定について報告する。ここで提案された方法では、文字と言語は文書のベクト ル化を通じて同定され、各文書画像は含まれている文字や単語の形状と頻度を特徴付ける文書ベクトルに変換される。文書画像は垂直成分断片と 文字の極外点(下に凸の線は最低点、上に凸では最高点)を利用して特徴付けられるが、これはフォント変化、スタイルの変動、ノイズにも汚れにも強 い。対象としている手書き文字と言語についてのテンプレートをまず学習によって作る。これに従って、ベクトル化した目的文書の文字と言語の距離 が測定される。提案手法は精度が高く拡張が容易であり、文書のノイズや多様な低品質画像にも強い。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単視点情景画像を再現するための球状分布の混合
Mixture of Spherical Distributions for Single-View Relighting

Kenji Hara Ko Nishino Katsushi Ikeuchi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 25-35 , 1 2008

Keywords: Inverse rendering, Von Mises-Fisher distribution, Finite mixture distibution, EM algorithm

1枚、あるいは、少数の単視点情景画像から、この情景の照明光源と反射特性の両方を推定する方法について述べる。ここでは光源は点光源で、複 数個存在し、対象物の形状は既知であるとする。第1に単位球の照明を、新規なvon Mises-Fisher分布の有限混合球状全反射モデルに基づいて表 現するが、これはTorrance-Sparrowモデルの良い近似となっている。次に、この混合モデルのパラメータを推定するが、これによって、光源数や表面 荒さに対応する成分分布の数やこれらの標準偏差値が求まる。最後に、この結果を初期値として、もとのTorrance-Sparrow反射モデルに基づいて、 繰返し、推定精度を高めて行く。最終の推定値を使って、個々の光源の方向や強度を変えて情景を再現してみる。この提案法によって、同時に、強 度と数が未知である点光源や、対象物の鏡面反射パラメータを求める統一的枠組みを提供出来る。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Groups of Adjacent Contour Segments for Object Detection
Groups of Adjacent Contour Segments for Object Detection

V. Ferrari L. Fevrier F. Jurie C. Schmid

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 36-51 , 1 2008

Keywords: Local features, shape descriptors, object detection

k個の、ほぼ直線的な輪郭セグメントの連鎖(kAS)による、スケール不変な局所的形状特徴量のファミリーと、これのオブジェクト検出への応用につい て紹介する。kASはオブジェクト境界の断片だけを、周囲の余計なものを含まないでそのまま符号化することができる。さらに、情報内容と再現性の間 の魅力的妥協案や、広範で多様な局所的形状構造を含みうる。さらにkAS内部のセグメントの幾何学的構造を符号化できる並進・スケール不変の記 述子を定義することによって、kASが注目点への追加とか変更が可能な、他の目的でも使い易く、再利用可能なものとなる。kASの検出と記述が可能 なソフトウエアは、"lear.inrialpes.fr/software"によって発売されている。我々はkASが、単純で強力な移動window内でのオブジェクト検出に対する高 性能であることを示す。8個の多様なオブジェクトクラスと1400枚以上の画像に対する広範で十分な評価をした結果、1) 特徴量の複雑度kが変化す るに従って効率どう進化するかを調べ、最適な複雑度を決定した、2) kASは、形状に基づくクラスを検出するための注目点をはるかに凌ぐ;3) 我々の オブジェクト検出器とDalal and Triggsによる最新の方法と比べた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テクスチャー解析のための、局所的に不変な回転、コントラスト、スケール記述子
Locally Rotation, Contrast, and Scale Invariant Descriptors for Texture Analysis

Matthew Mellor Byung-Woo Hong Michael Brady

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 52-61 , 1 2008

Keywords: A-hut-2 similarity, Locally Rotation, Contrast, Scale Invariant Descriptors, Texture Analysis

実世界の画像中のテクスチャーは画像化の条件に依存して明るさ、コントラスト、歪みが変化する。実世界の画像のテクスチャーを認識するためには 、上記特性に不変な類似尺度が必要である。さらに、テクスチャーは波打つ表面上に見えることが多いので上記不変性はグローバルではなく局所的 である必要がある。これらの要請にもかかわらず、やっと最近になって局所的にスケール不変でアフィン不変なテクスチャー認識アルゴリズムが報告さ れ始めた。典型的には、特徴量の存在する点を検出し、続いて、特徴記述以前に幾何学的正規化を行う。ここでは線形フィルターの不変な組合せ に基づく方法を述べる。従来法と異なり、フィルターの新規なファミリーを導入し、スケール不変性があり、その結果、局所方位が変わってもテクスチャ ー記述子が不変で、コントラストやスケールが局所的歪みにロバストとなる。注目すべきは局所不変を可能とするフィルターのファミリーは、スケール 選択とか、大量のフィルターを使わないで実現することである。A-hut-2類似度に基づくテクスチャー識別法が、我々のフィルター応答特性に適用さ れたのであるが、この手法は、Brodatzテクスチャーに対してもUIUCデータベースに対しても検索と識別の性能において凌駕した。なお、このデータ ベースは局所不変性が要求されるものである。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


LEGClust-階層化されたエントロピー部分グラフに基づくクラスタリングアルゴリズム
LEGClust—A Clustering Algorithm Based on Layered Entropic Subgraphs

Jorge M. Santos Joaquim Marques de Sa Luis A. Alexandre

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 62-75 , 1 2008

Keywords: Clustering, Entropy, Graphs

階層化クラスタリング法は、通常はオブジェクト間とか与えられたデータ集合間の近さに基づく逐次的なクラスタリング法である。最も一般的な近さの概 念は、距離尺度である。求まった近さのマトリックスを使ってグラフが構築でき、これを基礎とした新たなクラスタリング法ができる。我々はエントロピー 尺度による距離概念を紹介し、この近さのマトリックスによるクラスタリングアルゴリズム(LEGClust)も紹介する。ここで、LEGClustはマトリックスに基づく 部分グラフの階層からなり、これと階層的集積化クラスタリング法によってクラスターが形成される。この手法は、グラフ構造と階層構築に強みを発揮す る。更に、エントロピーを距離尺度として用いることで、クラスターの形状に対する仮定を置くことなく、データの局所的構造を把握し、結果的に局所構 造を保存したクラスタリングができる。我々はこれを人工的データや実データの集合に適用し、この新アルゴリズムが、競り合っているアルゴリズムに対 して優れた効率を示すことを示す。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


階層的クラスタリング基準のための確率分布間の非類似尺度に基づく冗長度に基づく尺度
A Redundancy-Based Measure of Dissimilarity among Probability Distributions for Hierarchical Clustering Criteria

Kazunori Iwata Akira Hayashi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 76-88 , 1 2008

Keywords: clustering, mixture model, dissimilarity measure, information theory, Ward’s method

我々は新規な非類似度を確率的クラスタリング課題に適用し、多くのクラスターにおいて適宜、非類似度を混合モデルによる部分サンプル数によって 特徴づけしたい。このような非類似度の尺度は確率密度分布の中で、冗長度に基づく非類似度と呼ばれている。ソースコード化と統計的仮説検証 の両面から見た場合、統計分布中における冗長度に基づく非類似度が、いくつかの理論面から、これがクラスター間の非類似度の合理的な尺度 であることを明らかにした。我々は更に、階層的クラスタリング基準のための、冗長度に基づく非類似度の計測とWard法による計測の共通原理を導い た。さらに、クラスタリングの課題に重要ないくつかの関連定理を示す。実験によって、冗長度に基づく尺度の性質が他の従来法と比べられ、調べら れた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ブーストマップ:効率的な最近接の検索のための組み込み法
BoostMap: An Embedding Method for Efficient Nearest Neighbor Retrieval

Vassilis Athitsos Jonathan Alon Stan Sclaroff George Kollios

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 89-104 , 1 2008

Keywords: Indexing methods, embedding methods, similarity matching, multimedia databases, nearest neighbor retrieval, nearest neighbor classification, non-Euclidean spaces

本論文は、距離尺度計算コストがときに効率的最近傍を検索する方法であるBoostMapについて紹介する。データベースとクエリー対象はベクトル空 間に埋め込まれており、ここで距離が効率よく測定される。各埋め込みは、任意の3つのオブジェクトX, A, Bに対してXがAとBのどちらに近いかの識 別器と見なされる。このような埋め込みによる識別器の線形の組合せは、自然に埋め込み可能で、かつ、距離尺度を持つ。この特性に基づき、 BoostMap法は埋め込み構築問題を、古典的な弱識別器の最適組み合わせてとして強識別器構成するブースティング法に還元できる。結果として 得られた強識別器の精度は、埋め込みで保存される最近接構造の数量の直接的な尺度となる。BoostMap法の重要な性質として、埋め込み最適化 基準は、距離空間においても、非距離空間においても等しく有効である。この有効性は、手の画像、手書き数字、そして、経時変化画像において評 価された。すべてにおいて、BoostMap法は力ずくの方法に比べ、検索効率は大きく改善し、精度の低下は僅かであった。さらに、これは既存の最近 接検索法であるLipschitz埋め込みやFastMapやVP-treesを凌駕した。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


四辺形のマーク付き点処理と、ディジタル航空写真モデルの自動解析のためのセグメント
A Marked Point Process of Rectangles and Segments for Automatic Analysis of Digital Elevation Models

Mathias Ortner Xavier Descombe Josiane Zerubia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 105-119 , 1 2008

Keywords: Image processing, Poisson point process, stochastic geometry, dense urban area, Digital Elevation Models, land register, building detection, MCMC, RJMCMC, simulated annealing

この研究は自動的に画像から確率幾何学的な特徴抽出を行うための枠組みを与える。ここで扱う対象画像は都市を撮影した衛星写真でその中には 四辺形の家屋が多数存在している。画像中の特徴量は幾何学的形状中の空間点としてモデル化される。この枠組みによって特徴量の再配列にお ける先見知識の編入が可能になる。もっと限定すれば、セグメンテーションや四辺形の処理過程における重ね合わせのモデルを提案する。前者は 不連続性の線形ネットワークの検出用であり、後者は均一領域のセグメンテーションを目的としている。ここでエネルギーが定義され、セグメントの連 結を促進する項と、四辺形の整列を促進する項と、両方のオブジェクト間の関連する相互作用の項を含む。プロセスの進行方向を推定するのは、ア ニーリング法によるエネルギー最小化処理で求める。この提案モデルはDigital Elevation Models (DEMs)の解析に応用された。これらの画像はIGN から提供された高密度の都市の高空から撮影されたラスター画像であり、その中には低品質画像のDEMsも含まれている。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


データ欠失を伴う距離画像の最尤位置合せ法
Maximum-Likelihood Registration of Range Images with Missing Data

Gregory C. Sharp Sang W. Lee David K. Wehe

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 120-130 , 1 2008

Keywords: Range data, Registration, Maximum Likelihood, Pixel classification

距離画像中には隠蔽、センサー視野制限、微弱反射信号、深さ方向の不連続性、陰影などによるデータ欠失は少なくない。これらデータを並べ、位 置合せする方法はしばしば失敗するが、それは非対応点のマッチングによる。本論文では非対応点や欠失点を含む最尤位置合せ法を提案する。 Ray Casting法によって、各視野の合法点、欠失点の対応付けがなされる。これらの対応付けによって、隠蔽、視野、陰影領域のような視的特性に応 じた類別ができる。各点のマッチングの尤度が、センサーのノイズとか、他のかく乱要素などの統計的性質を使って決定される。実験によると、オーバ ーラップを含む複雑な画像にも高速に収束した。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


シルエット、隠蔽されたエッジやテクスチャーエッジからの自由形状のオブジェクト復元:双対に基づく統一的でロバストな演算子
Free-Form Object Reconstruction from Silhouettes, Occluding Edges and Texture Edges: A Unified and Robust Operator Based on Duality

Shubao Liu Kongbin Kang Jean-Philippe Tarel David B. Cooper

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 131-146 , 1 2008

Keywords: 3D reconstruction robust to degeneracies and noise, duality in differential form, dual manifold, multi-view reconstruction, shape from silhouettes, shape from occlusions and textures, dynamic programming

本論文では3Dの元の表面と、接平面の間に形成される双対多様体、つまり、元の表面の各接平面は4次元ベクトルとして表現されるが、これが相通 多様体上の点を構成する。反復形式の双対定理によると、双対多様体の各接平面は、元の3D表面に対応している。つまり、双対の双対は元に戻る 。この定理を使い、画像エッジから双対多様体を推定し、3D表面を直接再構成することが可能である。本論文では、元の学会論文にロバストな微分 双対演算子を開発し追加した。この演算子によって、強度不連続点とエッジ方向の両方を利用し、このアルゴリズムの概念が推定する物理的概念や 、なぜ精度推定が可能であるかの根拠や、シルエット境界・隠蔽境界・テクスチャーエッジ・などタイプによらずすべてのエッジにこの考え方が当ては まること、そして、自動的に各種の縮退を避けることができ、さらに、エッジ対を適宜に関連付ける新規な手法や、推定された3D点の精度を決定する ためにノイズに対する感度を評価することを含むアルゴリズムを追加できることを、画像データの有効利用が可能となったことを考察する。合成データ と実データに適用した実験では、本方法が高精度であること、ノイズによる劣化にロバストで、較正用画像や時系列ビデオ画像のエッジやテクスチャ ー境界が隠蔽されたりしても、自由形態のオブジェクトの復元の汎用性があることが実証された。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多フラッシュ立体復元:短ベースライン照明による深さ・エッジ・保存ステレオ
Multiflash Stereopsis: Depth-Edge-Preserving Stereo with Small Baseline Illumination

Rogerio Feris Ramesh Raskar Longbin Chen Karhan Tan Matthew Turk

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 147-159 , 1 2008

Keywords: stereo matching, multi-flash imaging, depth discontinuities

従来のステレオマッチング法では、深さ不連続点の付近では部分的隠蔽や連続性の破れなどから正確な復元ができなかった。本論文では、不連続 保存対応点の特長量マップ集合が得られる短ベースラインの多フラッシュ照明法を利用する(多数のフラッシュをカメラから短距離に配置し、複数の 写真を撮る)。まず、単独の多フラッシュカメラから、オブジェクトの相対距離を符号化する勾配領域を使った定量的深さマップを定式化した。次に、 多視野構成の隠蔽マップを計算するために光源によってできた陰影を利用した。最後に、2つの稠密なステレオ対応アルゴリズムと組合せ、これらの 特徴量マップの有用性を実演する;1つ目は局所探索アルゴリズム、1つ目は信頼度伝播アルゴリズムで。実験結果は、我々の強化ステレオアルゴリ ズムは、従来法では極めて困難であった情景からの不連続対応点保存マップを高品質に抽出できることを示している。さらに、短ベースライン照明法 はステレオ復元における全反射の処理に有効である。従来の証明法に比べ、我々の方法は単純で安価で装置が小さく光源の較正が不要である。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


異なるクラスター数を有する分割のための累積投票合意法
Cumulative Voting Consensus Method for Partitions with Variable Number of Clusters

Hanan G. Ayad Mohamed S. Kamel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 160-173 , 1 2008

Keywords: Cluster Analysis, Consensus Clustering, Ensemble Methods, Voting

過去数年以上にわたって、合意によるクラスタリング問題が新たに注目を引いている。n個のデータを対象にする合意による新たな最適化手法がいく つか提案されている。本論文では新たな合意に基づき、計算量がnに比例するクラスタリングアルゴリズムを提案する。クラスター数が確率変数のクラ スタリングを考え、これをカテゴリー化確率変数として記述する。クラスターのラベル付け問題の解として、累積投票を行うが、このとき、通常の1対1の 投票の代わりに確率的写像(probabilistic mapping)が計算される。写像された分割と予め用意された最適表現の間の平均2乗距離を最小化する分 割を抽出する。このときの参照クラスタリングとして選ばれる選択基準は情報コンテンツ(分割された要素)のエントロピー最大化によって定義される。 入力分割数を任意にした場合、最大の関連情報を保持している推定分布の平均が圧縮された(クラスター数が少ない)ものを見つけると言う、最適合 意結果の抽出問題として定式化された。クラスター内の平均一般化Jensen-Shannon分散を最小化するアルゴリズム集合を効率よく見つけることがで きた。いくつかの最新の合意によるクラスタリング法と比較した結果、実験によって、精度が格段に良くなり、効率もはるかに良くなった。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフに基づく教師付き学習法
Graph-Based Semisupervised Learning

Mark Culp George Michailidis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 174-179 , 1 2008

Keywords: Machine learning, Nonparametric statistics, Statistical methods

データのクラス識別問題モデル化において、グラフに基づく学習法は有用である。ものモデル化法では、ラベル付きとラベルの無いデータの関係は、 識別器の構築と、その効率に影響を与えるため、半教師付き学習の枠組みが採用されている。我々はカーネル平滑化に基づくグラフ識別器を提案 する。また、正則化の枠組みも紹介し、この紹介した識別器はある種の損失関数を最適化する。いくつかの人工的データや実データで効率評価した 結果、良好な結果が得られた。特に、わずかなデータしかラベル付けされてない場合には有効であった。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Lucas-Kanade Tracking (MILK)のための相互情報量:逆合成の定式化
Mutual Information for Lucas-Kanade Tracking (MILK): An Inverse Compositional Formulation

Nicholas Dowson Richard Bowden

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 1, pp. 180-185 , 1 2008

Keywords: Tracking, Computer vision, Image Processing and Computer Vision, Optimization

相互情報量(MI)は、関数の最適化によって登録するための方法として一般的である。この研究では、Levenberg-Marquardt の最適化のためのMIの 逆合成の定式化を提案する。これは、予め計算が可能なコンスタント・ヘス法と同じになる。15%の計算速度向上が達成され、標準的な定式化と同 様の収束精度が得られた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.30, No.2


周波数領域の不変量の理論:BRDF/照明変換と画像整合性のための球調和関数によるID
A Theory Of Frequency Domain Invariants: Spherical Harmonic Identities for BRDF/Lighting Transfer and Image Consistency

Dhruv Mahajan Ravi Ramamoorthi Brian Curless

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 197-213 , 2 2008

Keywords: Frequency Domain Invariants, Spherical harmonic identities, Convolution, Inverse rendering, Relighting, Tampering, Image Forensics

本論文はコンピュータビジョンにおける周波数領域の理論を発展させることを目的とする。ここでは新規な球調和関数による角周波数空間における同定法を導くが、これは普通の空間領域における反射率のような不変量である。これらの不変量は、曲面反射に適用可能な反射の球調和関数の畳み込みの枠組みから導くことができる。この手法による同値性は、オブジェクトが1つ、または、多数の場合にも、多様な照明光源下に存在する多くの標準的な場面で応用可能である。我々が考える1つの重要な場合として、2つの異なる光沢のあるオブジェクトが2つの照明条件下に存在する場合を考える。この場合、特定の照明位置とは独立で、つまり、BRDF(Bidirectional Reflectance Distribution Function)、3つの状態が既知であれば4番目は推定可能であるという、新規な同定法が導かれる。この同定性は画像中における改竄不変性に利用できる。この論文は本来理論的で、2つの重要な応用のための数学的基礎となる潜在能力を持っている。第1に逆レンダリング問題のための、より一般的なアルゴリズムを開発することで、直接、BRDFや別のオブジェクトや照明からの照明条件を変更し、再照明と物性を変えることができる。第2に、改竄の検出や画像のつなぎによって画像の整合性をチェックすることができる。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動きから3視野多体構造の復元
Three-View Multibody Structure from Motion

Rene Vidal Richard Hartley

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 214-227 , 2 2008

Keywords: multibody structure from motion, 3-D motion segmentation, multibody trilinear constraint, multibody trifocal tensor and Generalized PCA (GPCA)

3つの透視画像の点対応から、3Dの動きを切り出す(セグメンテーションをする)ための幾何学的方法を提案する。点対応に多項式を埋め込むことで、いわゆる多体3線拘束と、それに伴う多体3焦点(trifocal)テンソルが課され、多体の動きに対する3線拘束の自然な一般化といえる。そして、埋め込み対応関係に対する行列のランクに対する制約条件が導かれるが、これから、独立した動きの数が指定可能だけでなく、多体の3焦点テンソルの線形解も求めることができる。次に、各画像の点に対応するエピポーラ線の計算法を示すが、これは一変量の多項式集合の共通ルートを有し、一般化主成分分析(GPCA)による平面クラスタリング問題を解くことで得られるエピポールを有している。個々の3焦点(trifocal)テンソルは多体3線拘束の2階微分からこのように求まる。エピポーラ線やエピポール、あるいは3焦点テンソルが与えられれば、直ちに、初期対応クラスタリングが求まる。このクラスタリングを使って、逐次アルゴリズムを初期化し、3焦点テンソルと対応するセグメンテーションの間の計算を交互に行う。このアルゴリズムを多様な人工データや実データに適用し、代数的手法や逐次アルゴリズムと比較した。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自然画像matteの閉形式の解
A Closed-Form Solution to Natural Image Matting

Anat Levin Dani Lischinski Yair Weiss

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 228-242 , 2 2008

Keywords: Matting, Interactive Image Editing, Spectral Segmentation

ユーザー入力する画像中から前景オブジェクトを抽出するプロセスは対話型デジタル編み込み作業(matting)であり、ビデオ編集の重要な課題である。コンピュータビジョンの観点からは、この問題は極めて性質の悪い課題であり、各画素ごとに1回の測定で、前景か背景かを判定しなくてはならないだけでなく、前景の不透明度(アルファmatte)まで判定する必要がある。従来の方法では画像の小領域に限定するか、周囲の既知の情報に基づいて対象画素を予測するか、あるいは、アルファの推定と共に、前景色か背景色かを交互に推定するかであろう。本論文では、閉じた形式での自然画像の編み込み作業の解を示す。局所的な平滑度の仮定に基づく前景か背景かのコスト関数を導き、その結果、前景か背景かの色を除去し、アルファに関する2次形式のコスト関数が求まった。この疎な線形系の方程式を解くことによって、グローバルに最適なアルファmatte(不透明度と無反射表面)が見つかった。更に、閉形式の式は、疎なマトリックスの固有値を解析することで、解の性質を予想することができる。このマトリックスはスペクトル画像セグメンテーションアルゴリズムで利用されていると密接に関連している。高品質の自然画像のmatteが、少しのユーザー入力から得られることを示す。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


MaxNearestDistを利用したK-Nearest Neighborの見つけ方
K-Nearest Neighbor Finding Using MaxNearestDist

Hanan Samet

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 243-252 , 2 2008

Keywords: k-nearest neighbors, similarity searching, metric spaces, depth-first nearest neighbor finding, best-first nearest neighbor finding

類似探索問題は、しばしば質問に対するk-nearest neighborの探索問題に帰着する。k-nearest neighborを見つける問題は、データを持っている階層の深さ優先か、あるいは、最適優先アルゴリズムかの探索によって達成される。これらアルゴリズムは、インデックスの基づくどんな階層的クラスタリングにも当てはまる。このアイデアは、データが分割されてクラスター化され、このクラスターが統合されて別のクラスターとなり、統合化された全体は木として表現される。これらのアルゴリズムは従来、対応関係にある最近傍を見つけるための最小距離限界(MinDistと記す)として使われ、探索枝の刈り取りによって、クエリー対象qの周囲全部を探索する代わりに、qから遠方のクラスターやオブジェクトに対する処理を避けるために利用されていた。これに代わる刈り取り法は、最近傍が存在することが保証されている最大見込み距離(MaxNearestDistと記す)を上界とするもので、これについても述べる。MaxNearestDist上界は、単に最近傍(nearest neighbor(k=1))を見つけるのではなく、上記例のように、k-nearest neighborを見つけるために導入された。深さ優先と最適優先のk-nearest neighborの両方とも、MaxNearestDistを利用するように変形され、両アルゴリズムともその欠点を克服することが示された。特に、深さ優先探索においては、探索階層でチェックされるはずのクラスター数は増加しないので、実行時間を減少させる。他方、最適優先探索では、探索階層中のクラスターは優先待ち行列中に保存され、処理クラスター順序の制御に利用されるが、その数は増加しないので蓄積量を減らす。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変分法に基づくベイズロジスティック回帰モデルを使った重みつき擬似距離識別能力の改善
Weighted Pseudometric Discriminatory Power Improvement Using a Bayesian Logistic Regression Model Based on a Variational Method

Riadh Ksantini Djemel Ziou Bernard Colin Francois Dubeau

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 253-266 , 2 2008

Keywords: Image Retrieval, Logistic Regression, Variational Method, Weighted Pseudo-Metric

本論文は擬似距離的な重みを計算するためのベイズ法によるロジスティック回帰モデルの有効性を調査し、識別能力の改善を目指し、画像検索の精度を上げることを目的とする。ここに提案するベイズモデルでは先見知識が統合化され、後験分布は変分変換とJensenの不等式を使って、扱い易いガウス形式にし、重みの計算を直接高速に実行する。擬似距離の導入によってwavelet分解特徴量ベクトルを圧縮・量子化することができる。我々の以前の研究では、古典的方法であるロジスティック回帰によって重みが調整される。古典的Bayesianロジスティック回帰モデルとの比較評価が、内容に基づく画像検索と、脈絡のない他の識別課題についても行われた。この同じ枠組みにおいて、Bayesロジスティック回帰モデルと、最新の識別アルゴリズムとの比較を行った。実験の結果、Bayesロジスティック回帰モデルは、これら線形識別アルゴリズムを凌駕し、擬似尺度の重みの計算と、検索と識別効率において、古典的ロジスティック回帰モデルより遥かに優れていることが示された。最後に、他の検索法による結果との比較も行った。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率的障害物地図による複数カメラによる群集の追跡
Multicamera People Tracking with a Probabilistic Occupancy Map

Francois Fleuret Jerome Berclaz Richard Lengagne Pascal Fua

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 267-282 , 2 2008

Keywords: Multi-people tracking, Multi-camera, Visual surveillance, Probabilistic occupancy map, Dynamic Programming, Hidden Markov Model

目の高さからの同期した異なる視野のビデオ画像2〜4本が与えられたとき、動的プログラミングによって、隠蔽や照明の変化にも関わらず、数千のフレームから6人を正確に追跡する動的プログラミング法による生成モデルを効果的に組合せることができたことを示す。さらに、計量的に正確な軌跡を、それぞれについて示す。この論文の新規な点は以下の2点。第1に、この生成モデルは隠蔽(オクルージョン)があっても、対象数が事前に判って無くても、初期対象物が単純な画像差分だけであっても、フレームごとに独立に処理できることである。第2に、ある程度の発見的方法を導入することで、混同状態を避け、個々の軌跡を個別に処理することで複数人の追跡が信頼性よく、長時間にわたってできることである。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人の動きのためのガウス処理による動的モデル
Gaussian Process Dynamical Models for Human Motion

Jack M. Wang David J. Fleet Aaron Hertzmann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 283-298 , 2 2008

Keywords: machine learning, motion, tracking, animation, stochastic processes, time series analysis

非線形時系列解析のためにガウス処理動的モデル(GPDM)を紹介し、高次元動き獲得データから人間の姿勢と動きを学習するモデルへの応用を示す。GPDMは最新の変数モデルである。これは低次元の潜在空間を有しており、これは、関連の動き、潜在空間から観察空間へのマップから成っている。この結果はモデルの不確定性を説明する動的モデルのノンパラメトリックなモデルとなっている。この手法を実演し、一人当たり50次元の人の動きデータに関する4つの学習アルゴリズムと比較する。データ集合は小さいが、GPDMはこの空間で非線形の効果的に学習している

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


1枚の画像から自動的にノイズを推定し、これを除去する
Automatic Estimation and Removal of Noise from a Single Image

Ce Liu Richard Szeliski Sing Bing Kang C. Lawrence Zitnick William T. Freeman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 299-314 , 2 2008

Keywords: image denoising, piecewise smooth image model, segmentation-based computer vision algorithms, noise estimation, Gaussian conditional random field, automatic vision system

画像のノイズ除去アルゴリズムでは多くの場合、画像のRGB値とは独立な加算型のガウスノイズを仮定する。このような方法では完全自動と言うわけには行かず、今日よくあるCCDのカラーノイズを取り去ることは困難である。この論文では、2つの課題を統一した枠組みを提供し;1つは、自動的に1枚の画像からカラーノイズを予測し、区分毎にこれを除去する平滑化モデルを提案する。ノイズレベル関数NLFを定義するが、これは画像輝度の関数としてノイズレベルを推定する。次に、ノイズレベル関数を、下側包絡を予めセグメントされた画像変動の標準偏差値にフィットさせ、実際のノイズの上限を推定する。ノイズ除去には、セグメントごとにRGB値に画素値を投影することでカラーノイズのクロミナンスは大幅に除去される。さらに、ガウス型条件付き確率場が構築されノイズのある入力信号から本来のクリーンな画像信号が得られる。提案アルゴリズムのテストが十分行われ、この結果、最新式のアルゴリズムよりも遥かに凌ぐことが示された。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一枚の線画から3Dオブジェクト復元のための平面に基づく最適化
Plane-Based Optimization for 3D Object Reconstruction from Single Line Drawings

Jianzhuang Liu Liangliang Cao Zhenguo Li Xiaoou Tang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 315-327 , 2 2008

Keywords: 3D object reconstruction, degree of reconstruction freedom, line drawing, nullspace, singular value decomposition

一つの線画像から3Dの平面を復元する最適法において、線の頂点の深さの欠如部分が目的関数の変数として与えられた。平面から構成される3Dオブジェクトは、目的関数を最小化する3つの変数の値を見つけることによって求まる。これらの方法は変数の数Nが少ない単純なオブジェクトの場合、うまく働く。Nの値が大きくなると、期待されるオブジェクトを見つけるのが困難になる。その理由は大きなN次元の非線形目的関数の最適解の探索中に極小値に捕まり易いことである。本論文では、目的関数の変数としてオブジェクトの平面上を通過するパラメータを利用する。これによってオブジェクトの平面上の線形の制約を与え、その結果、もっと低次元のヌル空間となり、最適化計算が容易になる。このヌル空間の次元数Nは3Dオブジェクトを定義する頂点の深さの最小数に正確に一致することを証明する。実際の線画は3Dオブジェクトの正確な投影画像ではないから、ヌル空間をより大きな空間に拡張するが、これは線画の投影行列の特異値分解に基づいて行われる。この空間において、ロバストな3D復元が達成される。最も関連の深い2つの方法に比べ、我々の方法は、2D線画からもっと複雑な3Dを復元できるだけでなく、計算はもっと効率的である。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


準グローバルマッチングと相互情報量によるステレオ処理
Stereo Processing by Semiglobal Matching and Mutual Information

Heiko Hirschmueller

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 328-341 , 2 2008

Keywords: stereo, mutual information, global optimization, multi-baseline

本論文は準グローバルマッチングによるステレオ法(SGM)について述べている。これは、画素に基づく相互情報量を部分的に計算しながらグローバルな滑らかさを制約条件としてマッチングコストを計算していく方法でSGMは全方向からの経路による最適化によって高速近似とすることができる。考察において、隠蔽の検出や、画素以下の精密化や基線が複数の場合のマッチングにも触れている。さらに、はずれ値を除去するための後処理にも言及し、構造化した環境からの復元とギャップの内挿に関する課題について述べた。最後に、正射影を利用した任意の大きさの画像の処理と、不一致の融合戦略について提案する。標準的なステレオ画像についての比較から、画素以下の精度を考慮すると、SGMは今日のトップレベルのアルゴリズムの中で最高性能を示す。計算コストは画素数と不一致の度合いに線形であり、その結果典型的なテスト画像においてたった1〜2秒しかかからない。相互情報量に基づく詳細なマッチングコストの評価の結果、放射量の大幅な補正に対しても許容することがわかった。最後の巨大な航空写真やプッシュブルームスキャナーからの画像復元でも、本提案方式は実際的問題にもうまく対処できることがわかる。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


尤度に基づくバイオメトリック尺度の融合
Likelihood Ratio-Based Biometric Score Fusion

Karthik Nandakumar Yi Chen Sarat C. Dass Anil Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 342-347 , 2 2008

Keywords: Multibiometric systems, score level fusion, Neyman-Pearson theorem, likelihood ratio test, Gaussian mixture model, image quality

マルチ・バイオメトリックシステムは、個々の検出器の性能の限界を補うために、異なる手法の情報を融合して利用する。この尤度テストに基づくマッチングスコアの最適な組み合わせの枠組みを提案する。本物と偽物のマッチングスコアの分布は有限ガウス混合モデルを使う。提案する融合法は一般的に以下の量を扱える;(i) バイオメトリックスコアの離散値分布を扱い, (ii) マッチングスコアと分布は任意スケールで, (iii) スコア間の相関、および、 (iv) 複数のバイオメトリックの試料の質。3種のバイオメトリックデータベースの実験で、提案手法のスコアーは、一般的なスコアの返還と分類に基づく融合法に比べて常時高得点を得られた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


MultiK-MHKS:新規な多カーネル学習アルゴリズム
MultiK-MHKS: A Novel Multiple Kernel Learning Algorithm

Zhe Wang Songcan Chen Tingkai Sun

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 348-353 , 2 2008

Keywords: Multiple kernel learning, Canonical correlation analysis, Modified Ho-Kashyap algorithm, Single learning process, Pattern recognition

新規に提案する正準相関解析(Canonical Correlation Analysis (CCA)=NmCCA)は、従来の主成分分析(CCA)の代替となるものであるが、これによって同一現象に2つ以上の見方を与え、新規で効率的な多カーネル学習アルゴリズムが開発できた。まず最初に、入力データをm個のカーネルに対応する異なる特徴量空間に写像するため、経験的カーネルを採用した。それからNmCCAによる学習アルゴリズムを使って組織的学習に基づく1つの学習プロセスが開発されたが、これには複数視野出力のための特別項である関数間類似度損失(Inter-Function Similarity Loss = RIFSL)が導入された。実装に当たってHo-Kashyapアルゴリズムを識別誤りの平方による近似で変形したものを統合化されたパラダアイムとして選定した。このベンチマークデータ集合による実験結果は、本アルゴリズムであるMultiK-MHKSの可能性と効果を示している。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人々の調査のためのベイズ競合性と整合性のあるラベリング法
Bayesian-Competitive Consistent Labeling for People Surveillance

Simone Calderara Rita Cucchiara Andrea Prati

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 354-360 , 2 2008

Keywords: Tracking, Computer vision, Motion

多数カメラを利用した人々の調査を目的とした新規でロバストな整合性のあるラベル付け方法を紹介する。このシステムはカメラの数は任意で画像はオーバーラップしていて構わない一般的なフレームワークである。オフラインの学習プロセスが自動的に水平面のホモグラフィーを計算し、エピポーラ幾何を復元する。新たなオブジェクトがどれかのカメラで撮影されたら、可能性のある他のカメラのマッチングオブジェクト仮説が成立する。各仮説は先験値と尤度値を使って評価される。先験値は潜在的なマッチングオブジェクトの存在場所に関するものであり、尤度値は他のカメラの視野中の新規なオブジェクトの垂直軸を曲げてマッチング度合いを測定することで計算される。尤度値には前向きと後ろ向きの両方の寄与が計算され、これによって多数の人々の像が単一のオブジェクトとして併合される。結局、最大事後確率法による推定が新規なオブジェクトの同定に最良の結果を与える。ホモグラフィーによる他の手法と比べ、そして屋外での入念な実験から、グループのセグメンテーションと明確化のためには、本手法が最も正確でロバストである。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多数の航空カメラによる軌跡の関連付け
Trajectory Association across Multiple Airborne Cameras

Yaser Ajmal Sheikh Mubarak Shah

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30 , No. 2, pp. 361-367 , 2 2008

Keywords: Applications, Scene Analysis, Motion, Sensor fusion, Registration

航空機に取り付けられたカメラは広大な地域を観察するにはすばらしい方法である。このようなカメラを多数個利用することで更に視野が広がり、多数の標的を追跡可能となり、その自由度が増える。本論文では、複数の航空画像の問題点を挙げる。このような系ではカメラは動いており、しかも、互いに離れているので、直接、画像や近傍性に基づく制約は使えない。そうではなく、カメラを横切るオブジェクトの動きの間に成り立つ関係に関する幾何学的制約を利用し、それ以外の仮定を置かないで、多数の関連性仮説をテストする。我々の情景モデルが与えられたとして、幾何学的動機に基づく多数のカメラの観察画像の間の関連付け仮説を評価するための尤度関数を提案する。多数のカメラが存在しているため、関連付けにおいてオブジェクトの整合性は基本的な要件となる。すなわち、2つ以上のカメラの間の移行関係が閉じている必要がある。この整合性を確保するため、我々はk次元のマッチング尤度関数の最大化問題として定式化し、関連付けの最適割り当てを見つける近似を行う。提案する誤り関数を利用して、各オブジェクトの軌跡と最大尤度の意味でのカメラ間の変換のための最適推定を計算する。最後に、カメラを横切るオブジェクトの関連付けの結果として多数の航空ビデオ画像の同時映像化が可能であり、特定の条件下では隠蔽や検出ミスの修復も可能である。実画像や制限された条件での多数カメラによる多数オブジェクトの軌跡を示すことで我々の定量的モデルの妥当性を示し、シミュレーションによって定量的効率も報告する。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.30, No.3


カスケード型顔検出のための高速な非対称学習
Fast Asymmetric Learning for Cascade Face Detection

Jianxin Wu, S. Charles Brubaker, Matthew D. Mullin, James M. Rehg

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 369-382 , March 2008

Keywords: face detection, cascade classifier, asymmetry, feature selection

カスケード型の顔検出器は、一連のノード識別器を用いて、顔とそれ以外を分離する。本稿では、カスケード型検出器で用いられるノード識別器の設計のための新しいアプローチを示す。従来の方法は機械学習アルゴリズムを用いて、特徴選択とアンサンブル識別器(訳者注:複数の識別器を統合的に用いる方法)の構成を同時に行っていた。本稿では、これら二つの過程を分離することで、非対称な学習目的に起因する問題を明示的に扱うことが可能な識別器を設計できることを議論する。本研究の成果は3つある。まず学習目標のカテゴリ化であり、これは顔検出の難しさの理由ともなっている。次にフォワード特徴選択(Forward Feature Selection: FFS)アルゴリズムであり、これはAdaブースト法のための高速な事前計算戦略である。オリジナルのAdaブースト特徴選択法に比べ、FFSと高速Adaブーストは、訓練時間をそれぞれ約100分の1、50分の1に短縮することができる。最後の成果は、線形非対称識別器(Linear Asymmetric Classifier:LAC)であり、これは良好に定義された拘束最適化問題として非対称な学習目標を明示的に扱うことができる識別器である。LACがアンサンブル識別器の性能向上をもたらすことを実験により示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔認識における固有顔の正則化と抽出
Eigenfeature Regularization and Extraction in Face Recognition

Xudong Jiang, Bappaditya Mandal, Alex Kot

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 383-394 , March 2008

Keywords: Face recognition, linear discriminant analysis, regularization, feature extraction, subspace methods

本研究では、顔画像から固有顔を抽出し正則化する部分空間アプローチを提案する。このアプローチでは、クラス内散布行列の固有空間を以下の3つの部分空間に分解する。即ち、主に顔の変化により張られる信頼性の高い部分空間、ノイズ及び訓練標本数の有限性に起因する不安定な部分空間、そしてゼロ部分空間である。固有スペクトルモデルに基づいて、これら3つの部分空間において固有特徴をそれぞれ正則化することにより、不安定性、過剰適合、そして不適切な一般化、の問題を軽減する。これにより、固有空間全体における識別評価を行うことができるようになる。特徴抽出と次元性削減は、識別評価の後、最終段階のみで行われる。これらの処理により識別的かつ安定な、顔画像の低次元特徴表現を促進する。本稿で提案するアプローチと、他のいくつかの一般的な部分空間法を比較する実験を行い、我々の方法が常に他の方法を上回る性能を持つことを示す。この実験はFERET, ORL, AR, そしてGTデータベースにおいて行われた。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


境界と領域情報を組み合わせることによる、対称な閉じた境界のための大域最適なグループ化
Globally Optimal Grouping for Symmetric Closed Boundaries by Combining Boundary and Region Information

Joachim S. Stahl, Song Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 395-411 , March 2008

Keywords: Perceptual organization, edge grouping, boundary detection, boundary symmetry, edge detection, graph models

多くの自然界の構造及び人工物の構造は、ある程度左右対称の境界を持っている。この対称性は人間の視覚機構及びコンピュータビジョンにおいて重要な役割を担っている。本稿では、対称な閉じた境界を検出するための新しいグループ化法を示す。まず画像から検出された線分の対を作ることで、新しいタイプのグループ化特徴(トークン)を構成する。このトークンは対称な台形である。いくつかの台形を、四辺形で間を埋めて繋ぐことにより、閉じた境界を作る。このような閉じた境界に対して、比率の形で表わされる、統合グループ化コスト関数を定義する。この比率形式では、分子は境界の近接性と対称性に関する情報を、分母はこの境界で閉合される領域の情報をそれぞれ表している。領域情報を分母に導入することで、上記コスト関数の最適解が、境界長が短くなるようにバイアスを受けることを防ぐことができる。次に上記グループ化特徴を表すための新しいグラフモデルを開発する。このモデルでは、巧妙にデザインされたエッジ重み関数および、比率形式のコストを最小化する特殊なサイクルに対応する最適境界により、上記グループ化コスト関数を符号化することができる。最後に、上記グラフアルゴリズムを用いることで、このようなサイクルを多項式時間で見つけることができることを示す。この対称性を用いたグループ化法を実装し、合成データと実データの組を用いて試験した。この方法の性能を、グループ化コスト関数において対称性を考慮しない2つの従来の方法と比較する。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Finslerの動的輪郭
Finsler Active Contours

John Melonakos, Eric Pichon, Sigurd Angenent, Allen Tannenbaum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 412-423 , March 2008

Keywords: Directional segmentation, Finsler metric, dynamic programming, active contours, diffusion weighted imagery

本稿では、等角(もしくは測地学的)動的輪郭(active contour:アクティブコンター)フレームワークを方向情報により強化することに基づいた、画像分割技法を提案する。等方性の場合、ユークリッド尺度に局所的にスカラー等角係数がかけあわされる。この係数は画像情報に基づいて注視点(多くの場合エッジ)の上にある、重みづけされた曲線の長さが小さくなるように決められる。等角係数は画像中の位置にのみ依存して決められる。この意味において等角係数は等方性である。これまでのところ、方向情報は他の画像分割フレームワークのために研究されてきた。本稿では、等角動的輪郭フレームワークに方向情報を利用する場合、等角係数がFinsler計量を定義する良設定最小化問題となることを示す。変分法もしくは動的計画法に基づいた方法を用いることで、最適曲線を得ることができるだろう。最後に、航空画像から道路を、血管造影図から血管を、拡散強調磁気共鳴映像法(diffusion-weighted magnetic resonance imagery: MRI) 画像から神経束をそれぞれ検出することで、この技法を例証する。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最大エントロピーの原理に基づいた、ハイブリッド生成的/判別的識別器のための半教師付き学習
Semisupervised Learning for a Hybrid Generative/Discriminative Classifier based on the Maximum Entropy Principle

Akinori Fujino, Naonori Ueda, Kazumi Saito

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 424-437 , March 2008

Keywords: generative model, maximum entropy principle, bias correction, unlabeled samples, text classification

本稿では、ラベル付き標本とラベル無し標本により訓練された、半教師付き識別器の設計のための方法を示す。複数クラス且つ単一ラベルの識別問題のための確率論的半教師付き識別器の設計に注目する。我々は生成的アプローチ及び判別的アプローチ両方の長所を利用するハイブリッドアプローチを提案する。我々のアプローチでは、まずラベル付き標本を用いて訓練された生成的モデルを検討し、バイアス補正モデルを導入する。これら2つのモデルは同じモデル群に属するが、異なるパラメタを持つ。次に最大エントロピーの原理に基づいてこれらのモデルを組み合わせることでハイブリッド識別器を構成する。このハイブリッドアプローチをテキスト識別問題に適用するために、ベイズモデルを生成的モデル、そしてバイアス補正モデルとして利用する。良好な性能を得るために利用できるラベル付き標本の数が少なすぎる場合、多数のラベル無し標本を用いた訓練により我々のハイブリッド識別器の一般化能力が大幅に向上することを、4つのテキストデータセットを用いた実験結果により確認した。生成的アプローチと判別的アプローチの性能がほぼ同じ場合において、我々のハイブリッドアプローチの性能がこれらの性能を顕著に上回ることを確認した。更に、ラベル付きデータとラベル無しデータの分布が異なる場合における、我々のハイブリッド識別器の性能を試験した。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多次元スケーリングと次元性削減のための、オーバーラップのある局所的にサイズ調整されたパッチの整列
Alignment of Overlapping Locally Scaled Patches for Multidimensional Scaling and Dimensionality Reduction

Li Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 438-450 , March 2008

Keywords: none

集合によるデータ観察は、オーバーラップする局所パッチの集合として近似することができる。低次元のユークリッド空間におけるこのパッチの整列により、データの埋め込みが得られる。本稿では、集合というものが局所的にユークリッド空間に似ていることに基づいて、古典的な多次元スケーリングを局所モデルとして用いた埋め込み法を示す。最小集合被覆(minimum set cover)の貪欲な近似アルゴリズム(greedy approximation algorithm)により、オーバーラップする近傍パッチの組を選ぶ。古典的な多次元スケーリングにより、オーバーラップする近傍パッチの組から導出される局所パッチを、残余尺度が最小になるように整列する。この残余尺度は、その大域座標の二次形式として表わされ、固有値問題を解くことで解析的に最小化可能である。この方法では、近傍内の距離のみを必要とし、局所的に等大な埋め込み結果を与える。固有値問題のサイズは、データ点数よりもむしろ、オーバーラップする近傍パッチの数に依存して増大する。合成データを用いた実験と、実世界からのデータを用いた実験により、本方法の効果を示す。本方法の拡張とバリエーションについて議論する。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


類似性推定のための距離の学習
Distance Learning for Similarity Estimation

Jie Yu. Jaume Amores, Nicu Sebe, Petia Radeva, Qi Tian

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 451-462 , March 2008

Keywords: Image classification, Information retrieval, Pattern recognition, Artificial intelligence, Algorithms

本稿では、分布モデルと距離関数の統計的解析に基づく類似性推定のための、より良い距離尺度を見つけるための一般的なガイドラインを示す。最大尤度理論に従って調和距離、幾何距離、そして一般化変量から新しい距離尺度の組を導出する。これらの尺度は、古典的なユークリッド距離、もしくはマンハッタン距離よりも正確な特徴モデルを与える。また、多くの場合これらの特徴要素は異なる情報源からのものであり、類似性推定に対して異なる影響を与えうることを示す。このため単純な等方性分散モデルを仮定することは、多くの場合不適切である。この問題を緩和するためにブースト距離尺度フレームワークを用いる。このフレームワークにより、選択された特徴要素の分布に最も良い精度の類似性推定を与える、複数の距離尺度を見つける。類似性推定のための新しい距離尺度を2つのアプリケーションにおいて試験する。即ちビデオ画像系列におけるステレオマッチングとモーショントラッキングである。UCIリポジトリからのいくつかのベンチマークデータセットと2つの画像検索アプリケーションを用いて、ブースト距離尺度の性能の更なる評価を行う。すべての実験において、提案手法は頑健性の高い結果を示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状と挙動を符号化したミツバチダンスのトラッキング
Shape-and-Behavior Encoded Tracking of Bee Dances

Ashok Veeraraghavan, Rama Chellappa, Mandyam Srinivasan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 463-476 , March 2008

Keywords: Tracking, Behavior Analysis, Activity Analysis, Waggle Dance, Bee Dance

社会的昆虫の挙動解析は最近になってようやく成果を上げてきており、いくつかの分野、たとえば制御理論、飛行管制などで有効性を発揮し始めている。昆虫の挙動の解析のためには昆虫の動きの手動ラベル付けが必要とされるが、これには多大な労力がかかる。本稿では、ミツバチのトラッキングと彼らの特殊な挙動の認識のためのアプリケーションにおける、同時自動トラッキングと挙動解析の助けとなる、いくつかの一般法則を提案する。位置、方位、そして追跡されている昆虫の現在の挙動、を用いてトラッキングのための状態空間を定義する。形状モデルを用いて位置と方位をパラメタ化し、三階層動きモデル(three-tier hierarchical motion model)を用いて挙動を明示的にモデル化する。最初の階層(力学)は局所的な動きをモデル化する。この階層に埋め込まれたモデルは、挙動モデリングにおける語彙としてふるまう。第二階層は、局所動き語彙を用いて構成されたマルコフ動きモデルである。これが挙動モデルとして働くことになる。第三階層は挙動間の切り替えをモデル化する。これもまたマルコフモデルとしてモデル化される。モデルの識別、そしてモデリングの異常な振る舞いにおける三階層挙動モデルの学習問題を扱う。これら以外の重要な成果としては、従来の、トラッキングの後に挙動の認識を行うアプローチに代わり、トラッキングと挙動解析の統合をもたらしたことがあげられる。巣におけるミツバチのトラッキングのためのこれらの法則を、尻振りダンスと円形ダンスを行っているミツバチに適用した。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


隠れ状態形状モデルを用いた可変形状構造オブジェクトの検出
Detecting Objects of Variable Shape Structure With Hidden State Shape Models

Jingbin Wang, Vassilis Athitsos, Stan Sclaroff, Margrit Betke

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 477-492 , March 2008

Keywords: object detection, shape modeling, probabilistic algorithms, dynamic programming

本稿ではオブジェクトクラスの検出のための方法を提案する。この方法により重度に散乱した画像から可変形状構造を検出する。ここで“可変形状構造”とは、あるパーツは任意回数繰り返し、あるパーツはオプションで、また、あるパーツは複数の外見を持つような、オブジェクトクラスを意味している。隠れマルコフモデル(Hidden Markov Models (HMM))の一般化である、隠れ状態形状モデル(Hidden State Shape Models (HSSM))を導入し、確率論的フレームワークを用いることで可変形状構造のオブジェクトクラスをモデル化する。散乱がある場合でも、多項式推定アルゴリズムを用いてモデル状態の大域最適登録と画像特徴を検出することにより、オブジェクトの位置、方位、大きさ、そして構造を自動的に決定する。実画像を用いた実験により、提案方法が、可変形状構造を持つオブジェクトを高精度に位置決めできることを示す。手形状の位置決めと構造同定において、面取り距離マッチング法に基づいた従来の方法よりも、提案方法が有意に高精度であることを示す。更に単純な時間的拘束条件を導入することで、提案手法は1桁以上の高速化が可能であり、非剛体の手の動きトラッキング実験においても高精度の結果を与える。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自己隠蔽のある場合の、効率的なマルチビュー姿勢推定のための拘束条件統合
Constraint Integration for Efficient Multiview Pose Estimation with Self-Occlusions

Abhinav Gupta, Anurag Mittal, Larry S. Davis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 493-506 , March 2008

Keywords: 3D/stereo scene analysis, Motion capture, Tracking

自動的な人間の姿勢の初期化とトラッキングは、ビデオ画像を用いた監視において重要である。様々な拘束条件を統合的フレームワークに取り込む、パーツに基づいたアプローチを示す。これらの拘束条件には、物理的に連結した部分間の運動学的拘束条件、及びパーツ間の隠蔽、腕などの特定のパーツの外観間の高い相関も含まれる。適当な尤度尺度を評価することで各パーツ位置の確率分布を決定する。ノンパラメトリックな確信度伝播により、パーツ間の相互依存性を表すグラフ構造(ツリー構造でない)を用いて、このパーツの確率分布を“結合”する。姿勢配置の巨大な空間においてこの最適化を効率的に行うための方法も開発する。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクトの背面はどうなっているのか?:隠蔽された線の情報を持たない線画からの三次元再構成
What the Back of the Object Looks Like: 3D Reconstruction from Line Drawings without Hidden Lines

Liangliang Cao, Jianzhuang Liu, Xiaoou Tang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 507-517 , March 2008

Keywords: 3D reconstruction, hidden topology, line drawings, visual perception

人間の視覚は、たとえオブジェクトの背面の線が見えなくても、単一の二次元の線画から三次元オブジェクトを解釈することができる。この能力を再現するために多くの認識法が提案されてきたが、いずれの方法もオブジェクトの隠蔽された線が見えない場合、オブジェクトを完全に復元することができなかった。本稿では、隠蔽された線に関する情報を持たない線画から、オブジェクトの背面を含む完全な三次元オブジェクトを再構成するための新しいアプローチを提案する。まず理論的拘束条件、および隠れたエッジ及び頂点のトポロジーを推測するためのアルゴリズムを開発する。次にオブジェクトの認知的対称性と平面性に基づいた、三次元情報再構成法を示す。我々のアプローチの成果を例証するための、多数の実例を示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


拡散を利用した画像ぼけからの形状復元
Shape from Defocus via Diffusion

Paolo Favaro, Stefano Soatto, Martin Burger, Stanley J. Osher

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 518-531 , March 2008

Keywords: Shape, Reconstruction, Depth cues, Gradient methods, Iterative methods, Partial differential equations, Inverse problems, Sharpening and Deblurring

画像ぼけは、拡散過程としてモデル化でき、熱伝動方程式を用いて数学的に表現することができる。この場合、画像ぼけは熱の拡散に相当する。空間−変化拡散この類似性を非平面のシーンに拡張する。ぼけた画像から三次元構造を再構成する逆問題は、良く知られた不良設定な“逆拡散”に対応する。相対ぼけを用いることで、如何にしてこの問題を回避するかを示す。2つの画像が与えられた場合、それぞれの近傍において、シャープな画像をぼけさせるのに必要な拡散量は、シーンの奥行に依存する。これを用いることで、画像ぼけをなくした画像を再構成することなく、フォワード拡散のみを用いてシーンの奥行情報を推定するための大域的アルゴリズムを作ることができる。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


予め同定情報を必要としないカメラフィンガープリンティングと画像クラスタリング
Blind Camera Fingerprinting and Image Clustering

Greg J. Bloy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 532-534 , March 2008

Keywords: clustering algorithms, forensics, image processing, pattern recognition, machine learning

これまでの研究により、あるカメラで撮影された画像セットを用いて、そのカメラの“指紋”(同定情報)を得る方法が示されている。クラスタリング技法を用いて混合画像セットからこのようなカメラの指紋を構成する方法を提案する。これにより、各画像を撮影したカメラを事前知識なしに同定することができる。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


クラスタ化されたデータセットの次元性削減
Dimensionality Reduction of Clustered Data Sets

Guido Sanguinetti

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 535-540 , March 2008

Keywords: dimensionality reduction, clustering, discriminant analysis, probabilistic algorithms

本稿では、クラスタを含むデータセットの線形次元性削減を行うための新しい確率論的潜在変数モデルを示す。このモデルの最大尤度解が、線形判別解析の教師なし一般化であることを証明する。これにより、最も確立し、最も広く使われている識別アルゴリズムに対する、まったく新しいアプローチを与える。次に、このモデルの性能を、多数の実データセット、および人工データセットを用いた例により示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔の自動検出と自動整列機能を持つ性別識別法の評価
Evaluation of Gender Classification Methods with Automatically Detected and Aligned Faces

Erno Makinen, Roope Raisamo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 541-547 , March 2008

Keywords: Classifier design and evaluation, Computer vision, Face and gesture recognition, Interactive systems, Vision I/O, Machine learning

顔の自動検出及び自動整列機能を持った性別識別の体系だった研究を示す。自動顔検出、顔整列、そして性別識別の120の組み合わせについて実験を行った。これにより自動顔整列法は、性別識別率を向上させないことがわかった。しかし手動で整列することで、わずかながら識別率を向上させることができた。これは、整列法が更に洗練されることで自動整列が有効なものになる可能性があることを示している。性別識別法は、様々な入力画像サイズに対して、ほぼ同じ精度で働くこともわかった。すべての場合において、最高識別率はサポートベクトルマシンを用いた時に得られた。ニューラルネットワークとAdaブーストはサポートベクトルマシンとほぼ同じ識別率を与える。これら2つは、実現可能な最高精度の識別よりも、識別速度の方が重要視されるようなアプリケーションで利用可能であろう。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数視点の照度差ステレオ法
Multiview Photometric Stereo

Carlos Hernandez Esteban, George Vogiatzis, Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 548-554 , March 2008

Keywords: Shading, Stereo

本稿では、テクスチャのない、輝くオブジェクトの、完全かつ詳細な再構成の問題を扱う。オブジェクトのシルエットと、照明条件を変化させて撮影された画像を用いるアルゴリズムを示す。従来の照度差ステレオ法と異なり、我々の手法は単一の視点に縛られることなく、完全な三次元情報を高精度に再構成することができる。照明条件を変えながら、複数の視点から多数のオブジェクト画像を得る。提案アルゴリズムは、シルエット情報を出発点として、カメラの動きに関する情報を計算し、オブジェクトのvisual hull(オブジェクトの外観)を構成する。次にこれを用いて照度を計算し、複数視点の照度差ステレオ法を初期化し、閉じた表面を再構成する。本稿の主な成果は以下の2点である。まず照明の方向と強度を推定するための頑健な方法を示す。次に複数視点からの情報を組み合わせることにより表面を再構成する照度差ステレオ法の新しい定式化を導入する。このアルゴリズムは、実用的なモデル獲得システムとして実装されている。困難な実オブジェクトの完全な再構成と、合成データを用いたこのアルゴリズムの定量的評価を示す。最後に、オブジェクトが高度なテクスチャを持つ場合でも、本手法が、対応に基づいた複数視点のステレオ法の結果を大きく向上させることを実験的に示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の定位置モニタを用いたリアルタイムの異常イベント検出
Robust Real-Time Unusual Event Detection using Multiple Fixed-Location Monitors

Amit Adam, Ehud Rivlin, Ilan Shimshoni, Daviv Reinitz

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, pp. 555-560 , March 2008

Keywords: Video analysis, Computer vision

特定の種類の異常イベントの検出のための新しいアルゴリズムを示す。このアルゴリズムは低次の統計量を収集するための複数の局所モニタに基づいている。それぞれの局所モニタは、もし現在の測量が異常である場合には警報を発する。そしてこの警報を統合することで、異常イベントが実際に発生したか否かの最終的な決定を行う。我々のアルゴリズムは、大規模な監視システムを成功裏に展開するために極めて重要ないくつかの要求を満たす。特に、この要求には、セットアップ時間が最小であること(セットアップに数分しかかからないこと)、そして後処理が完全自動であることが含まれる。この方法はオブジェクトトラッキングに基づいたものではないため、頑健であり、混雑したシーンにおいても高精度を保つ。このようなシーンではトラッキングに基づいた方法は失敗しやすい。本アルゴリズムは、通常の活動を表す十分な低次観察情報が得られ次第、有効となる。通常の場合、このような情報は観察開始から数分で得られる。我々のアルゴリズムはリアルタイムで働く。様々な実際の混雑したシーンで我々のアルゴリズムを試験した。どの検出率及び誤報率が報告されたかに関して、これらのシーンの正解情報を抽出する。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.30, No.4


ロバストな放射輝度の較正と口径食の補正
Robust Radiometric Calibration and Vignetting Correction

Seon Joo Kim, Marc Pollefeys

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 562-576 , 4 2008

Keywords: Radiometric response function, vignetting, radiometricimage alignment, high dynamic range imaging

多くのコンピュータビジョンシステムでは1点の画像輝度は、その点の情景の放射輝度と見なされると仮定している。しかし、この 仮定はほとんどの場合成り立たない。理由はカメラの非線形性応答、露出の変動、口径食の影響だ。これら因子の影響は、画像 貼り合わせ、3Dモデルのテクスチャー生成などで目立ち易いが、それは隣接画像の境界が不整合となるからである。本論文では 、露出、口径食や放射輝度応答関数のロバストな推定を含む完全な放射輝度較正アルゴリズムを提案する。応答関数推定から 口径食の影響を切り離すことで、ノイズや外れ値に頑強な手法を利用することができるようになる。このアルゴリズムの妥当性を評 価するため、人工的なデータと実データの両方で確認したように、従来法に比べて顕著な改善が見られた。この推定方法を利用 して、放射輝度画像を並べた継ぎ目の無いモザイク画像と3Dモデルのテクスチャーが得られた。我々は、通常のモザイク合成画 像より表現力豊かな情景画像に応用して、高ダイナミックレンジのモザイク画像を合成した。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


境界と表面の追跡—その理論的基礎
Border and SurfaceTracing - Theoretical Foundations

Valentin Brimkov Reinhard Klette

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 577-590 , 4 2008

Keywords: digital geometry, digital topology, discrete dimension, digital manifold, digital curve, digital hypersurface, good pair

本論文は、任意次元のデジタル多様体を定義・研究し、特に画像解析における曲線追跡や表面追跡のための理論的な基礎を 提供することを目的とする。研究内容はデジタル曲線のような1次元特徴や、連続位相幾何におけるアナログの超平面の概念に 該当するデジタルの超平面の(n-1)次元特徴も含まれる。ここでの手法は隣接性概念に完全に立脚しており、組合せ位相幾何で 一般的な次元の概念を補うものとなっている。本研究は、グラフ理論の次元の定義に基づく最初のデジタル多様体に関するもの であると思われる。特に、n次元デジタル空間において、デジタル曲線やデジタル超平面はユークリッド空間の曲線や超平面であ るので、デジタル曲線は1次元オブジェクトであり、デジタル超平面は(n-1)次元オブジェクトである。ここで得られたデジタル超平 面の特性によって、分離によるgood pairs(画素の連結性が保持される)を定義し、任意の次元においてgood pairsのクラスが得ら れるための統一的研究方法を提案する。また、ここに示した定義とその結果の応用についても議論している。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カメラで撮影された文書画像の幾何学的補正
Geometric Rectification of Camera-Captured Document Images

Jian Liang, Daniel DeMenthon, David Doermann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 591-605 , 4 2008

Keywords: Camera-based OCR, image rectification, shape estimation, texture flow analysis.

典型的なスキャナーと異なり、手持ちのカメラは便利で柔軟性があり、携帯性に優れ、非接触で画像取得ができるため新規で多く の応用と需要をもたらす可能性がある。しかし、カメラ画像は、文書表面が非平面であるため、遠近投影による変形を受けており、 現有のOCRには向かない。我々は正面から撮影された1台のカメラの画像を幾何学的補正する枠組みを提供する。我々は撮影さ れたカメラ画像から直接3D文書形状を推定するもので、前もってカメラの較正や3D距離データを利用する必要は無い。我々の枠 組みでは、平面状文書でも曲面状の文書でも対応可能であり、多くの用途、とくに携帯カメラによる文書解析には、統一的な扱い が可能となる。これによって原画に比べて遥かにOCR認識され易い画像を提供できる。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔認識のための最大確信度隠れマルコフモデル
Maximum Confidence Hidden Markov Modeling for Face Recognition

Jen-Tzung Chien, Chih-Pin Liao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 606-616 , 4 2008

Keywords: Parameter learning, Statistical, Classifier design and evaluation, Face and gesture recognition

本論文は2次元パターン認識のための特徴量抽出と隠れマルコフモデル化(HMM)のハイブリッドな方法の枠組みを提供する。重 要なことは、モデルの簡潔さと識別性能を確実にするため、新規な識別のための学習基準を探求したことだ。この基準は、競合す るHMM状態からではなく、目標とするHMM状態の観察から仮説を受け入れる確信度を最大化することによって得られると言う検 定理論から導かれた。その結果、顔認識のための最大確信度隠れマルコフモデル(MC-HMM)を開発した。この枠組みの中で識 別能力を持つ顔特徴を抽出するために変換行列を併合する。連続密度HMMパラメータの閉形式の解を定式化した。これが魅力 あるのは、ハイブリッドMC-HMMパラメータは、同一の基準で推測可能であり、期待値最大化法によって収束できる点である。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


構造変形による画像貼り付け
Image Stitching Using Structure Deformation

Jiaya Jia, Chi-Keung Tang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 617-631 , 4 2008

Keywords: Image stitching, structure deformation, image alignment

本論文の目的はシームレスな画像貼り付けである。そのために、大体整列した全体的な整合性のある画像から、継ぎ目での貼り 合せによる不連続性を除き、人工的な不自然さを除く。我々の新規な方法では、構造を変形し、これを伝播させ、全体的に構造と 明るさの整合性を確保することである。この新しい貼り付け法は、画像融合や明るさの融合や強度補正に有効であり、以下のよう な手順を必要とする。画像平面中で検出された2D画像特徴の適合性や特徴の強さに依存して、強度(明るさ)の整合性と構造の 連続性の制約に従って、単一、あるいは、二重の最適分割が算出される。その後、特定の1D特徴量が計算上の最適分割に沿っ て検出され、これから疎な変形ベクトルが導かれ、分割間の1D特徴量マッチングが符号化される。これらの疎な変形手掛かり( deformation cue)が関連性最小化問題(associated minimization problem)を勾配空間で解くことによってロバストに入力画像中に 伝播し、その結果画像構造と明るさを同時に同時に整合させる統一的枠組みが提供できる。これを一般画像に適用した結果を示 し、我々の方法が複雑な入力画像のシームレスな貼り合せに有効なことを示す。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


MAC:静磁場の動的輪郭モデル解析法
MAC: Magnetostatic Active Contour Model

Xianghua Xie, Majid Mirmehdi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 632-646 , 4 2008

Keywords: Active contours, deformable model, object segmentation, magnetostatic forces

動的輪郭とオブジェックト境界の間で、静磁場と磁場の仮説上の磁気相互作用に基づく外部場を利用した、活動的輪郭モデルを 提案する。この研究の主要な成果は、外力の相互作用が動的輪郭の弱いエッジや切れ切れの輪郭を大きく強化したことであり、 その結果複雑な形状の境界を捕まえ、弱いエッジとか切れ切れの境界のような困難な初期条件を処理できるようになった。この提 案方法は、従来よく知られた6つの最新の復元モデルと比較した結果、顕著な向上が見られた。なお、対象とした比較モデルは、 測地スネーク、GVFスネークの一般化法、測地法とGVFの混合スネーク法、および、荷電粒子モデル法である。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線形判別解析におけるベイズ最適化
Bayes Optimality in Linear Discriminant Analysis

Onur C. Hamsici Aleix M. Martinez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 647-657 , 4 2008

Keywords: Linear discriminant analysis, feature extraction, Bayes optimal, convex optimization, pattern recognition, data mining, data visualization

我々は等分散ガウス分布を有するC個のクラスを識別する問題に対して、ベイズ誤差が最小化される1次元部分空間を見つけるこ とが出来るアルゴリズムを紹介する。ここでの主要な結果によると、投影されたクラスの平均値のオーダーが同じである1次元空間 集合vの候補によって、関連する凸のベイズ関数g(v)を有する凸領域が定義される。これによって標準的凸最適化アルゴリズムで 誤差関数の最小化が可能となる。その後でこのアルゴリズムは不等分散の一般的なベイズ誤差の最小化にも拡張される。このた めには適当なカーネル写像関数を利用すればよい。この結果はさらに拡張され、(d-1)次元の解のヌル空間に反復適用し、任意 のd次元の解を得ることができる。我々は、既存アルゴリズムと、少ない計算量で、線形近似法を使って、どのようにしてこの結果を 利用した改善ができるかを示そう。十分な実験によって、このアルゴリズムの識別や、データ解析、視覚化などへの有用性が証明 された。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


識別誤り近似と重みつき最小2乗学習の間
Between Classification-Error Approximation and Weighted Least-Squares Learning

Ce Liu Kar-Ann Toh How-Lung Eng

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 658-669 , 4 2008

Keywords: Pattern Classification, Classification Error Rate, Discriminant Functions, Polynomials andMachine Learning

本論文の目的は、近似識別エラーに基づく目的関数に対する決定論的な解をあたえることである。この定式化において、滑らかな エラー計測を目的とした2次形式近似を提案する。この解は、結果的に重みつき最小2乗法と関連していることがわかり、ここにお いて、ロバストな調整プロセスを組み込むことができる。この調整は、最小2乗推定と、近似的総合誤差率推定の間を行き来しなが ら、非平衡な属性による色々な場合を考慮する。線形パラメータ識別モデルを採用して、提案された識別エラーに基づく学習方 式は、経験的には、オリジナルな最小2乗コスト関数を利用する場合よりも優れていることが示される。最後に、本定式化は、計算 の簡潔さを犠牲にすることなく、他の識別エラーに基づく、最新の識別器と同等の性能を示すことが分かる。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ロバストな追跡のための従属的な複数の手掛かり
Dependent Multiple Cue Integration for Robust Tracking

Francesc Moreno-Noguer Alberto Sanfeliu, Dimitris Samaras

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 670-685 , 4 2008

Keywords: Bayesian Tracking, Multiple Cue Integration

ビデオ画像中のオブジェクトを背景から切り出す場合、その照明条件や位置が急変すると失敗することが多いが、これに対するた め、複数の手掛かりを融合する新規な方法を提案する。ロバスト性を得るために、カルマンフィルターや粒子フィルターのようなベ イズフィルターによる推定を使って、見掛けの画像と幾何学的オブジェクト特徴を統合した。特に、各フィルターは特定の特徴量 の状態を推定するが、この特徴量は別個のフィルターで推測される別の特徴量に依存している。この依存関係によって、改良され た目標の記述法が得られ、その結果、非平衡状態においても、非定常的連続画像からでも背景からのオブジェクト分離を可能に した。ベイズフィルターの処理手順は仮説生成-仮説訂正戦略で記述できることを考慮すると、従来と比べ我々の手法の新規性 はフィルター間の相互依存性を特徴量観察中に考えることであり、つまり、仮説生成する時は、観察段階ではなく、仮説訂正段階 で実行する。これによって、精度と信頼性は著しく向上した。本提案法は解析的に立証され、オンラインで同時に色空間で画像 点や色分布や輪郭や外接枠が表現される、適応可能なロバストな追跡システムの開発に利用された。本アルゴリズムを人工デー タや実写ビデオに適用した結果、ロバスト性と汎用性が実証された。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


適応的解像度における符号付き距離画像の符号反転による3Dモデルの穴埋め
Hole Filling of a 3D Model by Flipping Signs of a Signed Distance Field in Adaptive Resolution

Ryusuke Sagawa, Katsushi Ikeuchi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 686-699 , 4 2008

Keywords: 3D modeling, interpolation of a mesh model, adaptive signed distance field

オブジェクトの形状観察に距離ファインダーを使うときは多くの隠蔽された領域が出てくる。これらの部分は穴やギャップとして再 現されるため、多様な応用には望ましくない。我々はこのような不完全なモデルの穴やギャップを埋めるための新規な方法を提案 する。単なる表示であれば符号付距離場(Signed Distance Field (SDF))を利用する。SDFの利用で、穴やギャップを内挿した表 面を使う。ここに提案する方法は、内挿面積を最小化するような実表面を滑らかで連続的な内挿面を生成する。SDFの等距離面 は符号付距離画像の実表面あるいは内挿面であることが分かっているのであるから、われわれの方法では内挿面を隣接ボクセル の距離画像の符号を反転させる前後の内挿から計算する。もし、符号の反転で面積が縮小したら、ボクセルの符号を変更する。 従って、内挿表面の計算の繰返しを収束させて最小化することができる。偏微分法による方法と異なり、我々の方法では境界条 件を考える必要がないし、初期状態は、実表面の最近傍点を計算するだけで得られる。さらに、本方式は適応的解像度のSDFに 応用可能であるため、高曲率の穴やギャップの内挿にも適用できる。本手法は人工的データにも実データにも適用し、内挿表面 の評価を行った。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オーバーラップ無しのカメラ間で撮影された車画画像のためのエッジ尺度による判別分析の教師無し学習法
Unsupervised Learning of Discriminative Edge Measures for Vehicle Matching between Nonoverlapping Cameras

Ying Shan, Harpreet S. Sawhney, Rakesh Kumar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 700-711 , 4 2008

Keywords: Object recognition, unsupervised learning, Gibbs Sampling, Fisher' s Linear Discriminants, edge feature, vehicle matching, object reacquisition, non-overlapping camers

本論文は新規な教師無しの識別特徴量の学習アルゴリズムを提案するが、その対象画像は、2つのオーバーラップしないカメラ による道路上の車両である。マッチング問題は、同じか同じでないかの識別問題と考えられる。この場合、2つのカメラ画像に映る 車両画像が同一か、そうでないかを判定することになる。我々は3つの独立なエッジに基づく尺度からなる新規な尺度ベクトルを 採用し、対になった車両のマップから計算される関連するロバストな尺度からなっている。各尺度の重みは、全体として尺度空間 において同一・非同一の識別を最適化するような、教師無し学習アルゴリズムによって決定される。これは、自動的に同一か非同 一の識別を実行する弱い識別アルゴリズムで達成される。これに続いて、より識別能力の大きなFisherの線形判別器とGibbsサン プリングに引き継ぐ。識別におけるマッチング尺度と教師無し判別分析を利用したことのロバスト性は、特徴量のある無しに関わら ず、時間的にも空間的にも変化する照明条件下で、異なるカメラの配置において、本提案手法が常に優れていた。1日の異なる 時間帯における200台以上の車両の実画像による徹底的な実験からは、有望な結果が得られた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハイブリッド生成法/識別法を利用した情景識別
Scene Classification Using a Hybrid Generative/Discriminative Approach

Anna Bosch Andrew Zisserman Xavier Munoz

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 712-727 , 4 2008

Keywords: Scene Classification, pLSA, Spatial Information

最近の生成モデルを利用した、弱い教師付き学習法は情景画像の識別における次元の削減に有効であるかどうかについて調べ た。より詳細には、ラベルつきの情景画像(海岸、森、市街、川、など)を与え、未知の画像をこれらのどれに属するかを決めること である。その手順は、確率的潜在意味解析(LatentSemantic Analysis (pLSA))を利用して、最初に潜在的な“トピックス”を発見す る。これは、各画像に対する一群の視覚的単語を割り当てられた確率的テキスト作品から生成するモデルであり、結果的に各画 像に対応するトピック分布ベクトル上の多用途識別器を学習させるものである。この手法と、各画像に一群の視覚的単語を直接対 応させ、ベクトル上で多用途識別器を訓練する方法を比較した。この目的のために、我々は稠密なSHIFTカラー記述子を利用し た新規な語彙を取り出し、さらに、視覚的語彙のサイズや、学習する潜在トピックス数や、k-最近傍識別器(または、SVM)を使った 識別器のタイプを変えながら識別効率を調べた。我々の結果は、視覚語彙表現の一群を利用した最新の識別効率を上回るもの で、すべての場合において、著者自身のデータ集合とテストプロトコルを利用した。我々は、空間情報を加えた場合の利得を調べ た。また、関連性のフィードバックのある場合のビデオ画像の画像検索の結果を示す。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変形した文書画像を幾何学的に戻す物理に基づく方法
An Improved Physically-Based Method for Geometric Restoration of Distorted Document Images

Li Zhang Yu Zhang Chew Tan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 728-734 , 4 2008

Keywords: Warped Image Restoration, Geometric Correction, Phyiscally-based Modeling, Numerical Integration

カメラによる文書画像のデジタル化において、単純な撮影では撮影された2D画像にしばしば非平面的幾何学的な変形を生じる 。これは厚い本を綴じたり、巻かれたり、シワになったりする材質によるものだ。以前の研究[1]?[4]では文書を3D走査することで平 面状の画像を復元できたことを示している。これらの手法は物理や弛緩法に基づく平面化処理を利用している。これらの手法は画 像の修正や、OCRの結果を向上させるのに有効であったが、処理速度と安定性から見るといくつかの限界があった。本論文では、 従来の多数のバネで繋がれたモデルに代わって、距離に基づく罰則法を導入し、更に、曲げ抵抗と引きずり抵抗を追加し、既存 の手法の効率改善を提案する。Verlet積分と、平面衝突の特別処理によって、効率を犠牲にしないで安定性を増加させることが できる。書籍、パンフレット、古書などの任意の曲率のページを撮影した多様な画像を使った実験から、安定性と効率の面から大 きな進歩があったことが実証できた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2値特徴量によるナイーブな識別器のための誤差依存性
Error-Dependency Relationships for the Naive Bayes Classifier with Binary Features

Ludmila Kuncheva Zoe Hoare

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 735-740 , 4 2008

Keywords: Pattern Recognition, Classifier design and evaluation, Feature evaluation and selection, Naive Bayes, Dependency

2つの2値特徴量と2つの等確率クラスのためのナイーブなベイズ誤差と、ベイズ誤差の差に関する緊密な依存性限界を導いた。 特徴量依存の場合の矛盾尺度について、多様な特徴量について述べる。また、ナイーブベイズとの相関も、23個の実データを使 って示す。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


曲線からなるオブジェクトの線画用の離散的ラベリング法
A Rich Discrete Labeling Scheme for Line Drawings of Curved Objects

Martin Cooper

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 741-745 , 4 2008

Keywords: scene analysis, shape, constraint satisfaction

曲線で出来たオブジェクト画像を離散的にラベリングする方法を紹介する。そのお陰でオブジェクトは古典的なラベリング法を拡張 して、凸や凹や隠蔽とか外部とかの情報量が増えた。新しいラベルは局面か平面かを識別することを紹介し、平面による表面パッ チによる勾配方向を示す垂直エッジを同定できる。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画素レイヤーを利用した動画中のロバストな前景検出法
Robust Foreground Detection In Video Using Pixel Layers

Kedar Patwardhan Guillermo Sapiro Vassilios Morellas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 4, pp. 746-751 , 4 2008

Keywords: Scene Analysis, Pixel classification

本論文では背景が動いているとか、適当な速さで動くビデオカメラのような困難な画像から前景を切り出すロバストな方法の枠組 みを論じる。ここに提案する方法は2つの主要部分から成る:画素レイヤーの結合として疎な情景表現と、これらレイヤーの伝播に よる最尤割り当てに法よる前景検出である。まず最初に類似の統計量を有する画素をレイヤーにまとめる。すると画像全体はノン パラメトリックなレイヤーモデルに統合される。その後入力してくる画素が、適応的背景モデルに含まれないならば、前景として認 識される。認識を効率的に行うため、閾値を設定するが、これには予め設定された検出誤りの数をロバストに検出するのに使われ る。空間的に近接する画素同士の相関は、位置合せやオプティカルフローの計算無しにカメラの動きを検出するために利用され る。本提案手法は情景の変化に適応し、自動的に永続的な前景画像を背景に変換し、また、背景中に「面白い」ものがあれば、こ れを前景に変換する。この簡単は枠組みで、ロバストな前景検出と、異常な領域を、通常のノートパソコンで毎秒10フレームで検 出できる。本提案手法は、困難な実画像や、他の標準的手法との比較によって、より明確に解る。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.30, No.5


五線除去アルゴリズムの比較研究
A Comparative Study of Staff Removal Algorithms

Christoph Dalitz Michael Droettboom Bastian Pranzas Ichiro Fujinaga

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 5, pp. 753-766 , May 2008

Keywords: Segmentation, Pixel classification, Music (Optical Recognition), Performance evaluation

本稿では、楽譜画像から五線を除去するための様々なアルゴリズムの定量的な比較を行う。これまでに提案されたアルゴリズムのサーベイと、スケルトン化に基づいた新しいアプローチの提案を行う。3つの異なる誤り測量(メトリクス)を定義し、これらを用いてアルゴリズムを比較する。これにより各アルゴリズムの画像の欠損に対する頑健さを測定する。コンピュータにより生成された楽譜に、現実世界でよくみられる様々な歪みを適用して作成した画像を用いてテストを行う。近代西洋記譜法(modern western music notation)に加え、定量記譜法(mensural notation)やリュートタブラチュア(lute tablature文字などを用いる記譜法)などの歴史的な記譜法もテストセットに含めている。本稿で提案した汎用性の高いアプローチおよび評価のための方法論は、五線除去のためだけのものではなく、他の分割問題に対しても同様に適用可能である。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き漢字認識のためのマルコフ確率場に基づいた統計性質構造モデリング
Markov Random Field-Based Statistical Character Structure Modeling for Handwritten Chinese Character Recognition

Jia Zeng Zhi-Qiang Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 5, pp. 767-780 , May 2008

Keywords: Markov random fields, handwritten Chinese character recognition, statistical-structural character modeling

本稿では、手書き漢字認識(handwritten Chinese character recognition: HCCR)のためのマルコフ確率場(Markov random field: MRF)に基づいた統計的構造文字モデリング法を提案する。漢字のストローク間の関係は、その漢字の構造を表しており、これは近傍システムとMRFフレームワーク内のクリークポテンシャルにより統計的に表現することができる。文字構造に関する事前知識に基づいて、この近傍システムを設計し、これにより最も重要なストローク関係を説明する。構造的にMRFに合致しないストローク関係に対しては、事前知識のクリークポテンシャルを用いてペナルティを課する。そしてガウス混合モデルから尤度クリークポテンシャルを導出する。この尤度クリークポテンシャルによりストローク関係の変動を統計的に符号化する。今回提案するHCCRシステムでは、単一サイトの尤度クリークポテンシャルを用いて、文字画像から多数の候補ストロークを抽出する。ペアサイトのクリークポテンシャルを用いて、入力となる候補ストロークと、弛緩ラべリング法により得られるMRFに基づいた文字モデルの間の最良の構造的適合を決定する。KAIST文字データベースによる実験により、MRFが文字構造を統計的にモデル化できること、およびHCCRシステム中で良好な働きを見せることを示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


領域情報と境界情報の融合による奥行き画像における超二次分割
Superquadric Segmentation in Range Images via Fusion of Region and Boundary Information

Dimitrios Katsoulas Christian Cea Bastidas Dimitrios Kosmopoulos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 5, pp. 781-795 , May 2008

Keywords: range data, shape, size and shape, region growing, partitioning, edge and feature detection, surface fitting, applications

画像分割のためのモデリング要素として超二次関数が大きな可能性を持つことは、コンピュータビジョン分野においてこれまで指摘されてきた。本研究では超二次関数を、奥行き画像におけるマルチオブジェクト分割問題のモデリング要素として利用する。この分割は2つの処理段からなる。まず分割パラメタの仮説を生成し、次にこの仮説を局所的に精密化する。これら両方の処理段において、オブジェクト境界情報と領域情報の両方を考慮に入れる。入力となる奥行き画像に対してモデルベースのエッジ検出を施すことで、境界情報を導出する。この境界情報により画像領域を分離することで上記の仮説を生成する。それぞれの領域は超二次関数を用いて高精度に記述される。仮説の精密化においては、ゲーム理論のフレームワークを用いて各領域にそれぞれ目的関数を関連付けることで、領域情報と境界情報の融合を行う。次にこれら2つの目的関数を反復的に最適化することで、すべての画像中のオブジェクトに対する高精度な記述を得る。本アプローチにより、これまでに最も確立された超二次関数を用いた画像分割のための方法を、精度と計算効率の面で更に向上させることができることを実験により示す。プラットフォームに乱雑に並べられた箱形状オブジェクトの自動荷降ろしタスクのための、新しいロボットシステムを構築することで、実世界アプリケーションにおける我々の分割フレームワークの適用可能性を例証する。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


リーマン多様体学習
Riemannian Manifold Learning

Tong Lin Hongbin Zha

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 5, pp. 796-809 , May 2008

Keywords: Dimensionality reduction, manifold learning, manifold reconstruction, Riemannian manifolds, Riemannian normal coordinates.

近年パターン認識、データ解析、そして機械学習分野において、多様体学習が広く活用されている。本稿ではリーマン多様体学習(Riemannian manifold learning: RML)と呼ばれる新しいフレームワークを示す。これは入力となる高次元データが本質的に低次元のリーマン多様体上に広がることを前提とする。このフレームワークのアイディアの核心は、次元性削減問題をリーマン幾何学の古典的な問題として定式化することである。即ち、与えられたリーマン多様体に対してどのように座標系(coordinate charts)を構成するか、という問題として定式化する。リーマン幾何学で最も広く用いられるリーマン基準座標系を、組織化されていないデータ点セットに対して適用する。まず2つの入力パラメタ(近傍サイズkと固有次元(intrinsic dimension)d)を、潜在多様体の効率的な単体再構築に基づいて推定する。次に基準座標を計算することで、入力となる高次元データを低次元空間にマップする。合成データおよび実画像を用いた実験により、我々のアルゴリズムがデータの潜在的な幾何構造を学習する能力を持つこと、放射測地線距離(radial geodesic distance)を保持できること、そして安定した実装が可能であることを示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


混同行列(confusion matrix)摂動解析を用いた分解による効率的なマルチクラスROC近似
Efficient Multiclass ROC Approximation by Decomposition via Confusion Matrix Perturbation Analysis

Thomas C.W. Landgrebe Robert P.W. Duin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 5, pp. 810-822 , May 2008

Keywords: T.C.W. Landgrebe and R.P.W. Duin are in the Information and Communication Theory Group, Delft University of Technology Mekelweg 4, 2628 CD Delft, The Netherlands

ROC解析は2クラス識別問題の設計と評価のための標準的なツールとして利用されてきた。この解析により、起こりうる全ての事前知識、コスト、そして運用ポイントを取り込んだ解析ができる。これは非理想的な条件下での多くの実際の問題において重要である。この方法をマルチクラス問題に拡張することは魅力的であり、これによりROC解析の利点を多くの新しい問題に対して適用することができる。ROC解析が理論上マルチクラス問題に拡張されたとしても、クラス数の関数として表わされる指数関数的な計算複雑性が依然として制約となる。本稿では、いくつかのROC次元が互いに独立であるがゆえに、マルチクラスROCが顕著に単純化できる場合があることを示す。様々なROC次元間の関係を解析するアルゴリズムを示す。独立クラスと相互に関係するクラス群を同定し、これによりROCを分解することが可能となる。ROC下の体積と同じように、コストに敏感な最適化やネイマン・ピアソン(Neyman-Pearson)最適化などのアプローチを考慮に入れると、ほぼ理想的な形で合成ROC超曲面を同定することができる。多数の実例と実験により、この方法論の可能性を示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


空間可変な数理形態学の理論基盤part I:二値画像
Theoretical Foundations of Spatially-Variant Mathematical Morphology Part I: Binary Images

Nidhal Bouaynaya Mohammed Charif-Chefchaouni Dan Schonfeld

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 5, pp. 823-836 , May 2008

Keywords: Morphological, Filtering

ユークリッド空間における二値画像のための、空間的に可変な(spatially-variant:SV)数学的形態学の一般理論を開発する。基本的なSV形態学上の演算(すなわちSV侵食(erosion)、SV拡張(dilation)、SV開放(opening)、そしてSV閉合(closing))を定義する。増加演算子のSVカーネル表現を与え、これによりSV形態学演算子の偏在性を示す。この表現は増加演算及び並進不変演算に関するマトゥロン(Matheron)表現理論の一般化である。増加演算子の表現のためには類似したSVカーネルの部分集合で十分であるという意味において、SVカーネル表現は頑健である。Hit-or-missトポロジーにおける上半連続という意味においての、最小基底表現の存在を保証するための十分条件を示す。最小基底表現は増加演算子及び並進不変演算子のためのMaragosの最小基底表現の一般化である。更に、基本的なSV形態学的演算子の上半連続の性質について調査する。いくつかの例を用いて空間可変数学的形態学の理論が様々な空間可変な幾何構造要素(たとえば円、アフィン)形態学スキームの統合のための一般的なフレームワークを与えることを示す。シミュレーション結果により、提案した空間可変形態学的フレームワークの理論と、様々な画像処理アプリケーションにおける潜在的能力を示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


空間可変な数理形態学の理論基盤part I:グレーレベル画像
Theoretical Foundations of Spatially-Variant Mathematical Morphology Part II: Gray-Level Images

Nidhal Bouaynaya Dan Schonfeld

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 5, pp. 837-850 , May 2008

Keywords: Morphological, Filtering

ユークリッド空間におけるグレーレベル信号と画像のための、空間的に可変な(spatially-variant:SV)数理形態学理論を開発する。提案する理論では、古典的形態学の論理基盤を与える構造化関数の幾何的なコンセプトを保持する。これは同時に信号および画像処理アプリケーションで必須となるものである。基本SVグレーレベル形態学演算子(たとえばSVグレーレベル侵食(erosion)、拡張(dilation)、開放(opening)、そして閉合(closing))を定義し、これらの性質について調査する。Vシステムと呼ばれるシステムの大きなクラスのためのカーネル表現を導出することで、基本SV形態学的演算子に関するSVグレーレベル形態学システムの偏在性を示す。Vシステムはグレーレベル演算子として定義される。これはグレーレベル(垂直方向)変換に対して不変である。SVフラットグレーレベル演算子に対して特に注意を払っている。上記の増加するVシステムのためのカーネル表現は、増大不変及び並進不変関数の処理システムのためのMaragosのカーネル表現の一般化である。増加Vシステム及び上半連続Vシステムのためのカーネル要素に関するVシステムの表現を確立した。この表現により空間可変の線形および非線形システムが同一の数学的フレームワークのもとで統合される。最後にシミュレーション結果により、いくつかの画像解析およびコンピュータビジョンのアプリケーションにおけるグレーレベル空間可変数理形態学の可能性を示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ソボレフ(Sobolev)動的輪郭を用いた“粗から密へ”戦略による分割とトラッキング
Coarse-to-Fine Segmentation and Tracking Using Sobolev Active Contours

Ganesh Sundaramoorthi Anthony Yezzi Andrea Mennucci

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 5, pp. 851-864 , May 2008

Keywords: Active contours, segmentation, coarse-to-fine segmentation, tracking, gradient flows, global flows

近年提案されたソボレフ(Sobolev)動的輪郭は、曲線の摂動に関する古典的なコストを変更することで、曲線に対して定義されたエネルギーの最小化に関する新しいパラダイムを導入した。古典的な動的輪郭に比べ、ソボレフ動的輪郭はより大域的に発展し、中間的な極小にとらわれることが少ない。またソボレフ動的輪郭は高度に構造化されたリーマン計量に基づいている。本稿では、ソボレフ動的輪郭が様々なスケールでどのように発展するかを理解するために、尺度空間解析を利用した解析を行う。この解析によりソボレフ動的輪郭の極めて重要かつ有益な性質を示す。これはすなわち、ソボレフ動的輪郭は、継続的に、粗から密に動きのスケールを変えながら動くということである。この性質は、粗なスケールでの変形が密なスケールでの変形よりも好まれるようなアプリケーションにおいて、ソボレフの手法を用いる理由の一つとなっている。ここで議論される他の性質に加え、上記の粗から密への戦略を観察することにより、ソボレフ動的輪郭が、トラッキングアルゴリズムに特に適していることが明らかになる。ソボレフ法を用いて動的輪郭を発展させるだけで、動的輪郭に基づくさまざまなトラッキング法がどれだけ顕著に向上するかを実験により示し、これによりトラッキング問題では、古典的な計量よりもソボレフ計量を用いるべきであるという我々の主張を正当化する。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


関節でつながった非剛体形状、動き、および連鎖(kinematic chain)をビデオから復元するための、因数分解に基づいたアプローチ
A Factorization-Based Approach for Articulated Nonrigid Shape, Motion and Kinematic Chain Recovery From Video

Jingyu Yan, IEEE Marc Pollefeys, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 5, pp. 865-877 , May 2008

Keywords: computer vision, 3D scene analysis, motion, shape, articulated, non-rigid, kinematic chain, factorization method

関節でつながったオブジェクトの形状および動き、特に人間の体の動きを、ビデオから復元することは難しい問題であり、医療科学、スポーツ解析、そしてアニメーションなどの広い応用分野を持つ。関節でつながった物体の動き復元に関するこれまでの研究では、一般的に連鎖(kinematic chain)に関する事前知識が必要とされており、また、そのオブジェクトの形状を復元することには注意を払わないのが一般的である。関節でつながったパーツの非剛体性、例えば非剛体的な顔の動きを伴う人体の動きなどは、完全に無視されている。本稿では、このような間接でつながったオブジェクトと非剛体パーツの形状、動き、そして連鎖を全てまとめて統合されたフレームワークのもとで直接ビデオ系列から復元するための、因数分解に基づいたアプローチを提案する。提案アプローチは、関節でつながった非剛体動きを、特徴的な動き部分空間としてモデル化することに基づいている。動き部分空間は、オブジェクト軌道の線形部分空間である。これにより剛体および非剛体オブジェクトの動きをモデル化することができる。リンクされたパーツの2つの動き部分空間の共通部分により、オブジェクト間の間接および軸のモデル化を行う。我々のアプローチは、動き分割、連鎖構築、そして形状復元のためのアルゴリズムの組により構成される。このアプローチにより、はずれ値も扱うことができ、また、処理を自動化することもできる。合成データおよび実データを用いた実験により我々のアプローチを試験する。これにより、連鎖に関する事前知識なしに、単一視点から撮影されたビデオから非剛体を含む関節でつながったオブジェクト構造をどのように復元するかを例証する。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動きからの非剛体構造復元:階層化された事前確率を利用した形状と動きの推定
Nonrigid Structure-from-Motion: Estimating Shape and Motion with Hierarchical Priors

Lorenzo Torresani Aaron Hertzmann Chris Bregler

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 5, pp. 878-892 , May 2008

Keywords: Motion, Shape, Machine learning, 3D/stereo scene analysis

未校正の二次元ポイントの追跡情報から、時間変化する非剛体三次元オブジェクトの形状と動きを復元するための方法を示す。例えば喋っている人のビデオ映像が与えられた場合に、各時点のこの人の顔の三次元形状を推定し、また顔の変形のモデルを学習したい。時間変化する形状は剛体変換を非剛体変形と組み合わせてモデル化される。任意の変形が許される場合には、この再構成は不良設定問題であり、それゆえ変形に関する追加の前提条件が必要とされる。まず我々はオブジェクト形状が低次の部分空間に入るように拘束をかけることを提案し、推定アルゴリズムについて述べる。しかしこの拘束のみでは、再構成に対する拘束として不十分である。これらの問題に取り組むために、確率的主成分分析(Probabilistic Principal Components Analysis:PPCA)形状モデル、及び、推定アルゴリズムを用いる再構成法を提案する。このアルゴリズムは、各時点での三次元形状と動きを同時に推定し、PPCAモデルパラメタを学習し、そして欠落データ点を頑健に補填する。次にオブジェクト形状の時間変化をモデル化するために、重度のデータ欠落に対して頑健に対応できるように、上記アルゴリズムを拡張する。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


異常(anomaly:アノマリー)検出のためのビデオを用いた挙動プロファイリング
Video Behavior Profiling for Anomaly Detection

Tao Xiang Shaogang Gong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 5, pp. 893-908 , May 2008

Keywords: Behaviour profiling, Anomaly Detection, Dynamic Scene Modelling, Spectral clustering, Feature Selection, Dynamic Bayesian Networks.

本稿では、監視ビデオにより撮影された映像を用いた挙動のモデル化の問題を取り扱う。これはオンラインの通常挙動認識と異常検出アプリケーションのためのものである。自動挙動プロファイリング及び、訓練データ集合に対する手動のラベル付けを必要としないオンライン異常抽出/検出のための、新しいフレームワークを開発する。このフレームワークは、下記の主なコンポーネントからなる。(1)離散シーンイベント検出に基づいたコンパクトで効率的な挙動表現法を開発する。動的ベイズネットワーク(Dynamic Bayesian Network:DBN)を用いて各パターンをモデル化し、これにより挙動パターン間の類似性計測する。(2) 新しいスペクトルクラスタリングアルゴリズムにより、教師なし学習モデル選択、及び正規化アフィン行列の固有ベクトルに関する特徴選択を行い、挙動の自然なグループ化を見つける。(3) 検出されていない通常の挙動パターンの変動に順応するために、小規模の訓練集合から一般化可能な混成生成的挙動モデルを構成する。(4) オンライン尤度比テスト(Likelihood Ratio Test:LRT)法に基づいて、充分な視覚的根拠が得られたときに通常の挙動パターンが認識されるのに対し、異常挙動を検出するためには、実時間動作が可能な累積的異常計量を導入する。これにより、最短時間での頑健かつ信頼性の高い異常検出および通常挙動の認識を確実にする。室内および屋外の監視カメラにより撮影された、ノイズを含み、かつ疎なデータセットを用いた実験により、我々のアプローチの効果と頑健性を示す。特に重要なのは、ラベル付けされていないデータセットを用いて訓練された挙動モデルが、同じデータセットをラベル付けして用いた場合よりも、試験データセットにおける異常検出において優れた性能を示すことである。この実験により我々のオンラインLRTに基づいた挙動認識アプローチが、オンラインで観察された様々な挙動クラス間の不明瞭性を区別するタスクにおいて、一般に用いられる最大尤度法(Maximum Likelihood (ML) method)よりも優れていることが示唆される。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的テクスチャの混合による、ビデオ情報のモデリング、クラスタリング、及び分割
Modeling, Clustering, and Segmenting Video with Mixtures of Dynamic Textures

Antoni B. Chan, IEEE Nuno Vasconcelos, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 5, pp. 909-926 , May 2008

Keywords: Dynamic texture, temporal textures, video modeling, video clustering, motion segmentation, mixture models, linear dynamical systems, time-series clustering, Kalman filter, probabilistic models, expectation-maximization

動的テクスチャはビデオのための時空間生成的モデルであり、ビデオ系列を線形動的システムからの観測として表現する。本研究ではビデオ系列の集合のための数学的モデルである動的テクスチャの混合について検討する。このビデオ系列は有限な映像処理から取り出されたものであり、それぞれが動的テクスチャとなっている。期待値最大化法(expectation maximization:EM)アルゴリズムを導出することにより、このモデルのパラメタ学習を行う。このモデルは線形システム、機械学習、時系列クラスタリング、制御理論、そしてコンピュータビジョンにおけるこれまでの研究に関連している。実験により、動的テクスチャの混合が、多くの種類の映像処理の外観とダイナミクスのための好適な表現であることが示される。これらの表現はコンピュータビジョンの分野によって変わってきていた(例えば炎、蒸気、水、車両、そして歩行者など)。時間テクスチャ法及び古典的な表現(例えばオプティカルフローもしくは他の局所化された動き表現)を含む、動き分割に関して最新の方法と比較した場合、これらの処理におけるビデオクラスタリングと分割において、動的テクスチャの混合はより優れた性能を発揮する。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.30, No.6


Zero-poleモデルに基づく指紋画像中の特異点検出
Singular Points Detection Based on Zero-Pole Model in Fingerprint Images

Lingling Fan Shuguang Wang Hongfa Wang Tiande Guo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 929-940 , 6 2008

Keywords: Pattern Recognition, Industry

特異点を決めるためのアルゴリズムとして、zero-pole法とハフ変換(HF)法を組合わせた。特異点の方位はzero-poleモデルによって決定されたが、これによりzero-poleモデルの有用性も説明できる。方位場の生成に比べ特異点の検出は単純化できてzero-poleモデルのパラメータ決定問題となる。HTは指紋画像の特異点検出に、広域的な情報の利用を可能にする。これによって、我々の方法は、局所情報だけを利用する方法に比べ、ノイズなどにロバストになる。Zero-poleモデルは実際の指紋画像の方位場と比べ若干曲っているので、検出された特異点候補の近傍で位置の調整を行うためポアンカレ指標を利用する。NIST-4に対する実験結果は、本手法の有効性と実時間高速処理性を示している。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


6つのページセグメンテーション方法の性能評価とベンチマーキング
Performance Evaluation and Benchmarking of Six-Page Segmentation Algorithms

Faisal Shafait Daniel Keysers Thomas Breuel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 941-954 , 6 2008

Keywords: Document analysis, Optical character recognition

OCRが有効であるかないかはしばしばその前段のページセグメンテーションの性能に依存するが、これを最適化することは有効なベンチマークとして重要である。従来の評価スコアでは、ページセグメンテーションのある種のエラー診断には不十分で、セグメンテーションエラーによって完全に認識不能になることがある。本論文では、最も重要なセグメンテーションエラーである過剰、不足、誤セグメンテーションに鋭敏で、かつ、これらを識別可能なだけでなく、誤りを犯したページ成分が、行、ブロックなどのどれであるかを識別可能なベクトルスコアを導入する。以前の方法と異なり、この評価法は正解画像を基準としており、任意の領域形状に対して画素レベルの精度を保証している。我々は広く利用されているセグメンテーションアルゴリズムである、x-y カット、 smearing, 空白領域解析, 制約つき文字行、 docstrum, および、 Voronoiの各手法をUW-IIIデータベースに対して施した結果を示し、新しい評価法は各セグメンテーション法に対していくつかの欠陥があることを示す。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔表現とスケッチのための階層的な顔部品モデル
A Hierarchical Compositional Model for Face Representation and Sketching

Zijian Xu, Hong Chen, Song-Chun Zhu, Jiebo Luo,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 955-969 , 6 2008

Keywords: Image Processing and Computer Vision, Hierarchical, Statistical

複数の解像度の顔を構造的に可変表現可能な顔構造の3階層部品モデルとして表せるAnd-Orグラフを紹介する。このAnd-Orグラフにおいて、ある種のグラフ構造は関連した関係を保ってOrノード集合に延びているAndノードは、グラフ構造の分解を表現しており、Orノードは、これに交替可能なAndノードへのスイッチ変数の機能を持つ。顔は階層的に表現されている:第1レイヤーは顔全体を扱い、第2レイヤーは各テンプレート集合から成る顔部品を接続して高精度に表し、第3レイヤーは顔を15の領域に分け、目の縁やシワのような顔特徴をモデル化する。レイヤー間の遷移は、顔画像の複雑度が与えられたときの最小記述長を尺度として実現される。多様な顔表現は顔、部品、皮膚特徴の階層的辞書から作られる。スケッチには、顔の簡潔で潜在的にロバストな表現のために、顔のもっとも表情に富む部分を捉える。良い顔のスケッチを生成するには、豊な顔の細部と大きな構造的変動が要求され、特に高解像では、困難な課題である。我々のシステムの生成モデルの表現力は高解像顔画像と漫画スケッチの生成で実演する。このモデルは顔認識や写真によらない描画、超高解像や低ビットによる符号化に有用である。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大きな姿勢の差がある顔画像の認識における連結因子解析
Tied Factor Analysis for Face Recognition across Large Pose Differences

Simon J.D. Prince, James H. Elder, Jonathan Warrell, Fatima M. Felisberti,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 970-984 , 6 2008

Keywords: Computer vision, Face and gesture recognition

顔認識において顔の姿勢が大きく異なるときはその認識効率はきわめて低下する:典型的特徴量ベクトルは類似度以上に姿勢に依存して変化する。我々は、1つの理想的空間から観察空間への1対多を生成するマッピング生成モデルを提案する。恒等空間において、各個人の表現は姿勢に依存して変化しない。測定した特徴量ベクトルは、姿勢に応じたガウスノイズを伴う自己パラメータの線形変換によって生成される。このモデルを連結された因子分析と呼ぶ。ここで線形変換因子の選択は姿勢に依存するが、1人1人の(連結の)負荷は一定である。学習データに対する線形変換、ノイズパラメータの推定には、EMアルゴリズムを使用する。可能性のあるマッチングに対しては全範囲での事後確率による確率的距離尺度を提案する。我々は新規な特徴抽出プロセスとFERET、XM2VTS や PIEデータベースを使った認識効率を紹介する。この認識結果は現在の手法と比較され、我々の手法の優位性が示された

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コンピュータによる画像の実時間注釈付け
Real-Time Computerized Annotation of Pictures

Jia Li James Z. Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 985-1002 , 6 2008

Keywords: Statistical computing, Multimedia databases, Indexing methods, Algorithms, Image/video retrieval

デジタル画像にコンピュータで自動的に注釈付けする有効な手法の開発はコンピュータ技術者には今もって困難な課題である。コンピュータで画像に注釈付けする機能は多くの用途への突破口となり、例えば、ウェブ画像の探索、オンライン画像共有ブループ、科学実験などが考えられる。本研究において、著者たちは機械学習における2つの基本的課題において、新規な最適化手法と推定法を開発した。これらの新手法は、画像への自動的言語索引付けーオンライン画像への全自動で高速の実時間注釈付け(ALIPR)を行う。とくに、ベクトルに対するk-mean法と同じ意味で、重み付きベクトルのバッグで表現される対象をグループ分けするD2クラスタリング法を開発した。さらに、一般化混合モデル法(特別な場合はカーネル平滑化法)を、新規な考え方である仮想的局所写像法(Hypothetical Local Mapping (HLM))を利用して開発した。ALIPRは、インターネットの画像共有サイトの何千と言う写真を利用してテストし、これらと供給源を異にする画像を利用して学習させた。この性能は、オンラインデモのサイトでテストされたが、ここでは任意の利用者が自分たちの好きな画像を対象に注釈付けの結果の評価をしてくれる。この実験結果から、単一コンピュータで注釈付けの単語を実時間で提示し、その結果は良い精度を示した。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2値画像データベース中からの幾何情報に基づく検索
Geometry-Based Image Retrieval in Binary Image Databases

Naif Alajlan Mohamed S. Kamel George H. Freeman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 1003-1013 , 6 2008

Keywords: Shape, Size and shape, Hierarchical

本論文では複数のオブジェクト画像を対象にした幾何学的情報に基づく検索システムを開発したので報告する。ここでは画像オブジェクトに曲率木(curvature tree = CT)と称する構造上法を利用し、形状と位相の両方をモデル化した。CTの階層構造は画像ブジェクト間の包含関係を反映している。形状に基づくマッチングを実現するために各オブジェクトの三角形領域表現(TAR)の対応するCTノードに記憶されている。2つの多数オブジェクト画像の類似度は、CT 間の最大類似部分木同形性(MSSI)によって測定される。このため、MSSI問題を解くための回帰アルゴリズムと、属性ノード間の類似性を測るための効率的な動的計画法を採用した。我々のマッチング法は多数オブジェクトに対する最新の心理的な人間の認知法と良い一致を示す。13500の医学用実画像、合成画像のデータベースと、1400の形状を有するMPEG-7 CE-1データベースに対する実験の結果、本手法の有効性が示された。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


光子のカウント数が少ない画像のエッジ保存フィルタリング
Edge-Preserving Filtering of Images with Low Photon Counts

John A. Lee Xavier Geets Vincent Gregoire Anne Bol

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 1014-1027 , 6 2008

Keywords: Filtering, Image processing software, Statistical computing

局所M平滑化や双方向フィルタリングのようなエッジ保存性フィルタリングは、多くの場合はガウスノイズを対象として設計されている。本論文では何故これらのフィルターがポアソンノイズに適応できるかを調べてみる。さらに、フィルター係数が正規化される方法を変えることで、測光不変性の問題を述べている。ここに述べられている正規化は、乗算的ではなく、加算的である。これによって異方性拡散と強く関連する。測光不変性を確保させることで、2乗平方根の意味で、それに見合うノイズ除去が効率よく達成される。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


識ベイズの枠組みの中で空間モデルを使った多層3D-Lidarデータの構築
Multilayered 3D LiDAR Image Construction Using Spatial Models in a Bayesian Framework

Sergio Hernandez-Marin Andrew M. Wallace Gavin J. Gibson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 1028-1040 , 6 2008

Keywords: Image Processing and Computer Vision, Reconstruction, Multidimensional, Statistical, Markov random fields, Range data, Pattern Recognition, Statistical, Pattern analysis, Computer vision, Military, Medicine, Remote sensing, Signal processing

標準的3D画像形成システムでは、単一の不透明な表面から画素あたり1回の反射信号しか利用しない。しかしlaser反射信号では表面が深さ方向に分布していたり、半透明であったりして、ビームがぶつかる対象物の信号には多数のピークが生じることがある。もしすべての反射データが処理されると、より豊富な情報を有する多層の3D画像が生成される。我々はマルコフ確率場を通じてPotts事前モデルとともに空間的制約条件を課したベイズ法を使ってLIDAR データを処理する統合理論を提案する。これによって根底に存在する空間的不確実性をモデル化できる。この事前モデルに内蔵する固有の欠点を弱めるため、2つの分布を提案する;(1)空間モードジャンプ、(2)空間生死プロセス。いくつかの反射信号のパラメータは逆ジャンプマルコフ連鎖モンテカルロ法と適応的遅延拒絶法を組合せによって改善・推定された

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


誤り訂正出力符号化のための部分クラス問題に依存した設計
Subclass Problem-Dependent Design for Error-Correcting Output Codes

Sergio Escalera David M.J. Tax Oriol Pujol Petia Radeva Robert P.W. Duin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 1041-1054 , 6 2008

Keywords: Pattern Recognition , Machine learning, Statistical Models, Pattern Recognition, Computing Methodologies, Classifier design and evaluation, Design Methodology, Pattern Recognition, Computing Methodologies

多数クラスを対象にした識別課題の通常の方法は誤り訂正出力符号化(ECOC)法である。与えられた多数クラス課題に対して、ECOC法では各クラスごとに符号を設計し、ここで各符号の位置によって、与えられた2値問題の構成要素が同定される。識別の決定には、最も近い符号のクラスのラベルを与える。ECOC設計における主な要請事項の1つとして、底の識別器が、クラスの部分グループを各2値課題から分割可能なことが必要である。しかし、線形識別器が凸領域をモデル化できるかどうかの保障はない。さらに、非線形識別器でも、ある種の表面は識別できない。本論文では、ECOCの枠組みで、部分クラスの情報を利用して多数クラス識別課題を達成する新規な戦略を示す。複雑な問題は元のクラス集合を部分集合に分割することで解けるし、2値問題は問題依存性ECOC設計に分割可能である。実験から、このような分割戦略は、クラスが重なったり、学習オブジェクトの分布が底の識別器の決定境界を隠している場合には、良い結果が得られた。また、十分大きな学習用データを有する場合には、結果はもっと顕著であった。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複雑な構造のデータの識別のための3連結マルコフ場(Triplet Markov Fields)
Triplet Markov Fields for the Classification of Complex Structure Data

Juliette Blanchet Florence Forbes

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 1055-1067 , 6 2008

Keywords: Triplet Markov model, Supervised classification, Conditional independence, Complex noise models, High dimensional data, EM-like algorithms

我々は複雑なデータを識別する問題について述べる。まず、複雑度について、3つの主要な原因に注目する;観察データの次元が高いこと、観察の相互の関連性、そして、分布を規定するノイズモデル。我々は最近のTriplet Markov Fieldsモデルを調べ、これに属するモデルで、非常に一般的なノイズを扱える新たなモデルを提案する。さらに、このモデルに学習段階を整合良く含ませることも可能であり、その結果教師付き学習にも利用できる。本方式の1つの利点は初期のノイズモデルが複雑であろうとも、最新のベイズクラスタリング法によって、通常の簡単化した仮定を利用してパラメータの推定ができることである。教師付きの場合は、識別可能な条件付確率場に代わる生成モデルと見なされる。同定可能性問題は、教師無しのモデルについて議論したが、他方、多様な複雑度を有するデータ源を示すシミュレーションと実データについてのモデルの効率について図示されている。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


滑らかさに基づく事前予測によるマルコフ確率場のエネルギー最小化法の比較研究
A Comparative Study of Energy Minimization Methods for Markov Random Fields with Smoothness-Based Priors

Richard Szeliski Ramin Zabih Daniel Scharstein Olga Veksler Vladimir Kolmogorov Aseem Agarwala Marshall Tappen Carsten Rother

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 1068-1080 , 6 2008

Keywords: Performance evaluation of algorithms and systems, Markov random fields, Global optimization, Graph cuts, Belief propagation

"画素の奥行きやテクスチャー演算のようなラベリング課題のために、効率的なエネルギー最小化アルゴリズムが開発されてきたことは、初期の画像の研究におけるもっとも刺激的な進歩であった。このような問題はマルコフ確率場でエレガントに処理できることが何十年も前から知れれているが、これによるエネルギー最小化問題は、一般的には扱いにくいと思われていた。最近、グラフカットとかloopy belief propagation (LBP)(確率伝播法をベイズネットに適用したもの)とかの新しい強力な手法が開発された:例えば、ステレオ法における最効率アルゴリズムは、ほとんどこの方法を基礎にしている。しかし、異なるエネルギー最小化法の中でどれがよいかは、まだ良く解ってない。本論文ではいくつかのエネルギー最小化法の評価基準を作り、これを使って、いくつかのエネルギー最小化アルゴリズムの解の質、計算時間の比較をした。その中で3つの有力な方法である、グラフカット法、木再重み付けメッセージ通過法、および、よく知られた反復条件モード(ICM)法を調べた。これらの評価問題は、ステレオ、画像貼り合せ、対話型セグメンテーション法、ノイズ除去のための既知のエネルギー最小化法から引用したものである。我々は更に、研究者が最適化法を簡単に変更できるような汎用のソフトウエアインターフェースを提供する。ベンチマーク、コード、画像、処理結果などは、以下を参照;http://vision.middlebury.edu/MRF/."

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2次元リーマン多様体上でのオプテイカルフローと移流:共通の枠組み
Optical Flow and Advection on 2-Riemannian Manifolds: A Common Framework

Julien Lefevre, Sylvain Baillet,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 1081-1092 , 6 2008

Keywords: Partial Differential Equations, Finite element methods, Hyperbolic equations, Elliptic equations, Approximation of surfaces and contours, Global optimization, Data and knowledge visualization, Feature extraction or construction, Time-varying imagery, Biology and genetics

オプティカルフロー法を利用することで、動的パターン解析や動き抽出は効率よく記述できる。本論文ではこれら問題の非ユークリッド曲面上での一般化について述べるが、ここでのオプティカルフローは非ユークリッド領域における発展課程として扱うことができる。ユークリッド空間での古典的オプティカルフロー方程式は微分幾何の理論的枠組みに置き換えられる。この定式化を正則化されたオプティカルフロー問題として採用し、これが数学的に扱い易く、移流方程式と結ばれることを証明する。オプティカルフローと移流方程式は双対である:動き場はオプティカルフローを利用したスカラーの発展から導くことができるし、逆にスカラー場は移流を利用して速度場から導ける。これらの原理は両方式を繋ぐ数値シミュレーションから定量的・定性的評価とともに図示されている。この概念実証のために、更に、機能脳画像の時系列データからの初歩的結果とともに示されており、ここでは、我々の手法による組織化された大脳皮質活性化パターンの伝達が証拠となる。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的に発展する曲線の幾何学的観察
Geometric Observers for Dynamically Evolving Curves

Marc Niethammer Patricio A. Vela Allen Tannenbaum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 1093-1108 , 6 2008

Keywords: computer vision, observers, active contours

本論文は、ノンパラメトリックな絶対的な曲線表現に基づく、視覚による追跡のための決定論的観察者の枠組みを提案する。観察者は連続—整数表現で、連続時間系の動的系で、時間計測は整数系である。この状態—空間は、推定曲線位置のすべての点で、追加された状態(すなわち速度)で補強されている。状態推定のために、複数のシミュレーションモデルが提案される。この計測は、標準的な静的セグメンテーションアルゴリズムとオプティカルフローの計算を使って行われた。全体の動的システムの幾何学的定式化は、特に強調したい。整数値の時間測定を使うために、幾何学的曲線の補間が必要になることがあるし、整数フィルタリングによる数値は、推定曲線に沿って移動する。補間とフィルタリングは、曲線間の対応問題と密接に関連している。ラプラス方程式によって対応関係は定式化されている。この提案方式は完全に陰形式で表現されている(輸送方程式のオイラー法による数値解によって)ため、計算上の格子上での位相的な変化や画素以下の精度での自然な変化を許容している。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンライン署名照合のための手袋を用いた方法
Glove-Based Approach to Online Signature Verification

Nidal S. Kamel Shohel Sayeed Grant A. Ellis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 6, pp. 1109-1113 , 6 2008

Keywords: Handwriting analysis, Pattern Recognition

データグローブ(手の動きを検出する手袋)を利用した手と指の多自由度によって、数値的な署名の識別と照合のための特異値分解(singular value decomposition = SVD)を使った新規なオンライン署名照合システムを紹介する。この提案手法は、主成分部分空間(principal subspace)と呼ばれる手袋データ行列Aの最大エネルギーを求めるためにr個の特異ベクトルを特異値分解によって求めるもので、これによって実効的なA行列の次元は減少できる。このr個の主成分部分空間によってデータグローブの署名データをモデル化することで、署名の認証は、異なる部分空間間の角度を求めれば良い。データグローブは効率的な高バンド幅のデータ入力装置として実演された。このSVDによる署名実証法は実験の結果、誤り受容率1.2%以下で認識できることが示された。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.30, No.7


クラス条件付き確率密度のギブスモデリングによるアラビア文字のオンラインベイズ識別
Bayes Classification of Online Arabic Characters by Gibbs Modeling of Class Conditional Densities

Neila Mezghani Amar Mitiche Mohamed Cheriet

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1121-1131 , July 2008

Keywords: Clustering, classification, and, association rules, Associative memories

本研究では、タンジェント差分のヒストグラムおよび、クラス条件付き確率密度関数のギブスモデリングにより表わされる、アラビア文字のオンラインベイズ識別について検討する。これらのギブス確率密度関数のパラメタは、Zhu, Wu and Mumfordの拘束条件下における最大エントロピー形式に従って推定される。この形式はもともと画像および形状の合成のために開発されたものである。我々は2つの分割関数推定方法について検討する。ひとつは訓練集合を用いるものであり、他方は参考となる確率分布から引用する方法である。22人の筆記者による9504個の手書き文字サンプルからなるデータベースを用いた実験により、対応するベイズ決定法の効率と、これらを組み合わせた方法の効率を示す。最近傍ルールに基づいた方法とコホネン(Kohonen)のニューラルネットワーク法に対する比較結果を示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


階層化画像分解および単純化のための拘束条件付き連結性
Constrained Connectivity for Hierarchical Image Decomposition and Simplification

Pierre Soille

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1132-1145 , July 2008

Keywords: Image Processing and Computer Vision, Hierarchical, Region growing, partitioning, Clustering, Segmentation, Graph-theoretic methods

本稿では拘束条件付き結合性パラダイムに基づいた画像分割および単純化のための方法を導入する。2つの画素が一連の拘束条件を満たす場合には、このパラダイムに則って、これら2つの画素を結合する。上記拘束条件は、明確な画素経路や領域に沿った最大グレーレベル差などの単純な尺度に関して定義される。結果として得られる結合性関係により、画像定義領域における一意な分割を生成する。画像の単純化は、各分割領域にその領域の平均画素値を割り振ることで得られる。各結合性拘束条件に関連付けられた閾値を変化させることで、密から疎戦略に基づいた分割階層(およびこれに基づいて順次単純化の度合いが増す画像セット)が生成される。本稿ではまた、マルチチャネル画像に対する本手法の一般化、アプリケーション、関連する画像分割手法のレビュー、及びキュー・スタックを用いたデータ構造に基づいた実装のための疑似コードを与える。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


有限混合モデル学習のためのTRUST-TECHに基づいた期待値最大化法
TRUST-TECH-Based Expectation Maximization for Learning Finite Mixture Models

Chandan K. Reddy Hsiao-Dong Chiang Bala Rajaratnam

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1146-1157 , July 2008

Keywords: expectation maximization, unsupervised learning, finite mixture models, dynamical systems, stability regions, model-based clustering.

初期化問題があるにもかかわらず、期待値最大化(Expectation-Maximization:EM)アルゴリズムは有限混合モデルのパラメタ推定に広く用いられている。最もポピュラーなモデルに基づくクラスタリング技法では、パラメタが適切に初期化されない場合、おそらく程度の低いクラスタリング結果しか得られないだろう。本稿では、初期データ点に対する感度を低減するために、多変量データからの混合モデルのための新しいアルゴリズムを導入する。提案アルゴリズムはTRUST-TECH(TRansformation Under STability-reTaining Equilibra CHaracterization)を利用し、安定性領域を用いることで尤度表面の近傍の極大値を計算する。基本的に我々の方法は、古典的なEM法の利点と、log尤度関数に対応する非線形力学系の安定性領域の動的および幾何的な性質を統合するものである。パラメタ空間において、EMフェーズ、安定性領域フェーズと呼ばれる2つのフェーズを交互に繰り返すことにより、最大尤度を向上させる。EMフェーズは尤度関数の極大値を与え、安定性領域フェーズは、近傍の安定性領域に向かって動くことで極大値に捕らわれることを防ぐ助けとなる。このアルゴリズムは合成データおよび実データを用いてテストされており、他のアプローチと比較した場合の性能向上についても例証する。初期化に対する頑健性についても実証的に示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大規模データセットからのランキング関数学習のための高速アルゴリズム
A Fast Algorithm for Learning a Ranking Function from Large-Scale Data Sets

Vikas C. Raykar Ramani Duraiswami Balaji Krishnapuram

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1158-1170 , July 2008

Keywords: Machine learning, Algorithms

本稿で我々は、訓練データのWilcoxon-Mann-Whitney統計量の一般化を最大にするランキング関数の学習問題を取り扱う。誤差関数の$¥epsilon$精度近似に基づき、$¥mathcal{O}(m^2)$からランキング関数を学習するための、共役勾配法アルゴリズムの各反復における計算複雑性を削減する。ここで$m$は訓練集合のサンプル数である。一般に公開されている順序回帰と協調フィルタリングのためのベンチマークを用いた実験により、同じ訓練データを利用した場合に提案アルゴリズムが現在の最良の方式と同程度に正確であることが示される。しかし我々のアルゴリズムは最新のアプローチに比べ数桁高速であり、はるかに大規模な訓練データセットを用いることができる。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


隠蔽検出器を用いた動き分割および奥行き順序化
Motion Segmentation and Depth Ordering Using an Occlusion Detector

Doron Feldman Daphna Weinshall

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1171-1185 , July 2008

Keywords: Image Processing and Computer Vision, Video analysis, Motion, Depth cues, Segmentation

本稿では、ビデオ画像系列中の一般的な動きから、動き分割および奥行き順序化を行うための新しい方法を示す。まず時空間領域の微分特徴量に基づいて動き分割を計算する。動き境界が与えられた場合に、2つもしくは3つの画像フレームから奥行き順序を決定するための2つのアルゴリズムについて説明する。我々のモデルの特筆すべき特徴は、わずか2つのフレームから奥行き順序を計算する能力である。6つの一般的な動きの実画像系列での実験で、本稿で示す動き分割および奥行き順序化アルゴリズムが良好な結果を与えることを示す。合成データを用いた実験により、ノイズ過多および強度の照明変化に対する提案手法の頑健性を示す。最後に、人間の奥行き順序づけ能力を検証する実験について述べる。この実験では、我々のアルゴリズムと同様に、人間の持つ能力が、ひとつの画像フレームにおいて階層間の境界が見えない場合においてさえ、奥行き順序をわずか2つのフレームから計算できることが示される。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


連続カーネル密度近似と実時間ビジュアルトラッキングへの応用
Sequential Kernel Density Approximation and Its Application to Real-Time Visual Tracking

Bohyung Han Dorin Comaniciu Ying Zhu Larry S. Davis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1186-1197 , July 2008

Keywords: Computer vision, Computer vision, Statistical, Statistical, Tracking

コンピュータビジョン問題における視覚特徴は、確率密度関数を用いてモデル化されることが多い。しかし混合ガウシアンモデルやカーネル密度推定などの現在の方法は、混合におけるガウシアンコンポーネントの数が固定されていたり、この数に制約があるなど柔軟性が低く、また、上記密度のノンパラメトリック表現を維持するための計算に、大量のメモリ空間を必要とするなどの問題がある。また、新しいデータが入力されるたびに密度関数を最新の状態に保つことが必要とされているために、上記問題は実時間のコンピュータビジョンアプリケーションにおいて一層難しくなる。我々は平均値シフト法によるモード発見アルゴリズムに基づいた新しいカーネル密度近似手法を示す。また、この密度モードを連続的に伝播させる効率的な方法についても述べる。提案する密度表現は、メモリ効率が良い(これは混合密度モデルでは一般的)のに加え、ガウシアンコンポーネントの数が可変にできることなどの、ノンパラメトリック手法の柔軟性を受け継いでいる。連続カーネル密度近似法の精度とコンパクトさを、シミュレーションと実験により示す。連続カーネル密度近似を、ビジュアルトラッキングのためのオンラインターゲット外観モデリングに適用し、その性能を様々なビデオ画像を用いて例証する。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


混雑した環境下で撮影された映像からの複数の人間の分割と追跡
Segmentation and Tracking of Multiple Humans in Crowded Environments

Tao Zhao Ram Nevatia Bo Wu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1198-1211 , July 2008

Keywords: Multiple Human Segmentation, Multiple Human Tracking, Markov chain Monte Carlo

混雑した状況での複数の人間の分割と追跡は、オブジェクト間の隠蔽により難しい問題になっている。ベイズフレームワークにおける、複数の部分的に隠蔽された人間の画像に関する仮説により、画像観察を解釈するための、モデルに基づいたアプローチを提案する。人間の外観、隠蔽の理由づけ、そして図地の分離に基づいて複数の人間のための結合画像尤度を定義する。効率的なサンプリング法であるデータ駆動のマルコフ連鎖モンテカルロ法(Markov chain Monte Carlo :DDMCMC)を用いて最適解を得る。この方法では提案の確率のための画像観察を用いる。人間の経常、カメラモデル、そして画像キューなどの様々な視点からの知識を理論的なフレームワークに統合する。実験結果と定量評価により、このアプローチが非常に困難なデータに対しても効率的であることを示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


人数が変化する歩き回る人々の、視覚焦点の追跡
Tracking the Visual Focus of Attention for a Varying Number of Wandering People

Kevin Smith Sileye O. Ba Jean-Marc Odobez Daniel Gatica-Perez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1212-1229 , July 2008

Keywords: Image Processing and Computer Vision, Tracking, Scene Analysis, Computer vision, Marketing

本稿では、“人数が変化する歩き回る人々の、視覚焦点”(visual focus of attention for a varying number of wandering people:VFOA-W)を定義し取り扱う。ここでは人々の動きには制約はかけない。VFOA-W推定は、実世界アプリケーションと同じく、挙動理解と認知科学のアプリケーションのための新しく重要な問題である。このようなアプリケーションの一つとして本稿で提示するのは、野外の広告に対して通行人がどのように注意を払うかをモニターするものである。我々のVFOA-W問題に対するアプローチにより、動的ベイズネットワークに基づいた複数の人間のトラッキング法を提案する。これによりシーン中の(人数が変化する)人々、彼らの体の位置、顔の位置、そして顔の向きを同時に推測する。結果として得られる大規模な変数次元の状態空間における効率的な推測のために、可逆ジャンプマルコフ連鎖モンテカルロ(Reversible Jump Markov Chain Monte Carlo:RJMCMC)標本化法と、シーン中の人数とその位置を決める新しい大域観察モデルを提案する。我々はガウス混合モデル(Gaussian Mixture Model:GMM)と隠れマルコフモデル(Hidden Markov Model:HMM)に基づいたVFOA-Wモデルを提案する。これにより人々の頭の位置及び方向情報を用いて人々の注意の状態を決める。トラッキング性能と野外の広告を見る人々を認識する能力において、我々のモデルを評価する。実験結果は広告の前を通り過ぎる適当な数の人々を映すシーンにおいて良好な性能を示している。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的なエピポーラ幾何推定のための探索・活用モデルの平衡探索
Balanced Exploration and Exploitation Model Search for Efficient Epipolar Geometry Estimation

Liran Goshen Ilan Shimshoni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1230-1242 , July 2008

Keywords: Computer vision, Vision and Scene Understanding, 3D/stereo scene analysis, Motion

推定される対応に含まれる正常なデータ(inlier)対応の割合が低い場合、及び/もしくは、この正常データ対応の多くが、全くの間違いであるエピポーラ幾何の縮退配置と整合がとれている場合、エピポーラ幾何の推定は特に難しい問題となる。本研究では、前記の場合に特によく働く、探索・活用モデルの平衡探索(Balanced Exploration and Exploitation Model Search:BEEM)アルゴリズムを示す。このアルゴリズムはこれらの2つの問題を統一された形式で取り扱う。このアルゴリズムには次のような特徴がある。(1)3つの検索技術のバランスの良い利用:大域ランダム探索、現在の最良の解と言ってよい局所探索、そしてこのモデルの品質を向上させるための局所活用。(2)利用可能な事前情報を用いて探索プロセスを加速する。(3)これまでに見つかっている最良のモデルを用いて、探索プロセスをガイドし、縮退モデルから逃れ、そして効率的な探索停止基準の定義を行う。(4)シンプルかつ効率的な方法により2つのSIFT対応からエピポーラ幾何を推定する。(5)局所情報に感度の高いハッシュ法(locality-sensitive hashing:LSH)を用いて最近傍アルゴリズムを近似し、初期推定対応を生成する。結果として得られるアルゴリズムを、縮退配置の有無それぞれについて実画像においてテストした結果、良好な推定を得ることができた。また、現在の他の最新のアルゴリズムに比べ、有意な速度向上が確認できた。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


生成的な視覚情報に基づいたカテゴリ化のための、統一された適応語彙
Universal and Adapted Vocabularies for Generic Visual Categorization

Florent Perronnin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1243-1256 , July 2008

Keywords: Object recognition, Scene Analysis, General

生成的な視覚情報に基づいたカテゴリ化(Generic Visual Categorization:GVC)は、画像コンテンツのセマンティクスに基づいて画像にラベルを与えるパターン識別問題である。視点や照明、隠蔽関係などの変化に加え、その他の画像中のオブジェクト/シーンの変化を取り扱わなければならないため、この問題は非常に難しい。いくつかの最新のGVCシステムは、視覚単語の出現数ヒストグラムと共に視覚表現の語彙を用いて画像を特徴づけている。本稿で我々は、新しく実用的なGVCのためのアプローチを提案する。これは統一された語彙に基づいており、これにより考慮されるすべての画像クラスと、クラスに特有なデータを用いて統一された語彙を適応させることを通じて得られたクラス語彙を記述する。クラス毎に割り当てられたヒストグラムの組により画像を特徴づけることに、本研究の主な先進性がある。画像のコンテンツが、汎用語彙もしくは対応するクラス語彙で最も良くモデル化されるかどうかを、このヒストグラムで記述する。このフレームワークを2つの局所画像特徴に対して適用する。ひとつは一般的なSIFTなどの低次記述子であり、他方は空間的に隣接する単語の共起性の高次ヒストグラムである。提案アプローチが、適当な計算コストで最新の方法に伍する性能を発揮することが、2つの困難なデータセット(19のカテゴリからなる室内画像データベースとPASCAL VOC 2006データセット)において示される。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクト検出のための識別的特徴共起選択
Discriminative Feature Co-Occurrence Selection for Object Detection

Takeshi Mita Toshimitsu Kaneko Bjorn Stenger Osamu Hori

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1257-1269 , July 2008

Keywords: Statistical, Feature evaluation and selection, Face and gesture recognition, Machine learning

本稿では複数の特徴の識別的共起を学習するオブジェクト検出フレームワークについて述べる。ブースト処理の各段階における逐次的前向き選択により特徴の共起を自動的に見つける。選択された特徴共起を用いて、ターゲットオブジェクト間の構造の類似性を検出することができる。これにより、より良い性能が実現される。提案手法はViolaとJonesにより提案されたフレームワークの一般化である。彼らの方法では各々の弱い識別器は単一の特徴のみに依存する。顔と3つの異なる手のジェスチャーを見つけるための、4つのオブジェクト検出器を用いて得られた実験結果は、同数の特徴を用いてViolaとJonesのフレームワークに基づいた検出率よりも、終始高い検出率を示している。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


輪郭の断片を用いたマルチスケールカテゴリ化オブジェクト認識
Multiscale Categorical Object Recognition Using Contour Fragments

Jamie Shotton Andrew Blake Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1270-1281 , July 2008

Keywords: Edge and feature detection, Feature representation, Size and shape, Object recognition, Computer vision, Machine learning

本稿の参考文献で示した心理物理研究の結果により、人間は、外観の輪郭の断片のみを用いてオブジェクト認識が可能であることが示されている。本稿では、新しい自動視覚認識システムを提案する。このシステムは局所特徴に基づいており、オブジェクトの空間的位置及びスケールを同定することができる。まずchamfer matchingの新しい定式化を用いて、クラスに特有の局所的な輪郭断片のコードブックを構築する。これらの局所断片を用いることで、クラス内変動、姿勢変化、及び相関関係に対して頑健な認識性能を得ることができる。ブースト処理により、これらの断片をカスケード移動窓識別器にまとめる。そして平均値シフト法を用いて検出の最終組としての強い反応を選択する。訓練集合及びテスト集合の両方における反復学習により、識別器を向上させる方法について述べる。17の困難なカテゴリにおける詳細な評価により、本手法と、輪郭と局所記述子に基づいた他の方法とを比較する。結果は非常に良好なものだった。この結果により、輪郭情報が、マルチスケール、マルチクラスの視覚オブジェクト認識のための強力な特徴であることが確認された。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パス類似性スケルトングラフマッチング
Path Similarity Skeleton Graph Matching

Xiang Bai Longin Jan Latecki

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1282-1292 , July 2008

Keywords: Computing Methodologies, Artificial Intelligence, Vision and Scene Understanding, Computer vision, Shape

本稿ではオブジェクトのシルエットに基づいた形状認識のための新しいフレームワークを示す。本研究の主なアイディアは、スケルトン端点の最短パスを比較することでスケルトングラフのマッチングを行うことである。この方法では、典型的な木もしくはグラフマッチング法と異なり、グラフのトポロジー構造を完全に無視している。我々のアプローチは、視覚的に類似する複数のスケルトングラフが、時に、全く異なるトポロジー構造を持つということに動機づけられたものである。提案するスケルトングラフの端点間の最短パスの比較により、これらのケースで正しいマッチング結果が得られる。このスケルトンは離散曲線発展(Discrete Curve Evolution)を輪郭分割と共に用いることにより枝刈りされる。これは、スケルトンの枝の端点が、オブジェクトの視覚パーツに対応することを暗示している。実験結果により我々の方法が、関節、延長、そして隠蔽がある場合でも、正しい結果を与えることができることを示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


識別器の線形結合としてのバギング法(bagging)を理論的に解析する
A Theoretical Analysis of Bagging as a Linear Combination of Classifiers

Giorgio Fumera Roli Fabio Serrau Alessandra

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1293-1299 , July 2008

Keywords: Multiple Classifier Systems, Bagging, Linear Combiners, Classifier Fusion, pattern classification.

バギング法(bagging)により生成された集合識別器に対して、線形結合された識別器の解析のための解析的フレームワークを適用する。これによりバギングの識別誤り確率の解析的モデルを得る。最新の研究によると、この確率は識別器集合のサイズの関数となる。実データセットにおける実験により、この理論的な予測を裏付ける確認を取る。これにより、バギング集合のサイズを選択するための、新しく、理論的な背景のしっかりしたガイドラインを導出することができる。さらに我々の結果は、識別器の不安定性削減と変動削減の意味でバギングの説明と符合する。また同時に、バギング法により生成された集合識別器の重みを決めるルールに基づく加重平均よりも、単純な平均のほうが優れていることの証左となる。またこの結果は、識別器集合を構築するための、他の無作為抽出に基づいた方法に適用される。我々の実験結果では、バギング法の識別誤り確率を、元々の訓練集合を用いて訓練された、各個の識別器の識別誤り確率と比較することはできない。しかし、本稿で検討される理論的フレームワークを、この目的のため利用する方法については議論を加える。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変動するシーンにおける三次元姿勢および照明の逆構成推定
Inverse Compositional Estimation of 3D Pose And Lighting in Dynamic Scenes

Yilei Xu, University of California, Riverside, Riverside Amit Roy-Chowdhury, University of California, Riverside, Riverside

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1300-1307 , July 2008

Keywords: Motion, Video analysis

本稿では、変動するシーンにおいて、剛体オブジェクトの三次元の動き及び時間変化する照明を、精密かつ高効率に推定するための方法を示す。これは、二次元→三次元→二次元の変換を含む新しいワープ関数による逆構成トラッキングフレームワークを用いることで達成される。これにより、古典的な2フレームの逆構成トラッキングを、連続フレームのものへと拡張することができ、この結果、さらに計算量を減らすことが可能となる。提案手法の理論的収束性を証明し、この方法により計算量を顕著に減らせることを示す。複数のビデオ系列を用いた実験に基づく解析により、既存の方法と比べて、提案手法では高い精度を保ったまま顕著な速度向上が得られることを示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルコフ連続オブジェクト過程を用いた可変数の動くオブジェクトの奥行きマップ計算
Depth Map Calculation for a Variable Number of Moving Objects using Markov Sequential Object Processes

M.N.M. van Lieshout

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 7, pp. 1308-1312 , July 2008

Keywords: Vision and Scene Understanding, Motion

マルコフ連続オブジェクト過程を、奥行き計算のためのビューと共に複数のビデオフレームにわたる可変数の動くオブジェクトのトラッキングに用いることを提案する。連続オブジェクト過程に基づいた回帰モデルにより、適合性を定量化する。フレーム内及びフレーム間のオブジェクトの相互作用を制御するために正則化項を取り入れる。マルコフ連鎖モンテカルロ法を構築し、これにより最適トラッキングと関連する奥行き情報を見つける。スポーツのビデオ系列と合成データセットにおいて我々のアプローチを例証する。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.30, No.8


書体に依存しない自由手書き文書の文字行セグメンテーション
Script-Independent Text Line Segmentation in Freestyle Handwritten Documents

Yi Li Yefeng Zheng David Doermann Stefan Jaeger Yi Li

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1313-1329 , 8 2008

Keywords: Document analysis, Handwriting analysis, Document and Text Processing

自由手書き文書における文字行の切り出しは、未解決な文書解析問題のひとつである。曲がった文字行や、隣接行との狭い間隔の 文字行では、印刷文書や手書き文書に対するこの問題のアルゴリズム開発の困難さを示している。本論文では、新規な濃度推定と 、最新のセグメンテーション法であるレベルセット(Level Set)法を利用する。入力文書画像中から確率マップを推定するが、ここ の各要素はその画素が文字行上に存在するかどうかの確率を表す。レベルセット法は、初期の推定値を発展させ、隣接文字行との 境界を決定する。従来の連結成分法による方法と異なり、本手法では書体特有の知識は利用しない。アラビア文字、漢字、ハング ル文字、ヒンズ文字、のような多様な書体に対する十分な定量的実験によって、本手法は従来法を凌駕することが分かった。さら に実験を進めた結果、本手法はスケール変化や回転、ノイズにも耐性を有していることが示された。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


音律(prosody)に基づく頭のジェスチャーアニメーションのための頭のジェスチャーと音律パターンの解析
Analysis of Head Gesture and Prosody Patterns for Prosody-Driven Head-Gesture Animation

Mehmet Emre Sargin, Yucel Yemez, Engin Erzin, A. Murat Tekalp,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1330-1345 , 8 2008

Keywords: Audio input-output, Face and gesture recognition, Pattern analysis

我々は会話の音律から、自動的、かつ、実現的に頭の動きを合成する、2つのプロセスを統合させた新規な頭の動きと会話の音律 の解析法を提案する。第1段階の解析では、特定の話者について、頭の基本的動きと会話の基本的音律の特徴を別個にそれぞれ決定 し、隠れマルコフモデル(HMM)による教師無し時間セグメンテーションを行う。第2段階で、これら基本的な頭の動きと音律パター ンの相関関係解析を複数の情報の流れ(multi-stream)に対してHMM解析を行い、音声と映像のマッピングモデルを決定する。得られ た音声と映像のマッピングモデルは、任意のテスト音声を入力信号として、ある人の頭の自然な動きモデルを適用する。合成段階 では、音声—ビデオマッピングモデルが利用され、入力されるテスト音声信号に対して計算される音律パターンから一連の頭の動 きが推定される。頭の動きパターンからパターンに対応するオイラー角度(回転角度)が適用され、話者の頭の動き画像(アニメ ーション)が復元される。アニメーションの主観的および客観的評価によれば、解析に基づく合成法(analysis by synthesis)であ る本提案手法は、どんなテスト入力音声に対しても、自然な頭の動きが合成され、「音韻が移植された」筋書きにも、「ジェスチ ャーが移植された」筋書きにも適用できることが示される。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ロバストな3D顔のマッチングのための変形モデル表現
Deformation Modeling for Robust 3D Face Matching

Xiaoguang Lu Anil Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1346-1357 , 8 2008

Keywords: Face and gesture recognition, Range data

3Dの表面マッチング法に基づく顔認識法は現在の2D画像に基づく認識システムの限界を克服できるものとして有望である。3D形 状は姿勢や照明の変化に一般的には依存しないが、表情のような非剛体の顔の動きには依存性がある。課題ごとに多様な表情のデ ータベースを収集して多数のテンプレートを用意するという手法は実用的ではない。3Dの非剛体の変形と姿勢の変化(複数視野) の両方にマッチさせるための2.5Dの顔走査画像にマッチングさせモデル化させるための戦略を採用する。そのため階層的な測地学 的再サンプリング手法を応用して、顔の表面の変形をモデル化するための特徴点を抽出する。そのため小さな数の主題(コントロ ール群)の中から(コントロール群には存在しない)学習した3Dの中立モデル上への変形手順を生成することができ、これが変形 されたテンプレートとなる。生成された変形テンプレートを組み合わせて、ユーザー限定の(3D)変形モデルが構築される。マッチ ング距離は、この生成された変形可能なモデルとスキャンした画像とを合致させる距離として計算できる。実験結果から、本提案 のモデル変形法は3D表面のマッチング精度の向上ができた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ロバストなモデル合致のための局所的オブジェクト関数の学習
Learning Local Objective Functions for Robust Face Model Fitting

Matthias Wimmer Freek Stulp Sylvia Pietzsch Bernd Radig

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1357-1370 , 8 2008

Keywords: Computer vision, Pattern matching, Image Processing and Computer Vision, Model-based coding, Object recognition, Vision and Scene Understanding, Modeling and recovery of physical attributes, Shape, Texture, Computer vision, Computational models of vision, Face and gesture recognition, Real-time systems

大量の情報を含む画像の解釈にはモデルに基づく手法が有用であることが判っている。対象関数の大局的最適化のための関連する フィッティングアルゴリズムの探索は、与えられた画像中の最適合致モデルに対応すべきである。合致アルゴリズムそのものが主 要な研究と評価の対象であるが、目的の関数は、知らず知らずにドメインに依存した知識に基づく、その場に合わせた設計になり 易い。本論文では、よりロバストな目的関数を学習することによって、問題の根源について述べる。第1に、目的関数として望まし い関数集合の性質を定式化し、これらの性質を有する具体的な例を挙げる。次に、手作業で行った画像の注釈付けされた訓練デー タから、目的関数を学習する新規な手法を提案する。この方法においては、特徴量の選択のような重要な選択は自動化され、残る 手作業によるステップもドメインに特有な知識は不要である。さらに、徹底的な経験的評価においても、得られた目的関数は、ず っとロバスト性が高いことが示された。学習された目的関数から、意図して設計された目的関数よりも精度の高いフィッティング アルゴリズムが確定できた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テキストによる問い合わせ(query)に適合する画像のランク付けのための特徴あるカーネルに基づく手法
A Discriminative Kernel-Based Approach to Rank Images from Text Queries

David Grangier Samy Bengio

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1371-1384 , 8 2008

Keywords: image retrieval, ranking, discriminative learning, kernel-based classifier, large margin

本論文はテキストによる問い合わせ(query)によって画像を検索するための特徴あるモデルを紹介する。われわれは画像検索をラン ク付け問題として定式化し、ランク付け効率に関する尺度を最適化するための学習手続きを紹介する。この提案モデルは、従って 検索課題に直接言及し、中間的な処理として求められる画像の注釈付け課題には依存しない。これは従来の手法と異なる点である 。さらに、我々の学習法は、最新のカーネルに基づく識別器によるオンライン学習法の上に構築されている。このため、効率的な 拡張可能なアルゴリズムとなっており、画像比較のために開発された最新のカーネルの恩恵を受けている。この実験は蓄積されて いる画像データについて実行され、我々の識別ランク付け手法が、最新の手法(たとえば、Corelデータ集合に対して、22.0%の最 大識別率を示した手法に比べ、我々の場合は26.3%であった)。この結果をより詳しく解析した結果、我々の手法は、関連画像が少 ない場合や、複数単語の問い合わせに優れていることが示された。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


形状モデルやカーネル空間形状の事前知識を用いた画像セグメンテーションのための枠組み
A Framework for Image Segmentation Using Shape Models and Kernel Space Shape Priors

Samuel Dambreville Yogesh Rathi Allen Tannenbaum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1385-1399 , 8 2008

Keywords: Kernel methods, shape priors, active contours, principal component analysisernel methods, Shape, priors, principal component analysis

セグメンテーションには、与えられた画像中のある被写体を、背景から分離するという作業が入ります。画像情報だけを利用する という場合は、ノイズや複雑さや隠蔽の影響を受けやすく、セグメンテーション結果はしばしば好ましくない。これらの問題のい くつかを改善するための有効な手段として、幾何学的動的輪郭(GAC)という枠組みにおいて、事前形状予測器(shape priors)を導入 し、その有効性を確かめた。この研究において、レベルセット(level-set)を利用した事前形状知識による新規なセグメンテーショ ン法を提案する。Leventonたちの研究に引き続き、形状に関する事前知識をもっとロバストに導入するためにPCAの利用を再度考慮 することを提案する。我々の手法はカーネルPCA(KPCA)を利用することによって線形PCAを凌ぎ、その結果、学習データに十分近い 形状だけが選択される。我々のセグメンテーションの枠組みでは、2つのエネルギー汎関数に形状知識と画像情報が形状項として 完全に符号化され、記述されている。この一貫した記述によって、カーネルPCA手法の利点をフルに利用することができ、その結果 セグメンテーションが保証される。特に、我々の形状に導かれる記述セグメンテーション法は多数の形状を同時に符号化でき、ノ イズや隠蔽や汚れに対するロバスト性の確信レベルを与えることができる。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多領域の逐次類似性に基づく画像セグメンテーションの可変フレームワーク
A Variational Framework for Multiregion Pairwise-Similarity-Based Image Segmentation Luca Bertelli

Baris Sumengen B.S. Manjunath Frederic Gibou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1400-1414 , 8 2008

Keywords: egmentation, Edge and feature detection

1対の画素間の類似度に基づく変動コスト関数は、レベルセットの枠内で最小化させることで、2値画像セグメンテーションが得ら れる。本論文では、このようなコスト関数を拡張し、多相のレベルセットの枠組みを採用することで多数領域画像セグメンテーシ ョン問題を記述できる。多モード画像を考慮すると、コスト関数はもっと複雑になり、最小化することが比較的困難になる。以前 我々が提案した背景と前景のセグメンテーション問題を、2領域以上に拡張する。我々はさらに、計算時間を顕著に減少できる曲線 の進化法(オブジェクトの境界を決定する)を効率的に実装できることを示す。最後に、バークレイセグメンテーションデータに 適用し、他のセグメンテーション法と比較して我々の手法の妥当性を示す。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


条件付確率場のための変形可能な特徴量の学習
Learning Flexible Features for Conditional Random Fields

Liam Stewart Xuming He Richard S. Zemel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1415-1426 , 8 2008

Keywords: machine learning, statistical

構造を有するデータに対する高次構造をラベル付けできるように従来モデルを拡張するのは、モデルの複雑度が不本意で指数関数 的に上昇する。本論文では、このような構造でも、パラメータ化した特長量の確率場を利用して構造を学習できるモデルを提案す る。これらの特徴量は観察量、ラベルや補助的隠れ変数の任意の組み合わせの関数と成りうる。これら特徴量を学習するための単 純な誘導体系を紹介する。その結果、与えられたデータ集合に対して複雑度が自動的に決定可能となる。このモデルを、情報抽出 と画像ラベリングの2つの実世界の課題に応用し、その結果を他のラベリング法のいくつかと比較する。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ベイズ法に基づく逐次仮説とテスト法を利用したロバストな実時間パターンマッチング
Robust Real-Time Pattern Matching Using Bayesian Sequential Hypothesis Testing

Ofir Pele Michael Werman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1427-1443 , 8 2008

Keywords: pattern matching, template matching, pattern detection, image similarity measures, Hamming distance, real time, sequential hypothesis testing, composite hypothesis, image statistics, Bayesian statistics, finite populations

本論文はロバストで実時間のパターンマッチングについて述べる。まず、画像の距離尺度ファミリーの“画像ハミング距離ファミ リー”について紹介する。このファミリーでは隠蔽や、小さな幾何変形や、照明光の変化、非剛体変形に対してロバストである。 次に、有限サンプルの逐次的な仮説検証のための新規なベイズ法の枠組みを示す。この枠組みに基づき、サンプルの最適な拒絶/ 受容アルゴリズムを設計する。このアルゴリズムによって、2つの画像が画像ハミング距離ファミリーの尺度において類似している かどうかをすばやく決定する。さらに、ほぼ最適なサンプリングアルゴリズムを設計する高速な枠組みを示す。十分な実験の結果 、逐次サンプリングアルゴリズムの効率はきわめて優れていることが示された。Pentium 4.3 Hzプロセッサーを実装化した実験で は、640×480画素フレームによる、隠蔽が大きく、回転もしている2197画素のパターンの逐次検出に、フレーム当たり、たった 0.022秒であった。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変態:変形する形状と外観のモデル
Metamorphs: Deformable Shape and Appearance Models

Xiaolei Huang Dimitris N. Metaxas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1444-1459 , 8 2008

Keywords: Metamorphs, deformable models, medical applications, nonparametric intensity statistics, distance transform, hybrid segmentation

本論文は、統一空間に統合した形状や外観を持つ新規な変形可能モデルを提供する戦略を紹介する。もし、従来の変形可能モデル を「動的輪郭」とか「進化する前線曲線」と呼ぶとすれば、この新規な変形可能な形状・外観モデルは「変形可能ディスクとか変 形可能体積」と呼ぶのがふさわしい。各モデルは境界形状を持つだけでなく、内部の外観を持つ。このモデル形状は、距離変換の 高次元空間に暗黙に埋め込まれており、したがって、距離マップ“画像”によって表現される。このように、モデルの形状と外観 の両方が画素空間で定義される。共通の変形法である、自由形状変形(Free Form Deformation)は体積空間の歪み変形をパラメータ 化するが、この中ではモデルは取り込まれ、したがってモデル境界も内部も同時に変形する。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サブピクセルの光度計測ステレオ
Subpixel Photometric Stereo

Ping Tan Stephen Lin Long Quan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1460-1471 , 8 2008

Keywords: Photometry, Subpixel, Shape, Reflectance, Radiometry

従来の光度計測ステレオは、入力画像の各画素の法線方向が復元できる。これは基本的に復元幾何形状において、入力画像の復元 限界を与えるが、画素以下の幾何学的構造まではモデル化できない。本論文では、表面の幾何形状と表面の反射特性の関係から、 画素以下の解像度まで復元可能な方法を提案する。まず最初に、一般化した物理的原理に基づく反射モデルについて述べるが、こ れは表面の画素内部の垂直方向への反射関数の分布に関するものである。表面に垂直な分布は、測光ステレオ画像に記録される反 射関数から計算される。サブピクセルな凸尺度幾何構造の尺度は、陰影の減衰具合によって各画素点で得られる。そして、復元さ れた表面の法線分布と表面の凸具合を利用して、均一な材料の表面上に、入力画像よりも高密度の解像度で垂線を配置することに よって、サブピクセルの幾何学的構造を推測する。最後に、信頼値伝播法とMCMCの組み合わせ法によって、表面上の3Dtextonの最 小記述長尺度に基づき、垂線の配置を最適化する。実験では我々の提案手法の妥当性が判明し、復元表面の幾何学的解像度の優位 性がわかった。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最適にランダム化したRANSAC法
Optimal Randomized RANSAC

Ondej Chum Jii Matas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1472-1482 , 8 2008

Keywords: 'G.3.m' Robust regression, 'I.4.1.b' Imaging geometry

オ RANSAC法のためのランダムモデル検証戦略を提案する。本提案手法はRANSAC法のように、ユーザーに依存した確率で最適化さ れた解を見つける方法である。解は、(1)最も短く、(2)どんな決定論的戦略よりも優れて、時間内に見つかる。最も短い時間でモ デルの検証ができる戦略は、異常値(outlier)のデータが混在していることが知られているような状況に対して、理論的に設計され ている。この場合、アルゴリズムは、存在が保証されている確率的RANSACアルゴリズム中で、解が(平均的に)最も高速に求まるも のである。最適性の導出は継続的決定理論、特に、変形連続確率比テスト法(SPRT)であるWaldの理論に基づいている。次に、SPRT アルゴリズムを擁したR-RANSAC法を紹介する。このアルゴリズムははずれ値(outlier)の割合や、オンラインにおける量に対する事 前知識を必要としない。我々は実験によって標準的なテストデータ、この手法は理論的限界に近い最適値であり、標準的なRANSAC 法に比べ2〜10倍の速度で、以前の発表論文に比較して最大4倍高速である。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所的情報とグローバル情報の統合における確率場モデル
Random Field Model for Integration of Local Information and Global Information

Takahiro Toyoda, Osamu Hasegawa,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1483-1489 , 8 2008

Keywords: Pixel classification, Markov random fields, Scene Analysis

本論文は、条件付確率場において、局所情報とグローバル情報をモデル化する一般的枠組みの提案をするものである。本提案手法 は局所情報とともにグローバルな情報の特徴量を抽出し、入力画像の情景を予想する。この予測された情景に基づいて情景に基づ くトップダウンの情報が生成される。これは画像に関するラベルやカテゴリーのグローバルで空間的な関連性を表現している。グ ローバル情報の包含関係によって局所的な曖昧さを解消した整合性のある認識が可能となる。このモデルが単純であるにもかかわ らず、2つのデータ集合に対するラベリング課題には良好な結果を示した。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Twin Kernelの埋め込み
Twin Kernel Embedding

Yi Guo, Junbin Gao, Paul W. Kwan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1490-1495 , 8 2008

Keywords: Machine learning, Clustering, Visualization

現存する次元の縮退アルゴリズムのほとんどは、入力された情景中の被写体の相対的構造を低次元の埋め込み空間に保持すること が主な目的である。これを実現するには、入力データと、埋め込みデータを、異なるマッチング目的関数によって、類似度と非類 似度の矛盾を最小にするように操作することによって達成できる。このアイデアにしたがって、Twin Kernel Embedding (TKE)と呼 ばれる新規な次元縮退法を提案する。TKE法は、通常では視覚化が困難なnon-vectorialデータ(テキスト、タンパク質、遺伝子、な ど)の視覚化の課題を扱うが、実際のところ、効率的なvectorial表現法が無いためにこれは容易ではない。TKEではこの問題を解く ために、2つの空間におけるカーネルのGram行列で表現される類似度の不一致が最小化するようにした。実装化に当たり、非線形 の目的関数を勾配降下法によって最適化し、極小値を得た。その結果は、最適類似度を保持して埋め込まれ、同時に、カーネルの 超パラメータ(hyperparameter)として適当な値を持っていた。実際のnon-vectorialデータ集合による実験ではTKE法の有効性が確 認された。TKE法は、ここに述べたデータだけでなく、入力データにおいて類似度/非類似度の尺度が定義できる場合には、応用可 能である。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Unscented Transformを利用した混合モデルの簡略化
Simplifying Mixture Models Using the Unscented Transform

Jacob Goldberger, Hayit K. Greenspan, Jeremie Dreyfuss

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 8, pp. 1496-1502 , 8 2008

Keywords: Image Classification, Unscented Transform

ガウス混合 (MoG) モデルは統計的学習ツールとして有用である。混合モデルに基づく多くの学習プロセスにおいて、モデルに含ま れる多数の成分のため、計算に必要な資産は膨大になる。ガウス混合モデルによる単純化した新規な学習アルゴリズムを提案する 。これは、Unscented Transform法に基づく手法で、もともと非線形で動的な系のフィルタリングのために導入された。本提案手法 の利点は、シミュレーション実験と、実データのカテゴリー化の両方で妥当性が評価された。ここに提案する手法はガウス混合モ デルを利用した個々の画像のモデル化をする。カテゴリーモデルは、カテゴリー中のすべての画像から単純化した混合モデルを学 習することによって得られる。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.30, No.9


指紋の方位場のための大域モデル:二次微分に基づいたアプローチ
Global Models for the Orientation Field of Fingerprints: An Approach Based on Quadratic Differentials

Stephan Huckemann Thomas Hotz Axel Munk

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 9, pp. 1507-1519 , September 2008

Keywords: Geometric, Pattern analysis, Applications, Smoothing, Fingerprint recognition, orientation field, fingerprint modelling, quadratic differential, rational functions

二次微分により、平面の解析的方位場を自然に定義することができる。二次微分を特定することで指紋の方位場をモデル化することを提案する。弓状紋(arches)、蹄状紋(loops)そして渦状紋(whorls)のような、全ての指紋クラスのためのモデルを与える。これらのモデルはいくつかの幾何学的に解釈可能なパラメタによりパラメタ化される。これらのパラメタはユークリッドモーション下において不変である。これらのモデルの、入力された方位場に対する適応性を例証し、既存モデルとの比較を行う。この比較にはNIST特殊データベース4の指紋画像を用いる。これらのモデルにより、観測されていない画像領域の外挿が可能であることも示す。これは観測された平面状の指紋画像を想定していた以前の方位場モデルの限界を超えるものである。二次微分フレームワークを用いて、掌領域(palm)における特異点に関するPenroseの公式[L. S. Penrose, "Dermatoglyphics"' Scientific American, vol. 221, no.‾6, pp. 73--84, 1969]を解析的に検証することができる。これらのモデルを利用したアプリケーションとしては、本モデルのパラメタを、大規模指紋データベースのインデクスとして利用することや、単一指紋画像の固有座標の定義などがありうる。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ文書検索のためのマルチモーダル非類似性空間の設計
Design of Multimodal Dissimilarity Spaces for Retrieval of Video Documents

Eric Bruno Nicolas Moenne-Loccoz Steephane Marchand-Maillet

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 9, pp. 1520-1533 , September 2008

Keywords: Multimedia databases, Image/video retrieval, Concept learning, Machine learning

本稿では、マルチモーダル情報のための新しい表現空間を提案する。これにより高速かつ効率的なビデオデータの検索が可能となる。選択されたマルチモーダル特徴(音声、画像、もしくはテキスト)により直接文書を記述するのではなく、マルチモーダル特徴に基づく文書間類似性を考慮して文書を記述する。このアイディアを元に、非対称分類問題に適合する特別な非類似性空間形式を提案する。これは情報検索分野で広く用いられているquery-by-example (リレーショナルデータベース用クエリ言語のひとつ)とrelevance feedback(関連フィードバック)パラダイムに基づく。次に、提案する非類似性空間を用いたカーネルに基づく学習アプローチにより、様々なモダリティ統合戦略を定義する。学習過程をクエリに適合させる自動カーネル設定問題についても同様に議論する。我々の戦略の特性について、合成データを用いた検討と検証を行う。第二フェーズでは、大規模注釈付きビデオコーパスTRECVID-05を考慮に入れ、非類似性空間と統合戦略の全体性能の評価を行う。このコーパスは画像情報、音声情報、そしてテキスト情報に基づいてインデクス付けされている。この評価結果により、実時間フレームワークにおける提案アプローチのマルチモーダル情報の表現と検索に対する有効性が確認される。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネルクラス分離性を高めた特徴選択
Feature Selection with Kernel Class Separability

Lei Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 9, pp. 1534-1546 , September 2008

Keywords: Feature evaluation and selection, Pattern analysis

多くの場合、特徴選択は識別器の性能向上に役立つ。しかし線形可分でないデータがある場合や、速度要求が厳しい場合、標本データが少ない場合、そしてノイズ過多な特徴などがある場合には、特徴選択は極めて難しい問題となる。本研究では、高次元カーネル空間におけるクラス分離性指標を開発し、この指標を最大化することで特徴選択を行う。この特徴選択アプローチを有効なものとするに、自動カーネルパラメタチューニング及び数値解析の安定性、そして複数パラメタの最適化問題の規則化について検討する。理論的解析により、この指標と、サポートベクトルマシン(Support Vector Machine: SVM)の半径—マージン境界、及びKFDA(Kernel Fisher Discriminant Analysis: カーネルフィッシャー判別分析)、そしてカーネル整列指標との関係を明らかにし、これによりこの指標を特徴選択に用いるための洞察を得る。この指標を様々な探索戦略を持つ選択モデルに適用する。大規模な実験により本手法の効率性及び、高速かつ頑健な特徴選択が示される。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


学習済み多様体の標本外外挿
Out-of-Sample Extrapolation of Learned Manifolds

Tat-Jun Chin David Suter

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 9, pp. 1547-1556 , September 2008

Keywords: manifold learning, out-of-sample extrapolation, Maximum Variance Unfolding

有限標本により学習された多様体の新規の標本外データへの埋め込みの外挿問題について検討する。最大分散展開(Maximum Variance Unfolding: MVU)と呼ばれる多様体学習法について集中的に検討する。この方法においても外挿は大きな未解決問題である。MVU学習がカーネル主成分解析(Kernel PCA)と同じものであるとすると、未知のカーネル関数から導出されたカーネル行列を新規データ点に拡張する問題に簡単化できる。以前に開発した結果を生かし、ガウシアン基底関数を用いたカーネル固有関数の近似を含む新しいソリューションを提案する。外挿問題を解くためにこのガウシアンをどのように調整するかについても本稿で示す。実験結果により提案アプローチの効果を例証する。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Transductionによるクエリ
Query by Transduction

Shen-Shyang Ho Harry Wechsler

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 9, pp. 1557-1571 , September 2008

Keywords: Machine learning, Statistical

近年、学習のための変換推測の使用に対する関心が高まってきている。本稿で我々はtransductionによる推測の適用範囲を、ストリームに基づいた能動的学習にまで拡張する。この目的のために、新しい能動的学習アルゴリズムである、transductionによるクエリ(Query-by-Transduction: QBT)を提案する。QBTでは、transduction学習により得られたp値に基づいて標本のラベルをクエリ化する。transduction、ベイズ統計検定(Bayesian statistical testing)、カルバック・ライブラー情報量(Kullback-Leibler divergence)、そしてシャノン情報の間の関係を用いることで、QBTがQuery-by-Committee (QBC)に近い関係にあることを示す、SVMを選択識別器に用いる二値及びマルチクラス識別問題において、QBTの実用性と有用性を示す。我々の実験の結果は、QBTが一般化能力の面において、無作為抽出、committeeに基づいた能動的学習、マージンに基づいた能動的学習、そしてストリームに基づいたQBCと伍するものであることを示している。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Bittracker:広範な一般環境下における、視覚情報に基づいたトラッキングのためのビットマップトラッカー
Bittracker?A Bitmap Tracker for Visual Tracking under Very General Conditions

Ido Leichter Michael Lindenbaum Ehud Rivlin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 9, pp. 1572-1588 , September 2008

Keywords: Tracking, Motion, Pixel classification

本稿では極めて一般的な環境下での、視覚情報に基づいたトラッキング問題を扱う。時間経過により外見が極端に変化するような非剛体オブジェクトをターゲットとし、一般的なカメラの動きと三次元シーンを扱うが、初期化以外の一切の事前情報を持たない。これらの特徴は、少数のモデルに依存するこれまでの多くのトラッカーとは対照的である。本稿で提案する手法は、例えばターゲットの外観が既知もしくは、ある形状の範囲にあることが分かっている場合、シーンが平面上である場合、パンチルトズームカメラを用いて撮影されている場合などに適用可能である。これらのアプリケーションは、高速性と頑健性を両立することを目指している。しかし各アプリケーションはそれぞれ適用可能なコンテキストに限界があり、これが一般化の妨げとなっているようだ。本稿で提案するトラッカーは各フレームにおいて、ターゲットのビットマップの確率密度関数(probability distribution function:PDF)を近似し、事後ビットマップを推測する。この確率密度関数は、各画素の起こりうる全ての動きにわたって周辺化(marginalize)されている。これによりオプティカルフローを決定する処理段を回避することができる。これは、動きのキューを全く用いないか、オプティカルフローの誤差の多い計算に依存するような、他の一般コンテキストトラッカーにはない利点である。一次近傍系に関してギブス分布を用いることで、ビットマップ確率密度関数を算出する。この確率密度関数は、その最大化が、二次の疑似ブーリアン関数となるような確率密度関数に変換でき、その最大値が、最大フロー問題に単純化する過程で最大値を近似することができる。このトラッカーが前述の一般的な環境下でトラッキング可能であることを示すために、多くの実験を行った。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


5次元テンソル投票を用いて、分割された密集動き層を推測する
Inferring Segmented Dense Motion Layers Using 5D Tensor Voting

Changki Min Gerard Medioni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 9, pp. 1589-1602 , September 2008

Keywords: Motion analysis, Tensor voting, Optical Flow, Segmentation, Mosaicking

画像系列情報から動き分割と密集時間軌線を算出する新しい局所時空間アプローチを提案する。画像系列の一般的な表現は三次元の時空間値(x, y, t)であり、これに対応する数学的形式化がファイバー束(fiber bundle)である。しかしこのファイバー束表現に時空間的平滑性条件を直接適用することは困難である。それゆえこの表現を新しい5次元空間に変換する。ここでは追加の速度ドメインを持ち、それぞれの動くオブジェクトは別々の三次元平滑層を生成する。動きの対応と分割を同時に満たすテンソル投票フレームワークを用いて三次元層を抽出することで、この平滑性拘束条件を適用する。これらの層を同定することで動き分割を得る。また、これらの層をファイバー束表現に逆変換することで、密集軌線(dense temporal trajectories)を算出する。いくつかのアプリケーション(トラッキング、モザイク化、そして三次元情報再構成)では、動き分割と密集マッチング処理のために、これまでの手法ではビデオ系列から直接問題を解くことが難しいが、我々のフレームワークを用いることで、素直に解くことが可能になる。このアプローチでは、観測されたシーンやカメラの動きに関して、いかなる拘束的仮定も設けず、それゆえ高い汎用性を持つ。多数のデータセットを用いた実験の結果を示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


{$L_¥infty$}ノルム下におけるマルチビュー幾何
Multiple-View Geometry Under the {$L_¥infty$}-Norm

Fredrik Kahl Richard Hartley

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 9, pp. 1603-1617 , September 2008

Keywords: Image Processing and Computer Vision, Convex programming, Constrained optimization, Global optimization

本稿では幾何構造と動きの問題を{$L_¥infty$}ノルムに基づいて解くための新しいフレームワークを示す。一般的な二乗和コスト関数は{$L_¥two$}ノルムであるが、本稿で提案する手法ではこれの代わりに、{$L_¥infty$}ノルムを用いて計量されるモデルフィッティング誤差を用いる。{$L_¥two$}に基づいたこれまでの方法と異なり、我々のフレームワークでは、大域推定の効率的な計算が可能である。三角測量(triangulation)、カメラ後方交会法(camera resectioning)、ホモグラフィー(一字一音主義の綴り字法)推定などの、様々な構造と動きの問題が、このフレームワークを用いることで疑似凸最適化問題として再定義可能であることを示す。これらの問題は、凸最適化問題における標準的な手法である二次コーン計画法(Second-Order Cone Programming: SOCP)を用いることで、効率的に解くことができる。Matlabを用いて本手法を実装し、成果物のtoolboxを一般に公開した。このアルゴリズムを様々なセッティングの実データを用いて検証した。提案手法は、大小様々な次元をもつ問題に対して優れた性能を示した。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の制約なしの変換にわたる、クラスに基づいた特徴マッチング
Class-Based Feature Matching Across Unrestricted Transformations

Evgeniy Bart Shimon Ullman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 9, pp. 1618-1631 , September 2008

Keywords: Feature matching, invariant recognition, parts

観察条件が大きく変化する場合に対応できる、新しい、クラスに基づいた特徴マッチング法を開発する。この方法は、共通部分を持つオブジェクト間では、観察条件が変化してもその類似性が保たれるという性質に基づいている。オブジェクト画像の特徴集合と訓練集合が与えられた場合、まず、この特徴を共有するオブジェクトを同定する。観測条件の変化による特徴の外観の変換は、オブジェクトそのものの特徴ではなく、主に特徴の性質に基づいて決められる。それゆえ、変換された特徴は、ほぼ同じオブジェクトにより共有される。この定常性条件に基づき、候補となるマッチングの中から対応する特徴を同定することが可能である。以前のアプローチとは異なり、提案スキームでは、特徴の外観を類似した観測条件のもとでのみ比較する。結果としてこのスキームは局所平滑なオブジェクトやアフィン変換だけでなく、他のオブジェクトにも適用可能である。更に、このアプローチでは、正しいマッチングの例を必要としない。提案手法を用いることで、高精度な対応の稠密な集合が得られることを示す。実験的な比較により、従来の方法に比べ、マッチング精度が有意に向上していることが示される。最後にこのスキームが不変オブジェクト認識に上手く用いることができることを示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像識別のための無作為化クラスタリングフォレスト
Randomized Clustering Forests for Image Classification

Frank Moosmann Eric Nowak Frederic Jurie

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 9, pp. 1632-1646 , September 2008

Keywords: Computer vision, Object recognition

最近開発されたコンテンツベースの画像識別のための最も効果的な方法のうちのいくつかは、画像記述子を定量化し、その結果得られる視覚単語コード(visual word code)のヒストグラムを生成することで動作する。この方法で良い結果を得るためには、大規模な記述子とコードブックが必要とされるが、k平均法を用いる場合には処理速度が遅くなる。本稿で我々は、極端に無作為化されたクラスタリングフォレスト法(Extremely Randomized Clustering Forests: ERC-Forests)を紹介する。これは無作為に生成されたクラスタリングツリーの集合である。次に効率的な画像識別法を提案する。これはERCフォレストと顕在特徴マップ(saliency map)を、画像情報の抽出と密に結合させたものである。入力画像が与えられた場合、この識別器は顕在特徴マップをオンラインで生成し、これを用いて入力画像を識別する。いくつかの最新の画像識別問題において、本手法が識別処理を顕著に高速化することを示す。最後に、提案するERCフォレスト法は画像間の距離の学習に非常に有効に用いることができることを示す。この距離計算アルゴリズムは、同一もしくは異なるオブジェクトの対から抽出された局所記述子の間の特徴的な差異を学習する。これらの差異はERCフォレスト法により定量化されたベクトルであり、これに基づいて類似性尺度が計算される。4つの非常に異なるデータセットにおいて、この類似性尺度を評価した。その結果、他の最新のアプローチよりも常に優れた結果を示した。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


順序置換による効果的な近接性検索
Effective Proximity Retrieval by Ordering Permutations

Edgar Chavez Karina Figueroa Gonzalo Navarro

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 9, pp. 1647-1658 , September 2008

Keywords: Data Structures, Data Storage Representations, Indexing methods, Information Storage and Retrieval, Information Search and Retrieval, Implementation

座標空間および距離空間両方における範囲探索及びk最近傍($K$-NN)探索のための新しい確率論的近接性検索(probabilistic proximity search)アルゴリズムを紹介する。この問題に対する解法は存在するが、多くのパターン認識問題でそうであるように、対象とする空間が本質的に高次元の場合には、これは線形走査に等しいものとなる。これは、例えば、大規模データベースに対して$K$最近傍アプローチが遅くなる要因となっている。我々の新しいアイディアは、端点となるオブジェクト対に対する位置関係に従って、要素間の近接性を予測することである。この空間における各要素は、端点オブジェクトを距離に従って並べ替える。この端点オブジェクトの並び順の間の類似性は、対応する要素間の近接性を予測するための重要な情報となる。我々の方法と他の最新の方法を比較する大規模な実験の結果を示す。この実験では、解析手法と近似手法の両方を検討対象に含め、実データと合成データの両方を用い、計量、非計量データベースの両方において試験し、CPU時間と距離計算の両方を計測した。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二変数時間ランダムセットにおける時空間依存性の測量と細胞生物学における応用
Measuring Spatiotemporal Dependencies in Bivariate Temporal Random Sets with Applications to Cell Biology

Ester Diaz Rafael Sebastian Guillermo Ayala Maria Elena Diaz Roberto Zoncu Derek Toomre Stephane Gasman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 9, pp. 1659-1671 , September 2008

Keywords: Pattern analysis, Stochastic processes, Image models, Video analysis, Applications, Biology and genetics

様々なタイプのイベントの間の時空間依存性を解析することは、多くの生物学的現象(例えば細胞シグナリング(cell signaling)や細胞追跡(cell trafficking))と深い関連を持つ。これは生細胞の動的プロセスの映像化を助けてきたプローブ技術と顕微鏡法などの進歩に従い、特に顕著である。多くのタイプのイベントにおいて、分割された領域は空間的、時間的にオーバーラップする部分を持ち、これにより、ランダムな凝集が生まれる。本稿では、二変数時間ランダムセットの実現の一例である2つの異なるタイプのイベントの二値画像系列をモデル化する。また、対相関、相互共分散そしてRipleyの${¥mathbb K}$関数を用いて、空間的、及び時空間的相関関係を定量化するためのノンパラメトリックアプローチを提案する。イベントタイプ間の独立性を試験するための、トロイド状シフトとモンテカルロ試験を用いた、これらの簡易統計に基づいた無作為化処理を提案する。シミュレーション結果により、提案する推測器の性能を評価し、これらの統計により、時空間の依存性を正確に把握できることが示される。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


L1ノーム(ベクトル各成分の絶対値の和)最大化に基づいた主成分解析
Principal Component Analysis Based on L1-Norm Maximization

Nojun Kwak, Ajou University, Suwon

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 9, pp. 1672-1680 , September 2008

Keywords:

新しいL1ノーム(ベクトル各成分の絶対値の和)の最適化手法に基づく主成分解析(principal component analysis:PCA)の手法を提案する。L2ノーム(ベクトル各成分の絶対値の二乗和平方根)に基づくこれまでのPCAと異なり、提案手法ははずれ値に対して頑健である。これは本手法がはずれ値に対する感度の低いL1ノームを利用していることによる。この手法は回転不変でもある。提案するL1ノーム最適化手法は、直感的に理解でき、単純で、且つ簡単に実装できる。また本手法が極大解を持つことが証明されている。提案手法をいくつかのデータセットに適用し、これまでのPCA手法と性能比較を行った。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.30, No.10


静止カメラで移動中の自動車を撮影した画像からの連携したオブジェクト検出とその追跡
Coupled Object Detection and Tracking from Static Cameras and Moving Vehicles

Bastian Leibe, Konrad Schindler, Nico Cornelis, Luc Van Gool,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1683-1698 , 10 2008

Keywords: Vision and Scene Understanding, Video analysis, Scene Analysis, Object recognition, Tracking

オブジェクトを検出し、最適連携問題としての時空追跡推定による複数オブジェクト追跡のための新規な手 法を紹介する。本手法はMDL(Minimum Description Length)仮説選択のフレームワークとして定式化されてお り、ミスマッチや一時的に見失ったオブジェクトの軌跡を復元することができる。これは複数視野・複数カ テゴリーのオブジェクト検出器として構築されており、入力画像中の車や歩行者を識別することができる。 2Dのオブジェクト検出器が3D観察器に改造され、これが世界座標系の中で蓄積されている。時空の窓におい て軌跡が解析され、物理的に妥当な軌跡が候補として選択される。フレーム毎にモデルが選択され、追跡が 達成される。各時間において、与えられた画像とすべての証拠を最も良く説明するグローバル最適な時空軌 跡集合が探索され、同時に、2つの異なるオブジェクトが同時に同一物理空間を占めることは無く、いつで も同一画素が異なるオブジェクトに対応することも無い。そして、未来のフレームのオブジェクト検出を導 く正しい軌跡の推定結果が返される。これによって得られた結果は自動的に初期化され、静止したカメラで あろうと動いているカメラであろうと、多数で、かつ数が変動するオブジェクトを追跡することができる。 我々は、監視用に利用されると思われる動画像と、移動中の車両から撮影された動画像の両方の環境で、い くつかの困難なビデオ画像を対象に、本手法の評価を行った。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スペクトルマッティング
Spectral Matting

Anat Levin, Alex Rav-Acha, Dani Lischinski,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1699-1712 , 10 2008

Keywords: matting, spectral analysis, image segmentation

ディジタルマッティングとは、前景となるオブジェクトを抽出することである。適当に定義されたラプラシ アン行列から最小固有値を有する成分を抽出することで、与えられた自然画像から自動的にあいまいなマッ ティング成分を得る新規なスペクトルマッティング(spectral matting)の計算法を紹介する。このように、 我々の手法はスペクトル・セグメンテーション法の拡張であり、マッティング成分のセグメントを抽出する ことが目的である。これらの抽出された成分を組み合わせて、教師を必要とせず、あるいは、ユーザーが少 数の正解例を示すことで、意味のある内容の前景マットを容易に構成することが可能になることが期待され る。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


リーマン多様体上の分類による歩行者の識別
Pedestrian Detection via Classification on Riemannian Manifolds

Oncel Tuzel, Fatih Porikli, Peter Meer

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1713-1727 , 10 2008

Keywords: Object recognition, Scene Analysis, Image Processing and Computer Vision, Computing Methodologies, Vision and Scene Understanding, Machine learning

オブジェクトの記述子として共分散行列を利用して静止画中の歩行者を検出する新規なアルゴリズムを紹介 する。記述子はベクトル空間を形成しないので、識別器の学習には、よく知られている機械学習法は適用で きない。d-次元非特異的共分散行列空間は連結リーマン多様体として表現できる。本論文の貢献部分は空間 の幾何学を利用して連結リーマン多様体上の新規な識別方法を紹介することである。本アルゴリズムはINRIA とDaimlerChryslerの歩行者データベース上でテストされ、その結果以前に比べて優れた識別結果が達成され た。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


低フレームレートビデオ中の追跡:異なる寿命の判別観測器によるカスケード型パーティクルフィルター
Tracking in Low Frame Rate Video: A Cascade Particle Filter with Discriminative Observers of Different Life Spans

Yuan Li, University of Southern California, Los Angeles Haizhou Ai, Tsinghua University, Beijing Takayoshi Yamashita, OMRON Corporation, Kyoto Shihong Lao, OMRON Corporation, Kyoto Masato Kawade, OMRON Corporation, Kyoto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1728-1740 , 10 2008

Keywords: Vision and Scene Understanding, Motion

低フレームレートのビデオ画像や突然の動きのオブジェクト追跡には、現存の追跡手法のほとんどが処理で きない2つの困難さが付きまとう; 1) 動きの連続性把握が弱いため探索空間が大きくなる 2) 被写体の見 かけの変化が激しく、探索空間が増加して背景の不要物が増加する。本論文では、従来の追跡と検出法の構 築の立場からの問題点を取り上げ、そして、異なる寿命の判別観測器を時間確率で組み合わせたものを紹介 する。各観測器は資料の異なる範囲や、異なる部分特徴を学習しており、コストの変化に伴う多様な判別レ ベルに達している。その後、効率的な融合と時間推定が、重要な複数のサンプリング段階から成るカスケー ドパーティクルフィルターによってなされた。低フレームレートのデータや、被写体やカメラの急激な動き に対しする実験で、この提案手法は従来の追跡手法に比べ著しく高精度になったことを確かめた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


位相に基づく画像マッチングを利用した効率的な虹彩認識
An Effective Approach for Iris Recognition Using Phase-Based Image Matching

Kazuyuki Miyazawa Koichi Ito Takafumi Aoki Koji Kobayashi Hiroshi Nakajima

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1741-1756 , 10 2008

Keywords: Biometrics, Image Processing and Computer Vision, Pattern Recognition, Signal processing, Iris Recognition, Phase-Based Image Matching, Phase-Only Correlation, Phase-Only Matched Filtering

本論文は、位相に基づく画像マッチングを利用した効率的な認識アルゴリズムを紹介する---与えられた画像 の2D 離散フーリエ変換の位相成分を利用したマッチング手法。CASIA虹彩データベース(ver. 1.0 and ver. 2.0)およびIris Challenge Evaluation (ICE) 2005データベースを利用した実験的評価によって、虹彩の位 相成分を利用することで、単純なマッチングアルゴリズムによってきわめて正確な虹彩の認識が可能である ことが判明した。本論文ではさらに本アルゴリズムの主要な実装問題も考察する。虹彩データのサイズを縮 小するため、および、虹彩画像の視認性を防ぐため(個人情報の流出を防ぐ)、虹彩情報の表現に2Dフーリ エ位相符号(FPC)のアイデアを紹介する。2D FPCは、最新のDSPを利用した小型認識装置を実装するのに特に 有用である。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所コントラストによるカラー画像改善のための空間的に変動する白パッチ法と灰色世界法
A Spatially Variant White-Patch and Gray-World Method for Color Image Enhancement Driven by Local Contrast

Edoardo Provenzi Carlo Gatta Massimo Fierro Alessandro Rizzi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1757-1770 , 10 2008

Keywords: Enhancement, Filtering, Color

Land と McCannによる革命的なRetinexはカラー補正のさきがけとなったが、さらにもっと知覚的に見事なカ ラー補正モデルが、別の目的のために開発された。すなわち、カラー感覚の表現、ロバストな特徴量認識、 カラー画質強調である。このようなモデルは、微分可能で、空間的変動があり非線形の性質を持っており、 これらは大まかに言って白パッチ(WP)(自然界の最大の反射は、白色のパッチであり、したがって各色成分 の最大値(最大強度)が白パッチから推定できる)と灰色世界(GW)アルゴリズム(自然界の平均色は灰色で あるとの仮説)に分けられる。本論文では、純粋なWPアルゴリズム(RSR: Random Spray Retinex)と基本的な GWアルゴリズム(ACE)から、もっとロバストで優れた効率的モデルである(RACE).が導けることを示す。RSRと ACEを利用した理由は、最近、両アルゴリズムが空間変化型手法に統一化されたことによる。数学的にはもと もと明瞭だった非線形で微分可能メカニズムを有したRSRとACEはspray手法と局所平均化演算を適用して融合 された。RACEを調べることで、共通の欠点である微分モデルの証拠が判った:均一な画像領域の画質悪化が 生じることである。この本質的欠点を克服するために局所的およびグローバルなコントラストに基づき、さ れに画像に基づく調整メカニズムを考案した。これは一般的に応用可能で感覚的にも魅力的なカラー補正ア ルゴリズムである。実験と比較および考察を述べる。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ラプラシアン固有空間における関節表現された人間のモデル駆動セグメンテーション
Model Driven Segmentation of Articulating Humans in Laplacian Eigenspace

Aravind Sundaresan Rama Chellappa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1771-1785 , 10 2008

Keywords: Pattern Recognition, Image Processing and Computer Vision, Segmentation, Graph-theoretic methods, Region growing, partitioning

ラプラシアン固有値マップを使って、3Dボクセル(立体画素)鎖によって人間の体を異なる関節としてセグメ ント化するための一般的手法を提案する。ボトムアップの段階では、ボクセルは隣接ボクセルのグラフ表現 として高次元(6次元以下)のラプラシアン固有値空間(LE)に変換される。この写像された長いボクセル関節 鎖はLE上では滑らかな1D曲線のノード化に適しており、容易に分離可能であるとともに、この表現グラフに よるこの特徴を示そう。まず、腕、頭、胴体のような異なる関節部分のボクセルを1Dスプラインで表現し、 スプラインのフィッティング誤差を利用して境界点を決定する。次にトップダウン的統計処理によって、相 互接続性やその特性を使ってセグメント化し、このセグメント鎖を登録する。この方式では、腕がループを 形成するような複雑な姿勢であっても扱うことができる。このセグメンテーションされた結果を利用して、 自動的に人体モデルを推定する。我々の手法は複雑な人体を対象としているため、かなり一般性があり、長 い鎖で構成される関節オブジェクトのようなボクセルによるセグメンテーション化に応用が利く。我々の手 法の有用性を示すため、人工的でデータのみならず実データにも適用した結果を紹介した。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


光源の照明分布の凸分布性を利用した現場でのセグメンテーション
In Situ Image Segmentation Using the Convexity of Illumination Distribution of the Light Sources

Li Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1786-1799 , 10 2008

Keywords: Image Processing and Computer Vision, Segmentation, Reconstruction

画像中のオブジェクトを背景から分離するときには、不鮮明な輪郭や照明の不適切さによってしばしば困難 に直面する。この問題を解決するために、本論文では、画素そのものを解析するのではなく、光源の照明分 布の特性を利用した、その場セグメンテーション法を紹介する。点光源や線光源による凸分布を解析した後 、背景に属する画素を見つけるため光源分布特性を利用する。それから、Bスプラインを利用した、制御点と していくつかの背景画素が選択される。最後に、オリジナル画像から再生した背景を除き、全体的な閾値処 理を施して、最終的なセグメンテーション結果が求まる。本手法の定量的評価実験が行われた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


メモリー共有の並列マシン上での属性フィルターの同報通信
Concurrent Computation of Attribute Filters on Shared Memory Parallel Machines

Michael H.F. Wilkinson Hui Gao Wim H. Hesselink Jan-Eppo Jonker Arnold Meijster

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1800-1813 , 10 2008

Keywords: Filtering, Enhancement Parallel algorithms, mathematical morphology, connected filters

形状属性フィルターは、以前は決して並列化されなかったが、その主な理由はこれがグローバル演算である とともに、分離不可能であったからだ。我々は、SalembierのMax-treeとMin-tree法に基づく、開・閉判定、 細線化、太線化、を含む多くの属性フィルターについて、効率的な並列化アルゴリズムを提案する。画像、 あるいは、物体は、まず最初に多数の断片に分割される。続いて、逐次Max-Treeアルゴリズムによって各断 片が処理される。続いて、各断片のMax-Treeが併合され、その画像のMax-Treeが求まる。C言語による実装化 を16プロセサーのMIPS14000マシンと2つのコアプロセサーを有するOpteronマシンで実現し、並列の数だけ 高速化が達成できた。そればかりか、コンカレントアルゴリズムによるキャッシュメモリーの使用量が減っ たため、シングルプロセサーでも、最大72%のスピードアップが達成された。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフ理論の定式化を利用した多層化データと、単眼画像によるテニスボール画像追跡への応用
Layered Data Association Using Graph-Theoretic Formulation with Application to Tennis Ball Tracking in Monocular Sequences

Fei Yan William Christmas Josef Kittler

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1814-1830 , 10 2008

Keywords: Video analysis, Tracking, Graph Theory, Path and circuit problems

本論文では不要な遮蔽物が存在する画像から動的な切り替えによって多数のオブジェクトを追跡するための グラフ理論に基づく多層のデータ会合を提案する。この提案手法は入力オブジェクトを各フレームにおける 検出候補とみなす。オブジェクトの候補として、軌跡片は、真で正の可能性のある候補だけから成長して行 く。軌跡片のレベルで見れば、検出された有向で重みつきグラフが生成され、ここにおける各ノードが軌跡 片であり、ノード間のエッジの重みは、2つの軌跡片の適合性に対応する。この、会合問題は、このグラフ における全対の最短経路(all-pairs shortest path (APSP))問題として定式化される。最後に、経路レベ ルにおいて、最短経路を解析することで全オブジェクト軌跡が同定され、経路の初期化と完結が自動的に導 かれる。グラフの特殊な位相的性質を利用して、一般的なものに比べてもっと有効なAPSPアルゴリズムが開 発できる。このような提案データ会合法がテニスボールの軌跡を追跡するために応用された。実験によると 、他の手法が貧弱な結果を示したり、完全に失敗するのに比べ、本提案手法はうまく作動した。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


全二重のプロジェクター・カメラシステムにおける視覚的エコーのロバストで正確な消去法
Robust and Accurate Visual Echo Cancelation in a Full-duplex Projector-Camera System

Miao Liao Ruigang Yang Zhengyou Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1831-1840 , 10 2008

Keywords: projector-camera system, teleconferencing, visual echo cancelation, collaboration, camera calibration

本論文は、2箇所の遠隔地において、相手側と自分側の両方に、互いの画面が投影され、さらに投影された画 像中に情報を書き加えるような、共同作業用の撮影・投影システムに関する問題である。このようなシステ ムでは、投影された画像が更に撮影されるため、エコー画像が生じる。これは電話による会話のる音声エコ ーのように投影内容を飽和状態にする可能性がある。視覚的エコー消去の方法としては、プロジェクターと カメラの間でオフラインでルックアップテーブルを作ってキャンセルといった幾何学的測光学的な変換によ るキャリブレーション法が含まれる。実行時寒中に捕捉されたビデオの投影内容は、キャリブレーション情 報を利用して同定できるから、これを抑圧することは可能で、その結果視覚的エコーが消去できる。この手 法は任意の反射率と分光特性のディスプレイ表面とカメラにおいて正確にフルカラー画像を処理することが できる。これは幾何学的な位置合わせ誤差や量子化効果に対してもロバストであるから、テキストや手書き 画像のような高周波数画像にも有効である。本手法の有効性をいろいろな実画像に対して全二重のプロジェ クター・カメラシステムにおいて実証した。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


相互情報量を利用した位置合わせ問題にノンパラメトリックな窓を利用した結合統計量の推定
Estimating the Joint Statistics of Images Using Nonparametric Windows with Application to Registration Using Mutual Information

Nicholas Dowson Timor Kadir Richard Bowden

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1841-1857 , 10 2008

Keywords: Interpolation, Optimization, Distribution functions, Nonparametric statistics, Antialiasing, Image-based rendering, Image Processing and Computer Vision, Sampling, Signal processing

最近、実数の1D, 2Dの信号の統計量を推定するために、最近ノンパラメトリックな窓が提案された。ノンパ ラメトリックな窓は正確であるが、それは、仮定される内挿モデルにおいて高解像(無限大)で画像をサンプ リングできるからである。本論文は提案手法を拡張し、画像対に対して結合分布を適用している。第2に、以 前のNP窓アルゴリズムを単純化するために、Greenの定理を利用している。最後に、画像対の間に相対的スケ ールを設定してロバスト性を改善した、解像度を考慮したNP窓アルゴリズムが提案されている。併進のみ、 および、アフィン変換による2D画像の位置合わせ問題によって比較テストを実施した。他の方法よりは計算 コストは高いが、NP窓の手法はしばしばbias(正解画像とグローバル最大の間の距離)と収束頻度の点で優 れた性能を示した。他の手法と異なり、NP窓の方法はサンプル数やヒストグラムの間隔(bin)の影響はほと んどなく、前もってカーネルを選択する必要はない。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


強化された相関係数最大化法によるパラメトリック画像整列法
Parametric Image Alignment Using Enhanced Correlation Coefficient Maximization

Georgios D. Evangelidis, University of Patras, GR 26500 Patras Emmanouil Z. Psarakis, University of Patras, GR 26500 Patras

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1858-1865 , 10 2008

Keywords: Image Processing and Computer Vision, Registration, Motion, Gradient methods

画像配列問題の効率向上のために相関係数利用を変形した方法を提案する。ここに提案する変形法は、測光 分布が変化しても不変であるという好ましい特徴を有している。結果として得られる類似度は、比較される 画像の変形したパラメータの非線形関数であるから、これを最大化するための2つの逐次処理法を提案する ;1つは、前方加算法に基づく方法と、2番目は逆合成法に基づく方法である。これは習慣的に繰り返し最適 化法であるため、繰り返し計算毎に非線形目的関数が交互に単純な表現で近似される。我々の場合、繰り返 し計算毎に閉形式の、したがって、計算量の少ない解が求まるが、これが特に特徴的である。本提案方式は シミュレーションによって前方加算方式のLucas-Kanade法と同時逆合成アルゴリズムとに比較される。ノイ ズの多い状態と、測光分布ひずみがある場合に対して、我々の前方加算法は、より高い精度を示し、収束も 早かったが、我々の逆合成法は、同時逆合成法に比較してほぼ同等の性能であったが計算量は少なかった。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


L1-Norm最小化法によるグラフカット
Graph Cuts via L1- Norm Minimization

Arvind Bhusnurmath, GRASP Laboratory, Philadelphia Camillo J. Taylor, GRASP Laboratory, Philadelphia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 10, pp. 1866-1871 , 10 2008

Keywords: Continuous optimization, Graph-theoretic methods

グラフカットはコンピュータビジョンや他の分野でますます重要なエネルギー最小化法となりつつある。本 論文ではグラフカットの問題を非制約L1-Norm最小化として再定式化され、内部点法によって効果的に解が求 まる.この定式化によってグラフカット法と他の関連する連続最適化手法の関係が明らかになる。その結果 、問題は、根本のラプラシアンを含む一連の疎な線形な系の解法に簡単化される。提案手法ではこれら線形 な系の構造を利用して、容易に並列化実装可能な形に変形できる。この手続きを画像処理問題に実験応用し たグラフカットの処理結果を示す。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.30, No.11


VisualRank:ページランク法を大規模画像検索に適用する
VisualRank: Applying PageRank to Large-Scale Image Search

Jing, Yushi; Baluja, Shumeet

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 1877-1890 , November 2008

Keywords: Image Processing and Computer Vision Image/video retrieval

画像に比べてテキストは比較的理解しやすく処理も簡単であることから、多くの商用画像検索システムは、テキスト検索のための手法と殆ど同じ手法を用いている。最近の研究により、画像特徴からテキストによる検索の代替もしくはテキストによる検索の補助となる情報が得られることが分かっている。しかしこのような手法が大多数のウェブクエリに一般化できるかどうか、そしてこの手法による検索品質向上の可能性が計算コストの増加に見合うものであるかどうかについては確かめられていない。本研究では、画像ランキング問題を、推測された画像類似性グラフ(visual similarity graph)における“先例(authority)”ノードの特定タスクとして定義し、画像間の画像リンク構造を解析するためにVisualRankを提案する。“先例”として見つかった画像は、画像クエリに対する返答としても用いられる。このようなアプローチの実際のシステムでの性能を理解するために、一連の大規模な実験を行った。これらの実験では、最もポピュラーな製品画像を用いた2000のクエリによる画像検索を行った。この実験の結果により、ユーザ満足度と関連性に関して、提案手法が最新の技法であるGoogle Image Searchに比べ顕著な性能向上を示すことがわかった。この手法を実用するためには、アルゴリズムを適切な計算量に収めることが必要不可欠である。このため本手法によるシステムを、商用の検索エンジンにおいて大規模に展開できるようにするために必要な技法について述べる。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対象不特定のオブジェクト認識と画像検索のための、ホモトピー(2つの画像が連続変形可能)画像疑似不変量
Homotopic Image Pseudo-Invariants for Openset Object Recognition and Image Retrieval

Shinagawa, Yoshihisa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 1891-1901 , November 2008

Keywords: Computer vision Feature representation Invariants Object recognition

本稿では、画素レベルでの解析に基づいた顔認識のための、新しいホモトピー(2つの画像が連続変形可能なこと)画像の疑似不変量を示す。サンプル顔画像とテスト画像セットを照合し、最も類似性の高い画像をまず決定する。次に同位画像疑似不変量を計算し、この最も類似性の高い画像とサンプル画像が同一人物のものかを判定する。提案手法は対象不特定の認識問題に適用可能である。本手法において認識タスクは、顔画像データベースの有無にかかわらず実行可能であるが、データベースを利用した場合の方が認識率は高い。本手法はこの特徴により、顔画像のみならず、インターネット上での他の様々なオブジェクトの認識が可能である。インターネットからダウンロードした画像とFERETデータベース(face recognition technology database)を用いてベンチマークを行った。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所化されたコンテンツベースの画像検索
Localized Content-Based Image Retrieval

Rahmani, Rouhollah; Goldman, Sally A.; Zhang, Hui; Cholleti, Sharath R.; Fritts, Jason E.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 1902-1912 , November 2008

Keywords: Information Search and Retrieval Machine learning Relevance feedback

局所化されたコンテンツベースの画像検索(Contents Based Image Retrieval: CBIR)をCBIRタスクの一例として定義する。ここではユーザは画像の一部にのみ興味があるものとし、それ以外の部分は非関連領域として扱われる。本稿では局所化されたCBIRシステム、Accioを紹介する。このシステムは複数インスタンスの学習アルゴリズムとラベル付けされた画像を利用することで、まずターゲットオブジェクトを同定し、特徴を重みづけする。次に、画像の関連領域のみに依存する類似性尺度を用いて、データベース中の画像をランク付けする。局所化されたCBIRシステムの課題は、画像コンテンツの最適な画像表現を見つけることである。2つの新しい画像表現を提案し、両者の比較を行う。これらは局所化されたCBIR設定において画像コンテンツを表現するためのものであり、それぞれ従来の分割に基づいた方法、および顕在特徴点に基づいた方法を拡張したものである。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単語形状コーディングによるドキュメント画像検索
Document Image Retrieval through Word Shape Coding

Lu, Shijian; Li, Linlin; Tan, Chew Lim

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 1913-1918 , November 2008

Keywords: Artificial Intelligence Computing Methodologies Document Capture Document analysism Document and Text Processing Image/video retrieval Shape Text processing Vision and Scene Understanding

本稿ではOCR(optical character recognition:光学的文字認識)を用いずに文書画像を検索することが可能な文書検索手法を紹介する。提案手法は新しい単語形状コーディングスキームを用いて文書画像を検索する。このスキームでは、単語形状コードを用いて各単語画像にアノテーションを加え、これにより文書コンテンツを表現する。特に、トポロジー形状特徴セットを用いて単語画像にアノテーションを加える。この特徴セットには、文字のアセンダー(ascender:基準文字であるxの高さより上に出る部分、例えばbやhなど)/ディセンダー(descender:文字列の並び線より下に出る部分、例えばjやpなど)、文字抜け、上部開放型の文字がもつ図形的特徴(character water reservoirs:上から水を注ぐと貯まるような、上が開き下が閉じている文字形状:u, v, w, N, Mなど)などが含まれる。アノテーション付けされた単語形状コードを用いることで、クエリキーワードもしくはクエリ文書画像により文書画像を検索することができるようになる。実験結果により、提案文書画像検索手法が、高速かつ高効率、そして文書画像の各種汚損に対して頑健であることが示される。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像検索結果のマイニングによる画像アノテーション
Annotating Images by Mining Image Search Results

Wang, Xin-Jing; Zhang, Lei; Li, Xirong; Ma, Wei-Ying

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 1919-1932 , November 2008

Keywords: Applications Clustering Computer vision Computing Methodologies Information Search and Retrieval Information Storage and Retrieval Information Technology a Pattern Recognition Retrieval models

本稿では、新しい、モデルに依存しない画像アノテーション法を提案する。この方法では、画像を、その検索結果のマイニングによりアノテーション付けする。この手法は3つのステップからなる。1)画像的およびセマンティックな類似検索結果を見つけるための検索プロセス。2)上記検索結果のテキスト情報から特徴単語を同定するためのマイニングプロセス。そして3)第二ステップ中に生成されたノイズ単語をふるい落とすためのアノテーション棄却処理。実時間アノテーションを行うために、2つのキーとなる手法を用いている。ひとつは高次元画像特徴をハッシュコードにマップすることであり、他方はこの処理を分散システムで実装することである。これらにより上記検索およびマイニング処理をウェブサービスとして提供することができる。通常の場合、これらすべての処理が1秒未満で完了する。我々の提案アプローチにより、無限定の語彙によるアノテーションが可能となる。またこのアプローチは高い拡張性を持ち、はずれ値に対して頑健である。実際のウェブ画像およびベンチマーク画像データセット両方を用いた実験の結果により、提案アルゴリズムの効果と効率性が示される。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


実世界ウェブ画像に対する自動セマンティックアノテーション
Automatic Semantic Annotation of Real-World Web Images

Wong, Roger C.F.; Leung, Clement H.C.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 1933-1944 , November 2008

Keywords: Image/video retrieval Scene Analysis

ウェブ上にある画像の数が急速に増大しているため、画像のセマンティックサーチは重要な課題となっている。画像の意味上のコンテンツに対して意味のある直接的アノテーションをほとんど持たない多くの画像が、ウェブ上にアップロードされ続けており、これが、これらの画像の検索および発見可能性を低下させている。本稿では、画像パラメタ次元とメタデータの使用に基づいたセマンティックアノテーション手法を紹介する。決定木とルール導出を用いることで、画像に対する明示的なアノテーションを全自動で付与するためのルールベースのアプローチを開発する。我々の方法を用いることで、“秋のニューヨークの海に沈む夕日”のようなセマンティッククエリに対する解とインデクスを全自動で得ることができる。10万を超えるウェブ画像を用いて我々のシステムを定量的に評価する。実験結果により、我々のアプローチが高度な性能を持ち、時に80%を超えるような高い検索効率(recall/precision rates)を達成することが示される。本アプローチは、従来は人間の手による作業が必要であった画像の関連付けを自動化し、新しい次元のセマンティックリッチネスを提供するものである。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


生物学的考察に基づく特徴を用いた手書き単語スポッティング
Handwritten-Word Spotting Using Biologically Inspired Features

van der Zant, Tijn; Schomaker, Lambert; Haak, Koen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 1945-1957 , November 2008

Keywords: Computational neuroscience Computer vision Computing Methodologies Digital Libraries Feature Measurement Handwriting analysis Image Processing and Computer Vision Image/video retrieval Information Storage and Retrieval Information Technology and Systems Interactive systems Invariants

新たに書かれた手書き文書群を簡単に利用するという目的から考えると、現状の手書き認識法は余りに面倒である。これらの手法はラベル無しデータを扱うことができず、各スクリプト、スタイル、言語及び文書群に対して大規模なオフライントレーニングを必要とする。本稿で我々は、生物学的考察に基づく、全単語認識(whole-word recognition)法を提案する。この方法は、Monkと呼ばれるウェブベースのアノテーションシステムにおいて、単語ラベルを順次抽出するために用いられる。大量の画像データを取り扱わねばならない場合、人間の労力は最小化されるべきであり、そのため頑健な認知機構に基づいたシステムを構築することが重要となる。最近の視覚神経物理の計算モデルを独立単語識別に適用する。人間の脳の第一次視覚野に類似した仕組みにより、出現頻度の低いテキスト画像の識別が可能となる。これらの画像は多くの場合、最も検索が難しく、且つ名前のある対象を含んでいる。またこれらは最も重要な情報であるとされる。標準的なパターン認識手法は、十分なラベルづけされたインスタンスがない場合、これらの種類のテキスト画像を扱えないことが多い。この検索システムの結果を、正規化された単語画像マッチングと比較した結果、非常に有望であることがわかった。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


8千万の小さな画像:ノンパラメトリックなオブジェクト及びシーン認識のための大規模なデータセット
80 Million Tiny Images: A Large Data Set for Nonparametric Object and Scene Recognition

Torralba, Antonio; Fergus, Rob; Freeman, William T.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 1958-1970 , November 2008

Keywords: Computer vision Object recognition large datasets nearest-neighbor methods

インターネットの出現により、多数の画像がネット上で自由に利用可能な状態になっている。これらの画像は視覚世界を稠密に再現している。インターネット上で収集した79,302,017枚の画像からなる大規模データベースを利用し、様々なノンパラメトリック手法を用いてこの視覚世界を探索する。心理物理学の研究により、人間の視覚システムが画像解像度の低下に関して特筆するべき頑健性を持つことが判った。この結果に基づき本研究で使用される画像データは32ピクセル四方のカラー画像として格納される。各画像を、Wordnet語彙データベースにある75,062の非抽象的な英単語のうちの一つによりラベル付けする。これにより上記画像データベースは、すべてのオブジェクトカテゴリとシーンに対して十分なカバレッジを持つにいたる。ラベル付けノイズを最小化した状態で、様々なセマンティックレベルにわたるオブジェクトの識別を行うために、Wordnetから得たセマンティック情報を最近傍法と共に用いることができる。上記データセット中で特に優勢なある特定のクラス、例えば“人”など、に関して、クラス特定のViola-Jones形式の検出器との認識能力比較実験を行うことができる。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非時間軸のビデオ概要作成(Video Synopsis)とインデクス付け
Nonchronological Video Synopsis and Indexing

Pritch, Yael; Rav-Acha, Alex; Peleg, Shmuel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 1971-1984 , November 2008

Keywords: Computer vision Image/video retrieval Motion Tracking Video Video analysis

ビデオカメラ台数の増大に伴い、撮影ビデオ量も増加してきている。これには特に幾百万の24時間監視カメラの増大が影響している。ビデオの閲覧と検索は時間がかかるものであり、それゆえほとんどの撮影ビデオは実際には閲覧されることも検査されることもない。ビデオ概略作成(Video Synopsis)は、この類のビデオ閲覧およびインデクス付けのための効率的なツールである。このツールにより、元になるビデオの中の本質的に重要な活動を保持したまま、短く編集したビデオ表現を得ることができる。このビデオ中の重要な活動を、その発生時刻にかかわらず同時並列に複数見せることにより、ビデオの時間長を短縮した概略ビデオ(synopsis video)を作成する。この概略ビデオをインデクスとして、各重要活動の起きた時間に関連付けて元になったビデオに添付する。このビデオ概要は、Webcamや監視カメラで撮影される終わりのないビデオストリームに対しても適用することができる。これにより例えば“このカメラで撮影された過去1日分のビデオから1分間のビデオ概要を作成せよ”というようなタスクが可能となる。この処理は2つの主なフェーズからなる。(i)終わりのないビデオストリームを、オブジェクトと活動(フレームではない)のデータベースにオンラインで変換する処理。(ii)ユーザのクエリに対応するビデオ概要を生成する反応フェーズ。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネル法とマルチレベル時間整列を用いたビデオイベント認識
Video Event Recognition Using Kernel Methods with Multilevel Temporal Alignment

Xu, Dong; Chang, Shih-Fu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 1985-1997 , November 2008

Keywords: Concept Ontology Concept-based Video Indexing Earth Mover's Distance Event Recognition News Video Temporally Aligned Pyramid Matching

本研究では、無限定環境下のニュースビデオ系列におけるイベント認識問題を体系的に扱う。本研究では、ビデオクリップの類似性が重要な役割を担う記述的カーネルベース法を採用する。まず全ての構成フレームから抽出された順序づけされていない記述子の集合(bag)としてビデオクリップを表現し、Earth Mover’s Distance (EMD)を適用することで、2つのビデオクリップからのフレームの類似度を統合する。通常のビデオクリップが、イベントの発展に対応する複数のサブクリップから構成されるという観察に基づいて、マルチレベル時間軸ピラミッド構造を構成する。そして各ピラミッドレベルにおいて、様々なサブクリップからの情報を統合する。このとき解を整数値に制限した(Integer-value constrained)EMDを用いて、サブクリップを厳密に整列させる。異なるピラミッドレベルからの情報を統合することで、ビデオ類似性を計量するための時間軸整列ピラミッドマッチング(Temporally Aligned Pyramid Matching:TAPM)を開発した。6800以上のクリップからなるTrecvid 2005コーパスを用いて包括的な実験を行った。我々の実験結果は、1)TAPMマルチレベル法は、明らかに単一レベルEMDよりも優れた性能を示した。2)単一レベルEMDはキーフレーム若しくはマルチフレームに基づく検出法よりも遥かに優れた性能を示した。さらに提案手法に対して、単一レベルEMDにおける重み付け選択、時間軸クラスタリングの感度、時間軸整列の効果、そして計算効率向上のための施策などについて、更なる詳細な検討を加えた。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


小胞活動の顕微鏡映像検査のための効率的アノテーション
Efficient Annotation of Vesicle Dynamics Video Microscopy

Cortes, Leandro; Amit, Yali

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 1998-2010 , November 2008

Keywords: Coarse to fine computation Event triage Multiple object detection Statistical modeling biological imaging

顕微鏡映像検査における対象イベントの効率的なアノテーションのためのアルゴリズムを紹介する。このアルゴリズムのアプリケーションとして、全内部反射蛍光顕微鏡画像における、重複を含みうる複数の小胞の検出と追跡がある。小胞構成の活動画像データのための統計モデルにより、様々な前提を適切に重みづけすることができるようになる。本研究の目的は、画像系列が与えられたときに、最もありうるべき軌道を見つけることである。計算量の問題には、一連の疎から密への戦略に則ったテストを用いることで対応する。このテストは、各タイムフレームにおけるほとんどの候補位置を高速に棄却するために、上記統計モデルから導出される。このテストの計算負荷は、最初は非常に低いが、偽陽性(false-positive:棄却されるべきだがされなかった試行)試行の削除が難しくなるに従って徐々に増加する。最後の段階でのみ、完全な時間依存モデルからの状態変数の推定が行われる。この特性のため、処理時間は主に画像中の小胞の数に依存し、画像のサイズには依存しない。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数のデータ点集合と地図構成の同時非剛性登録
Simultaneous Nonrigid Registration of Multiple Point Sets and Atlas Construction

Wang, Fei; Vemuri, Baba C.; Rangarajan, Anand; Eisenschenk, Stephan J.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 2011-2022 , November 2008

Keywords: Computer vision Shape

ラベル付けされていないデータ点の集合により表現される形状の組を、グループ単位で登録することは困難な課題である。これはこの問題が非剛体動き条件下における点対応問題を解かねばならないからである。本稿では、新しい頑健なアルゴリズムを提案する。このアルゴリズムは、複数のラベル付けされていないデータ点集合から導出された確率密度関数により表現された平均形状の計算と、上記データ点集合をこの平均形状に非剛体的に登録することを同時に行うことができる。このアルゴリズムは上記点対応問題をデータ点集合間のJensen-Shannon(JS)発散の最小化を行うことで回避している。JS発散はもともと仮設検定に適した性質をもっており、それ故本件のような用途に適していると考えられる。最適解を効率的に得るためにコスト関数の解析的グラジエントを導出する。JS発散は平均を求めるべき複数の入力形状のいずれからもバイアスを受けず、また対称である。この登録プロセスの副産物のひとつは、整列されるべき入力データ点集合の確率密度の凸結合としての確率地図が得られることである。我々のアルゴリズムは特に、画像中の様々な形状の地図を作ることに有用であり、また対応表現を作る必要なく三次元奥行きデータセットを(剛体的もしくは非剛体的に)同時に登録できる。実データおよび合成データを利用して行った実験の結果を示す。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統計的形状解析のための形状対応の評価:ベンチマーク
Evaluating Shape Correspondence for Statistical Shape Analysis: A Benchmark Study

Munsell, Brent C.; Dalal, Pahal; Wang, Song

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 2023-2039 , November 2008

Keywords: Statistical shape analysis benchmark study point distribution model shape correspondence

本論文では、統計的形状解析のためのランドマーク(目印となる画像コンテンツ)に基づいた形状対応を評価する新しいベンチマーク法を紹介する。従来の形状対応評価法と異なり、提案するベンチマーク法は、まず与えられた統計的形状モデルのランダムサンプリングにより多数の合成形状インスタンスを生成する。これらインスタンスは同時に後の評価段階で正解集合としても用いられる。次にこれらの合成形状インスタンスに対して試験対象となる形状対応アルゴリズムを実行し、対応するランドマークの組を同定する。最後にこの新しい形状空間を前記正解形状空間と比較し、試験対象となる形状対応アルゴリズムの性能を決定する。本稿では、正解形状と新たに導出された形状空間との差異を定量化するための、ランドマークに依存しない3つの性能尺度を紹介する。統計的形状モデルと3つの新しいランドマーク非依存性能尺度により定義される正解形状空間を導入することにより、提案するベンチマーク法では、以前の方法より客観的な形状対応の評価ができると思われる。本校では、提案する2次元形状対応のためのベンチマークに焦点を当てるが、これは簡単に3次元に拡張可能である。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統計的DTWと独立識別の組み合わせによる手話認識
Sign Language Recognition by Combining Statistical DTW and Independent Classification

Lichtenauer, Jeroen F.; Hendriks, Emile A.; Reinders, Marcel J.T.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 2040-2046 , November 2008

Keywords: 3D/stereo scene analysis Artificial Intelligence Classifier design and evaluation Computing Methodology Face and gesture recognition Markov processes Real-time systems Time series analysis Vision and Scene Understanding

会話、手書き文字、そして手話を認識するために、動的時間ワーピング(Dynamic Time Warping: DTW)もしくは隠れマルコフモデル(Hidden Markov Models: HMM)を判別識別と組み合わせた多くのハイブリッドアプローチが提案されてきた。しかしこれらの方法はすべてDTWもしくはHMMの尤度モデルに直接依存している。尤度モデリングに対する要求が矛盾するため、時間ワーピングと識別は分離されるべきものであると我々は仮定する。これらの拘束を克服するため、統計的DTW(Statistical DTW: SDTW)を時間ワーピングのみに用い、ワーピングされた特徴の認識は他の方法で行うことを提案する。2つの新しい統計識別器(CDFDとQ-DFFM)を提案する。これらはともに識別特徴(Discriminative Features: DF)のうちの一部を用いており、HMMおよびSDTWを凌ぐ性能を示す。しかし複数のモデルの尤度モデルを組み合わせることは、HMMおよびSDTWの性能を向上させるにもかかわらず、提案手法二段目の識別性能を低下させることがわかっている。コンセプト証明のための実験により、複数のSDTWモデルのDFFMマッピングの組み合わせが、ハイブリッド識別器がSDTWに対して顕著な性能向上を可能にすることが示される。認識処理段が主に三次元の手の動き特徴に基づいているにもかかわらず、これらの結果を用いて、手/体の姿勢および顔の表現の認識などの、さらに詳細な尺度を用いた認識処理への一般化に拡張することが可能である。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


剛体的、周期的なグラフ確信度伝播および点パターンマッチング
Graph Rigidity, Cyclic Belief Propagation, and Point Pattern Matching

McAuley, Julian J.; Caetano, Tiberio S.; Barbosa, Marconi S.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 2047-2054 , November 2008

Keywords: Point pattern matching belief propagation chordal graphs global rigidity graph matching graphical models

著者らは最近の他の論文で、弦グラフモデルにおける厳密な統計的推測を用いた、等大点パターンマッチングのための最適性が証明可能な多項時間法を提案した。この提案の基本的な成果は求められる弦グラフが、大域剛体的であることが示されたことであり、これは厳密な推測が、完全グラフモデルにおける厳密推測と全く同じマッチング解を与えることを暗に示している。これはさらに、対象となる点パターンにノイズが含まれない場合には、この方法で用いたアルゴリズムが最適であることを意味している。本稿では大域剛体的であり、且つ前記論文で用いたグラフよりも優れた新しいグラフを紹介する。このグラフの最大クリークサイズは従来のものに比べ小さく、これにより推測が顕著に効率化している。しかしこのグラフは弦的ではなく、それゆえ標準的なジャンクションツリーアルゴリズムを直接適用することができない。この特性にもかかわらず、このようなグラフにおけるループ型の確信度伝搬が、最適解に収束することを示す。これによりノイズがない場合の最適性の保証が可能となり、さらに、アルゴリズムに必要とされるメモリ容量を縮小し、処理時間も短縮している。我々の実験の結果により、本稿で提案する手法は、点パターンにノイズが含まれる場合、以前に提案した方法と精度面で差がないことを示している。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ダイナミックな環境下での動く影の検出のための学習処理
Learning to Detect Moving Shadows in Dynamic Environments

Joshi, Ajay J.; Papanikolopoulos, Nikos P.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 2055-2063 , November 2008

Keywords: Applications Co-Training Computer vision Population Drift Semi-Supervised Learning Shadow Detection

動く影の検出および、ビデオ画像系列中の他のオブジェクトとの区別のための新しい適応的手法を提案する。影を検出する方法の多くは、相当量の人間の労力により入力された静的条件下での処理を前提としている。この制約を取り払うために、より一般的な半教師付学習法を提案する。まずビデオフレーム内のカラーとエッジの性質の違いを利用し、識別に有効な特徴を選び出す。次にサポートベクトルマシンと共訓練アルゴリズム(co-training algorithm)を用いたある学習法を適用する。この方法は小規模の人手でラベルづけされたデータに依存している。共訓練が特徴空間における確率分布を変化させる効果を持つという驚くべき現象を観測した。影を検出する目的では、本手法は、一度システムを展開すれば、あとは人手を介さずに変化する状況にダイナミックに適応することができる。さらに静的、動的両方の環境下において以前の方法を上回る識別性能を示す。提案手法の利点は、人の手によるラベル付けデータをほんの僅かしか必要としないこと、そして変化するシーン条件に自動的に適応する能力である。

TS

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.30, No.12


音楽鑑賞中の生理的変化に基づく感情の認識
Emotion Recognition Based on Physiological Changes in Music Listening

Jonghwa Kim Elisabeth Andre

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2067-2083 , 12 2008

Keywords: Signal analysis, synthesis, and processing, Methodologies and techniques, User/Machine Systems, Theory and methods, Interaction styles, Human-centered computing, Classifier design and evaluation, Feature evaluation and selection, Pattern analysis, Signal processing

本論文は感情を理解するための信頼できる信号として生理的信号の利用の可能性を調べた。すべて自動認識システムにおける生理的データ集合から特徴量に基づく多クラスの分類までの基本的な段階を考察した。何週間にもわたって多数の項目の生理的データ集合を収集するためには我々は音楽的誘導法(musical induction method)を利用したが、これは実験室で入念な設定をしなくても実際の感情を自発的に表しやすい。このために、4チャネルのバイオセンサーを使って筋電図、心電図、皮膚伝道度、呼吸変化を測定した。感情を最も良く表し、感情と最も高い相関を示す特徴量を見つけるために、多様な解析によって広範囲の生理的特長量を提案したが、これらの中には時間/周波数、エントロピー、幾何学的解析、サブバンドスペクトル、多重スケールエントロピー、などが含まれる。この中で最良の特徴量は詳細に述べてあり、その効果は識別結果によって実証してある。4つの音楽的感情(興奮が高い/低い、負の興奮が高い/低い)への分類を拡張線形判別分析法(pLDA)によって行った。さらに、2D感情モデルの2分法の性質を利用して、感情に特異的な多重レベル2分識別法(EMDC)を新規に開発し、この性能をpLDAによる直接多重識別法と比較した。このEMDC法によって対象依存性識別率として95%、対象独立識別率として70%の精度が得られた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スペクトルマッティング
Kernels for Generalized Multiple-Instance Learning

Qingping Tao, Stephen D. Scott, N. V. Vinodchandran, Thomas Takeo Osugi, Brandon Mueller

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2084-2098 , 12 2008

Keywords: Machine learning, kernels, support vector machines, generalized multiple-instance learning

多数事例学習モデル(MIL)は多くの応用分野で成功している。最近、このモデルの一般化法とそのアルゴリズムが紹介され、従来のMILに比べて顕著な優位性が示された。残念ながらこのアルゴリズムは多次元に拡張することはできない。我々は新規なカーネルであるkΛ を利用したサポートベクトルマシンにこのアルゴリズムを利用した。これによって計算複雑度が次元の指数から多項式へと減少した。我々の新規なカーネルの計算は、2つの多数集合の1つに少なくとも1つの点を含む離散、有界空間のボックスを数え上げるのと同等の複雑度を有する。この複雑度は♯P completeと同等であることを示し、これが完全に多項式レベルのランダマイズされた近似法(FPRAS)を示す。次に、このkΛ を充実させて新規なkmin に拡張し、kΛ が正規化された(これをkΛ/V と呼ぶことにするが、これがカーネルであるかどうかはわからないが、この近似は実際的には半正値グラム行列(positive semidefinite Gram matrices)となる)。それから、コンテンツに基づく画像検索、生物の遺伝子配列解析、および、UCIのMuskデータ集合に関する実験によって3つの尺度を評価した。我々のカーネルはこのデータ集合において、従来のMILモデルによる手法に比べ、良好な結果を示した。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


幾何学的・測光学的なグループ単位の直接的画像の位置あわせ
Groupwise Geometric and Photometric Direct Image Registration

Adrien Bartoli,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2098-2108 , 12 2008

Keywords: Computer vision, Intensity, color, photometry, and thresholding

画像の位置合わせには、2つの画像をできるだけうまくそろえるような幾何的・測光的な変換を推定することが基本にある。直接的な手法としては、画素間の強度やカラーの不一致を最小化することがある。逆合成アルゴリズムが最近Bakerたちによって提案され、これはグループ単位で直接幾何的変換を行う。これは前計算として、演算コストの高い計算を行うことで効率的である。測光変換は画素値に作用する。これは照明光の変化のような効果も扱う。幾何的・測光的変換を同時に(jointly)推定することは、画像モザイク貼り合わせのような多くの応用にとって重要である。我々は前処理による効率的な元画像の逆合成の構造を保持しながら、グループ単位の幾何的・測光的変換を同時に実行するアルゴリズムを提案する。これを二本立て逆合成アルゴリズムと呼ぶ。これは、同時逆合成アルゴリズムとは異なる近似法であり、グループ単位で幾何的で全体的な測光変換を行う。この名前の由来は、幾何的、かつ、測光的な変換によって逆合成を段階的に最新状態に更新することによる。これによって収束性に関する計算効率が明らかに向上した。このアルゴリズムは従来のアルゴリズムと実データとシミュレーションデータを使って比較された。この結果、収束性に関して計算効率がはっきり向上したことが示された。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


トップダウンとボトムアップが組み合わされたセグメンテーション法
Combined Top-Down/Bottom-Up Segmentation

Eran Borenstein Shimon Ullman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2109-2125 , 12 2008

Keywords: Vision and Scene Understanding, Perceptual reasoning

我々はトップダウンとボトムアップを組み合わせてセグメンテーション法を構築した。この提案法ではセグメンテーションと認識は、順次行われるのではなく、交互に行われる。トップダウンは学習過程で得られた蓄積知識のオブジェクト形状について適用され、ボトムアップは均一な基準によってセグメンテーションされた領域を階層化する。まず、セグメント化してないがクラス別けされている学習例と、クラス別けされてない学習例から始め、クラス特有の断片集合を構築し、これに基づく画像に基づくセグメンテーション例を決定する。このセグメンテーションの沢山の例から、新規なサンプル画像に対してトップダウンでセグメント化するが、このとき断片集合はクラスオブジェクトを含む図形によって認識するために利用され、次にこれらのオブジェクトを最も良く近似する完全に網羅するものを構築する。結果として得られるセグメントはボトムアップで多重スケールに集積・グループ化され、オブジェクトの境界を描きなおす。我々の実験は4つのオブジェクト(馬、通行人、車、顔)からなる大量の集合に適用され、従来のトップダウンやボトムアップで実行された手法をはるかにしのぐ結果を示した。この研究の主要で新規な面は断片学習であり、オブジェクトや背景が大きく変動していても、トップダウンとボトムアップを組み合わせた利点と、セグメンテーションを利用して認識を改善し、セグメント化された断片図形に基づいて効果的に学習することである。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エッジペナルティと領域成長を利用した画像セグメンテーション
Image Segmentation Using Edge Penalties and Region Growing

Qiyao Yu, David A. Clausi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2126-2139 , 12 2008

Keywords: Markov random fields, Region growing, partitioning

本論文はセマンティックスを利用した逐次領域成長法(IRGS)と呼ばれる方法を提案するが、これは2つの特徴を有する。第1に目的関数を定式化するために従来のマルコフ確率場(MRF)において累進的なエッジペナルティ(GIEP)関数を利用する。第2にIRGSは、これら目的関数の解を探索するのに領域成長法を利用する。この提案IRGS法は従来のMRFに基づく方法の改良であり、エッジ強度情報が利用されモデルパラメータとして、より安定な推定が達成された。さらに、IRGSは画像のコンテンツとして階層的な表現を構築する可能性があり、多様な領域特徴量や、もっとドメイン知識さえもセグメンテーションに利用できる可能性もある。このアルゴリズムはいくつかの人工的な画像と合成開口データ画像でテストされ、好ましい結果が得られた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ベイズ法による多センサー情景理解のための構造推定
Structure Inference for Bayesian Multisensory Scene Understanding

Timothy M. Hospedales Sethu Vijayakumar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2140-2157 , 12 2008

Keywords: Pattern Recognition, Scene Analysis, Sensor fusion

多センサーによる情景認識の課題において、ベイズモデルの選択と構造推定の枠組みの中で定式化することによる解を調べてみよう。人間は多モードであっても適切なものとしてロバストに関連付けすることができるが、以前のモデル化の研究は主として最適融合と言う意味に集中していて、機械理解システムによって分離性能は評価されず、利用もされてないままであった。多センサー理解と追跡のための統一化ベイズシステムを図示するが、このシステムは時間的な意味でのデータ関連性を明白な確率的推論によって、統合化と分離の両方を対象とする。多モードのデータの関連付けに対するこのような明白なインターフェースは、多センサーデータの高レベルの理解には本質的な興味がある。多数のパーティからなる音声視覚データによるデータ関連付けを確率的手法を利用して実装することを図示するが、ここでは、教師無し学習法と構造推定法を利用した自動的セグメント化と、個々の課題を視聴覚データ系列の関連付けによって追跡する。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像における教師無しカテゴリーモデル化と認識およびセグメンテーション
Unsupervised Category Modeling, Recognition, and Segmentation in Images

Sinisa Todorovic Narendra Ahuja

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2158-2174 , 12 2008

Keywords: Object recognition, Segmentation, Graph Theory, Graph algorithms, Graph-theoretic methods, Trees, Hierarchical, Computer vision, Vision and Scene Understanding, Image Representation, Structural Analysis

任意の画像中にラベルの付いてない、カテゴリーの不明な2Dオブジェクトがたびたび出てくると想像しよう。本論文では以下のような関連問題を同時に解くことを目的としている:2Dカテゴリーの多段スケール領域から成る、測光的、幾何的、位相的特性を教師無しで同定する;(2)これらの特性によってカテゴリーの領域に基づく構造モデルを学習する;(3)新しく与えられた画像中のオブジェクトを検出し、認識し、セグメント化する。この目的のために、各画像は多段スケール画像のセグメンテーションされたツリー(tree)で表現される。このツリーは集合全体に渡って、最大マッチした部分ツリーに抽出され、目的カテゴリーの事例(インスタンス)とみなされる。このようにして抽出された部分ツリーは、次にモデルの基準となるカテゴリーモデルを代表するツリー集合(tree union)に融合される。学習されたカテゴリーからのオブジェクトの検出・認識・セグメンテーションは、新しい画像のセグメンテーションツリーのカテゴリーモデルとのマッチングと同時に達成される。ベンチマークのテストによって学習されたカテゴリーモデルはロバスト性と、高い精度を実証し、実験的に妥当性が評価された。特に、学習例が少ないとき、人間による指示が無くても学習できる。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


空間的に変化する停止時間を有する非線形なスケール空間
Nonlinear Scale Space with Spatially Varying Stopping Time

Guy Gilboa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2175-2187 , 12 2008

Keywords: Smoothing, Parabolic equations, Partial Differential Equations

主要なスケールが時間とともに空間的に変化している画像において信号のノイズを減少させる、一般スケールでのアルゴリズムを紹介する。このプロセスは空間的に時間とともに変化している偏微分方程式で定式化される。この処理は半局所適応性を持っており、古典的な勾配に基づく拡散係数に関連しており、エッジを保存するよう設計されている。この新しいアルゴリズムはノイズ除去画像の局所SNRを最大化することを目的にしている。これは最近著者と同僚が提案した、グローバルな停止時間基準を一般化したものである。ここでは非線形な拡散方程式を扱っており、ノイズレベルとスケールは互いに関連が深く、この因子は計算時間によって制御できるため、しばしば停止時間基準(stopping time criterion)と呼ばれている。ノイズの変動量の推定値が与えられたとき、処理プロセスは自動的になされ、ほとんどの自然画像にうまく適用することができる。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非連結スケルトン:絶対的スケールにおける形状
Disconnected Skeleton: Shape at Its Absolute Scale

Cagri Aslan Aykut Erdem Erkut Erdem Sibel Tari

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2188-2203 , 12 2008

Keywords: Shape, Representations

変形可能な形状の認識問題のための新規なスケルトン表現をマッチングの枠組みとともに提案する。非連結の問題は、しばしば、達成可能な程度に疎なスケールで形状を記述し、これの整形が過剰になった結果として生じる。我々は測定に伴う2次的な細かい形状ではなく、安定な形状の特性を利用することを目的としている。この新規な表現では従来の連結スケルトン問題から生じる不安定さは無く、2D形状を納めた多様なデータベースのマッチング問題に対してもきわめて満足すべき結果が得られる。従来のスケルトン法と異なる重要な相違点は、局所座標の枠組みをグローバルなユークリッドの枠組みで置き換え、これを支援するための明確化メカニズムと局所的境界変形を利用したことである。その結果、どのような組み合わせのスケールや、位置、方位、形状明瞭化のための割り切り(段階的変形)、および、不変性の変化にも敏感な表現法を作ることができた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


デジタル画像と体積データの整数中心軸変換による線形時間法ユークリッドスケルトン化
Euclidean Skeletons of Digital Image and Volume Data in Linear Time by the Integer Medial Axis Transform

Wim H. Hesselink, Jos B.T.M. Roerdink,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2204-2217 , 12 2008

Keywords: Curve, surface, solid, and object representations, Image Representation, Edge and feature detection, Feature representation, Shape, Volume visualization

2Dや3Dのデータ集合を線形時間内にユークリッドスケルトン化する一般的アルゴリズムを紹介する。ここで紹介する新たなスケルトンは、整数中心軸変換(IMA)と呼ばれる。これはマンハッタン距離によって、輪郭部から等距離にある中心軸を抽出する。このIMAスケルトンに関するいくつかの基本的な性質を証明し、これとCMD(最大円盤中心)スケルトンの性質と比較する。IMAのいくつかの枝狩り法も紹介し(定常、線形、ルート2乗)、その性質を調べた。IMAスケルトンを計算するアルゴリズムは、ユークリッド距離変換用の線形時間計算法による特徴量変換に基づいている。スケルトン化アルゴリズムは入力点数に線形比例する計算複雑度を有するが、これは容易に並列化することができる。いくつかの2D,3D画像のデータ集合に対して実施されたスケルトン化におけるスケルトン品質、必要メモリー、計算時間の実験結果を示す。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ニューラルネットの応用による熱画像最小解像(円)温度差の推定
Prediction of the Thermal Imaging Minimum Resolvable (Circle) Temperature Difference with Neural Network Application

Yi-Chin Fang Bo-Wen Wu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2218-2228 , 12 2008

Keywords: Artificial Intelligence, Image Processing and Computer Vision

熱画像化法は国家の防衛にとっても個人的にも重要な技術である。熱画像化は職務従事している場合でも配備することができるし、天候、屋内や屋外の照度の違いに制限を受けることも無い。しかし、屋外では大気による減衰、標的形状、遠距離、フォッグ、温度限界、回折限界などの多くの因子によって画像が劣化する結果、標的認識の精度に影響を及ぼす。人間の視覚特性は通常の条件では人工知能による認識よりははるかに優れた認識性能を持っている。しかし、疲労によって人間の視力は損なわれるように、人の視力は環境によって大きく影響を受ける。したがって人間による視覚が採用されたMRTD(最小解像温度差), MRCTD(最小解像円温度差)の測定には、心理的・生理的因子が、認識結果に影響を及ぼす。本研究は熱画像認識を探索し、特性値や画像処理を十分効率的に選ぶ方法を提示する。ニューラルネット技術が、熱画像化や、MRTD と MRCTDの予測にうまく応用され、また、疲れた人間の認識能力や人間の視力限界をしのいだ。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化特徴量抽出のための相関尺度
Correlation Metric for Generalized Feature Extraction

NYun Fu, Shuicheng Yan, Thomas S. Huang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2229-2235 , 12 2008

Keywords: Machine learning, Face and gesture recognition, Geometric

線形でカーネルによる特徴量抽出の先のものとして、本論文において我々は、いわゆるグラフ埋め込み枠組みによる、一般化特徴量抽出の定式化を提案する。この定式化に基づく、新規な相関尺度に基づくアルゴリズムを提案する。ここの相関埋め込み解析(CEA)は、相関マッピングと判別分析の両方を合体させてもので、高次元の超球面から別の低次元の超球面上にマッピングすることで判別能力を増強してあり、局所グラフモデル化によって固有の近傍関係を保持している。相関主成分分析(Correlational Principal Component Analysis (CPCA))は、従来の主成分分析アルゴリズムを高次元の超球面上のデータ分布に一般化したものである。この利点は、次の2つの事実から生じる:1)しばしばデータ処理した結果である正規化されたデータに合わせてあること、2)直接相関尺度によって設計されており、これは識別用には一般的にはユークリッド距離よりも優れていること。視覚による識別実験について、既存のアルゴリズムと十分な比較検証を行った結果提案手法の有効性が実証できた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


潜在空間変分ベイズ法
Latent-Space Variational Bayes

aemo Sung, POSTECH, Pohang Zoubin Ghahramani, Sung-Yang Bang,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2236-2242 , 12 2008

Keywords: variational Bayesian inference, Machine learning, unsupervised Learning, latent variable model, conjugate exponential family, variational method, mixture of Gaussians

変分ベイズ期待値最大化法(VBEM)は潜在的変数とモデルパラメータを因子分解によって近似的に推定する確率的手法であるが、実際的なベイズ推定法において標準的な手法となっている。本論文ではもっと汎用的な共役指数分布族モデルのための近似的推論の枠組みを紹介し、これを潜在空間変分ベイズ法(LSVB)と呼ぶ。この手法ではモデルパラメータを正確に統合し、潜在変数だけを決めないでおく。LSVB的手法ではモデルのエビデンスの推定に優れるだけでなく、潜在変数の分布についてもVBEM法よりは優れているが、実際のところ潜在変数に関する分布は近似が必要である。現実的な実装に於いてこの潜在変数に対する分布を近似するために1次のLSVBアルゴリズムを紹介する。この近似分布から、モデルのエビデンスを推定でき、モデルパラメータによる事後確率を推定できる。この1次LSVBアルゴリズムは、直接VBEMアルゴリズムと比較可能で、両者は同じ計算複雑度を持っている。我々はLSVBが、最新提案された” collapsed variational methods”をどのようにして一般化して共役指数分布族にするかを議論する。人工的データと実データから成るガウス混合とベルヌーイ混合のデータ集合に対する実験から、我々の提案手法がVBEMよりも幾分優れていることを示す。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


1D Camera Geometry and Its Application to the Self-Calibration of Circular Motion Sequences 1Dカメラの幾何学とこれを応用した逐次円運動による自己キャリブレーション
1D Camera Geometry and Its Application to the Self-Calibration of Circular Motion Sequences

AKwan-Yee K. Wong, Guoqiang Zhang, Chen Liang, Hui Zhang,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2243-2248 , 12 2008

Keywords: Camera calibration, Imaging geometry, 3D/stereo scene analysis

本論部では幾何学的に未較正カメラにおいて、これを円状に動かせながら撮影された画像をロバストに修正する新規な手法を提案する。円運動をすると、すべてのカメラ中心は円状の平面上に存在し、この円を含む平面から画像中の水平線上への射影は1D投影モデルとみなせる。2つの1D視野中への投影を関連付けるために2×2ホモグラフィーを導入して本論文を展開する。このホモグラフィーによって、動き平面上の2つの円状の点画像と2つの視野像間の回転角度が直接導けることを示す。このようにして、画像化された円状点と回転角度を復元する方法は、各画像対について1:1の対応付けを推定するために利用されることは、元来の多数視野法であるし、エピポールに埋め込まれたシーケンス幾何法でもある。この結果は従来の隣接画像のみを使って回転角を計算するだけの方法に比べてもっとロバストである。この提案手法はロバストな点を用いた点特徴を利用するか、あるいはシルエットを利用するかの自己キャリブレーションに応用されてきたが、今回、高精度の結果が得られた。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


1D Camera Geometry and Its Application to the Self-Calibration of Circular Motion Sequences ノンパラメトリックな手法による3次元表面レリーフの完成
Three-Dimensional Surface Relief Completion Via Nonparametric Techniques

Toby P. Breckon, Robert B. Fisher

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 12, pp. 2249-2255 , 12 2008

Keywords: Image Processing and Computer Vision, Range data, Shape, Surface fitting, Statistical, Computer vision, Three-Dimensional Graphics and Realism, Computational Geometry and Object Modeling, Computer Graphics

レーザー走査やステレオ法のような一般的に行われている3D情報の取得法は、実際には2.5Dと言うべきである(不完全な3D)。ここでは、もともと2.5Dや3Dの3D情景画像中で、隠蔽されたり消失している部分を自動的に完成することを考察する。我々は既知で可視の情景領域の知識からノンパラメトリックな伝播とともに、初期に仮定された幾何学的表面の完全性を考慮することによって、未知で見えない3D領域を復元する手法を提案する。

Ej

Copyright (c) 2008 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[インデックス] [前の年] [次の年]