AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.32, No.1


コンテキスト非類似性尺度を用いた高精度画像検索
Accurate Image Search Using the Contextual Dissimilarity Measure

Herv? Jegou, INRIA Grenoble, France Cordelia Schmid, INRIA Grenoble, France Hedi Harzallah, INRIA Grenoble, France Jakob Verbeek, INRIA Grenoble, France

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 2-11 , January 2010

Keywords: Image search, image retrieval, distance regularization.

本稿ではコンテキスト非類似性尺度を導入する。これにより特徴集合(bag-of-features)に基づいた画像検索の精度を顕著に向上させる。この尺度では、特徴ベクトルの局所分布を考慮に入れ、Sinkhornのスケーリングアルゴリズムの考え方に基づいて距離更新項を反復的に推測し、これにより近傍の構造を修正する。Nister-Stewenius及びLolaデータセットを用いた実験結果は、本アプローチが、標準手法で用いられる距離尺度よりも顕著に良い結果が示し、また、他の最新のアルゴリズムを凌駕する高精度を示す。本稿は更に、多数のパラメタを持つことの影響と利点を示す。これには多数の記述子、クラスタリング法、視覚語彙のサイズ、そして距離尺度が含まれる。最適なパラメタ選択は、コンテキストに対して高い依存性を持つことが示される。特に多数の記述子を用いることは、我々の非類似性尺度を用いるときにのみ有効であると考えられる。複数への対応付けとランク集合という2つの新しい変数についても評価を行った。これらはメモリ消費量が多く計算効率が悪いものの、更に精度を向上させることが分かっている。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルコフ連鎖における自動距離画像位置合わせ
Automatic Range Image Registration in the Markov Chain

Yonghuai Liu, Aberystwyth University, Ceredigion

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 12-29 , January 2010

Keywords: Automatic registration, range image, Markov chain, Lyapunov function, entropy maximization, mean field annealing

本稿では、熱力学システムの成分の熱力学的制約外の裾の長い(long tailed)確率分布と裾の短い(short-tailed)確率分布両方を記述できる新しいエントロピーを、マルコフ連鎖のためのリアプノフ(Lyapunov)関数から導出する。次に従来の最近点指標を用いて得られた、重なりのある2枚の距離画像間の、可能性のある対応の確率推定を行うために、このエントロピーを最大化する。この対応の確率推定に対する最小解を詳細に検討することで、反復的な距離画像位置あわせプロセスがマルコフ連鎖としてモデル化できる。このモデルでは、以前のこれらの確率の推定のための実験における教訓が生かされている。両方向の制約を掛けるために、どちらかの画像において、対応点の隠蔽、現出そして消失が最も起こりやすい外れ値を明示的にモデル化する。最後に、この対応の推定された確率を、大域最適化のための強力な平均場焼きなまし法(mean field annealing)に組み込む。これによりカメラの動きに関するパラメタを、重み付き二乗平均的に推測する。実画像を用いた比較検討により、提案アルゴリズムが、重複ある距離画像の自動位置合わせのための最新のICP変数によるアプローチ、及び最新の遺伝アルゴリズムを凌駕する性能を持つことが示される。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視認性のためのブーストフレームワーク:距離尺度を保持した学習と医療画像検索に対する応用
A Boosting Framework for Visuality-Preserving Distance Metric Learning and Its Application to Medical Image Retrieval

Liu Yang, Carnegie Mellon University, Pittsburgh Rong Jin, Michigan State University, East Lansing Lily Mummert, Intel Research, Pittsburgh Rahul Sukthankar, Intel Research, Pittsburgh Adam Goode, Carnegie Mellon University, Pittsburgh Bin Zheng, University of Pittsburgh, Pittsburgh Steven C.H. Hoi, Nanyang Technological University, Singapore Mahadev Satyanarayanan, Carnegie Mellon University, Pittsburgh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 30-44 , January 2010

Keywords: Machine learning, image retrieval, distance metric learning, boosting.

類似性尺度は、コンテンツに基づいた画像検索システムの根幹をなすものである。良い距離メトリクスを学習することで、検索性能を顕著に向上させることができる。しかしこれまでに行われた多くの研究にもかかわらず、距離尺度学習の既存アプローチには多くの欠点がある。そしてこの欠点は、これらのアプローチを医療画像検索に適用する場合に大きな影響を持つ。特に“類似性”が意味するところは、画像検索において非常に多岐にわたる。例えば、視覚上の外観における類似性(例えば2つお互いに類似した画像)、や意味的な類似性(例えば外見が全く異なる2つの悪性腫瘍の画像)などのように。距離メトリクス学習のための既存のアプローチでは、単一の正解のみを考慮し、他は考えに入れない。これは医師の意思決定を助けるための医療画像検索システムにとっては問題である。これらのアプリケーションでは、クエリ画像が与えられたとき、予め定められた画像リポジトリを検索し、類似画像を検索することである。このリポジトリ内の画像は、画像コンテンツの意味についてのアノテーションをそれぞれ持っており、医師がこの情報を参照することで、クエリ画像コンテンツの評価と解釈についてより深い洞察を得ることができる。もしこのシステムの類似画像検索精度が低ければ、ユーザはシステムを信用しないだろう。また、外見が似ているが意味的には関連しないような画像検索結果しか与えなければ、やはりユーザは満足しないだろう。なぜならばこのような情報は誤った診断につながりかねないからである。それゆえ、視覚類似性と意味論的類似性の両方を保持することができる距離メトリクスを学習することは、非常に重要である。本稿では医療画像検索にフォーカスしているが、本研究で扱う問題は他の多くの画像検索システムにとっても非常に重要なものであることを強調したい。視覚的類似性、意味的類似性の両方を保持する距離メトリクス学習のためのブーストフレームワークを紹介する。このフレームワークではまずラベル付けされた対の形で表される付帯情報を用いて二値表現を学習する。次にこの二値表現を利用して、重み付きハミング距離として前記の距離を計算する。この距離関数を効率的に学習するための方法としてブーストアルゴリズムを紹介する。本稿で提案するアルゴリズムを、インタラクティブな検索による意思決定サポートシステム(Interactive Search-Assisted Decision Support: ISADS system)とマモグラフィー(乳房X線撮影)画像リファレンスライブラリ、及びImageCLEFの医療画像を用いた実験により評価する。この実験の結果は、我々のブーストフレームワークが、距離メトリクス学習のための他の最新のアプローチと、検索精度面で伍する性能を持ち、更に計算コストが非常に低いことを示している。COREL画像コレクションを利用した追加実験により、我々のアルゴリズムが、通常画像に対しても良好に動作することが確かめられた。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


凸行列及び準非負行列の因数分解
Convex and Semi-Nonnegative Matrix Factorizations

Chris Ding, University of Texas at Arlington, Arlington Tao Li, Florida International University, Miami Michael I. Jordan, University of California at Berkeley, Berkeley

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 45-55 , January 2010

Keywords: Nonnegative matrix factorization, singular value decomposition, clustering.

非負行列因子分解(nonnegative matrix factorization: NMF)の新しい派生法をいくつか紹介する。X=FG^T形式の因数分解を考慮し、Gが非負のエントリを持つように拘束されているが、データ行列Xが正と負両方の値を持つことを許すアルゴリズムを注目して取り上げる。これによりNMF法の適用範囲を拡大する。行列Fの基底ベクトルがデータ点の凸結合となるように拘束されているアルゴリズムについても考慮に入れる。これを用いてNMFのカーネル拡張を行う。これらの新しい因数分解の計算のためのアルゴリズムを与え、同時に根拠となる理論的解析も行う。我々のアルゴリズムとクラスタリングアルゴリズムの間の関係についても解析し、解の点在性(sparseness)も検討する。最後にこれらの新しい方法の特性を検討するための実験の結果についても示す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像間の対応点情報を利用しない、複数カメラからのビューによる活動解析とシーンモデリング
Correspondence-Free Activity Analysis and Scene Modeling in Multiple Camera Views

Xiaogang Wang, The Chinese University of Hong Kong, Hong Kong Kinh Tieu, The Chinese University of Hong Kong, Hong Kong W. Eric L. Grimson, Massachusetts Institute of Technology, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 56-71 , January 2010

Keywords: Visual surveillance, activity analysis in multiple camera views, correspondence, clustering.

同期された複数の未校正の固定カメラから取得された画像を用いた活動解析のための新しいアプローチを提案する。本稿では、遠距離シーンにおけるパスに対応するオブジェクトの動きパターンとして活動を捉えている。カメラのトポロジーが未知と仮定する。もちろんこの結果、これらのカメラでカバーされる視野は、重複を持たなくてもよく、オブジェクトは様々な基平面で動くことができることになる。低次のキューを用いることでオブジェクトを各カメラビューで独立に追跡し、軌跡に沿ったオブジェクトの位置と速度を特徴として計算する。確率論的モデルを用いる場合、我々のアプローチは、異なるカメラビューの特徴空間における活動の分布を学習する。そして以下に述べる3つのタスクを実行する。1)軌跡のグループ化。これにより異なるカメラビューにある軌跡でも、同じ活動に属するものはひとつのクラスタにまとめる。2)複数のカメラビューにわたる、オブジェクトのパスのモデル化。3)異常活動の検出。このアプローチの利点は、第一に、困難な対応付け問題を解く必要が無いこと。対応付け問題を解くことが必要でないにもかかわらず、一旦活動モデルを学習してしまえば、これらのモデルにより、逆に対応付け問題を解くことが簡単になる。なぜならば、異なるカメラビューにある2つの軌跡が同じ活動に属するならば、これらは同一のオブジェクトに対応する確率が高いからである。我々のアプローチを合成データと2つの大規模実データセットを用いて評価した。これらはそれぞれ22951及び14985個の軌跡を含む。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


両眼立体視による表面再構成における微分幾何推論
Differential Geometric Inference in Surface Stereo

Gang Li, Siemens Corporate Research, Princeton Steven W. Zucker, Yale University, New Haven

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 72-86 , January 2010

Keywords: Stereo matching, surface stereo, differential geometry, curved surface, slanted surface, computational inference, half-occluded surface region.

多くの従来の2つのビューに基づく両眼立体視アルゴリズムは、コンテキスト情報を利用する際に明示的もしくは暗示的に前面平行面仮説(frontal parallel plane assumption)を用いていた。これは、たとえば連続性に関する事前条件は、近傍領域で視差(奥行き)が一定になるようなバイアスを掛けてしまうからである。これは、傾いた表面もしくは曲面のマッチングプロセスに定誤差(systematic error:原因が分かっていて、それゆえ補正可能な誤差)を与えてしまう。これらの誤差は、人間の顔などの自然オブジェクトの詳細な幾何モデリングでは無視することができないものである。コンテキスト情報を幾何的に用いてこのような誤差を回避する方法を紹介する。平滑な表面に関する微分幾何の研究結果により、コンテキスト情報を局所二次近似に関するカルタン(Cartan)の動きフレームモデルにおいて符号化することができる。これにより深さ方向及び表面法線の両方に関する幾何的整合性が得られる。この再構成は十分高精度であり、前記の近似に問題が無いことがわかる。本質的に、カルタンのモデルは、両眼立体視による平面情報再構成に関する前面平行面仮説から脱却するために必要な付加的拘束条件を与えるものである。これは同時に、幾何情報により、部分隠蔽に起因する非対応点をカバーするために表面を拡張する方法を示している。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像に基づく自己隠蔽の理由付けを利用した、非剛体位置合わせの直接推定
Direct Estimation of Nonrigid Registrations with Image-Based Self-Occlusion Reasoning

Vincent Gay-Bellile, CEA Saclay and LASMEA, UMR, CNRS/UBP, France Adrien Bartoli, LASMEA, UMR, CNRS/UBP, France Patrick Sayd, CEA Saclay, France

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 87-104 , January 2010

Keywords: Nonrigid registration, self-occlusion, direct method, image retexturing.

変形する表面の画像の位置合わせ問題はこれまでによく研究されてきた。外部隠蔽(他のオブジェクトによる隠蔽)も上手く取り扱うことができる。2次元画像に基づいた位置合わせでは、自己隠蔽が最も困難な課題である。一般的には、再現するべき表面は、僅かに自己隠蔽を持つものとして仮定される。本稿では、自己隠蔽の理由付けを利用した、画像に基づく非剛体の位置合わせ問題を取り扱う。自己隠蔽を明示的にモデル化する特殊なフレームワークを提案する。このフレームワークは、位置合わせのための、画像の明度に基づいた“直接”データ項と組み合わせて用いる。自己隠蔽は、二次元画像変形においては、収縮領域として検出される。いくつかの困難なデータセットによる実験結果により、我々のアプローチが効果的に自己隠蔽領域を検出することで、自己隠蔽を持つ画像を上手く位置合わせできていることが示される。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


より速く、より良く:コーナー検出のための機械学習アプローチ
Faster and Better: A Machine Learning Approach to Corner Detection

Edward Rosten, Cambridge University, Cambridge Reid Porter, Los Alamos National Laboratory, Los Alamos Tom Drummond, Cambridge University, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 105-119 , January 2010

Keywords: Corner detection, feature detection.

繰り返し精度(repeatability)と効率性は、コーナー検出器が実世界アプリケーションにおいて、どの程度の効果を持つかを決める重要な点である。同じシーンを異なる位置から見た複数のビューから、同じ3次元実世界における位置に対応する特徴を得るために、繰り返し精度が重要となる。計算の効率性は、アプリケーションで必要とされるビデオフレームレートで処理できるかどうかを決める要因となるがゆえに重要である。本稿で提案する手法には3つの利点がある。まず特徴抽出のための新しいヒューリスティクスを示す。機械学習を用いてこのヒューリスティクスから特徴抽出器を導出する。この方式は、処理に利用できる全時間の5%未満でPALビデオを完全に実時間で処理することができる。比較として述べると、他の殆どの方法は、フレームレートでさえ処理することができない(Harris検出器では115%時間、SIFTでは195%時間)。次にこの検出器を一般化し、計算効率を僅かに落とすことで繰り返し精度が最大になるように最適化できるようにする。最後に、3次元シーンを用いて上記の繰り返し精度指標に基づいたコーナー検出器の厳密な比較試験を行った。原則的に速度の向上を目的として構成された検出器ではあるが、これらの厳しいテストに基づいて判断すると、我々のヒューリスティクスに基づく検出器は、既存の特徴検出器を顕著に上回る性能を持つことが示される。最後にこの比較により、機械学習により、繰り返し精度を顕著に向上させること、そしてこれにより高速で高精度な検出器が構成できることが示される。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3値エラー(Ternary Error)における復号プロセス:出力符号の修正
On the Decoding Process in Ternary Error-Correcting Output Codes

Sergio Escalera, Universitat de Barcelona and Universitate Autonoma de Barcelona, Barcelona Oriol Pujol, Universitat de Barcelona and Universitate Autonoma de Barcelona, Barcelona Petia Radeva, Universitat de Barcelona and Universitate Autonoma de Barcelona, Barcelona

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 120-134 , January 2010

Keywords: Error-correcting output codes, decoding, multiclass classification, embedding of dichotomizers

複数クラスの識別問題をモデル化するためには、二値識別器の組みを設計し、これらを組み合わせて用いる方法が一般的である。エラー修正出力コード(Error-Correcting Output Codes: ECOC)は、これらの問題を扱うことができるフレームワークである。ECOCフレームワークにおける最近の研究では、3値のECOCフレームワークに基づいた問題適応的な設計による顕著な性能向上がみられる。“関知しない”符号を利用するために、この3値フレームワークは、二値問題の上位集合を含む。このシンボルを用いることで与えられた識別器によるいくつかのクラスを無視することができる。しかし復号段における、この新しい符号の効果を解析した適切な研究はこれまで行われてこなかった。本稿では、全ての二値及び3値ECOC復号化戦略を4つのグループに分けることができる分類方法を示す。また、このゼロ符号が2種のバイアスをもたらすことを示す。これらのバイアスのため、復号化方法の再定義が必要となる。このため新しいタイプの復号化尺度を提案し、2つの新しい復号化戦略を定義する。最新の符号・復号戦略を、UCI機械学習リポジトリデータセットを用いて評価し、実際の交通信号カテゴリ化問題に適用する。実験結果は新しい復号化戦略により、ECOC設計の性能が顕著に向上することが示される。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一のDSMからの建物形状情報再構築のための構造的アプローチ
Structural Approach for Building Reconstruction from a Single DSM

Florent Lafarge, Ariana Research Group, INRIA and Matis Laboratory, French Mapping Agency, Sophia Antipolis Xavier Descombes, Ariana Research Group, INRIA, Sophia Antipolis Josiane Zerubia, Ariana Research Group, INRIA, Sophia Antipolis Marc Pierrot-Deseilligny, French Mapping Agency (IGN), Saint-Mand?

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 135-147 , January 2010

Keywords: 3D reconstruction, urban area, digital surface model, stochastic models, Monte Carlo simulations

単一のデジタル表面モデル(Digital Surface Model: DSM)からの建物情報を再構築するための、新しいアプローチを示す。このアプローチでは建物を、単純な都市構造物の集合体として扱う。この都市構造物は三次元パラメトリックブロック(LEGOのようなもの)の集合から抽出されたものである。次にギブスモデルを用いて三次元ブロックを二次元支持面に積み上げる。これにより、ブロックの組み立てとデータフィッティング両方を制御する。ベイズ決定法により、マルコフ連鎖モンテカルロサンプラーと元々のカーネルを用いて三次元ブロックの最適構成を見つける。0.7m間隔の衛星画像と0.1m間隔のDSMのような、広い範囲の解像度をカバーする複数のデータセットを用いて本手法を検証し、複雑な建物と密集した都市部の三次元表現を様々な詳細レベルで与える。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像アノテーション(意味付け)のための構造化外観モデルの学習のために言語情報を用いる
Using Language to Learn Structured Appearance Models for Image Annotation

Michael Jamieson, University of Toronto, Toronto Afsaneh Fazly, University of Toronto, Toronto Suzanne Stevenson, University of Toronto, Toronto Sven Dickinson, University of Toronto, Toronto Sven Wachsmuth, Bielefeld University, Bielefeld

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 148-164 , January 2010

Keywords: Language-vision integration, image annotation, perceptual grouping, appearance models, object recognition.

様々なオブジェクトが含まれる散乱したシーン画像の構造化されていない集合が与えられたとき、これらのオブジェクトの名前と外観を同時に学習することが本研究の目的である。任意の入力画像の局所特徴の小規模の組みのみを特定のキャプション単語と関連付ける。このキャプション単語は、画像中のいずれのオブジェクトとも関係しない単語を含む可能性がある。訓練画像に含まれる隣接特徴の反復と、意味ある特徴構成(これは名前付きオブジェクトを表現するものである)の学習のためのキャプション単語との対応の尺度を利用する、新しいアルゴリズムを提案する。グラフに基づいた外観モデルも導入する。これは、局所視覚特徴の間の空間的関係を利用し、いくつかのオブジェクトの構造をモデル化するものである。反復手順 知覚グルーピング処理を行うために、言語(上記キャプションに用いる単語)を用い、名前付きオブジェクトのための外観モデルを組み立てる。様々な条件のもとで我々の方法を3つのデータセットに適用した結果により、複雑な散乱した実世界シーンとノイズ情報を含むキャプションデータから、オブジェクトの名前と外観を学習できることが示される。これは結果として、言語の翻訳、画像の拡大縮小、回転、隠蔽及び鏡面反転処理に関して不変なモデルの組みを与えるものである。これらの名前付けモデルを用いて新規に入力されたキャプション無し画像の自動アノテーション(意味付け)を行った。これはキーワードに基づいた画像検索を助けるものである。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


移動局所窓におけるWalsh Hadamard変換のための高速アルゴリズム
Fast Algorithm for Walsh Hadamard Transform on Sliding Windows

Wanli Ouyang, The Chinese University of Hong Kong, Hong Kong Wai-Kuen Cham, The Chinese University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 165-171 , January 2010

Keywords: Fast algorithm, Walsh Hadamard Transform, pattern matching, template matching, feature extraction.

本稿では移動局所窓におけるWalsh Hadamard変換のための高速なアルゴリズムを提案する。これはパターンマッチングを最も効率的に実装するために利用できるものである。提案アルゴリズムの要求計算能力は、標本1つあたり、且つ、射影ベクトル1つあたり、約1.5倍である。これは既存の移動局所窓におけるWalsh Hadamard変換のための高速アルゴリズムの中で最小の値となる。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ダイナミックなシーンにおける時空間顕在性
Spatiotemporal Saliency in Dynamic Scenes

Vijay Mahadevan, University of California, San Diego, La Jolla Nuno Vasconcelos, University of California, San Diego, La Jolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 171-177 , January 2010

Keywords: Spatiotemporal saliency, background subtraction, dynamic backgrounds, motion saliency, dynamic texture, discriminant center-surround architecture, video modeling.

中心—周辺フレームワーク(center-surround framework)に基づいた時空間顕在性アルゴリズムを提案する。このアルゴリズムは、動きに基づいた知覚グルーピングの生物学的機構からアイディアを得たものであり、以前に提案した静止画像用の中心—周辺顕在性の判別式を拡張するものである。この定式化により、位置情報の顕在性を予め定められた特徴の組みの累乗に等しくなるようにする。これにより中心部分の視覚刺激と、周辺部のそれとを区別する。この周辺部は、中心部分と同じ中心を持つ窓状の領域である。これらの特徴は時空間ビデオパッチであり、顕在性の時空間成分の結合的特徴付けのために、動的なテクスチャとしてモデル化される。判別的中心—周辺顕在性と動的テクスチャのモデリング能力の組み合わせにより、頑健で、多用途、且つ完全に教師無しの時空間顕在性アルゴリズムが得られる。このアルゴリズムは、移動カメラにより撮影された、ダイナミックに変化する背景を持つシーンに適用可能である。(外観と動力学に関する意味での)視野中の非顕在点を、背景として識別することで、背景除去法に関連する問題を顕在性検出の補間物として取り扱う。困難なシーケンスにおける背景除去タスクで、本アルゴリズムを試験する。これにより本手法が、精度面で他の様々な最新のアルゴリズムを常に上回る性能を持つことが示される。本手法の平均誤差率は、他の最も優れた手法のそれと比べても半分ほどである。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一般化されたカーネル合意に基づいた頑健な推定器
A Generalized Kernel Consensus-Based Robust Estimator

Hanzi Wang, The University of Adelaide, Adelaide Daniel Mirota, The Johns Hopkins University, Baltimore Gregory D. Hager, The Johns Hopkins University, Baltimore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 1, pp. 178-184 , January 2010

Keywords: Robust statistics, model fitting, kernel density estimation, motion estimation, pose estimation.

本稿では、RANdom Sample Concensus (RANSAC)やAdaptive Scale Sample Consensus (ASSC)、Maximum Kernel Density Estimator (MKDE)などの、良く利用される最新の頑健な推測器の一般化として、新しい適応的スケールのカーネル合意(Adaptive-Scale Kernel Consensus: ASKC)の頑健な推測器を紹介する。ASKCフレームワークは、ノンパラメトリックカーネル密度推定理論に基づき、且つこれらを統合するものである。特に、左記の手法のそれぞれが特定のカーネルを用いた場合のASKCの特定のケースであることを示す。左記手法と同様に、ASKCは外れ値の割合が50%を超えるようなデータに対しても耐性を持ち、更に通常値のスケールの推定も自動で行うことができる。ASKCをコンピュータビジョンの2つの重要な分野である、頑健な動き推定と姿勢推定問題に適用する。合成データと実データの両方を用いた実験の結果は、本手法が他の手法に伍する性能を持つことを示している。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.32, No.2


ガウス過程の複数課題のベイズ的オンライン学習法
Bayesian Online Multitask Learning of Gaussian Processes

Gianluigi Pillonetto, Francesco Dinuzzo, Giuseppe De Nicolao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 193-205 , 2 2010

Keywords: Collaborative filtering, multitask learning, mixed effects model, kernel methods, regularization, Gaussian processes, Kalman filtering, pharmacokinetic data

標準的な単一課題カーネル法は、最近正則化理論の枠組みの中で複数課題の学習法へと拡張されてきた。こ の実験的適用は生物薬理などに対して行われ、単一課題に比べ複数課題への適用で有効性を示している。し かし、考えられる欠点として、その計算量の多さがある。例えば、正則化ネットワークを利用するときは、 複雑度の尺度は全学習データの3乗であり、課題がいくつか存在するときには大きな値となる。本論文の目 的は、複数課題のカーネルの重要なクラスのための効率的な計算法を導くことである。より詳細に言えば、 2次の課題ごとの損失を仮定した共通項の和から成っている。ベイズ仮定の下で回帰的オンラインアルゴリ ズムが導かれたが、この中では、データが更新されるたびに推定値と確信区間の両方が更新される。本アル ゴリズムは、人間の患者における生体異物投与に関する仮想問題と実データの両方でテストされた。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


シミュレーテッドアニーリング(焼きなまし)法と表面相互浸透尺度による3D顔の認識
3D Face Recognition Using Simulated Annealing and the Surface Interpenetration Measure

Chaua C. Queirolo, Luciano Silva, Olga R. P. Bellon, Mauricio Pamplona Segundo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 206-219 , 2 2010

Keywords: 3D face recognition, Surface Interpenetration Measure (SIM), range image registration

本論文は、3D顔の認識のための新規で自動的な枠組みについて述べる。ここで提案する方法は焼きなまし法 によって、表面距離尺度に変換した距離画像データを位置合わせする類似尺度を利用して2つの顔画像をマ ッチングさせている。本物らしさの評価値は、以下の顔の4箇所の表面相互浸透尺度によるマッチング度合 いを組合わせて求めた:鼻の周りの円形および楕円形領域、額領域、全顔領域。次に、顔表情をうまく扱う ための不変的な顔領域を利用した変形焼きなまし法を提案する。本手法は4007個の顔画像を有する最大のデ ータベースであるFRGC v2に対して包括的な実験を行った。照合と同定の実験結果は最新の論文の手法と比 較された。データベース中の全データによる結果から、照合精度は96.5%、誤受容率0.1%であった。同定実 験では、第一位の精度は98.4%が達成された。我々の知る限り、本結果は既に論文発表された手法の中で、 FRGC v2に対する最高の精度であった。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


生体認証の色々
The Biometric Menagerie

Neil Yager, Ted Dunstone

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 220-230 , 2 2010

Keywords: Biometrics, performance evaluation, authentication, identification, recognition, fingerprint, face, speech, iris, keystroke dynamics

生体認証の利用者は、利用する認証システムに依存して精度が異なっていることが認識されている。ある人 には、基準が厳し過ぎて認証が得られないことがあったとしても、他の人にとっては、成りすまし誤認に対 して特別脆弱となることがある。これらの問題のある利用者に付けられるラベルとして、ヤギ、オオカミ、 小ヤギなどの単語が用いられる。これらの認証性能において、ヤギは自分自身に対する認識性能とか、他人 に対する認識(小ヤギとかオオカミ)によって計測・分類される。例えば、ヤギとは正しい認証が困難なグル ープである。利用者の、正しい認証に対する替え玉認証の関係は、4つの新しい動物のグループが付けられ る:虫、ハト、カメレオン、幽霊。これら動物名の正式な定義と、その存在についての統計的テスト法を確 立した。2及び3D顔、虹彩、指紋、音声、キー入力動作特徴を含む徹底的な生体的様相の調査がなされた。 この結果から明確になったパターンとして、生体認証結果の性質に関する有望な見識が得られた。生体認証 システムの評価に関して、単なる多数の評価のデータではなく、生体認証の方法に基づく新規な枠組みを提 案する。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多様体上の測地線計算のための高速掃引演算法
A Fast Sweeping Method for Computing Geodesics on Triangular Manifolds

Song-Gang Xu, Yun-Xiang Zhang, Jun-Hai Yong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 231-241 , 2 2010

Keywords: Geodesics, fast sweeping methods, fast marching methods, Eikonal equation, triangular manifold

コンピュータ知能とコンピュータグラフィックスを広範囲に応用するためには測地線を正確に効率的に計算 する必要がある。高速前進法(FMM)はこの課題のために広く利用されており、多様体の全ノード数がNのとき 、その計算複雑度はO(N logN)である。高速掃引法は任意の三角多様体に対して適用可能で、この上では計 算複雑度はO(N)に減少する。無向グラフ(undigraph)を横切ることで4つの順序付けが得られ、2種の干渉 波が得られ、これが特徴の全方位をカバーしている。本手法の正しさは特徴がカバーされる度合いを解析す ることによって証明される。このカバーされる割合と誤差推定が比較されている。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


エッジ検出に応用される非線形微分法
A Nonlinear Derivative Scheme Applied to Edge Detection

Olivier Laligant, Frederic Truchetet

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 242-257 , 2 2010

Keywords: Edge detection, regularization filter, edge localization, edge model, neighbor edge, discrete approach, nonlinear derivative, noises, performance measure

本論文は非線形微分法による離散エッジ検出法について述べる。このエッジ検出法は2つの極性を持つ微分 係数の非線形な組み合わせから出来ている。本手法の主な特徴はSNR(信号・ノイズ比)が少ない計算量と非 正規化条件で達成できる点にある。本手法の2Dへの拡張が示され、局所2Dの長所が考察されている。局所化 とSN比の効率が、古典的エッジ検出法と比較されている。本正則化の適用とSN比の理論的改善法で、この研 究を完結している。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自然な顔の動きのモデル化と理解のための統一された確率的手法
A Unified Probabilistic Framework for Spontaneous Facial Action Modeling and Understanding

Markus Enzweiler, Dariu M. Gavrila

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 258-273 , 2 2010

Keywords: Facial action unit recognition, face pose estimation, facial action analysis, facial action coding system, Bayesian networks

顔の表情は人間のコミュニケーションにおいて自然で重要な手段である。しかし、自発的な顔の表情を認識 することは、顔の表情変化が微妙で、頭部がしばしば動き、顔の動き測定が不明確で不確かであるため、大 変難しい。これらの困難のため、現状の表情認識の研究は、姿勢表現が制限されていたり、正面からの表情 に限られている。自発的な表情は、頭部の動きが剛体的で、顔の筋肉は非剛体的であるという特徴がある。 もっと重要なことは剛体的動きと非剛体的顔の動きが時空相互作用において干渉し合い、整合的である結果 、意味のある顔の表情を生成することである。この事実を認識して、我々は動的ベイズネットワークに基づ く統一的確率的表情動作モデルを導入し、同時に干渉性の剛体・非剛体性表情の動き、自発的従属性、およ び画像による測定法を紹介する。学習データと主観的事前知識の両方によるモデル学習を行うための最新式 機械学習法も紹介する。モデルと表情の動きデータの測定値が与えられると、確率論的推論によってシステ マティックな表情測定と表情の動きモデルを統合化することで、表情動作認識が完成する。最新の手法と比 較実験した結果、本提案手法は、剛体的のみならず、特に自発的顔の表情に対して、従来法を大きく上回る 性能で、非剛体的表情の動きの両方を認識した。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


土砂移動距離差分とその動画追跡への応用
Differential Earth Mover's Distance with Its Applications to Visual Tracking

Qi Zhao, Zhi Yang, Hai Tao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 274-287 , 2 2010

Keywords: Earth mover's distance (EMD), gradient descent, real-time tracking

土砂移動距離(Earth Mover's Distance (EMD))とは、類似度の尺度の一つであり、2つの知覚画像の差を把 握するための計量である。しかし、この計算量の大きさから、多くの用途にそのまま利用できないことがわ かっている。本論文ではsimplex法の感度解析に基づく新規なEMD差分アルゴリズム(DEMD)を紹介し、力ずく の方法に比べて数桁も高速な方法を示す。このDEMDアルゴリズムについて考察し、視覚画像の追跡に関して 実験的に妥当性を示した。対象物が時間的に偏った分布であってもEMDはうまく適応し、差分EMDは、実時間 での追跡を可能にした。対象物の分布の大きさが変化する対象に対しても、計算量を更に減少させた。この 新規なアルゴリズムモデルと局所的情景推定法、および前景オブジェクト推定の採用によって、スケールの 変化する画像(動画)も、この原理に基づいて処理された。本提案手法は基準となる画像系列に対して広範に 定量的評価テストを受け、標準的なmean shift追跡法に比べて改良が見られた。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ画像からの運動特徴と複数の事例学習による人の動作認識
Human Action Recognition in Videos Using Kinematic Features and Multiple Instance Learning

Saad Ali, Mubarak Shah

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 288-303 , 2 2010

Keywords: Action recognition, motion, video analysis, principal component analysis, kinematic features

集合として、分散、渦運動、流れ場の対称性の有無、流れ勾配の第2、第3主不変量と歪みテンソル割合、回 転テンソルの第3主不変量がある。各々の力学的特徴量は系列画像のオプティカルフローから算出された場 合、時空間パターンが生じる。それから、オプティカルフローの動的な表現が、支配的な動的傾向として、 あるいは、力学的モードとして時空間パターンによって捕らえられたと見なされる。これらの運動学的モー ドは、運動学的特徴量の時空体積に関する主成分分析によって算出される。分類のために、我々は複数事例 学習法を提案するが、これは動作ビデオを運動学的モードの集合によって表現する。各々のビデオは動力学 的モードに基づく特徴量空間に埋め込まれており、ビデオの座標を利用した最近傍アルゴリズムで

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線形な、画像系列の位置合わせ
Linear Sequence-to-Sequence Alignment

Flavio L. C. Padua, Rodrigo L. Carceroni, Geraldo A. M. R. Santos, Kiriakos N. Kutulakos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 304-320 , 2 2010

Keywords: Video synchronization, object tracking, epipolar geometry, spatiotemporal alignment, image and video registration

本論文では、明確な視点から撮影されたN個の3D情景の非同期ビデオ画像系列を、時空間で整列度を評価す ることについて考察する。2つのフレームを時空において計算力に頼って探索・整列させる多くの従来法と 異なり、一般的な数Nについて、N次元実空間中の単一直線のロバストな推定問題を解くための新規な手法 について紹介する。この直線は系列画像間のすべての時間的関係を把握し、これらの関係を考慮するための 事前知識無しに計算できる。空間的整列は基礎行列のパラメータによって把握できることを考慮し、繰り返 しアルゴリズムによって、時間と空間の関係を表すパラメータを同時に調整する方法を採用した。実世界の データと合成画像データの両方による実験によって、ここに提案する方法は、何百フレームも大きくずれて いて手動で位置あわせが困難であっても(オブジェクトの動きが遅い場合に相当する)、高精度にビデオ画 像を位置あわせできることが示された。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3Dの最小表面拡張最短経路セグメンテーション法
Minimal Surfaces Extend Shortest Path Segmentation Methods to 3D

Leo Grady

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 321-334 , 2 2010

Keywords: 3D image segmentation, minimal surfaces, shortest paths, Dijkstra's algorithm, boundary operator, total unimodularity, linear programming, minimum-cost circulation network flow

対象が連続空間であろうと離散空間であろうと、オブジェクトセグメンテーションには、オブジェクトの境 界の最小経路を利用したセグメント化が利用されてきた。この手法は2次元では厳密に定義されている。し かし、3Dへの拡張では多くの異なる最小経路探索手法が提案され、この中で、3Dオブジェクトは最小表面 として抽出されるのではなく、最小経路の集合として抽出される。その結果、真の最小曲面との関係が不確 かなままになっている。特に、2つの閉輪郭上の2点の最小経路が最小表面上に存在している保証は無い。 細胞状構造体(3D格子)上の最小表面を計算する優雅な解法がSullivanによって与えられた。Sullivanは 、1〜2の閉輪郭を連結する離散的最小表面は、最小コスト循環ネットワークを解くことで得られることを 示した。この研究において、なぜ最小表面を拡張してうまく3次元における最小経路となるSullivanのMCNF 計算による解になるかどうかを詳細に示し、これらの最小表面を利用して画像データのセグメンテーション 実例を示した。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


重み付きカーネルPCAを使ったサンプル点外部への拡張による多重スペクトル型クラスタリング
Multiway Spectral Clustering with Out-of-Sample Extensions through Weighted Kernel PCA

Carlos Alzate, Johan A. K. Suykens

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 335-347 , 2 2010

Keywords: Spectral clustering, kernel principal component analysis, out-of-sample extensions, model selection

新規で多重なスペクトル(分布的)なクラスタリング手法の定式化を提案する。本方法は、主-双対最小二 乗サポートベクトルマシンに基づく重み付き主成分分析に対応する。この定式化はサンプル点の外側への拡 張を許す。このような条件で、提案するクラスタリングモデルは学習され、妥当性が与えられ、テストされ る。クラスタリング情報は、データから導かれた変形類似行列の固有値分解に含まれている。本固有値問題 は高次元空間で定式化された主要な最適化問題の双対解に対応する。均衡線分適応(Balanced Line Fit (BLF))と呼ばれるモデル選択基準も同時に提案する。この基準は、サンプル点の外部への拡張法に基づい ており、クラスターがうまく形成されているとき固有値とそれに対応する投影点の構造を利用する。この BLF基準は学習の枠組みの中でクラスタリングパラメータを取得するために利用することができる。困難な 演習問題と画像セグメンテーションへの適用の結果、少なくとも新規な課題に対する一般化と計算時間の2 つの点での改良が見られた。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


条件付ガウス過程を利用した動き、変形、テクスチャーの追跡
Tracking Motion, Deformation, and Texture Using Conditionally Gaussian Processes

Tim K. Marks, John R. Hershey, Javier R. Movellan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 348-363 , 2 2010

Keywords: Computer vision, generative models, motion, shape, texture, video analysis, face tracking

ここに剛体3Dオブジェクトの追跡のための生成モデルと推測アルゴリズムを紹介する。このモデルはG-フロ ーと呼ぶことにするが、3D位置、方位、非剛体的変形、更にオブジェクトや背景のテクスチャーの協調的推 定が可能である。G-フローによる最適推定は、条件付ガウス確率フィルタリング問題に帰す。本問題に関す る最適解によってコンピュータビジョンアルゴリズムの新しい空間へと拡張し、これによって、古典的なオ プティカルフローとかテンプレートマッチング法は、特定な環境での最適化問題に過ぎないことが分かる。 G-フロー法による、単眼ビデオから3Dの顔表情追跡、頭部の動き追跡課題を評価する。以前は、非剛体の正 解付の位置データ情報を有する現実的なビデオデータが無かったため、厳密な非剛体追跡の評価が出来なか った。我々はこのような正解付きデータを得る現実的な方法を紹介し、本手法による新しい顔データのデー タベースを紹介する。本データによる実験から、G-フロー法は従来の決定論的なオプティカルフローによる 手法に比べてはるかに優れていることが示された。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大きなマージンを持つ事例の選択のためのクラス条件付き最近傍
Class Conditional Nearest Neighbor for Large Margin Instance Selection

Elena Marchiori

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 364-370 , 2 2010

Keywords: Computing methodologies, artificial intelligence, learning, heuristics design, machine learning

本論文は画像中の近傍性、最近傍則(1NN rule)、によって特徴点にラベル付けをする研究の枠組みを述べる 。特に、ラベル付けした学習集合中の一対の点同士の関係を学習させるクラス条件付最近傍(ccnn)関係を紹 介する。ラベルcを有するクラスにおいて、ある点aと、クラスラベルがcであるその最近傍点(a点を除く) が算出される。2つのグラフ形式でccnnが特徴づけられる。このグラフは複数の事例に対する情報処理理論 の発散尺度による程度分布が新規なスコア関数を定義するのに利用された。スコア関数は効率的な大きなマ ージンを持つ事例を選ぶための手段の一つであり、実際、これによって人工知能や実社会のデータ集合に関 する1NN則の蓄積メモリーと精度の向上が達成された。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大規模なイメージデータから空間的関連性の発見
Large-Scale Discovery of Spatially Related Images

Ondrej Chum, Jiri Matas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 371-377 , 2 2010

Keywords: minHash, image clustering, image retrieval, bag of words

我々は、空間的に重なり合うイメージの一群を捜し出すランダム化されたデータのマイニング(掘り出し)方 法を提案する。この方法の中心部は、クラスターシード(cluster seed)と呼ばれる、一組の空間的に重なり 合うイメージに対し、高速検索をするためのミニ(小型版)Hashアルゴリズムに依存している。このシード は、あとでシードを含む部分的に重なり合うイメージ集合の推移閉包として形成されるクラスタを得るため に視覚化されたクエリとして使われる。我々はイメージクラスタにおいてシードを見つける確率が、クラス タのサイズと共に急速に増加することを示す。本アルゴリズムの特性と性能は、10の4乗、10の5乗と5×(10 の6乗)のイメージのデータ集合によって実証される。この手法の演算速度は、データベースのサイズとクラ スタの数に依存する。シードの世代を生成する最初のステージの演算量は、データベースサイズに対しほぼ 線形に近く、最大、およそ2の34乗から、10の10乗画像にまで及ぶ。2.4GHzのシングルプロセッサを持つPC 上で、集約化プロセスを実行するのに、100,000以上のイメージを持つ標準データベースでわずか24分しか 掛からなかった(すなわち1イメージにつき0.014秒しか掛からなかった)。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


再帰的な中央値要素を生成することによる離散的な地図の時空間上の動きの視覚化
Visualization of Spatiotemporal Behavior of Discrete Maps via Generation of Recursive Median Elements

B. S. Daya Sagar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 2, pp. 378-384 , 2 2010

Keywords: GISci, spatial interpolation, mathematical morphology, thematic maps, dilation, erosion, interpolation formulas, spatial databases and GIS, cartography, morphological image representation, visualization techniques and methodologies, geometrical problems and computations, set theory

空間補間法とは、2つの空間的に不連続な2値の時間的データ集合を用いて連続的な方法で補間地図を生成 する技術の一つで、Geographic Information Science(GISci)で必要とされている。様々な空間的時間的 解像度で描かれた特定のテーマに関するノイズのないデータ(テーマ別の層)は、統合化形式においても、非 統合化形式であっても連結成分要素から生成されている。 この短い論文は、以下の目的のための単純なフレームワークを提供する: (1)仲間連れの成分(companion-connected components)をカテゴリー分けするために、空間的関係とハウス ドルフ距離を利用して、異なる2つの時間における連結成分をカテゴリー分けする。 (2)2つの離散的テーマ(主題)地図の間に連続した地図(補間地図)を生成する。 2つの時間フレーム間で補間されたハウスドルフ浸食(Hausdorff erosion)と拡大距離(dilation distances)を使ったメディアン(中央値)集合が発達する様子は、2つの異なる時期に地図化された湖の形状 が変化する様子として示され、更に、腺ペストが流行して行く様子が11年間の連続した地図として示されて いる。我々は、特定の年代の間において、補間された地図と実際の地図を視覚的に比較することで、非常に 公正な品質のメディアン集合を文書化した。これらのデータは特定のテーマについて、時空間上の連続した 変化として視覚的に利用することが可能となった。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.32, No.3


顔の加齢表現のための合成且つ動的なモデル
A Compositional and Dynamic Model for Face Aging

Jinli Suo, Graduate University of Chinese Academy of Sciences, Beijing and Lotus Hill Research Institute, China Song-Chun Zhu, University of California, Los Angeles, Los Angeles and Lotus Hill Research Institute, China Shiguang Shan, Chinese Academy of Sciences, Beijing Xilin Chen, Chinese Academy of Sciences, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 385-401 , March 2010

Keywords: Face aging modeling, face age estimation, generative model, And-Or graph, ANOVA.

本稿では顔の加齢表現のための合成且つ動的なモデルを紹介する。合成モデルは階層的And-Orグラフにより各年齢グループにおける顔の表現を与える。Andノードは顔をパーツに分解することで、年 齢の知覚に重要な細かい部分を表現する(例えば髪、しわなど)。Orノードは、代替となる選択肢を多数そろえることで顔の強い多様性を表現する。顔インスタンスはAnd-Orグラフと構文解析グラフの 横断として表現される。顔の加齢表現はこの構文解析グラフ表現上のマルコフ過程としてモデル化される。大規模なアノテーション付き顔データセットから得た動的モデルのパラメタを学習し、これにより顔の 加齢表現の確率論的表現を明示的にモデル化する。このモデルに基づき、顔の加齢表現シミュレーションと予測アルゴリズムを提案する。これと逆に、同じ顔の加齢表現に基づいた自動年齢推定アルゴ リズムも開発する。人間の知覚実験を用いて、提案手法による加齢結果を以下の2つの評価指標のもとで検証した。1)シミュレーションの精度:加齢処理された顔画像が、意図した年齢グループとして 認識されているか。2)アイデンティティの保持:加齢処理された顔画像が同じ人物と認知されるか。定量的統計解析により、我々の加齢モデルと年齢推測アルゴリズムの性能を評価した。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


領域と動きの結合に基づいた剛体及び有節オブジェクトの三次元トラッキング
Combined Region and Motion-Based 3D Tracking of Rigid and Articulated Objects

Thomas Brox, University of California, Berkeley, Berkeley Bodo Rosenhahn, Leibniz-Universit?t Hannover, Hannover Juergen Gall, Max-Planck-Institut f?r Informatik, Saarbr?ecken Daniel Cremers, University of Bonn, Bonn

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 402-415 , March 2010

Keywords: Tracking, segmentation, motion

本稿では、三次元トラッキングのために、補足コンセプトを組み合わせて利用する方法を提案する。これは領域フィッティングと、密なオプティカルフロー(dense optical flow)、そしてトラッキング されたSIFT特徴の組み合わせによるものである。これらのコンセプトはお互いの欠点を補足しあうように選択された。オブジェクト領域によるトラッキングが誤差の蓄積を回避するために役立つのに対し、オ プティカルフローとSIFT特徴はより大規模な変形に対応するためのものである。画像領域分割は同質なオブジェクトに対して最も良く働くものであるのに対し、オプティカルフローの計算とSIFTトラッキング は、充分に構造化されたオブジェクトに依存するものである。複数コンセプトの現実的な組み合わせにより、汎用性の高いトラッキングシステムを構成することができ、これは多くの種類のシナリオに、重み付 けパラメタの調整の必要なく適用することができる。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パーヌム帯における密なステレオマッチング
Dense Stereo Matching over the Panum Band

Ankur Agarwal, Microsoft Research UK Ltd., Cambridge Andrew Blake, Microsoft Research UK Ltd., Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 416-430 , March 2010

Keywords: Stereoscopic vision, energy minimization, Panum's fusional area, 3D vision, active vision.

従来の両眼立体視アルゴリズムは、三次元空間内の可視点を取り囲むのに充分な視差の範囲をカバーするものであった。しかし人間の視覚は、これよりも狭い範囲の視差でしか働かない。これをパーヌ ム融合帯(Panum’s fusional band)と呼び、多くの場合、可視点が持ちうる視差の1/20程度しかカバーしない。この帯域の内側にある点しか両眼立体視することはできない。これ以外の点 は複視(diplopic)と呼ばれ、二重に見えてしまう。パーヌム帯による拘束条件下での密な両眼立体視のための確率論的アプローチを紹介する。この問題設定に対して既存の両眼立体視アルゴリ ズムは不適切であることが示される。またこの問題の本質が、パーヌム帯に当たる領域を他と区別するための領域分割にあることも示される。画像自己相関に基づいた“代理”を用いることで、失われたパ ーヌム帯以外の情報を補填するための近似を導出する。パーヌム代理アルゴリズム(Panum Proxy algorithm)により、全視差範囲において立体視可能である場合の精度に迫る精度が得ら れることが示される。また、1桁ないし2桁の計算速度向上が見込まれる。計算メモリー量に関しても大きく改善される。パーヌム帯処理を動的両眼視フレームワークにおいて例証する。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2つの隠れマルコフ確率場と1つの観測場による、文書インクの裏面への滲み除去
Document Ink Bleed-Through Removal with Two Hidden Markov Random Fields and a Single Observation Field

Christian Wolf, Universit? de Lyon, CNRS, and INSA-Lyon, France

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 431-447 , March 2010

Keywords: Markov random fields, Bayesian estimation, graph cuts, document image restoration

表ページ、裏ページそれぞれに独立したマルコフ確率場(Markov Random Field: MRF)正規化を施すことによる、画像情報に依存しない文書分離(blind document bleed)のた めの新しい方法を紹介する。このとき分離された事前確率(separate priors)は完全グラフから導出される。この分離アルゴリズムはベイズ事後確率最大化推定(Bayesian Maximum a Posteriori estimation)に基づくものである。この分離アプローチの利点は、前記の事前確率をコンテンツ生成プロセス(例えば2つの手書きページのスーパーインポーズなど)に適用するこ と、そして表面画素によりカバーされる裏面画素の推定に基づく表面画素の推定精度の向上である。更に、1画素あたり2つの隠れラベルを持つ二値ラベリング問題の定式化として本課題を扱うことで、 グラフの最小カット/最大フローに基づいた効率的な最適化手法が自然に得られる。提案手法を18世紀の文書をスキャンした画像を用いて評価した。これにより他の復元手法と比較してOCR精度の 向上が確認された。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ランダム特徴セット(Fern)を用いた高速キーポイント認識
Fast Keypoint Recognition Using Random Ferns

Mustafa ?zuysal, Ecole Polytechnique F?d?rale de Lausanne, Lausanne Michael Calonder, Ecole Polytechnique F?d?rale de Lausanne, Lausanne Vincent Lepetit, Ecole Polytechnique F?d?rale de Lausanne, Lausanne Pascal Fua, Ecole Polytechnique F?d?rale de Lausanne, Lausanne

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 448-461 , March 2010

Keywords: Image processing and computer vision, object recognition, tracking, image registration, feature matching, naive Bayesian.

特徴点認識は今日のオブジェクト検出のアプローチの重要な要素であるが、既存の手法は、視点の歪みを扱うために計算量の多いパッチ前処理を必要とする。本稿ではこの問題を純粋なベイズ識別フ レームワークにおいて定式化することで、前記の前処理を不要とする。またこれにより、シンプルで効率的、そして頑健なアルゴリズムを与える。このアルゴリズムはクラス数の増加に追従できる拡張性を持つ 。キーポイント周囲のパッチを認識するために、我々の識別器は、多数の単純な二値特徴を用いることでクラスの事後確率をモデル化する。任意の特徴セット間の独立性を仮定することでこの問題を計 算論的に制御しやすくしている。この仮定は常に正しいわけではないが、顕著な視点の変化がある場合でも、本アルゴリズムは画像データセットにおける性能を大きく向上させることができる。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


入れ子型動的計画法を用いた連続手話認識における動き挿入と手領域の分離における不明瞭性の扱い
Handling Movement Epenthesis and Hand Segmentation Ambiguities in Continuous Sign Language Recognition Using Nested Dynamic Programming

Ruiduo Yang, University of South Florida, Tampa Sudeep Sarkar, University of South Florida, Tampa Barbara Loeding, University of South Florida Polytechnic, Lakeland

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 462-477 , March 2010

Keywords: Sign language, movement epenthesis, continuous gesture, segmentation, level building.

本稿では、フレームラベルを持たないビデオ画像系列からの連続手話認識における2つの極めて重要な問題を取り扱う。手話のセンテンスレベルでは、動き挿入(movement epenthesis: me) 問題、特徴レベルでは、手領域の分離とグルーピング問題を取り扱う。高度化された入れ子型の動的計画法に基づいて、これら2つの問題を取り扱うことができるフレームワークを構築する。動き挿入を取 り扱うために、動的計画法(dynamic programming: DP)処理で、明示的なモデルを必要としない仮想的な動き挿入の選択肢を利用する。これを高度化されたレベル構築(enhanced level building: eLB)アルゴリズムと呼ぶ。この定式により更に文法モデルを取り込むこともできる。このeLB内で入れ子構造を持つことは、前記とは別の動的計画法の適用であり、これにより 複数の手領域候補空の選択問題を取り扱う。このアイディアを4つのアメリカ式手話データセットにおいて例証する。これらのデータセットはそれぞれ、シンプルな背景、半そでを着た話者、複雑な背景、そし て複数の手話話者を含むものである。本手法の性能を、条件付き確率場(Conditional Random Fields: CRF)、及び潜在的に動的なCRFに基づくアプローチ(Latent Dynamic CRF)それぞれと比較した。この実験では、対CRFもしくはLDCRFアプローチ比で、フレームラベル付け精度において40%以上の向上がみられた。我々のアプローチの柔軟性を、コンテキス トが変化する場合を例として示す。手話認識率において、非高度化DPマッチングアルゴリズムに比べ70%以上の向上がみられ、更に動き挿入の効果が累積されないことも確認された。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


凝視する目で:目のモデル及び注視のモデルのサーベイ
In the Eye of the Beholder: A Survey of Models for Eyes and Gaze

Dan Witzner Hansen, IT University, Copenhagen, Copenhagen Qiang Ji, Rensselaer Polynechnic Institute, Troy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 478-500 , March 2010

Keywords: Eye, eye detection, eye tracking, gaze estimation, review paper, gaze tracking, object detection and tracking, human--computer interaction.

過去30年にわたる活発な研究と顕著な成果にもかかわらず、目の抽出とトラッキングはいまだに困難な課題である。これは、この課題が、目の個人差、隠蔽、スケール可変性、位置や照明条件などか ら大きな影響を受けるためである。目の位置及び目の動きの詳細に関するデータ自体には、無数の応用があり、顔検出処理、生体認証(biometrics identification)、及び特定のUI インタラクションタスクの本質をなすものである。本稿では、ビデオ画像系列に基づく目の抽出及びトラッキングに関する最新の研究成果をレビューし、有望な技術と今後の課題を洗い出す。最近の目モデ ル、目の抽出及びトラッキング手法の詳細なレビューを行う。注視点推定(gaze estimation)についてもサーベイを行い、これらの幾何特性と報告されている精度について比較を行う。このレビュー により、これらの方法は明らかに単純なものであるにもかかわらず、多くの課題を扱う一般的な目の抽出手法の発展のための、更なる理論面での開発が必要であることを示している。また同時に、目の抽 出手法はコンピュータビジョンその他多くの分野にとっても興味深いものとなっている。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


認識タスクのための視覚オブジェクトカテゴリの構成的性質の学習
Learning the Compositional Nature of Visual Object Categories for Recognition

Bj?rn Ommer, University of California at Berkeley, Berkeley Joachim M. Buhmann, ETH Zurich, Zurich

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 501-516 , March 2010

Keywords: Image categorization, object recognition, compositionality, graphical models, visual learning.

実世界シーン理解には、未知のシーンにおけるオブジェクトカテゴリの認識技術が必要である。本稿では、構造化された階層的オブジェクト表現を自動的に学習できる構成型システムを紹介する。このシ ステムでは、手動の領域分割やオブジェクトの位置決め処理を必要としない教師無し学習を行うことができる。本課題のオブジェクトモデル学習の中心的なアイディアは、視覚世界が持つこの構成的性質 を利用することである。この課題は、非拘束条件下の一般ケースであり、大規模なクラス内変動と多数のカテゴリを持ち、学習に用いる正解情報が欠如していることに特徴がある。視覚オブジェクトが持つ 、この構成的性質により、オブジェクト表現における複雑性を大幅に低減し、構造化オブジェクトモデルの学習を、統計的及び計算論的に制御可能なものとしている。局所画像パーツの頑健な記述子を 提案し、これらのパーツの特徴的構成がどのようにして学習できるかを示す。この学習は、全てのカテゴリで共有される非特定パーツ語彙に基づくものである。シーンのコンテキスト及びオブジェクト形状情報 と全ての構成的成分を含むベイズネットワークを示す。これらの処理により、オブジェクト認識タスクは、この確率モデルにおける統計的推測問題として定式化される。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


疎な射影不変表現を利用したビデオ画像系列間の軌跡のマッチング
Matching Trajectories between Video Sequences by Exploiting a Sparse Projective Invariant Representation

Walter Nunziati, Media Integration and Communication Center, Firenze Stan Sclaroff, Boston University, Boston Alberto Del Bimbo, Universit? degli Studi di Firenze, Firenze

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 517-529 , March 2010

Keywords: Registration, invariants, similarity measures, cross ratio

非同期カメラで撮影された軌道セグメント間の対応付けは、大きなシーン中の動いているオブジェクトの完全軌跡の再現のために重要である。軌跡セグメントを比較することで得られる動きデータを用い、 時間的整列及び空間的整列の推定により、このような再現を得ることができる。時間窓に対する軌跡の全ての可能な対応の全数試験は、ターゲットオブジェクトの数が少なく、且つビュー間の重複部分 が大きい場合にのみ可能である。それゆえ、各ビューで部分的にしか観測されない複数の軌跡がある場合などのために、代替となるソリューションが必要である。本稿では、軌跡のビュー不変表現に基づ いた新しい手法を提案する。この表現を利用し、各ビューで観測される軌跡セグメント顕在特徴点(salient points)の組みを生成する。このビュー不変表現における顕在特徴点の近傍情報の みを用いて、様々なビューにおける軌跡対の時間的整列及び空間的整列を推測する。ビュー間の重複が少なく、カメラに任意の(未知)時間シフトがある場合でも、本手法により、平面的なシーンでは 良い精度と計算効率で、時間的整列及び空間的整列を再現できることが示される。本手法は、部分的に平面的であるが大域的には非平面的であるような場合でも同様の性能を示す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


OBJCUT:トップダウン及びボトムアップの手掛かり(キュー)を用いた効率的な分割
OBJCUT: Efficient Segmentation Using Top-Down and Bottom-Up Cues

M. Pawan Kumar, Stanford University, Stanford P.H.S. Torr, Oxford Brookes University, Oxford A. Zisserman, University of Oxford, Oxford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 530-545 , March 2010

Keywords: Object category specific segmentation, conditional random fields, generalized EM, graph cuts

画像中の特定種類のオブジェクトの分割のための確率論的方法を紹介する。我々のアプローチはこれまでの古典的なグリッドと条件付き確率場(conditional random fields: CRF)に 基づいた分割手法が持つ制約を打ち破るものである。これまでの手法では、1)ユーザが領域のもとになるシード点を前景と背景それぞれに与える必要があった。2)グリッドCRFのサイズによる制約のために 、特定の形状に対する事前確率分布情報が乏しかった。我々の新手法では、手動入力に頼ることなく、入力画像中のオブジェクトの姿勢を自動的に抽出する。従来の手法で用いられてきた、ボトムア ップ情報を与えるグリッドクリークポテンシャル(grid clique potential)に加え、本手法では更に形状ポテンシャルを含む確率モデルを利用し、画像の大域的情報であるトップダウン情報を処 理に導入する。形状ポテンシャルはオブジェクトカテゴリモデルを用いて得られるオブジェクトの姿勢から取得される。新しい階層型画像情報構造モデル(layered pictorial structures model)を利用して、有節オブジェクト(articulated object)カテゴリ表現する。非有節オブジェクトカテゴリ(nonarticulated object categories)に関しては、サンプルセッ トを用いてモデル化する。これらのオブジェクトカテゴリモデルの利点は、大規模なクラス内形状、外観、そして空間依存の変動を取り扱うことができることである。我々の確率論的フレームワークに基づいた OBJCUTと呼ばれる効率的な画像分割方法を開発する。この方法の新規性は以下の2点である。1)選択したオブジェクトカテゴリモデルを効率的にサンプリングするアルゴリズム。2)このモデルが持つ、 期待される対数尤度のサンプリングに基づいた近似を、単一のグラフカットにより増大させることができることが実験により判ること。いくつかの結節オブジェクト(例えば動物)カテゴリと非結節オブジェクト(例 えば果物)カテゴリについての実験結果を示す。本手法をオブジェクトカテゴリに特化した画像領域分割の最新手法と比較したところ、非常に有望な結果を得た。この実験では特にLeibe、 Schiele、Schoenemann、そしてCremersそれぞれの手法との比較を行った。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


期待値最大化による照度差ステレオ法
Photometric Stereo via Expectation Maximization

Tai-Pang Wu, HKUST, Hong Kong Chi-Keung Tang, HKUST, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 546-560 , March 2010

Keywords: Photometric stereo, expectation maximization, normal, albedo and visible surface reconstruction

本稿では、照度差ステレオ法のための頑健且つ自動化されたアプローチを紹介する。このアプローチでは、表面法線および可視表面をそれぞれ期待値最大化法(Expectation Maximization: EM)により最適化する。デジタルビデオカメラを用いることで情報量が豊富な入力画像を得ることができる。撮影時には、手持ち型のスポットライトをターゲットオブジェクト及び小型 のミラー半球の周りで周回させる。我々のアプローチでは、本質的に複雑な最適化問題を、2段階のシンプルな最適化問題に落としこみ、各段において、EM法を適用している。1)前記の入力を用いるこ とで、各画素における法線もしくはアルベド情報により、各観測の重みもしくは重要度を交互に最適化する。2)左記処理で最適化された法線とマルコフ確率場(Markov Random Fields: MRFs)を用いることで、可視表面再構築において表面の積分可能性と不連続性を交互に最適化する。我々の数学的派生法によりEMアルゴリズムの単純な更新規則が得られる。これを用いることで、 高安定性且つ現実的な、パラメタ設定不要の機能が実現される。これは複雑な幾何的構成や、陰影・ハイライト・透明部分がある場合などでも非常に高い頑健性を示す。法線及び可視表面の復元 において高品質の結果を示す。我々の方法により、詳細幾何情報が自動的に復元される。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


陰関数多項式曲線及び曲面のフィッティングのための適応的且つ安定な方法
An Adaptive and Stable Method for Fitting Implicit Polynomial Curves and Surfaces

Bo Zheng, The University of Tokyo, Tokyo Jun Takamatsu, Nara Institute of Science and Technology, Takayama Katsushi Ikeuchi, The University of Tokyo, Tokyo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 561-568 , March 2010

Keywords: Fitting algebraic curves and surfaces, implicit polynomial (IP), implicit shape representation.

様々なコンピュータビジョンの課題に適用可能であるため、二次元及び三次元データセットを陰関数多項式(implicit polynomials: IPs)で表現することは、重要な課題である。それゆえ 多くのIPフィッティング法が既に提案されている。しかし既存のフィッティング法は、フィッティングの安定性を保ちつつ、適切なIP表現の度合いとフィッティング精度の決定のための計算コストの観点で更なる 改良が可能であり、これは必要でもある。必要とされる適切な度合いを自動的に決定する能力を持つ、安定な高精度フィッティング法を提案する。我々の手法は、充分なフィッティング結果が得られるま でIPの度合いを上げる。グラム・シュミット直交化(Gram-Schmidt orthogonalization)によるQR分解(QR decomposition)の漸増性により我々の手法では効率的な計算が可 能である。更にこの分解により不安定要因が正確にわかるため、リッジ回帰に基づいた高速条件を、この要因のみに選択的に適用することが可能である。結果として我々の手法ではフィッティング精度を 保ちつつ、高い計算安定性を達成している。既存手法との比較実験の結果により我々の手法の効果を例証する。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


推測誤差推定におけるk-fold交差検定の感度解析
Sensitivity Analysis of k-Fold Cross Validation in Prediction Error Estimation

Juan Diego Rodr?guez, University of the Basque Country, San Seabstian Aritz P?rez, University of the Basque Country, San Sebastian-Donostia Jose Antonio Lozano, University of the Basque Country, San Sebastian-Donostia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 569-575 , March 2010

Keywords: k-fold cross validation, prediction error, error estimation, bias and variance, decomposition of the variance, sources of sensitivity, supervised classification.

機械学習の分野では、識別器の性能は推測誤差により計測される。殆どの実世界問題においてこの誤差は完全に正確に計算することができないため推測が必要である。それゆえ適切な誤差推定器 の選択が重要である。本稿ではk-fold交差検定識別誤差推定器(k-fold cross-validation classification error estimator: k-cv)の統計的性質、バイア ス、及び変動について解析する。本研究の主な成果は、このk-cvの変動を新しい方法で理論的に分解したことである。この分解では、k-cvの変動源である訓練集合の変化に対する感度、及び fold内変化への感度を考慮している。またk(訓練集合の分割数:訳者注)を変化させたときの上記の推定器バイアス及び変動の比較も行う。暗示的量(implied quantities)の正確な 計算が可能となり、且つ実験条件を厳密に定めることができるため、合成データを利用した実験を行う。この実験では2つの識別器(ベイズ手法及び最近傍法)と、様々なfold数、サンプルサイズ、そし て様々な確率分布から得られた訓練集合に対して行われた。k-fold交差検定の利用についていくつかの実際的な推奨を与えて本稿の結びとする。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.32, No.4


非定常な形状動作:ランドマークの形状変化に追従する動的モデルとその応用
Nonstationary Shape Activities: Dynamic Models for Landmark Shape Change and Applications

Samarjit Das, Namrata Vaswani

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 579-592 , 4 2010

Keywords: Landmark shape sequence analysis, nonstationary shape sequences, Kendall's shape space, tangent space, tracking, particle filtering

本研究の目的はランドマークの形状が観察者の動きにつれてどのように変化するかを統計的に推定し、この モデルを利用してフィルタリングと追跡を通して自動的にランドマークを抽出し、正確な合成や変化を検出 することである。ここで言う形状動作(shape activity)とは、ランドマークの形状を動的に表現するために 導入されたもので、パターン全体の平行移動、大きさ変化、回転などの効果を正規化させるためである。こ れらの研究では、静的な形状の画像系列を表すモデルを提案する。走る、飛び跳ねる、這うと言ったランド マーク集合の動きのほとんどは、初期の形状から大きく変化する結果、非定常である。本研究の重要な寄与 は、非定常な2D, 3Dのランドマーク形状の画像系列の生成モデルを定義する新規な手法にある。本提案モデ ル手法をノイズの多いランドマーク画像に適用し、これによって著しくパフォーマンスが向上した実例を示 し、一連のフィルタリング処理によって、ビデオ画像中の形状と人の動きを追跡して、Procrustes距離の最 小平均2乗誤差の期待値を算出する、すなわち、ランドマークの場所を同定する。これの予測を使って、与 えられた画像からランドマークを、より速くより正確に選び出す。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


平面形状のKendall空間によるRiemann多様体のための固有MANOVA(多変量分散分析)
Intrinsic MANOVA for Riemannian Manifolds with an Application to Kendall's Space of Planar Shapes

Stephan Huckemann, Thomas Hotz, Axel Munk

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 593-603 , 4 2010

Keywords: Shape analysis, nonlinear multivariate analysis of variance, Riemannian manifolds, orbifolds, orbit spaces, geodesics, Lie group actions, nonlinear multivariate statistics, covariance, inference, test, intrinsic mean, forest biometry.

我々は形状を統計的に解析する際にしばしば必要となるリーマン多様体(Riemannian manifold)上のデータ 固有の多因子モデルを提案する。線形モデルが必ずしも線形構造を持っていないため、今日、一方向の MANOVA(多変量分散分析)のみが利用可能である。一般的多因子モデルを実現するために、我々は現モデル で説明できてない、分散が形状定義要素の近傍に存在していることを仮定している。個々のサンプル分散値 の漸近的な分布を平行移動することによって決定することで、本手法と従来のMANOVAの比較が可能であるこ とを示す。しばしば、応用場面においては多様体が各サンプル個々の割合として暗黙的に与えられており、 基底空間の平行移動は微分方程式によって表せる。平面形状のKendall空間において、我々は陽の解を示す 。本手法を、一組の葉の形状について、2通りの固有MANOVAを例示する。生物学者たちは見るだけで遺伝子 型の効果を同定できるだろうが、同定が困難な高さの効果を本手法で検出することが可能である。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


階層的部分テンプレートマッチングによる形状に基づく人の検出とセグメンテーション
Shape-Based Human Detection and Segmentation via Hierarchical Part-Template Matching

Zhe Lin, Larry S. Davis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 604-618 , 4 2010

Keywords: Generic human detector, part-template tree, hierarchical part-template matching, pose-adaptive descriptor, occlusion analysis

局所的な部分テンプレートと全体的な形状テンプレートを結合した、形状に基づく人の検出とセグメンテー ションを同時に実行する階層的部分テンプレートマッチング法を提案する。この手法は人を構成する部分形 状(足、腰、肩、頭など)から階層的に人を検出し、人の姿勢を推定する、というアイデアに基づいている 。一般的に人の検出を学習する場合、姿勢に適応した形状特徴の演算を開発し、これをツリー状に(階層的 に)マッチングする。従来の、部分連結による画像の局所的特徴による符号化法と異なり、我々の手法は人 の姿勢に特徴的な特徴量を適応的に抽出し、人パターンと非人パターンをカーネルSVM識別器で学習する。 特に、特徴量は推定される形状境界に沿って姿勢の内容を追跡し収集して学習に当てる。また、多重に隠蔽 された人の検出とセグメント法を紹介するが、これには反復隠蔽補償法を適用する。我々の学習済み般化人 間検出器の結果は、反復最適化における人の初期仮説集合として利用できる。我々は3つの公開の通行人デ ータ集合(INRIA, MIT-CBCL, および USC-B)と、2つのCaviar Benchmark and Munich Airportの群衆データ 集合に対して適用評価された。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


セグメンテーション平均化による剛体形状のマッチング
Rigid Shape Matching by Segmentation Averaging

Hongzhi Wang, John Oliensis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 619-635 , 4 2010

Keywords: Shape matching, image segmentation, mutual information

我々は画像のマッチングにセグメンテーション形状を利用した。この新しいマッチング法においては点同士 のエッジ対応は必要なく、小さな形状変動や空間的シフトにもロバストである。ボトムアップによるセグメ ンテーション計算の信頼性の低さを指摘し、これを解決するために、すべてのセグメンテーションの閉じた 平均領域を対象とする。本手法は、オブジェクト追跡のための新しいアルゴリズムや、セグメンテーション やエッジ保存平滑化など多様な拡張が可能である。セグメンテーションにおいては、最適事後確率による手 法ではなく、1つの画像のすべてのセグメンテーションへの平均距離を最小化する「中心」セグメンテーシ ョンを算出する。平滑化に関しては、局所的構造について平滑化するのではなく、全体的な最適画像構造に 関して平滑化する。本手法によるセグメンテーション、平滑化、オブジェクト検出は他の方法に比べ強力で あり、形状による追跡があ有望であることを示す。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


円筒曲面間の自動的関連付け
Automatic Construction of Correspondences for Tubular Surfaces

Toon Huysmans, Jan Sijbers, Brigitte Verdonk

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 636-651 , 4 2010

Keywords: Point correspondence problem, statistical shape models, tubular structures, minimum description length, image segmentation, image shape analysis

統計的形状モデル化法とは、医用画像処理において画像セグメンテーションや画像解析など多様な用途に利 用されている確立された技術である。その分野でも困難な問題として、学習データサンプル間において、形 状間に対応関係をつけた、形状モデルを構成することがある。特に、筒状の形状を有する場合はほとんど研 究事例がない。本論文は、一組の円筒状の形状における対応関係を自動的につける方法について述べる。本 手法は、まず最初に円筒形をパラメータ表記するそのパラメータの対応関係からスタートする。得られた対 応関係の質は、記述長さの観点から計測され、利用している円筒状b-splineを変形し、さらに形状の空間的 並びを最適化することによって改善される。得られたモデルの対応関係最適化の前後の比較を行った。その 結果、パラメータ化による対応関係に比べて、この新方法は、再構成誤差、一般化能力、特殊化の観点から 、はるかに優れた性能を示した。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統計的判別法を使った体積、姿勢、および、形状の多数オブジェクトの分析
Multi-Object Analysis of Volume, Pose, and Shape Using Statistical Discrimination

Kevin Gorczowski, Martin Styner, Ja Yeon Jeong, J.S. Marron, Joseph Piven, Heather Cody Hazlett, Stephen M. Pizer, Guido Gerig

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 652-661 , 4 2010

Keywords: Shape, size and shape, shape analysis

統計的形状分析の1つの目標は2種類のオブジェクトの個数を分離することである。従来の形状分析はほと んどの場合単一オブジェクトに関するものであるが、複数のオブジェクトの複合体の分析は、姿勢や並び方 に依存して新たな課題を持っている。本論文では、抽出サンプル中間多様体(2つの表面の中間の点集合で 多様体を表現)によって判別分析手法を紹介する。2つのサンプリング集合表現間の測地線に沿った距離を 扱う非ユークリッド尺度を利用して、並び方判定し判別結果を得た。我々の選択した判別法は重み付き距離 判別法であるが、その理由は、高次元と、低サンプル数への一般化が可能であることによる。偏りの無いソ フトな識別スコアを利用して、統計的仮説検定を行い、識別結果を得た。識別分析のために、体積、姿勢、 形状、および、姿勢と形状の組合わせなどの、異なる特徴量を入力データとし、その効果を探索した。本手 法は長期間に渡る小児自閉症と脳皮質下構造と70人の披験者の研究に適用された。グローバルな並び方の選 択と、固有な形状特徴と外因性特徴の選択において、後者は相対的姿勢に敏感であり、グループ識別には重 要因子であるとともに、今回の適用領域では形状変化の特性を説明するためにも重要因子であることが示さ れた。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3D形状解析のためのRICCIフロー
Ricci Flow for 3D Shape Analysis

Wei Zeng, Dimitris Samaras, Xianfeng David Gu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 662-677 , 4 2010

Keywords: Ricci flow, shape representation, surface matching and registration

ここに、表面Ricciフローのコンピュータビジョンへの最初の応用例を示す。以前の方法は等角形状に基づ いており、そのため単純な3D形状しか扱えず、任意のトポロジー表面を扱えるRicciフローに基づく手法に かなわなかった。ここにRicciフローの計算のための一般的枠組みを紹介するが、本手法は任意のリーマン 計量(Riemannian metric)をユーザーが定義する曲率によって設計できる。Ricciフローの解はユニークで、 ノイズに耐性がある。ユークリッド的背景形状とか双曲形状の離散的表面上のRicciフローの実装について の詳細を述べる。このRicciフローに基づく方法はすべての3D問題を2D領域に変換することが出来、3D形状 分析のための一般的枠組みを与えられる。本手法の本質的な形状表現の適用性を示すために、3D形状マッチ ングと位置合わせや形状インデックス化のような標準的な形状分析問題に適用してみよう。大きな非剛体で 非等質な表面の変形は、特徴点と曲線によって制約されたRicciフローによって登録できる。等角同等性が どのようにして3D表面形状空間中の形状を指標化できるかを、Teichmueller空間座標によって表現する。多 くの3D顔データ集合に関する実験結果が、大きな顔表情の変形と、動いている心臓データに対する実験結果 として示されている。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単語の意味の明確化を教師無しで教えるためのグラフの連結性の実験的研究
An Experimental Study of Graph Connectivity for Unsupervised Word Sense Disambiguation

Roberto Navigli, Mirella Lapata

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 678-692 , 4 2010

Keywords: Word sense disambiguation, graph connectivity, semantic networks, social network analysis

文脈中の単語の本来の意味を決定する課題である単語意味明確化(WSD)は、自然言語処理における長期的研 究目的の一つであった。本論文において、大規模なWSDのためのグラフに基づくアルゴリズムについて考え る。この枠組みの中で、与えられた単語の正しい意味を見つけることは、この意味を表すグラフノード集合 の中で、最も重要なノードを同定することと同じである。そのために、パラメータをほとんど持たず、また 意味を付与するための学習を必要としない、グラフに基づくWSDアルゴリズムを紹介する。このアルゴリズ ムを使って、WSDに最適なグラフ連結性を有するいくつかの尺度を調べる。また、同時に、選択された語彙 とその連結性がWSDの性能に影響するかを調べる。我々は標準的データ集合によって、我々のグラフによる 手法が、最新手法と同程度に優れていることを示す。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


拡張された顕著性:確率的画像モデル化による有意義性に注視
FEsaliency (Extended Saliency): Meaningful Attention Using Stochastic Image Modeling

Tamar Avraham and Michael Lindenbaum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 693-708 , 4 2010

Keywords: Computer vision, scene analysis, similarity measures, performance evaluation of algorithms and systems, object recognition, visual search, attention

ベンチマーク用の共通データ、標準化された性能測定尺度、および基本的アルゴリズムは、多様な応用領域 における研究開発に多大な効果を及ぼしてきた。これにおいて用意された資源は、利用者にも技術開発者に も共通の枠組みを与えることで客観的にアルゴリズムやその改良アルゴリズムの性能比較を可能にした。本 論文では、ビデオ画像中のオブジェクトの検出と追跡、特に、顔、テキスト、自動車を対象にした評価用の 枠組みを提案する。この枠組みに含まれるものは、元のビデオデータ、正解を与える画像の記述(説明記述 のためのガイドラインも含む)、性能尺度、評価用手順、基本アルゴリズムを採点するためのツールソフト ウエア。オブジェクトの検出追跡課題、および、これを支援するドメインごとに、50個の抜き取られた学 習集合と50個のテスト集合を開発した。各抜き取りデータは約2.5分のビデオで、各フレーム単位で空 間的にも時間的にも区切られて説明が付けられている。したがって、各課題とドメインにおいて、約45万 フレームの注釈文章が用意されている。これだけの規模の注釈量は今までに無かったレベルであり、ロバス トな機械学習の方法を支え始めるのに必要な量を持つだけでなく、アルゴリズムを統計的に有意に比較でき るように設計されている。本研究の最終目標は、オブジェクトの検出と追跡手法に対する挑戦を体系的に表 明し、共通の評価を可能にする枠組みを提供し、いろいろな手法の客観的比較を可能とし、研究者たちが自 動的なモデル化手法を利用して実験評価が可能となるような十分なデータを供給し、各研究組織に対して開 発過程での客観的評価を働きかけ、コンピュータビジョンのコミュニティに対して、今後何年間もきわめて 有用であり続けるようなスケールと量の資源を提供することである。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ランドマーク形状解析のための情報幾何学:形状表現と変形を統一することで
Information Geometry for Landmark Shape Analysis: Unifying Shape Representation and Deformation

Tamar Avraham, Michael Lindenbaum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 693-708 , 4 2010

Keywords: Computer vision, scene analysis, similarity measures, performance evaluation of algorithms and systems, object recognition, visual search, attention.

コンピュータビジョンによる注意喚起システムは、変数として仮説化された重要度(つまり、最大尤度の状 態のみ)を、画像入力の各部位に対し手割り当て、その結果に基づき計算資源を割り振る。このような非均 一な資源割り当てによって画像解析プロセスを加速できるであろう。本論文は、新しいボトムアップ法の注 意喚起メカニズムを提案する。人間の注意モデルを使う従来法によらないで、注視画像の統計的に妥当な確 率を推定するモデルを提案する。この確率を顕著性と呼ぶことにし、従って、顕著性を数学的に厳密に定義 する。本モデルはいくつかの直感的観測値を定量化するが、その中には見掛けが互いに類似する領域同士に 、より大きな関連性を与えるとか、情景中には注目すべき対象物はほんの少ししか無いらしいとか、を含む 。後者の観測例は、グローバルな緩和条件で例外的であれば、従来の局所的コントラストを置き換える。本 アルゴリズムは、疎な予備的注視セグメンテーションから開始し、続いて、グラフモデル近似によって、ど ちらのセグメントに興味があるかを効率的に明らかにする。多様なオブジェクトを含む自然画像に対する実 験から、本提案手法が従来法より優れていることが判明した。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オーバーラップの無い視野の監視カメラ画像による位置同定と軌跡の復元
Localization and Trajectory Reconstruction in Surveillance Cameras with Nonoverlapping Views

Roman Pflugfelder, Horst Bischof

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 709-721 , 4 2010

Keywords: Camera localization, nonoverlapping camera views, direct reference plane method, simultaneous localization and tracking

本論文では2つの監視カメラからオブジェクトの位置同定と、同時にオブジェクトの軌跡を3D空間内に復元 する方法を提案する。この手法は、グローバルに解が存在する線形方程式を特異値分解して位置と復元を定 式化した直接的参照平面法を拡張した方法である。本方法の仮定として、カメラは静止し、同期しており、 軌跡は滑らかで、カメラパラメータと世界座標中におけるカメラ間の回転は既知であるとする。本論文は、 既知の人工的な直方体物体が既知のカメラパラメータと既知の角度を持っており、自己校正的に解く手法に ついて述べる。合成と実際の画像での実験の結果、視野が4メートルのギャップを持っていても、中心を0.5 メートル以下の誤差で復元できた。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


中間調を利用した高精度の境界長推定法
Texture Synthesis with Grouplets

Gabriel Peyre

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 733-746 , 4 2010

Keywords: Texture, grouplets, texture synthesis, inpainting

本論文では幾何形状のテクスチャーを合成し、画像修復するための新規な手法を提案する。テクスチャーモ デルは幾何学的レイヤーから構成されており、これが新規なグループレット変換(grouplet transform)を駆 動する。幾何形状は、テクスチャーに従った方向性を有する流れパターンであり、このテクスチャーを解析 して合成する。このグループレット変換はMallatの手法を拡張したもので、天然のテクスチャーをモデル化 するよう適応する。各グループレットの基本単位(アトム)は、幾何学的流れに沿った伸びたストロークで ある。これらのアトムは多様な長さと幅を持っており、それによって自然画像中の多様な構造にマッチング させることができるのである。これらのグループレット係数を統計的にモデル化し、更に、出来るだけ疎に 分布させることで、流れに沿ったテクスチャーパターンが合成できる。本論文は、テクスチャーによる画像 修復とテクスチャー合成の可能性を探索するものであり、この両者共に幾何学的流れとグループレット係数 の連携最適化が求められる。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3次元の対象物を光学幾何的に獲得するための自己校正方法
A Self-Calibrating Method for Photogeometric Acquisition of 3D Objects

Daniel Hernandez-Lobato, Gonzalo Martinez-Munoz, Alberto Suarez,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 747-754 , 4 2010

Keywords: Digitization and image capture, scene analysis, geometric modeling

我々は、自己校正可能な光学幾何法を紹介する。それは市販のハードウェアだけを使い、実世界の対象物の 数百万のサンプル点と色情報を持ったモデルを得ることが出来るものである。 以前のいくつかの研究は、事前に校正したシステムを、幾何情報と光度測定の情報を別々に得るために利用 した。 我々がこの研究を始めるきっかけとなったのは、デジタルプロジェクタは活発な光源としても、同時に仮想 カメラ(反対にこれら両者として使うことが出来ないデジタル・カメラに対して)としても使えるはずだ、 ということである。 我々は、我々の自己--校正方法と複数視点による3次元の(対象物の)デジタルデータ化方法を紹介する。 それは構造化された照明に基づき、同時に相互に登録された表面の位置と表面の法線情報を得て、高品質の モデルを作り出すものである。 校正処理は、同じハードウェア構成で自由に幾何学的な準備を使うことと、光度測定の準備を使うことを切 り替えることができる。 さらに、我々のアプローチでは、プロジェクタだけでなくカメラの解像度で再構築したものを生成している 。 我々は実世界の対象物の、高品質の幾つかのモデルのデジタルデータ化した結果を示す。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


強度の遠近法の歪みを伴った平面の記号の認識
Recognizing Planar Symbols with Severe Perspective Deformation

Linlin Li, Chew Lim Tan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 4, pp. 755-762 , 4 2010

Keywords: Symbol recognition, perspective deformation

実風景の記号を認識する際の共通の問題は、遠近法の歪みである。  この論文では、クロス比率のスペクトル(Cross Ratio Spectrum)記述に基づいた、遠近法の歪みに対抗す る認識方法を提案する。 この方法は強度の遠近法の歪みに耐性を持たせ、類似した記号に対し良い識別能力を見せる。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.32, No.5


ドメイン適応問題: DASVM識別手法と循環検定戦略
Domain Adaptation Problems: A DASVM Classification Technique and a Circular Validation Strategy

Lorenzo Bruzzone, University of Trento, Trento Mattia Marconcini, University of Trento, Trento

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 770-787 , May 2010

Keywords: Domain adaptation, transfer learning, semi-supervised learning, support vector machines, accuracy assessment, validation strategy.

本稿では、ドメイン適応フレームワークにおけるパターン識別問題を取り扱う。このフレームワークでは、(ラベルなし)テストデータのターゲットドメインとソースドメインが(たとえ関連があるにしても)異なる場合に のみ、訓練データが利用可能であると仮定する。本研究の主な成果は以下の2点である。1)サポートベクトルマシンの定式化をドメイン適応フレームワークに拡張する、ドメイン適応型サポートベクトルマシ ン(domain adaptation support vector machine: DASVM)手法。2)ターゲットドメインインスタンスの真のラベルが全く得られない場合におけるドメイン適応識別器の学習の検 証のための、循環型間接精度評価戦略。一群の二次元模擬問題及び脳—コンピュータインターフェース及びリモートセンシングのアプリケーションそれぞれに関する2つの実データセットを用いた実験結果に より、DASVM手法及び提案する循環型検証戦略の効果と信頼性を確認した。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


信号処理アプリケーションのための疎なマルチカーネル学習
Sparse Multiple Kernel Learning for Signal Processing Applications

Niranjan Subrahmanya, Purdue University, West Lafayette Yung C. Shin, Purdue University, West Lafayette

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 788-798 , May 2010

Keywords: Composite kernel learning, feature group selection, heterogeneous data fusion, sensor selection.

多くの信号処理アプリケーションで、モデル開発における特徴のグルーピングと小数の関連グループの選択は、学習されたパラメタの説明可能性を向上させるために有用でありうる。この問題を解消するため に、線形モデルに基づいた多くの研究がなされてきたが、過去数年では、マルチカーネル学習がこの問題を非線形モデルで解くための候補として注目されてきている。今日までの全てのマルチカーネル学習 アルゴリズムが、凸主問題(convex primal problem)定式化を利用しているが、これらのアルゴリズムによるカーネル重み付け選択は、厳密にいうと、可能な最も疎な解ではない。凸主問題に よる定式化を行う主な理由は、カーネルに基づいた方法の効率的な実装が、相変わらず双対問題を解くことに依存しているからである。本研究では、前記の主問題に対数に基づいた凹罰則項 (concave penalty term)を加えることで、パラメタ群に関する疎性(sparsity)を帰納的に算出する。主空間(primal space)におけるモデルパラメタ推定のための一般化された反 復学習アルゴリズムを与える。本アルゴリズムはこの凹罰則項と他の罰則項との線形結合を用いることができる。非線形モデルに対するこの方法の自然な拡張は、新しいアルゴリズムの“カーネルトリック” の結果を用いる方法である。これは疎なマルチカーネル学習(Sparse Multiple Kernel Learning: SMKL)と呼ばれ、グループ特徴選択をカーネル選択に一般化するものである。 SMKLは既存の効率的な単一カーネルアルゴリズムを利用する能力を持っており、既存のマルチカーネルフレームワークに比べ、利用するカーネル数に関してより疎な解を与えることができる。ガン検出、土 地被覆(land cover)識別のための超スペクトル(hyperspectral)撮像、フェストゥーカ属の各種草木(fescue grass)や小麦から得られたNIRスペクトル、及びディーゼル、これらのた めの質量スペクトルの使用に基づいた多数の信号処理例を、極めて少数のカーネルにより非常に高い精度が得られるというSMKLの能力を示すために紹介する。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二次元オブジェクトの弾性変形不変量の決定のための一般的方法論:寄生虫の自動同定アプリケーション
A General Methodology for the Determination of 2D Bodies Elastic Deformation Invariants: Application to the Automatic Identification of Parasites

Dimitris Arabadjis, National Techncal University of Athens , Athens Panayiotis Rousopoulos, National Techncal University of Athens, Athens Constantin Papaodysseus, National Technical University of Athens, Athens Michalis Panagopoulos, National Techncal University of Athens, Athens Panayiota Loumou, National Techncal University of Athens, Athens Georgios Theodoropoulos, Agricultural University of Athens, Athens

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 799-814 , May 2010

Keywords: Deformation invariant elastic properties, automatic curve classification, parasite automatic identification, straightening deformed objects, image analysis, elastic deformation, pattern classification techniques.

変形不変量である機械弾性特性を定量化するために、任意の弾性体変形のインスタンスの二次元画像を利用する新しい方法論を紹介する。このような特性を決定することにより、非変形体の画像を 生成する方法の開発が可能になる。この弾性体の機械弾性特性に関して一般的な仮定を与えることで、弾性体の変形不変量を取得するための2つの異なるアプローチを得る。一方の方法は、変形さ れた弾性体の中性線及びその断面に着目して開発された。他方は、変形された弾性体の画像に対する等価画像演算をいくつか行うことで、変形の偏微分方程式を解くものである。これらの方法は両 方とも、変形した弾性体から、変形していない状態の弾性体を導出する能力を持つだろう。この能力を、変形した寄生虫、原生生物(細胞)、繊維、そして人間の唇の画像から、それぞれの変形してい ない状態を構成することで確かめる。更に、この方法を顕微鏡画像からの寄生虫自動識別に応用した。この目的を達成するために、前記の方法をまず適用し、重度の変形を校正する。次にこの目的の ための専用に調整した曲線識別法を用いて寄生虫の輪郭を補正した。同一の寄生虫の全く異なる変形から、同一の変形していない形状を復元することができることが示される。これにより提案手法の 整合性を確認した。最後にパターン認識手法を開発し、これにより、様々な種類の寄生虫画像を、6つの属に分類した。このときの精度は97.6%であった。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


DAISY:広角ベースライン両眼立体視に適用した効率的な高密度記述子
DAISY: An Efficient Dense Descriptor Applied to Wide-Baseline Stereo

Engin Tola, Ecole Polytechnic F?d?rale de Lausanne (EPFL), Lausanne Vincent Lepetit, Ecole Polytechnic F?d?rale de Lausanne (EPFL), Lausanne Pascal Fua, Ecole Polytechnic F?d?rale de Lausanne (EPFL), Lausanne

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 815-830 , May 2010

Keywords: Image processing and computer vision, dense depth map estimation, local descriptors.

本稿では、高密度計算が効率的に行える局所画像記述子DAISYを紹介する。また、広角画像対から高密度な奥行き及び隠蔽画像を計算するための、この記述子を用いた期待値最大化法に基 づくアルゴリズムも紹介する。このアルゴリズムは、狭角条件での利用が一般的な画素及び相関に基づいたアルゴリズムよりも、広角条件において数段優れた結果を与える。本記述子は、SIFTや GLOHなどの以前の研究からアイディアを得たものであるが、これらの方法よりも本目的に対しては遥かに高速に計算可能であるという特徴を持つ。同じく画素レベルでの計算が可能なSURFと異なり、本 アルゴリズムは、高密度条件で利用した場合にも、両眼画像の照合を阻害するようなノイズを生成しない。我々のアプローチは、広角条件の両眼立体視において高密度奥行き情報を推定するための 最初のものである。レーザでスキャンした正解画像に基づいて他の記述子と比較した結果、奥行き推定精度、隠蔽検出において優れていると言える。様々な屋内及び屋外シーン且つ、様々な測光学 的及び幾何的な変形がある場合において、我々のアプローチを試験した。その結果、これらの要因に対しても、我々のアルゴリズムは頑健であることが示される。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


FRVT2006及びICE2006大規模実験の結果
FRVT 2006 and ICE 2006 Large-Scale Experimental Results

P. Jonathon Phillips, National Institute of Standards and Technology, Gaithersburg W. Todd Scruggs, Science Applications International Corporation, Chantilly Alice J. O'Toole, The University of Texas at Dallas, Richardson Patrick J. Flynn, University of Notre Dame, Notre Dame Kevin W. Bowyer, University of Notre Dame, Notre Dame Cathy L. Schott, Schafer Corporation, Arlington Matthew Sharpe, Ames HCI Group, Moffett Field

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 831-846 , May 2010

Keywords: Biometrics, face recognition, iris recognition, evaluations, human performance.

本稿では、顔認識ベンダーテスト(Face Recognition Vendor Test: FRVT)2006及び虹彩課題評価(Iris Challenge Evaluation: ICE)2006からの大規模実 験の結果を説明する。FRVT2006は顔を前から撮影した高解像度静止画像、三次元顔画像、及び照明制御環境下で撮影した静止画の前面顔画像、照明非制御環境下での画像、それぞれを 利用した顔認識について議論した。ICE2006は左右の目の虹彩の検査性能について報告した。ICE2006で利用された画像は、ICE2006のセンサーが通常取得する画像品質の幅よりも、意図 的に広い品質範囲を表現している。これはこのセンサーに組み込まれたソフトウェアによる品質制御を本来であれば通過できないような品質の画像も、検討に含むことを意味する。制御環境下で取得し た画像及び三次元画像に対するFRVT2006の結果は、FRVT2002の結果に比べ、少なくとも1桁の精度向上意を示している。FRVT2006及びICE2006では、前面顔の高解像度静止画像、 三次元顔画像、及び単一虹彩画像の認識性能を比較する。FRVT2006及びICE2006データセットに対して、認識性能は、高解像度前顔画像、三次元顔画像、及び虹彩画像で同等であった 。照明変化環境下における人間の認識能力とコンピュータのアルゴリズムによる前面顔画像の顔同定性能を比較する実験では、最高精度のアルゴリズムは、見慣れない顔に対する人間の認識能力を 上回る性能を示した。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネルエントロピー成分解析(Kernel Entropy Component Analysis)
Kernel Entropy Component Analysis

Robert Jenssen, University of Troms?, Troms?

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 847-860 , May 2010

Keywords: Spectral data transformation, Renyi entropy, Parzen windowing, kernel PCA, clustering, pattern denoising.

本稿では、データ変換及び次元削減のための新しい方法として、カーネルエントロピー成分解析(Kernel Entropy Component Analysis: Kernel ECA)を紹介する。カーネル ECAは、入力空間データセットのRenyiエントロピーに関する構造を明らかにする。このデータセットは、Parzen窓によるカーネル行列を利用して推定される。これは、カーネル主成分解析(Kernel principal component analysis: kernel PCA)軸を保持するエントロピーのサブセットに対する射影によりなされる。一般的にはこのサブセットは、カーネル行列の最高次の固有値 に対応している必要はない。これはカーネルPCAを用いた次元削減とは対照的な性質である。明確な角度に基づいた構造を持つカーネルECAが、カーネルPCAと全く異なる変換データセットを生成する 能力を持つことを示す。この構造を利用した新しいスペクトルクラスタリングアルゴリズムを開発し、評価したところ、好適な結果を得た。更にカーネルECAはパターンからのノイズ除去用途に有用な選択肢 であることもわかった。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフ変換によるコンテキスト適応的形状類似性
Learning Context-Sensitive Shape Similarity by Graph Transduction

Xiang Bai, Huazhong University of Science and Technology, Wuhan Xingwei Yang, Temple University, Philadelphia Longin Jan Latecki, Temple University, Philadelphia Wenyu Liu, Huazhong University of Science and Technology, Wuhan Zhuowen Tu, University of California, Los Angeles, Los Angeles

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 861-874 , May 2010

Keywords: Shape similarity, shape retrieval, shape classification, shape clustering, graph transduction.

形状類似性及び形状検索はコンピュータビジョンにおいて極めて重要なトピックである。この分野における最近の発展の多くは、高度な形状記述子の利用によりオブジェクト形状間のより良い類似性尺度 が利用できるようになったことに起因している。本稿では、既存の形状をグループと考えることで、この問題に新しい視点を導入し、グラフ構造においてオブジェクト形状を検索するための形状類似性尺度を 検討する。我々の方法は汎用的なものであり、既存のあらゆる形状類似性尺度をベースにすることができる。ある類似性尺度が与えられた時、グラフ変換により新しい類似性を学習する。新しい類似性 は与えられたクエリ形状の近傍の形状が、クエリ形状に対する最終的な類似性に影響を与えるように、反復的に学習される。これはGoogleのウェブ検索の基礎となっているページランクの考え方に関連 したものである。実験結果により、提案アプローチが、最新の形状マッチングアルゴリズムを顕著に上回る性能を持つことが示される。MPEG-7データセットに対して91.61%の検索精度を達成した。これ はこれまで報告されている検索率の中で最高の数値である。更に、提案手法で学習された類似性は形状識別及び形状クラスタリングの両面において、顕著な向上を示している。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ボリューム最大化による依存性ソースの分離のための非負最小相関成分解析
Nonnegative Least-Correlated Component Analysis for Separation of Dependent Sources by Volume Maximization

Fa-Yu Wang, National Tsing Hua University, Hsinchu Chong-Yung Chi, National Tsing Hua University, Hsinchu Tsung-Han Chan, National Tsing Hua University, Hsinchu Yue Wang, Virginia Polytechnic Institute and State University, Arlington

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 875-888 , May 2010

Keywords: Nonnegative blind source separation, nonnegative least-correlated component analysis, dependent sources, joint correlation function of multiple signals, iterative volume maximization.

ブラインド条件における非負ソース分離手法の開発はこれまで精力的に行われてきたが、正且つ依存性のあるソースの分離は未だに困難な課題として残っている。本稿では、元になった未知のソースより も、非負混合の後の観測が大きな共相関を持つという観測を確かめるための、複数信号の共相関関数を提案する。これに基づき、推定された非負ソースに関する共相関関数を最小化することで非混 合行列を設計するための、新しい非負最小相関成分解析(least-correlated component analysis: LCA)法を提案する。2つのソースの2つの混合を分離するための、閉形式( 自由項を持たない形式の式)の解に加え、複数ソースの場合のLCAの一般アルゴリズムを開発する。これは反復的ボリューム最大化(iterative volume maximization: IVM)原則と 線形計画法に基づいて開発される。ソースの同定可能性及び必要条件について議論し証明を与える。n{¥rm LCA¥hbox{-}IVM}で示される提案LCAアルゴリズムを、合成データ及び実際の 生物医学的データを用いて評価し、いくつかのベンチマークとなる既存手法と比較して、本手法が優れた性能を持つことを示す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


比率領域及び正規化カット派生法のための多項式時間アルゴリズム
Polynomial Time Algorithms for Ratio Regions and a Variant of Normalized Cut

Dorit S. Hochbaum, University of California, Berkeley, Berkeley

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 889-898 , May 2010

Keywords: Grouping, image segmentation, graph theoretic methods, partitioning.

分割問題、クラスタリング問題、及びグルーピング問題においては、類似オブジェクトをグループ化することが目的となることが多い。画像処理分野ではこれは、類似画素をグループ化することになる。また、 充分大きく且つそれぞれが充分に異なるグループに分けることも目的の一つに数えられる。これらの目的は、比率最適化問題(ratio optimization problem)と組み合わされることが多い。 このような問題の一例として、正規化カット問題の派生法や比率領域問題がある。この比率領域問題と正規化カットの派生問題、そして他のいくつかの比率問題を最適に解くための、世界初の多項式 時間アルゴリズムを開発した。このアルゴリズムは効率的且つ、他のアルゴリズムと協働動作可能である。これは画像分割分野で利用される、スペクトル法を用いることが多い非線形連続アプローチと対照 的な性質である。このような手法では、離散分割問題(discrete partitioning problem)で利用不可能な実数解しか得られない。更にこれらの連続アプローチは、本稿での提案手法 に比べ、計算量が多い。提案アルゴリズムは、多項式サイズの関連グラフに対する最小s,tカット手法を、サブルーチンとして用いる。本手法により、上記の問題それぞれに対する最適解と、分子と分母 の目的に対する任意の相対重み付けに関する入れ子型の解系列が得られる。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の動的MRFを用いた高精度奥行きマップのための時空間融合
Spatial-Temporal Fusion for High Accuracy Depth Maps Using Dynamic MRFs

Jiejie Zhu, University of Central Florida, Orlando Liang Wang, University of Kentucky, Lexington Jizhou Gao, University of Kentucky, Lexington Ruigang Yang, University of Kentucky, Lexington

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 899-909 , May 2010

Keywords: Stereo, MRFs, time-of-flight sensor, data fusion, global optimization.

飛行時間計測式の奥行きセンサーとパッシブステレオ法は、元から相補的な性質を持っている。これらを組み合わせてより高精度な、時間変化する奥行きマップを得るために、従来の空間的MRFを、時 間的コヒーレンスを持つ動的MRFに拡張する。この新しいモデルにより、局所隣接点間での、空間的及び時間的な関係を利用することができるようになる。ループ型確信度伝播(Loopy Belief Propagation)を用いて事後確率の最大値を効率的に見つけることで、我々のアプローチが時間変化するシーンの奥行きマップを、より高精度且つ頑健性高く計算できることを示す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハイブリッドグラフモデル(Hybrid Graph Model: HGM)を用いた教師無しオブジェクト分割
Unsupervised Object Segmentation with a Hybrid Graph Model (HGM)

Guangcan Liu, Shanghai Jiao Tong University, Shanghai Zhouchen Lin, Microsoft Research Asia, Beijing Yong Yu, The Chinese University of Hong Kong, Hong Kong Xiaoou Tang, Shanghai Jiao Tong University, Shanghai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 910-924 , May 2010

Keywords: Segmentation, graph-theoretic methods, spectral clustering.

本研究では、クラス特有の教師無しオブジェクト分割問題を取り扱う。これは例えばアノテーション付きの訓練データを利用しない自動分割などである。オブジェクト分割問題は、クラス特有の情報と、局所 的なテクスチャ/色類似性の両方を考慮しなければならない形式の、空間的データクラスタリング問題と考えることができる。このため、サンプル間の対称型及び非対称型関係を効率的に利用するハイブ リッドグラフモデル(Hybrid Graph Model: HGM)を提案する。ハイブリッドグラフの頂点はサンプルを表しており、これは有向枝もしくは無向枝により接続される。これらの枝はそれぞれ対称型及 び非対称型の関係を表している。これをオブジェクト分割に適用する場合、頂点はスーパーピクセル(superpixel)に、非対称関係は条件付き共起確率(conditional dependence of occurrence)に、対称型関係は色/テクスチャ類似性に、それぞれ対応する。有向部分グラフと無向部分グラフの最小カットにより構成されるマルコフ鎖を組み合わせることで、各画像に対する オブジェクトの境界を決定することができる。HGMを用いることで、トップダウン情報とボトムアップ情報を統一プロセスで統合し、これにより分割と認識を同時に行うことができる。42オブジェクトクラス(合計 9415画像)を用いた実験は、本アプローチが有望であることを示している。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


分水嶺(ウォーターシェッド)カット:間引き(thinnings)、最短パス森法、及びトポロジー分水嶺法
Watershed Cuts: Thinnings, Shortest Path Forests, and Topological Watersheds

Jean Cousty, Universit? Paris-Est, Equipe A3SI, ESIEE, Paris and INRIA Sophia Antipolis, France Gilles Bertrand, Universit? Paris-Est, Equipe A3SI, ESIEE, Paris Laurent Najman, Universit? Paris-Est, Equipe A3SI, ESIEE, Paris Michel Couprie, Universit? Paris-Est, Equipe A3SI, ESIEE, Paris

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 925-939 , May 2010

Keywords: Watershed, thinning, minimum spanning forest, shortest path forest, connection value, image segmentation.

最近の論文で我々は、重み付き枝グラフにおける分水嶺(ウォーターシェッド)を、分水嶺カットとして導入した。本稿では、3つの分水嶺カット戦略の元になる間引きパラダイムを提案する。この3つの戦略 の内、最初のものは、並列実装に適したものであり、第二の戦略は柔軟な線形時間直列実装のためのものである。第三のものは分水嶺カットと、一般によく用いられる導水アルゴリズム(flooding algorithm)をリンクさせるものである。分水嶺カットは、結合値(connection value)と呼ばれるコントラストの概念を保持する。いくつもの形態学的領域統合法が、この概念に(非明示的に )基を置いている。分水嶺カット、最小全域森法(minimum spanning forests)、最短パス森法(minimum spanning forests)、そして形態学的分水嶺間の、リンクと差異を 明確にする。最後に絵画の表面及び拡散テンソル画像(diffusion tensor image)の分割のための提案フレームワークの利用を例示する。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像のアフィン幾何変形の線形推定と、非線形輝度変換の分離
Decoupled Linear Estimation of Affine Geometric Deformations and Nonlinear Intensity Transformations of Images

Shahar Z. Kovalsky, Ben-Gurion University, Beer-Sheva Guy Cohen, Ben-Gurion University, Beer-Sheva Rami Hagege, Ben-Gurion University, Beer-Sheva Joseph M. Francos, Ben-Gurion University, Beer-Sheva

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 940-946 , May 2010

Keywords: Affine transformations, image registration, linear estimation, parameter estimation, domain registration, nonlinear range registration.

任意オブジェクトの2つの観測(画像)の位置合わせ問題を考える。この2つのオブジェクトは、これらのオブジェクトが存在する座標系の幾何アフィン変換や画素値の非線形マッピングにより関連付けること ができる。これはより一般的には、同一オブジェクトの2つの観測情報の間の、幾何的変形及び放射分析的変形(radiometric deformation)を、両者同時に推定することである。上記2つ の変形情報の同時復元のための、高次元、非線形且つ非凸検索問題は、等価な2つの線形システムの系列により表すことが可能である。この系列を解くことで、上記の同時推定問題に対する厳密且 つ明確な解を効率的に得ることができる。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


年齢不変の顔認識方法
Age-Invariant Face Recognition

Unsang Park, Michigan State University, East Lansing Yiying Tong, Michigan State University, East Lansing Anil K. Jain, Michigan State University, East Lansing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 947-954 , May 2010

Keywords: Face recognition, facial aging, aging modeling, aging simulation, 3D face model.

自動顔認識における重要課題の一つは、人の顔の時間変動に対する頑健性である。言い換えれば、このゴールは、加齢に伴う顔の変化に対して頑健な顔表現とマッチング方式を見つけることである。 顔の加齢は複雑なプロセスであり、顔の三次元形状だけでなくテクスチャ(シワなど)にも影響を与える。これらの形状変化及びテクスチャ変化は、自動顔認識システムの性能を低下させる。しかし顔の加 齢への対応は、姿勢、照明、表情などの他の顔に関する変動要因に比べ、これまで研究者の充分な興味を引いてこなかった。本稿で我々は、三次元加齢モデリング手法を提案し、加齢による上記の 性能低下を補償し、顔認識性能を向上させる。この加齢モデリング手法では、視点不変な三次元顔モデルを、与えられた二次元顔加齢データベースに適用する。提案アプローチを、3つの異なるデータ ベース(FG-NET、MORPH、及びBROWNS)と最新の商用顔認識エンジンであるFaceVACSを用いて評価する。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非明示的多項式に基づいた三次元オブジェクト認識
Recognition of 3D Objects Based on Implicit Polynomials

Hilla Ben-Yaacov, Technion-Israel Institute of Technology, Haifa David Malah, Technion-Israel Institute of Technology, Haifa Meir Barzohar, Technion-Israel Institute of Technology, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 5, pp. 954-960 , May 2010

Keywords: Implicit polynomials, 3D object recognition, tensor contraction, rotation-invariant, 3D object fitting.

いくつかの新しい三次元回転不変量のための閉形式(自由項を含まない形式)表現を開発する。この不変量は線形の二次形式であり、また非明示的多項式(implicit polynomial: IP )係数の角度組み合わせ(angular combination)である。これらの不変量に基づいた三次元オブジェクト認識法を提案する。この方法は姿勢推定後のIPフィッティングに基づく方式や MPEG-7SSD手法よりも優れた性能を示す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.32, No.6


六方格子上の、より高精度な勾配演算子の設計と評価
Design and Evaluation of More Accurate Gradient Operators on Hexagonal Lattices

Tetsuo Shima, Tokyo Institute of Technology, Tokyo Suguru Saito, Tokyo Institute of Technology, Tokyo Masayuki Nakajima, Tokyo Institute of Technology, Tokyo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 961-973 , June 2010

Keywords: Image processing, hexagonal lattice, consistent gradient operator, gradient intensity, orientation.

二次元のデジタル画像は通常直交格子上でサンプリングされるが、人間の網膜上では六方格子状の構造となっている。これが六方格子を採用する主な動機である。多くの画像処理アルゴリズムでの基本的演算では勾配情報を抽出する。そのため、正方格子における多くの勾配演算子が提案され十分最適化されてきた。しかし、六方格子は周囲の近傍画素との距離が等しいが、その正確な勾配演算子は、十分研究され尽くされている訳ではない。したがって、六方格子上での整合性のある演算子を定義し、正方格子のそれと比較する。その結果、六方格子での勾配演算子は、正方格子上と比べ、S/Nが優れている。人工的画像に六方格子の演算を適用した結果、正方格子に比べ、勾配強度と勾配方位の精度がいずれも優れていた。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


実時間の音楽採譜のための、経過時間に注目した連結アーキテクチャー
A Coupled Duration-Focused Architecture for Real-Time Music-to-Score Alignment

Arshia Cont, Ircam-Centre Pompidou, Paris

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 974-987 , June 2010

Keywords: Automatic musical accompaniment, hidden hybrid Markov/semi-Markov models, computer music.

訓練を受けた音楽家が楽譜を演奏する時、実時間で同期し、音程に同調する能力は、彼らにとって通常のことであるが、人工知能による挑戦としては興味あるものである。多くの音楽情報検索システムに影響を与えた音声認識と比較し、音楽の時間的運動性や複雑さのデータ系列に共通する時間モデルの近似として、困難な課題である。本論文では、実時間の音楽の採譜整合システムの設計について提案する。音楽家が楽譜を生演奏しているとき、このシステムは演奏者に楽譜内で追従しながら、演奏のテンポやペースを再生する。本提案設計には2つの対になったオーディオとテンポのエージェントがあり、実時間で演奏内容に沿ってパラメータを調整しながら個々の確率的な推論を実行する。オンラインの再生(復号)は、エージェントが隠れハイブリッドマルコフ的/セミ・マルコフ的(Hidden Hybrid Markov/semi-Markov)に協調しながら、達成される。ここで、一方のエージェントの推定フィードバックが他方の動作に影響を及ぼす。我々は実時間調整モデルと、提案した時間モデルの両方について評価した。この提案システムを実装化したものは、現在世界中のコンサートで広く利用されており、読者は実際のシステムにアクセスして体験されることをお勧めする。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


情報理論に基づくMin-Cut法によるクラスタリングの導出
An Information-Theoretic Derivation of Min-Cut-Based Clustering

Anil Raj, Columbia University, New York Chris H. Wiggins, Columbia University, New York

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 988-995 , June 2010

Keywords: Graphs, clustering, information theory, min-cut, Information Bottleneck, graph diffusion.

10年近く前Shi とMalikによって提案された2つの発見的なコスト関数のうちの1つを最小化させるというMin-cutクラスタリング法は、解析的にもアルゴリズム的にもグラフ分割や画像セグメンテーションの分野に過去10年間、膨大な研究を引き起こした。しかし、この発見的手法が、より一般的な原理から、新規な問題設定を一般化することを促進したかどうかは不鮮明であった。既存のグラフ分割の枠組みに動機づけされ、情報ボトルネック法で定義されるような関連情報の最適化と、K-分割グラフにおける正規化の関係を導いた。Fast-mixing graphにおいて, Shi とMalikが導入したコスト関数は、グラフ上のランダムウォーカーの存在位置に関する予測情報の喪失度合いをうまく予測していることを示す。コミュニティー構造を表現するための生成モデルから描かれるグラフにおいて、最適な情報理論的分割と、最適なmin-cut分割が、高い確率で同じであることが示される。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時間スタンプ付き文書のトピックスに関する階層的ベイズモデル化
Hierarchical Bayesian Modeling of Topics in Time-Stamped Documents

Iulian Pruteanu-Malinici, Duke University, Durham Lu Ren, Duke University, Durham John Paisley, Duke University, Durham Eric Wang, Duke University, Durham Lawrence Carin, Duke University, Durham

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 996-1011 , June 2010

Keywords: Hierarchical models, variational Bayes, Dirichlet process, text modeling.

既知の出版日を有する文書系列のトピックを推測し、モデル化する問題を考える。与えられた時間における文書はトピックによって特徴づけ出来、そのトピックは混合モデルから抽出できる。この提案モデルによって時間の関数としてトピックの混合重みの変化を推測する。この一般的な枠組みの詳細は、モデルの詳細に応じて異なる形式となるであろう。例えばここで考える例として、独立した多項ディリクレ測度として、トピック依存性の単語数による表現を考える。階層モデルの形式によって、大規模問題の興味に関する効率的な変分ベイズ推定が可能である。この結果を実証し、動的特性が除かれたときのモデルと比較しよう。また、潜在的ディリクレ配分と、時間的変動を有するトピック(TOT)と比較する。また1970年から2008年に渡るNeural Information Processing Systems誌の論文と合衆国大統領の演説のデータベースを考察する。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハイブリッドカメラを用いた、空間的変動を含む画像と、動きボケのある画像の修正
Correction of Spatially Varying Image and Video Motion Blur Using a Hybrid Camera

Yu-Wing Tai, Korea Advanced Institute of Science and Technology (KAIST), Korea Hao Du, University of Washington, Seattle Michael S. Brown, National University of Singapore, Singapore Stephen Lin, Microsoft Research Asia, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 1012-1028 , June 2010

Keywords: Motion deblurring, spatially varying motion blur, hybrid camera.

空間的変動のある動きボケを含むビデオ画像などのハイブリッドカメラによっての新規な修正法について述べる。ハイブリッドカメラとは通常の標準的ビデオカメラであるが、同時に同一光学系を共有した補助的なカメラで低解像・超高速のフレームレイトで撮影する。この補助ビデオは時間的には高解像であるが空間的には低解像である。他方、低速フレームレイトのビデオは、空間的に高解像であるが動きボケを混入しやすい。我々の目指すボケ復元法はこれら2つのビデオ画像を利用し、空間的にボケた高解像カメラ画像を逆コンボリューションと超解像技術を利用して高解像化する。我々のアルゴリズムでは空間的に変動するボケカーネルを精密化して更に画質を高める。我々の手法では高解像ビデオから動きボケを減少させるだけでなく、高速ビデオから高速フレームを予測することもできる。多様な入力画像から、現在のトップレベルの画像のボケ修正における顕著は改善効果が見られる。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高速な可変オブジェクト解釈のための階層的可変テンプレートの学習
Learning a Hierarchical Deformable Template for Rapid Deformable Object Parsing

Long (Leo) Zhu, Massachusetts Institute of Technology, Cambridge Yuanhao Chen, University of Science and Technology of China, Hefei Alan Yuille, University of California, Los Angeles, Los Angeles

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 1029-1043 , June 2010

Keywords: Hierarchy, shape representation, object parsing, segmentation, shape matching, structured learning.

本論文では、変形可能なオブジェクトを検出し、セグメント別けし、整合化し、マッチングするための課題について述べる。我々は新規な確率的オブジェクトモデルを利用するが、これは階層的な変形可能テンプレート(HDT)と呼ぶことにする。このHDTは典型的には5レベルの状態変数の階層によってオブジェクトが定義される。この階層は基本的構造を再帰的に定義し、より複雑な構造を形成するように構成される。パラメータ化された指数関数モデルである確率分布はオブジェクトの形状や外見の変数表現を多数のスケールで定量的に階層化して定義される。入力画像の最大可能性状態を推定するための推論は、複合推論と呼ばれるボトムアップのアルゴリズムを利用する。このアルゴリズムは動的計画法の近似版であり、近似には、効率を保ちながら高速性を達成するため、枝狩りのような近似を利用する。形状と外観を同時に弁別推定するために、HDTのパラメータ推定に構造パーセプトロンアルゴリズムを採用する。より詳細にいえば、HDTの指数関数的分布を辞書ポテンシャルによって特定するが、これによって外観と形状を把握する。この辞書は膨大であるため、そのポテンシャルの手動の調整は不要となっている。むしろ、構造パーセプトロンへのポテンシャル重みの割り当てが必要で、非重要な重みが小さくなるようにする必要がある。これは形状選択に変形可能形状を使うのに似ている。最後に、多数の視覚的課題に対しHDTの実験を示すが、それには検出、セグメンテーション、マッチング(位置合わせ)、解釈を含む。我々は、多様な画像の課題に対し、正解画像との比較において、HDTが最先端の効率を示すことを示す。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多数カメラのリグによる非オーバーラップ画像の動き予測:線形代数とL_¥infty幾何的な解による動き推定
Motion Estimation for Nonoverlapping Multicamera Rigs: Linear Algebraic and {¥rm L}_¥infty Geometric Solutions

Jae-Hak Kim, Queen Mary University of London, London Hongdong Li, The Australian National University, Canberra Richard Hartley, The Australian National University, Canberra

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 1044-1059 , June 2010

Keywords: Multicamera rigs, generalized camera, motion estimation, epipolar equation, branch and bound, linear programming.

2点のカメラリグから撮影された自分の動きを推定する問題を研究する。2つの新規なアルゴリズムを記述・比較し、これによって6つの動きの自由度を決定する(3つの回転と3つの並進)。その内の1つは線形の動きであり、他の一つは最大測定誤差を最小化する幾何学的アルゴリズムであり、最適L_¥infty解である。これらは一般カメラモデル(GCM)の意味で記述されており、カメラの視野同士がオーバーラップしないか、あるいは、最小のオーバーラップを示す場合について特別に注意が払われている。多くの非線形アルゴリズムが多数カメラによる動き推定のために開発されてきた。しかし、以前には線形解や、解の存在が保証されているものは知られてない。我々の寄与は2点である:1) GCMによる高速線形代数手法、2) 分枝限定法(branch-and-bound method)を利用したL_¥infty幾何誤差に基づく保証付き大閾最適アルゴリズム。GCMを利用して線形手法を導く過程において、カメラ配置の詳細な縮退解析を行った。大閾的最適解を得るために、Hartley and Kahlによって最近提案された回転空間探索を実施した。我々の人工データと実データに対する結果は、素晴らしい結果を示した。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


測光ステレオ法による形状的・空間的に変動するBRDF
Shape and Spatially-Varying BRDFs from Photometric Stereo

Dan B Goldman, Adobe Systems, Inc., Seattle Brian Curless, University of Washington, Seattle Aaron Hertzmann, University of Toronto, Toronto Steven M. Seitz, University of Washington, Seattle

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 1060-1071 , June 2010

Keywords: Shape/scene analysis, reflectance digitization and image capture.

本論文は、空間的に変動するBRDF(Bidirectional Reflectance Distribution Function)のための測光ステレオ法について述べているが、一般に表面は散乱性反射と鏡面反射を持っている。我々の最適化に基づく手法は、各画素は、高々2種類の基本的物質の組合せから出来ているという観測と仮定から成り立っている。この手法によって、オブジェクトの形状が復元できるだけでなく、オブジェクト物質のBRDFと重みマップをも復元できる結果、多様なオブジェクトについて新規な照明条件下で正確な再レンダリングが可能である。本手法で可能になった相互編集演算の例を示す。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ガウスフィルターの微分の対称性への感受性
Symmetry Sensitivities of Derivative-of-Gaussian Filters

Lewis D. Griffin, University College London, London Martin Lillholm, University College London, London

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 1072-1083 , June 2010

Keywords: Group theory, invariance, pattern analysis

我々は線形フィルターによる画像構造の計測について、特にガウスフィルターの微分(DtG)について、これがV1単純細胞(視覚のエッジ検出フィルター)の重要なモデルであり、コンピュータビジョンで広く利用されていること、そして、この計測量が画像の局所的対称性を持つかどうかを考察する。我々は単一の線形フィルターが対称性に敏感であることがあるため、特定のフィルターの結果は排除されることがある。フィルターの対称性感受性のための必要十分条件、計算容易性、そして、その基準を述べ、証明する。得られた結論の中には、2次微分には12個の異なる対称性のクラスの感受性パターンがあることがある。この豊かな対称性感受性によって、この微分フィルターが局所的画像構造を検出するのに適しており、特徴量カテゴリーの定まった系の基礎となり得る。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ファジー骨格化と枝狩り法によるグループ別芯線変換法
The Groupwise Medial Axis Transform for Fuzzy Skeletonization and Pruning

Aaron D. Ward, Simon Fraser University, Burnaby Ghassan Hamarneh, Simon Fraser University, Burnaby

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 1084-1096 , June 2010

Keywords: Skeletonization, pruning, medial axis transform, object retrieval, shape analysis, medical image analysis, graph matching, groupwise information.

対象物の芯線表現(medial representations)は、対象物の中心線で表現するため、簡便でありながら直感的に形状、厚さ、曲がり具合、長さなどが直接把握できる。しかし、対象物の芯線変換(MAT)は、その境界が小さな変動を受けると、芯線も不安定になることが良く知られている。この不安定さのために、骨格に不要な枝が出来ることがあるため、正しい形状を保つためには不要な枝を刈り取る必要がある。骨格の刈り込みには、ほとんどすべての場合、ある種の発見的な方法を利用して、枝の重要度を計算し、重要度の低い枝から刈り取る必要がある。従来の枝の重要度計算法は、周囲の隣接枝のみを利用する局所的判定法と、形状全体を考慮して計算する大域的判定法の2種類がある。本論文では第3番目の、グループごとに枝の重要度を計算する方法を提案する。我々は形状グループごとに得られる情報から、各枝のファジーな重要度を導く骨格化手法を開発した。この手法を我々はグループ別芯線変換(Groupwise Medial Axis Transform (G-MAT))と呼ぶ。我々は枝評価計算の4つのグループ別手法を提案し、これと従来の代表的手法と比較し、その優越性を比べて示す。我々は、各枝狩り法の効率をノイズ除去法、クラス分け法、クラス内骨格類似尺度を利用して測定する。本手法は、オブジェクト検索や形状解析を含むいくつかの用途がある。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多目的生体安全データベース
The Multiscenario Multienvironment BioSecure Multimodal Database

Javier Ortega-Garcia, Universidad Autonoma de Madrid, Madrid Julian Fierrez, Universidad Autonoma de Madrid, Madrid Fernando Alonso-Fernandez, Universidad Autonoma de Madrid, Madrid Javier Galbally, Universidad Autonoma de Madrid, Madrid Manuel R. Freire, Universidad Autonoma de Madrid, Madrid Joaquin Gonzalez-Rodriguez, Universidad Autonoma de Madrid, Madrid Carmen Garcia-Mateo, Universidad de Vigo, Vigo Jose-Luis Alba-Castro, Universidad de Vigo, Vigo Elisardo Gonzalez-Agulla, Universidad de Vigo, Vigo Enrique Otero-Muras, Universidad de Vigo, Vigo Sonia Garcia-Salicetti, TELECOM & Management SudParis, Evry Lorene Allano, Commissariat 瀝och l'Energie Atomique Bao Ly-Van, TELECOM & Management SudParis, Evry Bernadette Dorizzi, TELECOM & Management SudParis, Evry Josef Kittler, University of Surrey, Guildford Thirimachos Bourlai, University of Houston, Houston Norman Poh, University of Surrey, Guildford Farzin Deravi, University of Kent, Canterbury Ming W.R. Ng, University of Kent, Canterbury Michael Fairhurst, University of Kent, Canterbury Jean Hennebert, Univeristy of Applied Sciences Western Switzerland, Sierre and University of Fribourg Andreas Humm, University of Fribourg Massimo Tistarelli, University of Sassari, Italy Linda Brodo, University of Sassari, Italy Jonas Richiardi, Swiss Federal Institute of Technology, Lausanne and PatternLab Andrzej Drygajlo, Swiss Federal Institute of Technology, Lausanne Harald Ganster, Joanneum Research, Graz Federico M. Sukno, Pompeu Fabra University, Barcelona Sri-Kaushik Pavani, Pompeu Fabra University, Barcelona Alejandro Frangi, Pompeu Fabra University, Barcelona Lale Akarun, Bogazici University, Turkey Arman Savran, Bogazici University, Turkey

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 1097-1111 , June 2010

Keywords: Multimodal, biometrics, database, evaluation, performance, benchmark, face, voice, speaker, signature, fingerprint, hand, iris.

ここに、優秀ヨーロッパ生体安全ネットワーク技術(European BioSecure Network of Excellence)の枠組みとして設計され、出来上がった、新規な多面的な生体認証データベースを紹介する。これは600人以上の個人から以下の3つのシナリオに基づいて同時に集められた:1)インターネットを経由して、2)オフィスの卓上PCを経由し、あるいは、3)屋外・屋内の携帯装置を経由して。この3つのシナリオには共通にオーディオ・ビデオデータが含まれている。また、卓上PCと携帯装置から署名や指紋データも得られている。このデータ取得にはヨーロッパの11の研究所を通じて行われた。更に、新たな生体安全多面的データベース(BioSecure Multimodal Database (BMDB))に含まれる特徴としては、2回の取得作業、ある種のデータには複数のセンサーで、男女の分布は均衡しており、データごとに簡単で素早く取得でき、ヨーロッパ全体を代表し、人口統計として利用可能で、他のデータベースと互換性がある(compatible)。このBMDBの新規な取得条件によって、単一用途か多用途の生体認証システムという新規な挑戦項目が課されたが、これは最近の生体安全多面的評価キャンペーンと似ている。このキャンペーンの記述には、新規なデータベースから個人様式の基準となる結果も含まれている。このデータベースは研究目的のためであれば2008年中に生体安全協会から利用できる予定である。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


経路に沿った合計値の共分散カーネル:有向グラフのノード間の新規な共分散尺度
The Sum-over-Paths Covariance Kernel: A Novel Covariance Measure between Nodes of a Directed Graph

Amin Mantrach, IRIDIA?CoDE?Universit駘och Libre de Bruxelles, Brussels Luh Yen, ISYS/LSM, Universit駘och Catholique de Louvain, Louvain-la-Neuve Jerome Callut, ISYS/LSM, Universit駘och Catholique de Louvain, Louvain-la-Neuve Kevin Francoisse, ISYS/LSM, Universit駘och Catholique de Louvain, Louvain-la-Neuve Masashi Shimbo, Nara Institute of Technology and Science, Takayama Marco Saerens, ISYS/LSM, Universit駘och Catholique de Louvain, Louvain-la-Neuve

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 1112-1126 , June 2010

Keywords: Graph mining, kernel on a graph, shortest path, correlation measure, betweenness measure, resistance distance, commute time distance, biased random walk, semi-supervised classification.

重み付き有向グラフのノード間の結合に基づく共分散尺度を紹介するが、そこでのコストは各弧(結合)に関連付けされている。この目的のために、グラフによって(通常は無限の)加算経路集合上に確率分布が定義されるが、全相対エントロピーをグラフ上に固定分布し、ノード間の全予測コストを最小化させることで達成される。この結果は、経路に関するボルツマン分布となり、長い経路(つまり高コスト)は低い確率で生じ、短い経路(低コスト)は高い確率で生じる。ノード間の経路合計の共分散尺度は、この確率分布に従って定義され、その結果、比較的短距離で共起すればそのノードは高い相関を持っているとみなされる。このノード間の共分散行列は(全部でn個のノードがあるとすると)Gram行列であり、そのためグラフの妥当なカーネルを定義する。弧にコストが割り当てられたn×n行列を逆行列化することで得ることができる。同様に、相互スコア(betweenness score)も定義可能で、経路上に出現するノードの予測数を計測する。本提案尺度は、第7章に示されているように、相互性が中心的役割を担うこと、ノードの準教師付き分類、視覚化処理などグラフ探索の計算に利用できる。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


疎回帰と自然画像事前確率を利用した単一画像の超解像
Single-Image Super-Resolution Using Sparse Regression and Natural Image Prior

Kwang In Kim, Max-Planck-Institut fur biologische Kybernetik Spemannstr, Tubingen Younghee Kwon, KAIST, Daejeon

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 1127-1133 , June 2010

Keywords: Computer vision, machine learning, image enhancement, display algorithms.

本論文は単一画像の超解像の枠組みを提案する。基本となるアイデアは、入力した低解像画像から目的の高解像画像を例示して学習することにある。本目的のためにカーネルリッジ回帰法(KRR)が適用された。KRRのための学習とテストの時間節約のため、カーネルマッチング追跡と勾配降下法を組合せて疎な解を見つけた。正規化解としてKRRは、従来のような単純な事例を蓄積するだけではなく、ノイズを低減した解を示した。しかし、この効果はボケや、輪郭状の人為的模様を主要でシャープなエッジ周辺に生じさせる。画像の不連続性質を考慮する一般的画像クラスの事前モデルを採用することでこの問題点を解決した。従来アルゴリズムと比べ、本手法の効果が示された。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


実際の動きからの多体の構造復元
Multibody Structure-from-Motion in Practice

Kemal Egemen Ozden, University of Leuven, Heverlee Konrad Schindler, TU Darmstadt, Darmstadt Luc Van Gool, University of Leuven, Heverlee

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 1134-1141 , June 2010

Keywords: Structure-from-motion, motion segmentation, scale ambiguity, model selection, affine degeneracy.

多体の動きからの構造復元(SfM)は、複数の動く剛体による動的な場面への古典的なSfMの拡張である。最近の研究はこの問題の数学的根拠をいくつか明らかにしたが、現実の連続動作を取り扱うことができる実際的なアルゴリズムはまだ見つかっていない。この論文において、我々はそのようなアルゴリズムのために必要な条件を論議し、理論的な問題と実際的な問題に注目して、静的な動作からの構造フレームワークがどのように本当のダイナミックな場面を取り扱うために拡張される必要があるかについて記述する。動く対象は、視野に入ったり出ることが出来、静的な背景(例えば車が駐車する時)に溶け込むことが出来、背景から離れることが出来て、独立して動き始めることが出来る。実際の問題は、少数の短い特徴軌跡で自由に動く、小さい前の対象に起因する。我々は、動きからの構造復元の評価が進むように、これらの問題(困難)の全てがオンラインで取り扱われる必要があるということを議論し、確率論的モデルスコア付けのフレームワークを使った典型的な解決法を提示する。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハリス注目点についてありえないこと
The Improbability of Harris Interest Points

Marco Loog, Delft University of Technology, Delft Francois Lauze, University of Copenhagen, Copenhagen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 1141-1147 , June 2010

Keywords: Interest points, saliency, Harris corners, visual attention, low probability, elementary characterization.

ハリスコーナー(また、ハリス注目点またはキーポイントとして知られている)の基礎をなしている地図の基本の特徴描写が提供されている。本研究で前提とするのは以下の2つの重要かつ基本的な仮定である。局所の画像情報を記述するために、単にあらゆる画像の場所のまわりで重み付けされた実際のイメージ値を使うだけで、局所の画像の構造は、自由に捉えることが出来る。そして、驚いたことに特定の点において現れる画像の構造を調べる確率が低くなるほど、この位置は目立つか、注目されて来る、すなわち、顕著性はある画像構造を見つけるためにどれくらい稀であるかと関連がある後者の仮定を通して、提案される公理化はコンピュータビジョンの中でイメージの顕著性との正確な関係を作る一方、他方では人間の視覚の前注意過程の計算モデルについても、正確に同じ顕著性が要求されている。前記の関係のため、他のアプローチではなくハリス注目点を利用しなければならないようなケースがある。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


P-Simple 点を使ったMaとSonkaの細線化アルゴリズムの自動修正
Automatic Correction of Ma and Sonka's Thinning Algorithm Using P-Simple Points

Christophe Lohou, Universite d'Auvergne, Le Puy-en-Velay Julien Dehos, Universite du Littoral Cote d'Opale, Le Puy-en-Velay

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 6, pp. 1148-1152 , June 2010

Keywords: 3D thinning algorithm, curve skeleton, digital topology, topology preservation.

MaとSonkaは、必ずしもトポロジー(位相幾何学)を保たない、完全に平行な3次元の細線化アルゴリズムを提案した。我々は、自動的にMaとSonkaのアルゴリズムを訂正するP-simple点に基づくアルゴリズムを提案する。我々が知る限り、我々のアルゴリズムはトポロジーを保存する、完全に平行のカーブを細くしている唯一のアルゴリズムである。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.32, No.7


モデルベースの画像分割と実時間トラッキングの組み合わせ解法
A Combinatorial Solution for Model-Based Image Segmentation and Real-Time Tracking

Thomas Schoenemann, University of Bonn, Bonn Daniel Cremers, University of Bonn, Bonn

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1153-1164 , July 2010

Keywords: Image segmentation, tracking, elastic shape priors, discrete optimization, dynamic programming, minimum ratio cycles, real-time applications.

変形可能なテンプレートの入力画像に対する最適な弾性マッチングを決めるための、組み合わせ解法を提案する。中心となるアイディアは、各テンプレート点と対応する画素との最適マッチングを、三次元積空間(three-dimensional product space)における最小コスト循環型パス(minimum cost cyclic path)を見つける問題として定義している点である。この積空間は、前記のテンプレートと入力画像により張られる。各サイクルに関連付けられたコスト汎関数を導入する。この関数は以下の3つの項により構成される。画像強度の勾配(グラディエント)として有効なデータ忠実性項、対応点間のタンジェント角の類似性を示す形状整合性、そして延伸もしくは縮小のための弾性ペナルティ項。短い曲線に向かうバイアスを避けるために上記の汎関数は全長に対して正規化される。最新のグラフィックボードを利用し並列化されたLawlerの最小比サイクルアルゴリズム(Lawler’s Minimum Ratio Cycle algorithm)を用いることで、最適化を行う。このアルゴリズムはテンプレートと分割された曲線の間の最適分割と点対応を、画素数に対して本質的には線形な計算時間で算出する。我々の知る限り、変形可能な形状の実時間トラッキングのための唯一の大域最適なアルゴリズムである。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一のカメラを利用した、正しいポーズ(Canonical Poses)からの三次元動きキャプチャ
From Canonical Poses to 3D Motion Capture Using a Single Camera

Andrea Fossati, Ecole Polytechnique F?d?rale de Lausanne (EPLFL/IC/ISIM/CVLab), Lausanne Miodrag Dimitrijevic, Ecole Polytechnique F?d?rale de Lausanne (EPLFL/IC/ISIM/CVLab), Lausanne Vincent Lepetit, Ecole Polytechnique F?d?rale de Lausanne (EPLFL/IC/ISIM/CVLab), Lausanne Pascal Fua, Ecole Polytechnique F?d?rale de Lausanne (EPLFL/IC/ISIM/CVLab), Lausanne

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1165-1181 , July 2010

Keywords: Computer vision, motion, video analysis, 3D scene analysis, modeling and recovery of physical attributes, tracking.

任意の視点から単一のカメラで撮影された、人間の三次元での動きの頑健な復元を実現するために、オブジェクト検出手法とトラッキング手法を組み合わせる。この時利用されるカメラは、動いていてもよい。我々の手法は、キーとなる姿勢を検出することに依存している。動きモデルを用いることで高い信頼性で連続的に検出されるオブジェクト間の三次元姿勢を推測することができる。最後に生成的モデルを用いることで、画像系列全体にわたり、前記の三次元姿勢を洗練させる。固定カメラを用いて撮影されたゴルフのスイングと、動くことも静止することもできるカメラで撮影された人の歩行の動きを例として、我々のアプローチを例証する。我々のアプローチは単眼システムではあるが、多くのフレームからの情報を統合しているため高精度であり、いくつかの誤検出がある場合でも動きの復元ができるほど頑健である。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフカット法に基づいた最適化のための順序を保持する動き
Order-Preserving Moves for Graph-Cut-Based Optimization

Xiaoqing Liu, UtopiaCompression Corporation, Los Angeles Olga Veksler, University of Western Ontario, London Jagath Samarabandu, University of Western Ontario, London

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1182-1196 , July 2010

Keywords: Energy minimization, graph cuts, max-flow, SVM, geometric class labeling, shape prior.

過去10年にわたり、グラフカット法による最適化は、多くのラベル付け問題に対してポピュラーな手段であった。典型的なケースとしては、近傍の画素に同種もしくは類似のラベルを与えるようにするための、ラベル付けの平滑性拘束条件(smoothness constraints)を導入するためにグラフカット法を用いる方式がある。平滑性に加え、ラベルに対する順序拘束条件(order constraints)も有用である。例えば、オブジェクト分割においては“車のホイール”ラベルを持つ画素は、“車のルーフ”ラベルを持つ画素よりも上の位置にくることを禁止することができる。広く用いられているグラフカットα拡張移動(graph-cut alpha-expansion move)アルゴリズムは、順序拘束条件を利用すると、ほとんどの場合極小値にとらわれる。順序拘束条件を付けた特定のモデルに対して、我々が順序保持と呼ぶ新しいグラフカット移動を開発する。このグラフカット移動の利点は、α拡張と異なり、すべてのラベルに対して同時に作用する点である。さらに重要なのは、ほとんどのαラベルに対して、α拡張移動の組みは、順序保持移動のセットよりも厳密に少ないことである。これは、順序拘束条件がある場合に、順序保持移動がα拡張よりも顕著に良い性能を示す理由となっている。(Hoiemらによって導入された)幾何クラスシーンラベリング(geometric class scene labeling)に対して順序保持移動を評価する。この評価では各画素に“空”、“地面”などのラベルを与えることである。そのため順序拘束条件も自然に与えられる。さらにグラフカット分割における特定の単純な形状の事前知識のために順序保持移動を利用する。これには新規性がある。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


三焦点テンソル(Trifocal Tensor)を用いた画像からの線形線構造のランク識別
Rank Classification of Linear Line Structures from Images by Trifocal Tensor Determinability

Ming Zhao, The Chinese University of Hong Kong, Hong Kong Chi-Kit Ronald Chung, The Chinese University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1197-1210 , July 2010

Keywords: Line structure, critical configurations, trifocal tensor.

本稿で扱う問題は、3つの視点から撮影された画像間での線分の対応関係が与えられた時、3つのカメラの相対的空間位置を一意に復元するために、上記の線分の対応関係が持つべき条件とは何かを明らかにすることである。線分の画像トリプレットが同一となるようなカメラ位置の射影非同一構成が複数ある場合、空間中の観測された線分の組み合わせは、必要不可欠なものであるとされる。この問題を三焦点テンソル(Trifocal Tensor)の観点から扱う。この三焦点テンソルは、カメラの相対的な位置を、撮影視点に関連付けて定量的に扱うことができる。観測される線分が、線形線分空間(linear line space)に属する線族(line family)である線ペンシル(line pencil)、線束(line bundle)、そして線場(line field)である場合、上記テンソルの推定に用いられる行列のランクは、それぞれ7、11、15に縮退可能であること、そして線形線空間の部分クラスである一般線形線識面(general linear ruled surface:訳注:1本の直線を動かして構成できる面、円筒など)、一般線形線合同(general linear line congruence)、そして一般線形線複合(general linear line complex)から得られる線分に対しては、同じように12、19、23にランクの縮退が可能であることを示す。線形線合同、線形線複合が期待される上記の線構造は、必要不可欠な線構造となるはずである。これらの構造はすべて、実世界において非常によくあるものであり、それゆえ、動きからの構造復元と線の対応を用いた射影的再構成に関するすべてのアルゴリズムの妥当性と安定性に対して、本研究の成果は重要である。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自己類似性と関心点
Self-Similarity and Points of Interest

Jasna Maver, Faculty of Arts and University of Ljubljana, Ljubljana

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1211-1226 , July 2010

Keywords: Interest point detector, self-similarity, visual attention, visual perception, linear predictors, the total sum of squares.

本研究では、関心点抽出のための新しいアプローチを紹介する。一般的な計算コンセプトを用いることで、画像中の様々な種類の特徴を検出することができる。本稿で提案するアプローチは、局所領域の総合変量(total variability)を考慮するものである。局所的な円形領域の輝度値の合計二乗和は、以下の3つの項に分解される。円周間の二乗和、半径間の二乗和、そしてそれ以外のものである。これらの3つの成分は、放射方向、接線方向、そして残余項という3つの新しい顕在特徴尺度(saliency measures)を表現する、合計二乗和により正規化される。この顕在特徴は様々な半径を持つ領域に対して計算され、またスケール空間はこの方式で埋め込まれる。各顕在特徴尺度のスケール空間における極値を同定する。これらは補完画像(complementary image)の性質を現す特徴を表現する。これらの特徴としては、シミのような特徴や、コーナーのような特徴や、高度にテクスチャ化された点などの特徴がある。様々なクラスのオブジェクトを含む画像セットと、様々な種類の写真的な変形、及び幾何的変形の条件下で取得した画像セットを用いた実験の結果、クラス内変動および様々な写真的な変換及び適当な幾何変換に対する提案手法の高い頑健性が示された。また既存技術との比較を行ったところ、最良の関心点検出器と伍する結果が得られた。提案アプローチにより、オブジェクト認識と画像マッチングで利用できる、非常に特徴的な局所領域の組み合わせが得られる。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スペクトル対称性解析
Spectral Symmetry Analysis

Michael Chertok, Bar-Ilan University, Israel Yosi Keller, Bar-Ilan University, Israel

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1227-1238 , July 2010

Keywords: Computer vision, symmetry detection, optimization, spectral relaxation.

n次元空間における回転対称、及び鏡面対称を検出・解析するためのスペクトルアプローチを紹介する。本研究の主な成果は、{{¥hbox{¥rlap{I}¥kern 2.0pt{¥hbox{R}}}}}^{n}における点群の対称性検出及び解析スキームを導出したこと、そしてそれを局所特徴を利用した画像解析に拡張したことである。各オブジェクトは点の組S¥in {{¥hbox{¥rlap{I}¥kern 2.0pt{¥hbox{R}}}}}^{n}により表現される。ここで対称性はSの複数の自己アライメントとして現れる。このアライメント(整列)問題は、スペクトル緩和法(spectral relaxation)による効率的な解法を用いた二次二値最適化問題として定式化される。これは、対称型オブジェクトの固有値が多重性を持つことを意味する。この固有値に対応する固有ベクトルにより両種の対称性の検出と解析ができるようになる。幾何制約条件をスペクトル解析に組み込むことで、このスキームの頑健性を向上させた。二次元及び三次元合成オブジェクトと実画像を用いた実験により、このアプローチを実験的に検証した。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高度ドライバーアシスタントシステムのための歩行者検出技術のサーベイ
Survey of Pedestrian Detection for Advanced Driver Assistance Systems

David Ger?nimo, Universitat Aut?noma de Barcelona, Barcelona Antonio M. L?pez, Universitat Aut?noma de Barcelona, Barcelona Angel D. Sappa, Universitat Aut?noma de Barcelona, Barcelona Thorsten Graf, Volkswagen AG, Wolsburg

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1239-1258 , July 2010

Keywords: ADAS, pedestrian detection, on-board vision, survey.

交通安全性を向上させるために、高度ドライバーアシスタントシステム(Advanced Driver Assistance Systems: ADASs)と、特に歩行者保護システム(Pedestrian Protection Systems: PPSs)は活発な研究領域になってきた。PPSの主な課題は、信頼性の高い車載可能な歩行者検出システムの開発である。歩行者の外観は様々であるがゆえに(例えば様々な衣服、サイズ、アスペクト比、そして外観が時間で変化することなど)、また交通環境が構造化されていないがゆえに、この種のシステムに求められる頑健性を扱うことは極めて困難である。本研究領域の2つの問題は、一般利用可能なベンチマークがないことと、既存手法の多くが再現性に問題があることである。これらの問題のため、手法同士を比較することが困難になっている。結果として、アプローチを一つずつ列挙して文献のサーベイを行うことは、比較をするための最良の手段とは言い難い。本稿では様々なアプローチをサーベイするためのより良い戦略を紹介する。歩行者検出問題を、責任を分担する複数の処理段に分解する。次に様々な手法を解析し、各処理段に対して分類することで比較を行う。最後に重要トピックに関して議論する。ここでは特に将来の需要と課題について述べる。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


不変画像表現のための二次元極座標調和変換(Polar Harmonic Transforms)
Two-Dimensional Polar Harmonic Transforms for Invariant Image Representation

Pew-Thian Yap, Nanyang Technological University, Singapore Xudong Jiang, Nanyang Technological University, Singapore Alex Chichung Kot, Nanyang Technological University, Singapore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1259-1270 , July 2010

Keywords: Polar harmonic transforms, harmonic kernels, rotation invariance, Zernike moments, pseudo-Zernike moments, orthogonal moments.

本稿では、回転不変な特徴の組を生成するための直行射影基底(orthogonal projection bases)の組み合わせに基づいた二次元変換を紹介する。本研究ではこれを極座標調和変換(Polar Harmonic Transforms: PHTs)と呼ぶ。既知のゼルニケ(Zernike)モメント及び疑似ゼルニケモメントと異なり、PHTのカーネル計算は極めて単純で、いかなる形でも数値的安定性問題が発生しない。これは、PHTが直行性と、ゼルニケモメント及び疑似ゼルニケモメントが持つ不変性という利点の両方を持ち、且つ、それらのモメントが持つ欠点とは無縁であることを暗示している。これは同時に、最大判別情報(maximal discriminant information)が必要とされるアプリケーションにPHTが適していることも意味している。さらにPHTは、特定のアプリケーションのための最良の判別的及び表現的特徴を探すためのプロセスにおける更なる特徴選択のために、大規模な特徴セットを利用可能にする。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


視覚単語の不明瞭性(Visual Word Ambiguity)
Visual Word Ambiguity

Jan C. van Gemert, Ecole Normale Sup?rieure, Paris Cor J. Veenman, University of Amsterdam, Amsterdam Arnold W.M. Smeulders, University of Amsterdam, Amsterdam Jan-Mark Geusebroek, University of Amsterdam, Amsterdam

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1271-1283 , July 2010

Keywords: Computer vision, object recognition, image/video retrieval.

本稿では、一般的なコードブックモデルの柔軟な割り当てによる自動画像識別について検討する。このコードブックモデルは画像を、語彙の中から選ばれた離散的な視覚単語(visual words)の集合で表すものであり、この視覚単語の出現頻度分布により画像の識別を行うものである。コードブックモデルから引き継いだ性質の一つは、連続画像特徴に対する離散視覚単語の割り当てである。そもそも連続的な性質を持つ特徴に対して離散的なものをあてはめることは困難であるにもかかわらず、これまでこのアプローチは成功を収めてきた。本稿では、4つのタイプの視覚単語の画像特徴に対する柔軟な割り当てについて検討する。視覚単語割り当ての不明瞭さを明示的にモデル化することで、従来のコードブックモデルの固定的割り当てに比べ、識別性能を向上できることを示す。5つのよく知られたデータセットを利用し従来のコードブックモデルを我々の方法と比較する。このデータセットとはすなわち15の自然画像シーン、Caltech-101、Caltech-256、Pascal VOC 2007/2008である。大規模なコードブック語彙は、従来のモデルの性能を低下させるが、我々のモデルは定常的な性能を示すことを示す。さらに我々の方法は高次元特徴空間において利点があり、また画像カテゴリが増えた場合に非常にも有利であることを示す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複雑な情報の識別:スピーチにおける表現からの共起感情状態(Co-Occurring Affective States)の推論
Classification of Complex Information: Inference of Co-Occurring Affective States from Their Expressions in Speech

Tal Sobol-Shikler, Ben-Gurion University of the Negev, Beer-Sheva Peter Robinson, University of Cambridge, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1284-1297 , July 2010

Keywords: Affective computing, human perception, cognition, affective states, emotions, speech, machine learning, intelligent systems, multiclass, multilabel.

感情状態(感動、心理状態、態度、そしてこれらに類するもの)をスピーチにおける非言語的表現から推論するための識別アルゴリズムを紹介する。これは複数の感情状態が同時に起きること及び音声の特徴の様々な組み(例えばイントネーションやスピーチレート)により、様々な感情状態の非言語表現を区別できるという観測結果に基づいている。この推論システムに対する入力は、各発声から抽出された大規模な音声特徴セットとメトリクスである。上記の識別アルゴリズムにより、9つの感情状態グループを、独立対ごとに比較した。この識別機は、音声特徴メトリクスの様々なサブセットと様々な識別アルゴリズムを、感情状態グループの様々な対に対して用いる。36の対を10重のクロス検証で検証した識別実験の平均精度は75%であった。これらの結果を統合し、前記の9つの感情状態グループの単一のランク付リストを得る。これが本システムの出力であり、解析された発声の共起感情状態の組み合わせ推測を表している。組み合わせの推論精度は83%であった。このシステムにより、Mind Readingデータベースの500を超える感情状態コンセプトを自動的に特徴づけることができる。共起感情状態の推論を、解析されたセンテンスの語彙定義(lexical definitions)に対する組み合わせ推論と比較することで検証した。このシステムの区別性能は人間のそれに伍するものである。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


共通因子負荷と因子分析の混合:高次元データのクラスタリングと可視化への応用
Mixtures of Factor Analyzers with Common Factor Loadings: Applications to the Clustering and Visualization of High-Dimensional Data

Jangsun Baek, Chonnam National University, Gwangju Geoffrey J. McLachlan, University of Queensland, Brisbane Lloyd K. Flack, University of Queensland, Brisbane

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1298-1309 , July 2010

Keywords: Normal mixture models, mixtures of factor analyzers, common factor loadings, model-based clustering.

因子分析の混合により、観測数nがデータの次元pに対し充分大きくない場合の高次元データにも適用できるモデルベースの確率密度推定が可能になる。実際には成分共分散(component-covariance)行列の定義の際に、さらにパラメタ数の削減が必要な場合が多々ある。この目的のために、共通成分因子負荷(common component-factor loadings)の利用を提案する。これによりパラメタ数を大きく削減することができる。さらにこれによりデータを低次元空間で表示することが可能になる。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自然画像における乗算的動き(multiplicative motion)の構造
The Structure of Multiplicative Motions in Natural Imagery

Konstantinos G. Derpanis, York University, Toronto Richard P. Wildes, York University, Toronto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1310-1316 , July 2010

Keywords: Multiplicative motion, translucency, dynamic occlusion, pseudotransparency, non-Fourier motion, spectral analysis, optical flow, multiple motion.

透過現象に関連するような、画像中の乗算的な動き(multiplicative motion)信号の周波数構造の論理的研究を紹介する。以前の研究では、画像信号の乗算的構成は一般的に、周波数領域での方向性構造を崩壊させるとされてきた。結果としてこれまでの多くの研究が、信号が高度に構造化されていることが一般的な、極めて特殊なシナリオにおける乗算的信号にフォーカスするか、もしくは、乗算的画像信号を、加法的なものに非線形に変換していた。対照的に本稿では、自然領域拘束条件(natural domain constraints)を考慮に入れることで、方向性構造が乗算的なケースでも保持されることを示す。この解析は、自然におこる様々な種類の複数の動き構造が、統一された作法で扱えることを意味している。確立した理論の応用例として、これまでに翻訳、加法的透過処理、そして隠蔽に対して提案された、複数の動きの推定器を、画像中の乗算的動きに適用した。この推定器は、非線形前処理段を利用したものに比べ優れた性能を持っていることが示された。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高信頼性基準マーカーの設計
Designing Highly Reliable Fiducial Markers

Mark Fiala, Ryerson University, Toronto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1317-1324 , July 2010

Keywords: Augmented reality, fiducial marker systems, computer vision.

基準マーカー(fiducial markers)は、シーンに追加される人工的なランドマークであり、これにより画像間もしくは画像と既知のモデルの間の点対応を助ける。マーカーの追加が簡単にできる場合には、信頼性の高い基準点は関心点検出問題及びマッチング問題の解消に役立つ。基準マーカーの適切な設計と基準マーカー抽出のためのコンピュータビジョンアルゴリズムの選択により、様々な応用分野を持つ正確な姿勢検出が可能となる。この応用は、拡張現実(AR)、HCI(Human-Computer Interface)のための入力機器、そしてロボットナビゲーションなど多岐にわたる。マーカーシステムは一般的には、2つの処理段からなる。これはすなわち一意画像特徴からの仮説生成処理段と、検証/同定処理段である。高い頑健性と実際的な利用のため、ひと組の評価基準を導出し、これをARTag基準マーカーシステムを生成するために最適化する。照明の変化及び部分隠蔽に対して頑健なエッジに基づいた方法を仮説生成処理段で用い、また、信頼性の高いデジタルコーディングシステムを検証及び同定処理段に適用した。ARTagを従来のアドホック設計に対して適用することで、前記の設計評価基準による性能の大幅な向上がなされた。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチクラスパーセプトロンにおける対コスト
Pairwise Costs in Multiclass Perceptrons

Sarunas Raudys, Vilnius University, Vilnius Aistis Raudys, Vilnius University, Vilnius

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1324-1328 , July 2010

Keywords: Cost-sensitive learning, loss function, pairwise classification, perceptron.

対誤識別コスト行列を直接用いることができる、K単一レイヤーパーセプトロンネット(K single-layer perceptrons: KSLPs)によるネットワークを訓練するための新しい損失関数を紹介する。ネットワークの複雑性は従来の技術と同じである。損失関数のグラディエントは、追加の計算を必要とせずに得られる。この損失を最小にするためには、訓練エポック数を小さくする必要がある。コストに敏感な方法の効果は、コスト行列、パターンクラスのオーバーラップ具合、そしてサンプルのサイズに依存する。実世界パターン認識タスクにおける実験結果は、多くの場合新しい損失関数は、ベンチマークとして利用した従来の3手法を上回る性能を示す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


単一カメラを用いたビデオ計測
Video Metrology Using a Single Camera

Feng Guo, ObjectVideo, Inc., Virginia Rama Chellappa, University of Maryland, College Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1329-1335 , July 2010

Keywords: Video metrology, mensuration, rectification.

本稿では、単一の未校正カメラを用いたビデオ計測アプローチを紹介する。この時カメラは静止状態か、面運動をしているものとする。理論的にはシンプルでも、入力画像中の線分の長さを図ることでさえ、困難な課題となることがある。このタスクに対するほとんどの既存手法は、単一画像に基づいた手法の拡張手法であり、特にノイズが多い環境下では求められる性能を達成できないものがほとんどである。対照的に提案アルゴリズムは、参照面上の線分を動かすことにより、消失線情報を利用し、また画像平面上の複数の同心円のフィッティングを行うことで、共通の端点を共有する。このアルゴリズムに基づいた完全に自動化された実時間システムを開発し、車両のホイールベースを未校正の静止カメラで測量した。このシステムは、入力画像中の平行線ではなく、参照面における不変長を用いて消失線を推定する。入力画像中には必ずしも平行線が含まれるわけではない。さらに、入力ビデオから類似した消失線を持つフレームを選択することで、このシステムを平面運動するカメラを利用できるように拡張する。実験結果により、車両サイズに基づいた走行中の車両の識別が十分できるほど本システムは高精度であることが示される。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線形サポートベクトルマシンのマージン操作としてのガボールフィルタの再解釈
Reinterpreting the Application of Gabor Filters as a Manipulation of the Margin in Linear Support Vector Machines

Ahmed Bilal Ashraf, Carnegie Mellon University, Pittsburgh Simon Lucey, Commonwealth Science and Industrial Research Organization (CSIRO), Australia Tsuhan Chen, Carnegie Mellon University, Pittsburgh and Cornell University, Ithaca

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 7, pp. 1335-1341 , July 2010

Keywords: Gabor filters, support vector machine, maximum margin, expression recognition.

線形フィルタはコンピュータビジョンの多くの識別タスクで広く用いられている。特にガボールフィルタをサポートベクトルマシン(SVM)などの識別器の前処理として用いることは、顔同定や表情認識などのアプリケーションで広く用いられている。しかし根本的な問題は、訓練及び試験時のメモリ要求と計算効率に関する連鎖ガボールフィルタ応答の高次元性にある。本稿では、線形フィルターバンクを前処理として適用を、線形SVMで最大化されるべきマージンの種類の操作として再解釈する方法について例証する。この新しい解釈は従来のアプローチに比べ、メモリと計算について大きな利点がある。この再解釈による定式化は、フィルタ数に対して独立であり、それゆえ任意の多数の線形フィルタから導出された特徴空間での利用が可能である。従来のアプローチは試験不可能であったことに比べると、これは大きな利点である。さらにフィルターバンクのこの新しい解釈により、画像の前処理をガボールフィルタなどのフィルターバンクで行うことで識別性能が向上する理由に関して、よくいわれる生物学的なモティベーションに加え、新しい洞察を与える。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.32, No.8


劣化文書の画質向上のための変分法
A Variational Approach to Degraded Document Enhancement

Reza Farrahi Moghaddam, Ecole de Technologie Superieure, Montreal Mohamed Cheriet, Ecole de Technologie Superieure, Montreal

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1347-1361 , August 2010

Keywords: Variational framework, PDE-based image processing, document enhancement, bleed-through effect.

本論文の目的は、裏写り(bleed through)によって劣化した文書画像を変分法によって改善することである。変分法は裏側に印刷された文書画像による背景推定に利用した。さらに、後者の場合、グローバル制御、つまり、流れ場を利用したより進化したモデルも紹介する。各々のモデルの解は、ウェーブレット収縮、あるいは、時間分割法によって求めたが、これはモデルの複雑度や非線形性に依存する。もし、文書の両面画像が入手できるなら、提案モデルは逆拡散プロセスを利用して両面文書画像の改善を行う。実データと合成データによる実験の結果は有望であった。本提案モデルはノイズや複雑な背景に対してロバストであり、他の画像処理分野にも応用可能である。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正確で高密度でロバストな多視野の立体視
Accurate, Dense, and Robust Multiview Stereopsis

Yasutaka Furukawa, Google Inc., Seattle Jean Ponce, Ecole Normale Superieure, LIENS, and ENS/INRIA/CNRS, Paris

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1362-1376 , August 2010

Keywords: Computer vision, 3D/stereo scene analysis, modeling and recovery of physical attributes, motion, shape.

本論文は、小さな長方形パッチによって画像視野の表面を覆わせる多視野の立体視を実現する新規なアルゴリズムを提案する。立体視は合致し、拡張し、そして、フィルター処理するように実装してあり、少ない重要ポイントから始まって、偽の合致点を取り除きながら徐々に拡張する。本提案手法の鍵となる性能は、局所的な測光の整合性を保ちながら全体的な視野の制約を効率的に課す。得られたパッチモデルから更に詳細なメッシュモデルへと変換し、測光的に整合性があり正則条件に合致する、単純で効果的な手法が更に提案されている。提案手法は自動的に外れ点や障害物を検出、除去し、視体積交差領域(visual hull)、外接矩形、深さ範囲などの初期化条件は不要である。我々は本アルゴリズムを多様なデータに対してテストしたが、その中には複雑な表面、深い凹み、薄い構造、視点が制限される屋外取得データや、静止したオブジェクトの前を移動する障害物が存在する場合も含まれる。ベンチマークデータのMiddleburyによる評価によれば、6つのうち4つのデータで、他のすべての受理された手法を凌駕した。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


データ解析の課題のための効率的多重レベル固有値ソルバ
Efficient Multilevel Eigensolvers with Applications to Data Analysis Tasks

Dan Kushnir, Yale University, New Haven Meirav Galun, Weizmann Institute of Science, Rehovot Achi Brandt, Weizmann Institute of Science, Rehovot

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1377-1391 , August 2010

Keywords: Eigenvalues and eigenvectors, multigrid and multilevel methods, graph algorithms, segmentation, clustering.

多数グリッドソルバ(求解法)は多様な用途において多数の方程式を解くには大変効率的な方法であることが分かっている。これらのソルバ(求解法)は反復弛緩法に基づき、粗いレベルでの滑らかな誤差関数によって近似している。我々はデータ分析において生じる大量の固有値問題の解法の2つの効率的多レベル固有値ソルバを紹介する。その第1は、古典的な代数的多数グリッド法(AMG)の一解法であり、クラスタリング、画像セグメンテーション、次数削減への用途で応用されている固有値問題で、有名なLanczosアルゴリズムに比べて一桁上の高速化が達成されている。第二の解法は新規な高精度の内挿法に基づいている。これによって多数の固有ベクトルを高速に解ける。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


融合によるマルコフランダム確率場の最適化へ
Fusion Moves for Markov Random Field Optimization

Victor Lempitsky, Microsoft Research, Cambridge Carsten Rother, Micorsoft Research, Cambridge Stefan Roth, Technische Universitat Darmstadt, Darmstadt Andrew Blake, Microsoft Research, Cambridge

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1392-1405 , August 2010

Keywords: Markov random fields, computer vision, combinatorial algorithms, graph algorithms, stereo, motion, image restoration.

グラフカット理論を複数のラベル付き離散的・連続的マルコフ確率場(MRF)に効率良く応用することは、未解決の問題である。本論文では、本問題のためグラフカットを一組の準最適ラベリングあるいは準最適解を得るために利用する方法を実演する。このような組合せ法を融合手段と呼ぶことにする。最近発達したグラフカットアルゴリズム(いわゆるQPBO-グラフカット)を利用して、この融合手段は理論的には適正な2つの提案ラベリングを効率的に結合するが、この結果は多くの場合グローバルな最適解である。我々はこの融合手段が多くの従来のグラフカット法を一般化したものであることを示そう。そのため、以前考えられた以上の広範囲の最適化問題に適用可能な構成要素として利用できる。特に、コンピュータビジョンのマルコフ確率場の最適化問題である、画像復元、ステレオ、オプティカルフローなどへの新規な応用を提案する。これらの用途において融合手段は以下のように利用される:1) MRF最適化の並列化はいくつかのスレッドに分割され、2) MRF最適化の高速化には簡単な(安価な)計算から複雑な計算への組合せ法、3) 高度な非凸連続ラベルMRFの2Dラベルの最適化法。最後の例は非画像MRFへの応用で、融合手段は地図ラベルの探索であり、標準的な推論法の効率向上(ループ状の信念伝播法)に使われる。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統一されたグラフモデルによる画像セグメンテーション
Image Segmentation with a Unified Graphical Model

Lei Zhang, Rensselaer Polytechnic Institute, Troy Qiang Ji, Rensselaer Polytechnic Institute, Troy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1406-1425 , August 2010

Keywords: Image segmentation, probabilistic graphical model, Conditional Random Field, Bayesian Network, factor graph.

確率変数間の因果モデルや非因果モデルを表現することができる統一的グラフモデルを提案し、これを画像セグメンテーションに応用する。特に、我々の最初の提案は条件付き確率場(Conditional Random Field: CRF)によって画像の超解像領域とその測定領域の空間的関係をモデル化することである。次に、多層ベイズネットワーク(BN)によって、異なる画像特性の間に存在する因果関係をモデル化するが、それには画像領域やエッジや頂点などが含まれる。このCRFモデルとBNモデルは系統的・連続的に因子グラフ理論によって結合され、統一された確率的グラフモデルが形成され、これによって異なる画像特性の間の複雑な関係を把握する。この統一的グラフモデルによって確率論に基づく推論に従って画像セグメンテーションが実行される。これをVOC2006 cow中のWeizmann horseデータと、MSRC2多重クラスに適用されたものの結果は、我々の手法が最新の手法やBNモデルやCRFモデルだけを使った手法と比べ、優れた結果を示した。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


合成されたクラスターサンプリングによる階層化グラフマッチング法
Layered Graph Matching with Composite Cluster Sampling

Liang Lin, Sun Yat-Sen University, Guangzhou Xiaobai Liu, Lotus Hill Reseach Institute for Computer Vision and Information Science, Ezhou Song-Chun Zhu, University of California, Los Angeles, Los Angeles

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1426-1442 , August 2010

Keywords: Graph matching, graph partitioning, DDMCMC, cluster sampling.

本論文は、統合化されたグラフ部品とマッチングのための階層別グラフマッチング法の枠組みを示す。この目的は2つの画像中から、未知の数の対応するグラフ構造を見つけることである。2つの画像から局所的な特徴量を抽出し、頂点が対応する候補点(特徴量の対)を構成し、これらの間の辺が互いに存在する正の共存点であるか、あるいは、互いに存在しない負の共存点であるかを示す。次に、多層グラフマッチングを使って多色問題を候補グラフに当てはめ、複合クラスターサンプリング法でこれを解く。この方法は頂点に複数の色を割り当て、その各々は整合層とみなし、その他の候補点は対象外とする。このアルゴリズムは2つのステップからなっており、1) 正と負の辺を確率的複合クラスターに割り当てるが、これはいくつかの互いに競合する多色の連結成分(conflicting connected components: CCPs)から成っていること、2) これらのCCPsには整合性と非整合性を保った状態で別の色を割り当て、次にマルコフ鎖モンテカルロ法(Markov Chain Monte Carlo: MCMC)によって詳細なバランスが取られる。この枠組みは、動きの大きな多数オブジェクトのマッチングとか、形状マッチングと検索、および、複雑な背景でのオブジェクト検出など、いくつかの用途において最新技術の性能を発揮した。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


追跡アルゴリズムのオンライン実証的評価
Online Empirical Evaluation of Tracking Algorithms

Hao Wu, University of Maryland, College Park Aswin C. Sankaranarayanan, University of Maryland, College Park Rama Chellappa, University of Maryland, College Park

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1443-1458 , August 2010

Keywords: Performance evaluation, tracking, particle filters, model validation.

正解データ(ground truth)が存在しない状態で、追跡アルゴリズムを評価することは、極めて困難な課題である。そのためのアプローチは多様な手法があり、形式的なモデルを利用するものから、観測データと追跡特性のミスマッチを経験的に見つけるものまで、多数存在する。しかし、どの手法も、非線形モデルによる、複雑で、しばしば高次元空間の視覚的な追跡にまでスケールアップされてはいない。さらに、追跡ミスや追跡のお粗末さを招く要因が多数存在し、視覚追跡問題としては極めて多様である。本論文では、逆時間マルコフ鎖を利用したパーティクルフィルターによるオンライン追跡システムのための性能評価戦略を提案する。本提案戦略の鍵となる考え方は、多くのオブジェクトの物理的な動きが有する逆時間的性質であり、この逆時間的性質は多くの優良追跡装置が共有する。隠ぺいや低いSNによる、あるいは、モデルの誤りによる追跡ミスは、この追跡装置が有するはずの逆方向の性質を持ってない。この性質を利用して我々は追跡ミスの検出に用いた。追跡装置の時間tにおける性能を評価するために、逆時間マルコフ鎖の追跡アルゴリズムの初期化に事後確率を利用した。追跡開始時間t=0における追跡パラメタの事後確率分布密度は初期時間の逆時間フィルターを利用した。逆時間鎖のt=0の事後分布密度と、追跡アルゴリズムの初期化に必要な事前分布密度の距離を利用して、評価のための決定統計量が形成される。もしデータが何かのモデルに従って生成されているなら、決定統計量は小さな値となることは明らかである。この評価戦略の実験的解析のために完全な実験解析手法を実演する。特に、隠ぺいや、姿勢、照度変化に対応するための有効な手段を示し、そのための受益者演算特性(ROC)曲線を示す。我が手法の優越性を実証する。最後に本アイデアの核となる考え方を、Kanade-Lucas-Tomasi (KLT)の特徴量追量追跡機とかミーンシフト法のような、他の追跡アルゴリズムに対比しながら応用可能性を示す。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パーティクルフィルタリングと確率論的力学による点集合の位置合わせ
Point Set Registration via Particle Filtering and Stochastic Dynamics

Romeil Sandhu, Georgia Institute of Technology, Atlanta Samuel Dambreville, Georgia Institute of Technology, Atlanta Allen Tannenbaum, Georgia Institute of Technology, Atlanta and Technion, Israel Institute of Technology, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1459-1473 , August 2010

Keywords: Point set registration, particle filters, pose estimation.

本論文では2つの点集合剛体の位置合わせのために、パーティクルフィルターの利用を提案する。典型的には、位置合わせ法は、2つの注目集合の対応の推定測度を最大化させるような変換を計算する。これは事後確率推定問題とみなすことが出来、対応分布は自然にパーティクルフィルターを利用して推定可能である。本研究において、我々は動きを姿勢パラメタの局所的な振動とみなし、ある種の局所的最適化ツールを何回か繰り返し計算する。このアイデアを採用し、我々は確率論的動き力学によって、局所領域の位置合わせ問題特有の狭い収束帯域を拡張する。このように、我々の手法の新規制は3つある:1) 点集合の位置合わせにパーティクルフィルターを利用すること、2) 相互関係尺度に刺激された局所的最適化ツールを持っていること、3) 変換パラメタの不確定性の力学モデルを採用しロバスト性を増していること。他の手法と対照的に、我々の手法では焼きなまし法を利用せず、そのため、(パーティクルサイズに比べ)計算時間の節約になっていると同時に、状態の時間的整合性を(情報の欠如無く)保っている。また、他の点集合の位置合わせ法とは異なり、2つのデータ集合間の幾何学的条件は不要である。実験結果は本アルゴリズムの初期条件、ノイズ、欠如構造、いくつかの2D,3Dの各集合間の点密度の相違などのロバスト性を備えている。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ギブスエネルギー最小化と重み付き制約を満たす線形プログラミング弛緩法の再考察
Revisiting the Linear Programming Relaxation Approach to Gibbs Energy Minimization and Weighted Constraint Satisfaction

Toma? Werner, Czech Technical University, Praha

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1474-1488 , August 2010

Keywords: Weighted constraint satisfaction, Gibbs distribution, graphical model, Markov random field, linear programming relaxation, marginal polytope, cut polytope, cutting-plane algorithm, global constraint, supermodularity, tree-reweighted max-product.

重み付き制約を満たす(ギブスエネルギー最小化法)LP弛緩法に対して多数の寄与を示す。我々は本方法を多くの制約プログラミング法に適用するが、これは今までマシンビジョンや学習理論において無視されてきたものである。本手法はほとんど2変数の制約条件だけを考慮しているが、これをn変数の制約条件に簡潔にかつ自然に一般化する。本手法には、LP-上界の最小化や、n変数max-sum拡散法を含むが、他の境界最適化アルゴリズムも含まれる。この拡散繰り返し法は、ブラックボックスとして扱われるある種の高次数の制約として扱え、グローバルな制約条件の伝達関数であるCSPと対比できる。分散法は正確にn次元のスーパーモデュラー問題の1つを解ける。次第にLP弛緩でタイトな弛緩法の階層は、単にさまざまなゼロ制約を追加し、既存の制約に結合させることで達成できる。ゼロ制約は追加的に追加でき、これが切断平面アルゴリズムへと導かれる。分離問題は、CSPの不満足の補助問題を解く定式化される。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パッチ変換
The Patch Transform

Taeg Sang Cho, Massachusetts Institute of Technology, Cambridge Shai Avidan, Adobe Systems Incorporated, Auburndale William T. Freeman, Massachusetts Institute of Technology, Cambridge and Adobe Systems Incorporated, Auburndale

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1489-1501 , August 2010

Keywords: Image models, statistical, applications, image-based rendering.

パッチ変換とは、通常の格子によってオーバーラップサンプルされた画像パッチの集合である。この表現によってユーザーはパッチ領域での画像操作が可能となり、逆変換した操作結果を種として、変形画像を合成することができる。画像変形の実例としては、パッチの空間位置、出力画像のサイズ、画像が再構成されるパッチの集合、などがある。もし、画像の変形が無い場合、逆パッチ変換はジグソーパズルの解法に等しい。逆パッチ変換は、各パッチが1回だけ利用され、隣同士のパッチがそれらしい画像を構成するような、マルコフ確率場におけるパッチ割り当て問題とみなされる。ループの多い信頼度伝達を利用したマルコフ確率場問題の近似解は、各パッチを一度だけ利用する近似解法の紹介となる。この画像再構成法は、全パッチ数とラベル枝狩り法を通じて、ちょうど良いスケールを与える。さらに、着目のパッチを空間的に微調整することで、構造的な位置合わせのミスから生じる不自然なノイズは抑圧される。我々は自然画像を利用して、このパッチ変換法の有効性を示す。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


虹彩認識:可視波長領域で撮像された劣化画像の分割に関して
Iris Recognition: On the Segmentastion of Degraded Image Acquired in the Visible Wavelength

Hugo Proenca, Universidad da Beira Interior, Covilha

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1502-1516 , August 2010

Keywords: Iris segmentation, biometrics, noncooperative image acquisition, visible-light iris images, covert recognition.

虹彩認識の画像化における制約については、注目が増加している。可視波長の中で、またより制約の少ない環境で稼動するシステムを開発するためのいくつかの提案がある。このような撮像条件では画質の低下につながるノイズが多量に生じ、これが虹彩分割を大きな問題にしている。既存の虹彩の分割方法が、これらの挑戦的な状況において失敗する傾向があることを調査したので、我々はより制約の少ない条件下で得られる画質の落ちた画像を扱うことができる分割方法を提供する。我々の研究の主な成果は以下のとおりである。1)鞏膜(きょうまく:眼球の後方を形成する白色の丈夫な膜)を、目の劣化画像中で最も簡単に区別できる部分とみなすこと。2)各方向の鞏膜の割合を計って、虹彩を分割する際に基本的な新しい特徴を提案すること、そして、3)全ての処理を、画像サイズに関して線形時間で行い、処理手続きを実時間アプリケーションに適合させること。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最適な識別のための離散特徴の選択の複雑さについて
On the Complexity of Discrete Feature Selection for Optimal Classification

Jose M. Pena, Linkoping University, Linkoping Roland Nilsson, Harvard Medical School, Boston

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1517-1522 , August 2010

Keywords: Feature evaluation and selection, classifier design and evaluation, machine learning.

確率変数と呼ばれる、規定された離散的なサンプル空間を持っている離散的な特徴だけを含んだ識別の問題を考える。この論文では、我々は二つの特徴を選択する問題の複雑性を研究している。最初の問題は、最小のベイズリスクを持った、ある与えられたサイズkの特徴の部分集合を見つけることにある。我々は、あらゆる特徴の部分集合(明らかな単調制約と一致した)の増加するベイズリスクの配列に対し、その配列を表す確率分布が存在することを示す。これは、最初の問題を解決することはサイズkの特徴の部分集合の、全数検索を必要とすることを意味する。第二の問題は、最小のベイズリスクを持った最小の特徴の部分集合を見つけることにある。最初の問題の複雑さから考えて、第二の問題を解決することは特徴の部分集合の全てに全数検索を必要とすると思うかもしれない。穏やかな仮定の下で我々はこれが真実でないことを明らかにする。我々はまた第二の問題への解決法の実際的な関連を研究する。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数パラメタを伴う1基底のSoft Margin SVMs(サポートベクトルマシン)法のための最大尤度モデルの選択
Maximum Likelihood Model Selection for 1-Norm Soft Margin SVMs with Multiple Parameters

Tobias Glasmachers, Dalle Molle Institute for Artificial Intelligence (IDSIA), Manno-Lugano Christian Igel, Ruhr-Universitat Bochum, Bochum

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1522-1528 , August 2010

Keywords: Support vector machines, model selection, regularization, maximum likelihood.

サポートベクトルマシン(SVMs)の超パラメタ(hyperparameters)を適応させることは、特に柔軟なカーネルが適用され、データが不十分な場合、挑戦的なモデルの選択問題である。我々は、2値の分類のために1基底のsoft margin SVMsの標準化されたモデルを選択するための整合的なフレームワークを提示する。超パラメタの尤度関数において勾配の上昇を使うことを提案する。尤度関数は、クラスの条件付き確率を強力に評価するためのロジスティック回帰モデルに基づいて、効率的に計算することが出来る。過剰適応は、SVMモデル選択における重要な問題だが、超パラメタに適した初期の分布を取り入れることによって我々のフレームワークの中で扱うことが出来る。我々は、尤度関数の勾配に基づく最適化が複数のカーネル・パラメタを適応させ、4つの最新技術の方法よりよいモデルに導くことができることを実験的に示す。 (訳者注:Soft margin:サンプルのパラメタを2つに分離する超平面が存在しない場合に、可能な限り明確にパラメタを分離する超平面を選び、他の最も近いパラメタへの距離を最大にすることでサンプルを分離する方法。)

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


UBIRIS.v2: 可視波長領域で運動中且つ、遠距離で撮像された虹彩画像のデータベース
The UBIRIS.v2: A Database of Visible Wavelength Iris Images Captured On-the-Move and At-a-Distance

Hugo Proenca, University of Beira Interior, Covilha Silvio Filipe, University of Beira Interior, Covilha Ricardo Santos, University of Beira Interior, Covilha Joao Oliveira, University of Beira Interior, Covilha Luis A. Alexandre, University of Beira Interior, Covilha

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 8, pp. 1529-1535 , August 2010

Keywords: Iris recognition, biometrics, noncooperative image acquisition, visible-light iris images, covert recognition.

虹彩は、生物測定学上の認識のために最も役に立つ特徴とみなされており、全国的な虹彩に基づく認証システムの普及が早急に必要である。しかし、現在展開されているシステムは、十分な品質を持った近赤外画像を捕らえるために、重い画像の制約に依存している。また、一般に利用できる虹彩画像データベースは全て、そのような撮像条件の制約に対応するデータにより構成され、それゆえに、これらはこれらの種類の環境で稼動すると考えられる方法を評価するために最適である。この論文の主な目的は、UBIRIS.v2データベースの有効性を示すことにある。それは可視波長の中で、ある距離で(4から8メートルの間で)、また運動中において撮像されたデータのみを含むマルチセッションの虹彩画像のデータベースである。このデータベースは、可視波長の虹彩認識に関わる研究者が自由に利用でき、実現可能性の検討や、この種類の生物測定学的認識の制約を明確にするのに役立つ。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.32, No.9


カラーからグレーへ:視覚手がかり(visual cue)の保存
Color to Gray: Visual Cue Preservation

Mingli Song, Zhejiang University, Hangzhou Dacheng Tao, Nanyang Technological University, Singapore Chun Chen, Zhejiang University, Hangzhou Xuelong Li, Birkbeck College, University of London, London Chang Wen Chen, University at Buffalo, The State University of New York, Buffalo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1537-1552 , September 2010

Keywords: Color to gray, probabilistic graphical model, visual cue.

商用アプリケーションおよび科学アプリケーションの両方において、カラー画像をグレーレベル画像に変換しなければならないことが多い。例えばカラー画像の印刷コストを下げたり、色盲のユーザが、カラー画像中の視覚手がかり(visual cue)を見つけるのを手助けしたりするためにこの処理は利用される。しかし従来のカラー画像からグレーレベル画像への変換アルゴリズムは、実用的なアプリケーションでの利用に適したものではなかった。これは以下のような理由によるものである。1)視覚手がかりが充分に定義されていないがゆえに、変換後のグレーレベル画像において重要な視覚手がかりを保持する方法が明らかではなかった。2)従来手法のうちのいくつかは、計算時間コストがきわめて高い。3)同じようにいくつかの手法は、良好な結果を得るために人間が指示を与える必要がある。これらの問題の解決もしくは軽減のために、確率論的グラフモデルに基づいた新しいアルゴリズムを提案する。このモデルでは、画像はマルコフ確率場上で定義されるものと仮定している。それゆえ、カラー画像からグレーレベル画像への変換過程は、新たに良好に定義されたカラー画像中の視覚手がかりを、変換後のグレーレベル画像でも保持するようなラベル付けプロセスと考えることができる。視覚手がかりは、観察者(perceiver)がカラー画像から抽出することができる測量である。これは、観察者が興味のある画像の、ある特性を表すものである。同一のカラー画像からでも、観察者ごとに異なる知覚を持つだろう。本稿では以下の3つの視覚手がかりを定義する。すなわちカラー空間整合性(color spatial consistency)、画像構造情報、及び色チャネル知覚特性である。カラー画像からグレーレベル画像への変換プロセスを、確率論的グラフモデルに基づいた視覚手がかりの保存プロシージャとして考え、そのモデルを積分最小化問題(integral minimization problem)に基づいて最適化する。この新しいアルゴリズムを自然カラー画像及び人工写真に適用し、提案アプローチが、効果と効率の面で代表的な既存アルゴリズムを上回る性能を持つことを示す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


頑健な画像追跡のための結合型予測識別
Coupled Prediction Classification for Robust Visual Tracking

Ioannis Patras, Queen Mary University of London, London Edwin R. Hancock, University of York, York

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1553-1567 , September 2010

Keywords: Regression, tracking, state estimation, relevance determination, probabilistic tracking.

本稿では、画像系列中での頑健なテンプレート追跡問題を取り扱う。我々の研究は、各フレームでの観測により、ターゲットの状態の確率論的予測を直接行うことが可能な判別フレームワークに属するものである。本研究の最大の成果は、予測精度が観測に従って変化してしまう問題と、いくつかの場合において、予測精度が非常に低い問題を明示的に扱うことである。この目的のために、訓練後にターゲットの状態を正確に予測することが可能な観測の確率を決定することができるような、確率論的識別器と前記の予測を組み合わせる。ここでいうターゲットとは、対象の観測の“関連性”と“信頼性”を決定することである。パーティクルフィルタリングフレームワークを利用することで、上で述べた状態の事後確率の近似を維持するための反復的手法を導出する。この状態では、複数の観測を利用することが可能で、且つそれらの予測が対応する関連性により適度に保たれる。この方法では“関連性のある”観測の予測は強調され、“関連性のない”観測の予測は抑制される。このアルゴリズムを二次元テンプレート追跡問題に適用し、大規模な動きや部分隠蔽がある場合においても提案スキームが従来の判別追跡法を上回る性能を持つことを示す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


共同分割による効率的な連続対応選択
Efficient Sequential Correspondence Selection by Cosegmentation

Jan ?ech, Czech Technical University, Prague Ji?? Matas, Czech Technical University, Prague Michal Perdoch, Czech Technical University, Prague

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1568-1581 , September 2010

Keywords: Correspondence, matching, verification, sequential decision, growing, cosegmentation, stereo, image retrieval, learning.

多くの検索、オブジェクト認識、広ベースライン両眼立体視法において、(特定領域に対する)注視点の対応法は、SIFTなどのコンパクトな記述子により構築される点で共通している。準最適(quasi-optimal)な逐次決定プロセスと結果として得られる共分割プロセスを組み合わせることで、対応検証法が得られる。この方法は1)高い精度(高い識別性能)を持ち、2)良い再現率(recall)性能を持ち、且つ3)高速である。対応の正確さに対するこの逐次決定は、改良された密な両眼立体視アルゴリズムの簡単な統計量に基づくものである。この統計量をSVMによる顕著な識別方向(prominent discriminative direction)に投影する。順次大きくなる共分割領域において計算されたこのSVM投影を、Waldの逐次確率収束判定法(Wald’s sequential probability ratio test)により試験する。困難なマッチング問題において、本稿で提案する逐次対応検証(sequential correspondence verification: SCV)アルゴリズムが、SIFT距離比に基づいた標準的な対応選択法を顕著に上回る性能を持つことを実験的に示す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクト認識及びシーン認識のための色記述子の評価
Evaluating Color Descriptors for Object and Scene Recognition

Koen E.A. van de Sande, University of Amsterdam, Amsterdam Theo Gevers, University of Amsterdam, Amsterdam Cees G.M. Snoek, University of Amsterdam, Amsterdam

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1582-1596 , September 2010

Keywords: Image/video retrieval, evaluation/methodology, color, invariants, pattern recognition.

画像カテゴリ認識は、オブジェクト及びシーンの様々なレベルの画像情報へのアクセスとして重要である。これまで、顕在点における特徴抽出のためには画素値に基づいた記述子が広く用いられてきた。照明光源への非依存性を高めるために、また識別性能を向上させるために、色識別子が提案されてきた。多種類の識別子が存在するがゆえに、画像カテゴリ認識のための色不偏識別子(color invariant descriptor)に関する、構造化された概要情報が必要とされている。本稿では色識別子(本稿で紹介する色識別子を計算するためのソフトウェアは、以下のサイトで入手できる。http://www.colordescriptors.com)の弁別性能と不偏性を、構造化された方法で検証する。測光学的変換に関する不偏性に基づいた分類法を用いて色記述子の解析的不偏性を探索し、これを既知の照明条件のもとで撮像された画像データセットを用いた実験により試験する。さらに2つのベンチマークを利用することで、前記の色記述子の弁別性能を実験的に評価する。一つは画像分野のものであり、他方はビデオ画像系列によるものである。理論的な解析結果及び実験結果から、照明光量の変化及び照明光の色の変化に対する不偏性が、カテゴリ認識に影響を与えることが判る。さらにこの結果により、光源光量の変化がある場合、上記の不偏性の利用性はカテゴリごとに異なることが判る。全体として、単一の識別子を選択し、データセット及びオブジェクト/シーンカテゴリに対する追加の事前知識がない場合には、OpponentSIFT法が適していると考えられる。さらに、色記述子の組み合わせ法は、画素値に基づくSIFTを上回る性能を持つことが示される。また、これはPASCAL VOC 2007におけるカテゴリ認識を8%、Mediamill Challengeデータセットにおけるカテゴリ認識を7%それぞれ向上させる。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数マークによる点過程による幾何的特徴抽出
Geometric Feature Extraction by a Multimarked Point Process

Florent Lafarge, Ecole des ponts, Paris Georgy Gimel'farb, University of Auckland, Auckland Xavier Descombes, INRIA, Sophia Antipolis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1597-1609 , September 2010

Keywords: Object extraction, remote sensing, texture analysis, stochastic models, Monte Carlo simulations.

本稿では、幾何オブジェクトの有限ライブラリに関する画像記述のための新しい推計学的マーク付き点過程を紹介する。従来のマーク付き点過程に基づいた画像解析は既に充分な成果を上げているが、パラメタチューニングのための計算コストが高い、計算時間が長い、モデルが特殊、というマイナス面もある。我々が開発したより一般的な複数マークによる点過程は、よりシンプルなパラメタ設定で、顕著に短い計算時間で算出可能であり、また、様々なアプリケーションに適用可能である。確率論的ギブスモデルを用いることで幾何オブジェクトライブラリから抽出された線形及び面積プリミティブを入力画像に対してマッチングし、Jump-Diffusion過程により最適なオブジェクト構成を探索する。遠隔撮像画像及び自然のテクスチャによる実験により、提案アプローチが高い潜在的能力を持つことが示される。モデル複雑性と効率の間のバランスを検証することで、本モデルにより複雑なオブジェクトインタラクションを挿入することについて議論し、本稿の結論を出す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高次元データ解析のための局所学習に基づいた特徴選択
Local-Learning-Based Feature Selection for High-Dimensional Data Analysis

Yijun Sun, University of Florida, Gainesville Sinisa Todorovic, Oregon State University, Corvallis Steve Goodison, M.D. Anderson Cancer Center-Orlando, Orlando

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1610-1626 , September 2010

Keywords: Feature selection, local learning, logistical regression, ¥ell_1 regularization, sample complexity.

本稿では、多数の関連性のない特徴が存在する場合のデータ識別のための特徴選択について検討する。過去の研究で取り上げられたいくつかの主な課題を扱うことができる新しい特徴選択アルゴリズムを提案する。これにはアルゴリズム実装、計算複雑性、及び解の精度に関する問題も含まれる。鍵となるアイディアは、局所学習により任意の複雑な非線形問題を1組の局所線形問題に分解し、大規模なマージンを持つフレームワークにより大域的な特徴関連性を学習することである。提案アルゴリズムは確立された機械学習及び数値解析手法に基づくものであり、対象データ分布に対していかなる前提も設けない。このアルゴリズムは、関連しない特徴の数が増えても殆ど関係しない、高精度を保ちつつ、PCレベルのハードウェアにおいても数千の特徴を数分間で処理できる。このアルゴリズムのサンプル複雑性の論理解析により、このアルゴリズムは特徴数に関する対数型のサンプル複雑性を持つことが示唆される。11種の合成及び実世界のデータセットを利用した実験により、教師付き学習のための我々が行った特徴選択問題の定式化の実現性と、我々のアルゴリズムの効果を示す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


判別的に訓練された、部分に基づくモデルによるオブジェクト検出
Object Detection with Discriminatively Trained Part-Based Models

Pedro F. Felzenszwalb, University of Chicago, Chicago Ross B. Girshick, University of Chicago, Chicago David McAllester, Toyota Technological Institute at Chicago, Chicago Deva Ramanan, University of California, Irvine, Irvine

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1627-1645 , September 2010

Keywords: Object recognition, deformable models, pictorial structures, discriminative training, latent SVM.

マルチスケール変形部分モデルの混合に基づいたオブジェクト検出システムについて説明する。我々のシステムは、大きな変形がありうるオブジェクトクラスを表現することができ、PASCALオブジェクト検出課題における最新手法と同等の結果を示す。可変部分モデルは既に一般的なものであるが、PASCALデータセットなどの困難なベンチマークにおいてその価値が充分に示されているとは言い難い。我々のシステムは、部分的にラベル付けされたデータを用いた判別的訓練のための新しい方法に基づくものである。困難な負例(negative sample)のデータマイニングのためのマージンを考慮したアプローチを、我々が潜在SVM(latent SVM)と呼ぶ形式と組み合わせる。この潜在SVMはMI-SVMの潜在変数に関する再定式化であり、準凸特性(semiconvex)を持っている。またこれは、正例(positive smaple)に対して潜在情報が特定されれば、凸となる訓練問題である。この特性により、正例(positive smaple)に対する潜在値(latent value)の決定と潜在SVM目的関数の最適化を交互に行う反復的訓練アルゴリズムが得られる。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


照明が変化する場合のレンジフロー(Range Flow):アルゴリズム及び比較検証
Range Flow in Varying Illumination: Algorithms and Comparisons

Tobias Schuchert, Fraunhofer Institute of Optronics, System Technologies and Image Exploitation IOSB, Karlsruhe Til Aach, RWTH Aachen University, Aachen Hanno Scharr, Forschungszentrum J?lich, J?lich

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1646-1658 , September 2010

Keywords: Range flow, illumination changes, brightness constancy constraint, prefiltering, homomorphic filter, gradient constancy, structure tensor, 3D motion estimation.

本稿で我々は、非均一な照明により起こる画像データ中の明度変化を扱うためのレンジフロー(range flow:奥行き情報のフロー)の推定を拡張する。標準的なレンジフローは、画像系列の奥行き情報と明度を表す画素値両方を用いて3D速度場を計算する。この目的のためにレンジフロー推定では、奥行き変化モデルと明度恒常性モデル(brightness consistency model)を組み合わせる。しかし一般的に、オブジェクト表面がカメラもしくは光源に対して回転する場合、もしくは該オブジェクトが非均一な照明光下にある場合、局所明度は保持されない。この明度変化問題に対する様々なアプローチを説明し検証する。最も直接的なアプローチは、明度変化が抑制されるように画素値データを予めフィルタリングする方法である。これには例えば広域通過フィルタ(ハイパスフィルタ)もしくは準同型フィルタ(homomorphic filter)を用いる方法がある。このような事前フィルタリング法により、SN比を向上させることが可能である。これに代わる新しいアプローチは、前記の明度恒常性モデルを、1)グラディエント恒常性モデル、2)これまでにオプティカルフローで成功を収めたグラディエント及び明度恒常性拘束条件の組み合わせ、もしくは3)物理モデルに基づいた明度変化モデルのいずれかで置き換えるものである。性能評価試験では、事前にフィルタをかけた合成データ及び、事前にフィルタをかけない合成データ、そして利用可能な正解情報を用いて、前記の標準手法とレンジフロー推定のための新しい手法を検討する。さらに 付加的ガウシアンノイズ及び散弾ノイズ(shot noise)の影響を調査する。最後に実データで全ての手法を検証する。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


傾いた回転対称グループの検出
Skewed Rotation Symmetry Group Detection

Seungkyu Lee, The Pennsylvania State University, State College Yanxi Liu, The Pennsylvania State University, State College

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1659-1672 , September 2010

Keywords: Skewed rotation symmetry, symmetry group, frieze group, discrete Fourier transform, saliency map, cyclic group, dihedral group.

実画像におけるアフィン的に傾いた回転対称グループの検出のための新しい効率的なアルゴリズムを紹介する。完全傾斜回転対称検出問題(complete skewed rotation symmetry detection)を、傾斜回転対称グループの5つの独立した特性の発見として定義する。すなわち1)回転中心、2)アフィン変形、3)対称グループの種類、4)対称グループの対応濃度(cardinality)、及び5)画像中の対称グループの領域のサポートである。回転対称グループ検出問題を、簡単な一次元変換対称検出問題に変換する、frieze-expansion(FE)法を提案する。局所特徴法により補完される回転対称顕在特徴マップの対を定義し、更に実際に構築する。frieze-expansionパターン(frieze-expansion patterns: FEPs)に離散フーリエ変換を用いた周波数解析を行い、上記種類(周期的、二平面(dihedral)、及びO(2)形式)、濃度、及び対応するサポート領域もしくは画像中の複数の回転対称グループを明らかにする。FEPの位相情報を用いて、アフィン的に傾いた回転対称グループの補正を行う。領域に基づいたアプローチ、特徴に基づいたアプローチ、及び周波数に基づいたアプローチのユニークな組み合わせになっている点で、提案手法は他の最新の手法を上回る。170の合成及び自然画像による実験の結果、我々の回転対称検出アルゴリズムが、既存手法を上回る性能を持つことが示される。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


シーン幾何のモデルとしてのステージ
Stages as Models of Scene Geometry

Vladimir Nedovi?, University of Amsterdam, Amsterdam Arnold W.M. Smeulders, University of Amsterdam, Amsterdam Andr? Redert, Philips Research Laboratories Eindhoven, Eindhoven Jan-Mark Geusebroek, University of Amsterdam, Amsterdam

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1673-1687 , September 2010

Keywords: Scene geometry, scene structure, depth estimation, scene categorization, stages.

三次元シーン幾何情報を再構築することは、シーン理解、自律車両とロボットナビゲーション、画像検索、及び3Dテレビの応用にとって重要な要素である。シーン再構成問題を解こうとした場合に、視覚的に把握できる世界の固有の構造を説明する。結果として、幾何的シーンカテゴリ化を頑健かつ効率的な単一画像からの奥行き推定のための最初のステップとしてとらえる。我々がステージと呼ぶ15種類の典型的な三次元シーン幾何構成を導入する。これらはそれぞれ独自の奥行きプロファイルを持つ。これらのプロファイルは放映されるビデオフレームの殆どに対して、大まかに対応する。ステージ情報は、大域奥行き情報の最初の近似として、奥行き推定及びオブジェクトの位置同定のための探索空間の絞り込みに寄与する。奥行き推定のための低次元特徴の組みを複数用意し、テレビ放送の2つの異なるデータセットに対してステージ識別を実行した。識別結果から、ステージは低次元画像表現から効率的に学習できることが判った。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所適応的回帰カーネルを用いた訓練不要な生成的オブジェクト検出
Training-Free, Generic Object Detection Using Locally Adaptive Regression Kernels

Hae Jong Seo, University of California, Santa Cruz, Santa Cruz Peyman Milanfar, University of California, Santa Cruz, Santa Cruz

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1688-1704 , September 2010

Keywords: Object detection, image representation, correlation and regression analysis.

視覚オブジェクト探索能力を持つ、訓練を必要としない生成的なオブジェクト検出/位置決めアルゴリズムを紹介する。提案手法は、ターゲットオブジェクトの既存知識(の学習)を必要とせず、また、前処理や入力画像の分割なども必要とせず、ターゲットオブジェクトの単一事例により、類似オブジェクトを見つけることができる。我々の方法はクエリから導出できる記述子としての局所回帰カーネルの計算に基づくものであり、これは周囲に対するターゲット領域画素の類似性として測量できるものである。前記の記述子から顕在特徴を抽出し、画像から抽出した類似特徴と比較する。この比較は、コサイン類似尺度の行列への一般化(matrix generalization)を用いて行われる。このアルゴリズムが純ベイズフレームワークを用いたアルゴリズムの最適性を持つことを例証する。このアルゴリズムはスカラー値の類似性マップ(resemblance map)を生成し、クエリとターゲット画像のすべ他のパッチとの間の類似性の尤度を示す。ノンパラメトリックな有意性検定と、非最大抑制(nonmaxima suppression)を利用することで、与えられたクエリに類似するオブジェクト領域の同定と位置決めを行う。このアプローチを拡張することで、大きさと回転に関して大きな幅を持つオブジェクト群を取り扱うことが可能になる。いくつかの困難なデータセットにより本アプローチの高性能が示される。これは様々な撮像条件で取得された様々な画像におけるオブジェクト検出の成功を示している。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


WLD:頑健な局所画像記述子
WLD: A Robust Local Image Descriptor

Jie Chen, University of Oulu, Finland Shiguang Shan, Chinese Academy of Sciences, Beijing Chu He, Wuhan University, Wuhan Guoying Zhao, University of Oulu, Finland Matti Pietik?inen, University of Oulu, Finland Xilin Chen, Chinese Academy of Sciences, Beijing Wen Gao, Peking University, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1705-1720 , September 2010

Keywords: Pattern recognition, Weber law, local descriptor, texture, face detection.

本稿では、Weberの法則からアイディアを得て、Weber Local Descriptor(WLD)と呼ばれる、単純だが強力、且つ頑健な局所記述子を提案する。これは人間のパターン知覚が(音や光などの)刺激の変化だけでなく、その刺激のもともとの強さにも依存することに基づいている。特にWLDは2つの部分、つまり差分刺激(differential excitation)部及び方位部からなる。差分刺激部では、ターゲット画素とその隣接画素の輝度差と、ターゲット画素の輝度そのもの、この2項の比率を計算する。方位部はターゲット画素のグラディエント方位を計算する。入力画像に対してこれら2つの部分を用いて、結合WLDヒストグラムを構成する。Brodatz及びKTH-TIPS2テクスチャデータベースを用いた実験結果により、WLDが、他の広く用いられている記述子(GaborやSIFTなど)を大きく上回る性能を持つことが示される。さらに人間の顔検出タスクにおける実験結果は、MIT+CMU前面顔画像テストデータ、AR顔データ、及びCMUプロファイルテストデータにおける既知の最高性能に伍する、非常に有望な結果を示している。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数画像の両眼立体視における解像度拡張
Resolution Enhancement in Multi-Image Stereo

Arnav V. Bhavsar, Indian Institute of Technology Madras, Chennai A.N. Rajagopalan, Indian Institute of Technology Madras, Chennai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1721-1728 , September 2010

Keywords: Superresolution, high-resolution depth/disparity, Markov random fields, graph cuts, visibility.

両眼立体視環境では、画像の超解像度(superresolution: SR)処理と高解像度奥行き推定処理は相補的な課題である。超解像度処理に必要なサブピクセルレベルでの位置合わせ情報は、三次元構造と密に関係している。視差と画素平均効果(低解像度化処理の副産物)により、超解像度処理のための画素の動きの事前推定ができない。これらの要因には、低解像度画像における両眼画像対応付け問題も含まれる。これにより低解像度奥行き推定の精度に影響が出る。本稿では、高解像度奥行き情報と超解像度画像を、低解像度両眼画像から推定するための統合的アプローチを提案する。我々の結果は提案方法が、画像の詳細表現を向上させるだけでなく、高解像度奥行き情報の精度を向上させることを示している。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.32, No.10


不規則な形状の対称性解析:定量的な銀河分類法の理論と応用
Irregular Shape Symmetry Analysis: Theory and Application to Quantitative Galaxy Classification

Qi Guo, University of Cambridge, Cambridge Falei Guo, Luoyang, Henan Jiaqing Shao, University of Kent, Canterbury

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1730-1743 , October 2010

Keywords: Bilateral and rotational symmetry, irregularity, symmetry measure, galaxy classification.

本論文は、任意の形状の対称性の数を一連の幾何学的変換演算に基づいて、不完全な対称性尺度を与える定量的集合について述べる。左右対称性と回転対称性の両方を定義する対称性の定義によって、形状の幾何学的性質を解析することで、新規な方法で形状を特徴づける方法のヒントが得られる。我々が提案した不定形状の対称性尺度を利用して、定量的な銀河分類の基準となる集合を開発した。我々の研究によって、我々が提案する形状尺度によって天体を分類する場合の有効性を示す。本論文の述べられる概念は、数学、人工知能、デジタル画像処理、ロボティックス、生物医学など、多くの用途に応用可能である。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自動的内容学習と、その高度な視覚課題や3D脳画像セグメンテーションへの応用
Auto-Context and Its Application to High-Level Vision Tasks and 3D Brain Image Segmentation

Zhuowen Tu, University of California at Los Angeles, Los Angeles Xiang Bai, Huazhong University of Science and Technology, Wuhan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1744-1757 , October 2010

Keywords: Context, object recognition, image segmentation, 3D brain segmentation, discriminative models, conditional random fields.

高レベルの画像や医用画像のセグメンテーションを解くには情報の内容を利用する必要性が次第に理解されている。しかし、どのようにして効果的に画像外形をモデル化し、その内容をモデル化するかはほとんど未知のままである。マルコフ確率場(Markov Random Fields (MRFs))と、条件付き確率場(Conditional Random Fields (CRFs))を利用すると言う現在の論文は、しばしば、モデル化と演算の段階が分離して研究された特殊なアルゴリズムが含まれている。本論文では、自動的な内容学習アルゴリズムを提案する。学習用画像と対応するラベル付けが与えられると、まず、局所的画像パッチ上の識別器を学習する。識別確率(識別確信度)マップは学習識別器から形成され、元の画像パッチの他に内容情報として新規の識別器の学習に利用される。このアルゴリズムは収束するまで繰り返される。自動的内容学習では大量の低レベルの画像情報と内容情報が融合され、さらに、暗黙的な形状情報が付加される。その結果得られる識別アルゴリズムは汎用的であり、実装化容易である。ほとんど同様のパラメータでの学習において、3つの難度の高い画像用途に挑戦した:前景と背景の分離、人体の部位の推定、情景の領域ラベル付け。医用や脳画像においては、画像内容は更に大切な働きをし、解剖学的構造はほとんど固定した部位に関連している。2D画像特徴の代わりに3D画像を利用すると少しだけ結果が変化し、脳MRI画像に自動的内容学習アルゴリズムを適用したセグメンテーション結果が示されているが、これは脳のために設計された最新のアルゴリズムさえ凌ぐ結果を与える。さらに、提案アルゴリズムの用途範囲は画像解析を超え、構造推定などの多用途にわたる。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


コストに鋭敏な顔認識
Cost-Sensitive Face Recognition

Yin Zhang, Nanjing University, Nanjing Zhi-Hua Zhou, Nanjing University, Nanjing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1758-1769 , October 2010

Keywords: Face recognition, cost-sensitive face recognition, cost-sensitive learning, multiclass cost-sensitive learning.

ほとんどの顔認識システムでは低誤認識率を目指しており、すべての誤認識による損失は等しいと暗黙的に考えられている。この前提は全く論理的でなく、本論文では、ほとんどの顔認識場面では、誤認識の種類が異なればその損失も異なると考える。例えば、顔認識に基づくドアの鍵が、家族を見知らぬ人と誤認識された場合は家族は中に入れず具合が悪いが、見知らぬ人が家族と認識され侵入した場合は不具合では済まされぬ。我々はコストに敏感な学習課題として顔認識の問題点を定式化する枠組みを提案し、本課題のための2つの理論的に健全な手法を開発した。実験によれば、提案手法は効果的かつ効率的であることを実証した。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


構造的照明光の検出に基づく表面位置と方位の決定法
Determining Both Surface Position and Orientation in Structured-Light-Based Sensing

Zhan Song, Chinese Academy of Sciences, ShenZhen Chi-Kit Ronald Chung, The Chinese University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1770-1780 , October 2010

Keywords: Structured light system, 3D reconstruction, surface orientation, feature detection.

空間における形状の位置と方位は2つの主要な記述子である。構造を持った照明光によって偽ランダムパターンを照明し、適当な特徴点を選択することによって、表面の位置だけでなく表面要素の方位までも、独立に決定できることを述べる。従来法では照明パターンの重心を特徴量として利用するが、本提案ではパターン要素間の格子点を利用する。この格子点位置は、投影効果による画像変形の影響を受けないと言う特質をもっており、個々の点の抽出は他の点の影響を受けず、格子点は強い対称性を有し、画像データ中での同定に役立つ。最も重要なことは、照明格子を結ぶ線は、表面に垂直な方向を決めるための補助線となることだ。本論文において、各格子点がユニークなカラーコードでラベル付けされ、どのような対称性を有し、画像中の画素以下の精度で精密な位置合わせをどう決定するか、その各々において、3D位置の他に3D方向までをどのように決定するかを述べている。たった1回のパターン照明と、1回の画像捕獲によって、位置と方位の両方の取得が可能である。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Dirichletプロセス事前分布を用いた教師付き生成識別器
Generative Supervised Classification Using Dirichlet Process Priors

Manuel Davy, VEKIA, Lille Jean-Yves Tourneret, University of Toulouse, Toulouse

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1781-1794 , October 2010

Keywords: Supervised classification, Bayesian inference, Gibbs sampler, Dirichlet processes, altimetric signals.

 与えられたベイズモデルに合致する適当な事前分布パラメータを選ぶことは困難な課題である。事後分布と同じファミリーであれば共役事前分布(conjugate prior function)を選ぶのは正しいが、実際は簡単のために同じ事前分布を選ぶにすぎない。実際、共役事前分布は正確な事前分布としては制限が強過ぎる。本論文は、各クラスのパラメータ付き事前分布条件は混合Dirichletプロセスであると仮定して新規な教師付き生成識別器(Generative classifier)について検討する。ここで混合Dirichletプロセスを利用する動機は、多数の確率分布を正確にモデル化できることである。結果として得られるクラス条件付き事後分布に従ってサンプル化可能なモンテカルロ法が、その結果研究された。クラス条件付き密度中に生じるパラメータは、これら生成サンプル(ベイズ学習に従った)を使って推定可能である。ここに提案する教師付き識別器は、異なる表面(海面、氷、森、砂漠)から後方散乱された高度依存性波形の識別に応用される。この識別は、非海洋表面から後方散乱された高度依存性波形から有用な地球物理学的情報を抽出する最初の段階となる。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時間に関して単純たれ:確率的トピック検出モデルの再検討
Keep It Simple with Time: A Reexamination of Probabilistic Topic Detection Models

Qi He, Pennsylvania State University, State College Kuiyu Chang, Nanyang Technological University, Singapore Ee-Peng Lim, Singapore Management University, Singapore Arindam Banerjee, University of Minnesota, Twin Cities, Minneapolis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1795-1808 , October 2010

Keywords: Topic detection, probabilistic model, time-aware, bursty feature, online, DPM, TFIDF.

トピック検出(TD)は、トピック検出と追跡に興味を持つ人々(TDT)においては基本的な研究項目であり、以下のような関わり合いを持つ;TDは何千件と入ってくるニュースのゴミの中から有用なものを見つけ、解析するのを助けてくれる。本論文では、時間的な識別確率モデル(Discriminative Probabilistic Model (DPM))と呼ぶ単純で効果的な検出モデルを提案し、これが特徴選択と時間的識別重みを有した古典的なベクトル空間モデルと理論的には等価であることを示す。我々はこのDPMと、von-Mises Fisher (vMF)の混合モデルやLatent Dirichlet Allocation (LDA)と言った混合メンバーシップモデルと、この確率論的な従兄弟たちを比較してみる。TDT3データに対するベンチマークの結果によれば、vMF とか LDAのような優れたモデルが、良い結果を生むとは限らないことが示される。特にLDAの場合、最悪の結果は変分推定法で得られるが、これは文書レベルのトピック検出には極めて大量のLDAモデルパラメータが含まれているためであろう。反対に、DPMのような比較的単純な時間を意識した確率モデルでもオフラインやオンラインのトピック検出課題には十分であり、実用的なトピック検出にはDPMが理論的にはエレガントで効果的なモデルとなっている。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カーネル化されたソーティング
Kernelized Sorting

Novi Quadrianto, Australian National University and NICTA, Canberra Alex J. Smola, Yahoo! Research, Santa Clara Le Song, Carnegie Mellon University, Pittsburgh Tinne Tuytelaars, K.U. Leuven ESAT-PSI, Leuven

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1809-1821 , October 2010

Keywords: Sorting, matching, kernels, object alignment, Hilbert-Schmidt Independence Criterion.

オブジェクトマッチング法はデータ解析において基本的な演算の一つである。代表的には、これには比較されるオブジェクトクラス間の類似度を定義することが必要である。これとは異なり、各クラス内部でのみ類似度が要求される方法を開発した。本方法は、Hilbert-Schmidtの独立基準による比較対オブジェクト間の依存性を最大化することで達成される。本課題は特別の構造を有する2次割当問題を最大化する問題と見なされ、そのための局所的最適解を見つける単純なアルゴリズムを示す。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


L_2カーネル識別化
L? Kernel Classification

JooSeuk Kim, University of Michigan, Ann Arbor Clayton D. Scott, University of Michigan, Ann Arbor

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1822-1831 , October 2010

Keywords: Kernel methods, sparse classifiers, integrated squared error, difference of densities, SMO algorithm.

多くの統計的学習問題において、ノンパラメトリックなカーネル手法は広く利用され、上手く利用できることが証明されている。良く知られた成功例として、密度推定にカーネル密度推定(KDE)を使い、識別にはサポートベクトルマシン(SVM)を使う方法がある。我々はカーネル識別器としてL_2を最適化する方法、つまり、「密度差」を2乗誤差積分(ISE)する方法を提案する。我々はガウスカーネルに注目するが、本方法は他の密度推定に適したカーネルにも適用できる。サポートベクトルマシン(SVM)のように識別器は疎に分布しており、2次式の解から得られる。有限サンプルオラクルの不等式と、ISEと誤差確率の双方で強い整合性を示すようなL_2カーネル識別器の統計的性能を保証する。この特別な場合が、以前紹介したカーネル密度推定にISEを使う方法である。次元数が15より大きな場合は、実際、基本的なL_2カーネル識別器の効率は良くない。従って、自然正則化パラメータを通じて拡張することで、高次元においても有効なSVMを活用する。合成データと現実データの両方に対する数値計算結果を示す。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


外れ値、不完全データ、欠失追跡画像の動きセグメンテーション
Motion Segmentation in the Presence of Outlying, Incomplete, or Corrupted Trajectories

Shankar Rao, HRL Laboratories, LLC, Malibu Roberto Tron, Johns Hopkins University, Baltimore Ren? Vidal, Johns Hopkins University, Baltimore Yi Ma, University of Illinois at Urbana-Champaign, Urbana and Microsoft Research Asia, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1832-1845 , October 2010

Keywords: Motion segmentation, subspace separation, lossy compression, incomplete data, error correction, sparse representation, matrix rank minimization.

本論文では、画像系列中の複数の移動するオブジェクトの特徴点を追跡し、セグメント化する問題を研究する。アフィンカメラモデルを利用して、複数の線形部分空間からのサンプルをセグメント化する問題に置き換えられる。実際のところ、追跡器の限界や、隠蔽、情景中の非剛体オブジェクトの存在などにより、得られたオブジェクト中には、大きく追跡ミスをしたオブジェクト特徴量、入力ミスや壊れた入力情報も含まれている。本論文では、これら現実的な問題を統一的に扱うための数学的枠組みを部分空間に分離するロバスト手法を開発する。本方法は、非可逆圧縮法、ランク最小化法、疎な表現法と深い関係がある。我々は本方法と他の手法をそれらの外れ値(outlier)や欠失データと共に、Hopkins155動画データベースで広範にテストした。本手法と他の最新手法を、期待値最大化法やスペクトルクラスタリング法で比較した。外れ値や欠失の無いデータの場合、我々の手法は他の最新手法と同等か、多くはそれを上回った。さらに、上記3つの病的なデータの場合は、本手法は驚くほど良い結果を示した。すべての結果は、下記を参照:http://perception.csl.uiuc.edu/coding/motion/.

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


離散型MRFにおけるMAP推定のための動的ハイブリッド法
Dynamic Hybrid Algorithms for MAP Inference in Discrete MRFs

Karteek Alahari, Oxford Brookes University, Oxford Pushmeet Kohli, Microsoft Research Cambridge, Cambridge Philip H.S. Torr, Oxford Brookes University, Oxford

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1846-1857 , October 2010

Keywords: Markov random fields, multilabel problems, energy minimization, approximate algorithms.

本論文では、離散的mrfs や crfsに基づく多ラベルエネルギー関数を高速で、かつ、省メモリー計算できる新規なアルゴリズムを提案する。これらの手法は、最小化アルゴリズムの効率が以下の性質を持っていることから思いついた:1)初期値として使用される主要変数、あるいは、双対変数に依存していること、2)エネルギー関数に採用される主要変数の数に依存していること。我々の第1の手法(動的α展開)は、直前の問題事例からの結果を再利用して得られる。第2の方法はこのエネルギー関数から未知変数の数を減らす。さらに、双対変数の再利用で、動的α展開法に良い初期値を与えられることを示す。ステレオマッチングとカラーセグメンテーション、オブジェクトセグメンテーションの問題に適用し、本手法の効率をテストする。本手法の適用結果は、α展開法が、順次ツリー再重みメッセージパス法(sequential tree-reweighted message passing)や、最大積信頼伝達法(max-product belief propagation)などの一般的手法においても著しい効果を示した。我々は本手法の用途として、引用例(1)に述べられるテクスチャーに基づく双方向の画像とビデオのセグメンテーションのようなより高次のエネルギー関数の例で実証する。ほとんどの場合、計算効率は10倍から15倍の高速化が達成された。我々が改良したα展開法は、Fast-PD法に対しても類似の効率を示すが、概念的にはもっと簡単である。α展開法とFast-PD法の両方とも、本論文中で述べた未知変数減少法と一緒に用いると、本方式による計算時間は何桁も少ない。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所の形状差の強調による頑健な3次元の顔認証
Robust 3D Face Recognition by Local Shape Difference Boosting

Yueming Wang, The Chinese University of Hong Kong, Hong Kong Jianzhuang Liu, The Chinese University of Hong Kong, Hong Kong and Chinese Academy of Sciences, Shenzhen Xiaoou Tang, The Chinese University of Hong Kong, Hong Kong and Chinese Academy of Sciences, Shenzhen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1858-1870 , October 2010

Keywords: 3D shape matching, collective shape difference classifier, face recognition, signed shape difference map.

この論文では、新しい3次元の顔認証のアプローチである集合的形状差識別器(Collective Shape Difference Classfier:CSDC)を提案する。それは実際的なアプリケーションの必要条件、すなわち高い認証性能、高い計算効率と実行しやすさを満たしている。我々は、最初に顔画像集に登録された全ての顔と一致しない、新たな顔の登録を避ける独立型の速い姿勢調整方法を提示する。そして、登録された形状差分マップ(Signed Shape Difference Map:SSDM)は、形状比較のために中間表現として2つの整列済みの3次元の顔の間で計算される。SSDMsに基づいて、3種類の特徴が、顔の形の間で局所的類似性と変化特徴をコード化するために使われる。この3つの特徴を利用したCSDCsである3つの強力な分類器の構成のための弱識別器として訓練し、ブースティングを利用することで、最大の識別能を持つ局所特徴を最適に選択することができる。差分法(Different schemes)は、認証と計算において高い性能を追求するために確認と識別のために設計された。標準のプロトコルでFRGC v2の上で実施された実験は、全て0.1パーセントのFARを伴った97.9パーセントや98パーセントを超えるrank-1の認識率よりよい3つの認識率を生みだした。1,000の顔画像集に対する各々の認証は、およそ3.6秒かかるだけである。これらの実験的な結果は、我々のアルゴリズムが効果的なだけでなく、また時間効率的でもあることを証明する。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像分割のためのマルコフ確率場の自己検証型ラベル付け
Self-Validated Labeling of Markov Random Fields for Image Segmentation

Wei Feng, The Chinese University of Hong Kong and City University of Hong Kong, Hong Kong Jiaya Jia, The Chinese University of Hong Kong, Hong Kong Zhi-Qiang Liu, City University of Hong Kong, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1871-1887 , October 2010

Keywords: Self-validated labeling, Markov random fields (MRFs), graduated graph cuts, image segmentation, split-and-merge.

この論文は、マルコフ確率場(MRFs)の自己検証型ラベル付けの問題、すなわち未知の数ラベルを持つMRFの最適化について言及する。我々は、段階的なグラフカット(graduated graph cuts :GGC)(自己検証型ラベル付けのための二値のs-tグラフカットを拡張する新しい技術)を提示する。具体的には、我々は複雑な問題を一連の扱いやすい下位の問題にするために、分解して合併する戦略を使用する。ギブズエネルギー最小化に関しては、準最適状態へのラベル付けは、一連のクラスタレベルの操作により段階的に得られる。異なる最適化構造を用いて、以下の3つの実用的なアルゴリズムを提案する:ツリー構造のグラフカット(tree-structured graph cuts:TSGC)、ネット-構造のグラフカット(net-structured graph cuts:NSGC)、そして、階層的なグラフカット(hierarchical graph cuts:HGC)。以前の方法とは対照的に、提案されたアルゴリズムはラベルの数を自動的に決定することができて、ラベル付け精度、空間的可干渉性とラベリングコスト(すなわちラベルの数)のバランスを良好に取り、計算的に効率的で、初期値に依存せず、目的のエネルギー関数を十分局所的に最小限度に収束させることができる。我々は、提案されたアルゴリズムを自然画像の分割に適用する。実験結果は、我々のアルゴリズムがベンチマークデータセット画像を適切に分割し、ノイズ耐性、計算速度、穏やかな境界の切り出し性能に関して従来方式より性能が優れていることを示している。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ミニマックス識別とネーマン-ピアソン識別のためのサポートベクトルマシンの調整
Tuning Support Vector Machines for Minimax and Neyman-Pearson Classification

Mark A. Davenport, Stanford University, Stanford Richard G. Baraniuk, Rice University, Houston Clayton D. Scott, University of Michigan, Ann Arbor

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1888-1898 , October 2010

Keywords: Minimax classification, Neyman-Pearson classification, support vector machine, error estimation, parameter selection.

この論文ではミニマックス基準とNeyman-Pearson基準に関してサポートベクトルマシン(SVM)識別器の訓練について検討する。原理的には、これらの基準は、コストに敏感なSVMを利用した直接的な方法で最適化することが出来る。しかし実際には、これらの基準には特に正確な誤差推定が必要なので、例えばクロス検査のようなSVMパラメータをチューニングするための標準的な技術では、識別精度が低くなってしまう。この問題に対処するために、我々はここでは2C-SVMと呼ばれているコストに敏感な一般的なSVMが、2¥nu-SVMと呼ばれるもう一つの形態に等しいことを最初に証明する。次に我々は誤差推定のための、単純かつ強力な平滑化に基づくアプローチを開発するために、2¥nu-SVMパラメータ空間の特徴を利用する。大規模な実験で、我々は平滑化により、クロス検査の誤差推定の精度が大幅に向上することを証明する。これは劇的な性能の向上につながる。さらには、我々は性能を殆ど低下させることなく、計算効率を大幅に向上させる降下戦略を提案する。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像勾配を利用した、高速フーリエ変換に基づく、スケールに依存しない頑健な画像の位置決め法
Robust FFT-Based Scale-Invariant Image Registration with Image Gradients

Georgios Tzimiropoulos, Imperial College, London, UK Vasileios Argyriou, Kingston University London, Surrey Stefanos Zafeiriou, Imperial College, London, UK Tania Stathaki, Imperial College, London, UK

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1899-1906 , October 2010

Keywords: Global motion estimation, correlation methods, FFT, scale-invariant image registration, frontal view face registration.

我々は、スケールに関わらない画像を登録するための強いFFT(高速フーリエ変換:Fast Fourier Transform)に基づくアプローチを紹介する。我々の方法は、FFTに基づく相関を二回利用する:一度は極座標のフーリエ領域で距離と回転角度を評価するときと、もう一度は空間領域において変換残差を回復するときである。上記と同じ原則に基づく以前の方法は、頑健ではない。頑健性と正確さを備えるために、我々は画像を本来の姿に調整するための従来方法を修正する。最初に、我々は画像機能を複雑なグレーレベルの境界地図と取り替えることによって効果的な極座標のフーリエ表現を導出する。我々は、この表現が顕著な画像特徴の構造を捉えることが出来ると共に、画像のローパス性質(変換により高周波数成分が欠落すること)に関連した問題や補間誤差、境界効果とアンチエイリアシングも回避することが出来ることを示す。二番目に、未知のパラメータを回復するために正規化された勾配相関関係を導入する。我々は、相関関係を実行するために画像勾配を使うことで、離散値による誤差が均一分布に射影されることにより、我々の正規化勾配相関が頑健な実行性能を持つことを示す。実画像を用いた徹底的な実験により、提案手法が他のどのフーリエに基づく相関技術とも違って、移動、任意の回転と最高6倍までの拡大を推定することが出来た。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正反対のエピポーラ制約からの相対的なカメラの動きの推定
Estimating Relative Camera Motion from the Antipodal-Epipolar Constraint

John Lim, NICTA and Australian National University, Canberra Nick Barnes, NICTA, Australian National University, Canberra and Bionic Vision Australia Hongdong Li, NICTA, Australian National University, Canberra and Bionic Vision Australia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1907-1914 , October 2010

Keywords: Multiview geometry, antipodal points, epipolar constraint, structure and motion, Hough, robust estimation.

この論文では、相対的なカメラの運動への斬新で対蹠的(際立って対照的)なエピポーラ制約を紹介する。(広角カメラで利用できる)対蹠点を使うことによって、カメラの並進と回転の動きは幾何学的に分離され、それらがより小さい次元で2つの問題として別々に推定できるようにしている。我々は不連続なカメラの運動に基づく新しい公式化を提示する。そして、それは対蹠的な点を使った以前の差分的な技術と比較して、より大きな範囲の動きに対して有効である。我々の制約の利点を2つの頑健かつ実際的なアルゴリズムで示す。一つはRANSACに基づくものともう一つはHoughのような投票に基づくものである。運動を分離する特性の適用例として、我々も明白に回転(それは、我々の方法で明らかになる変換だけを使う)を推定することを必要としない新しいstructure-from-motionアルゴリズムを提示する。結論として、シミュレーションと実像の動きを含む実験により、我々のアルゴリズムが最新技術に対して精度と頑強性に関して若干の優位さを持つことを示している。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔の探索と位置測定のための活発なテスト方法
Active Testing for Face Detection and Localization

Raphael Sznitman, The Johns Hopkins University, Baltimore, MD Bruno Jedynak, The Johns Hopkins University, Baltimore, MD and Institut Universitaire de Technologie, Lille, France

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 10, pp. 1914-1920 , October 2010

Keywords: Active testing, face detection, visual search, coarse-to-fine search, face localization.

我々は新しい検索技術を提供する。それは画像における顔を位置測定する際に、階層的なモデルと相互に関係がある情報を使い、発見的手法により効率的に余分な検索スペースを取り除くものである。従来の方法と同等の性能レベルを保つ一方、我々の手法は計算コストにおいて、伝統的な移動窓(sliding window)アプローチを上回る性能を示す。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.32, No.11


特徴サブセット濃度の最適化のための特徴選択器の安定性及び出力比較の評価
Evaluating Stability and Comparing Output of Feature Selectors that Optimize Feature Subset Cardinality

Petr Somol, Institute of Information Theory and Automation of the Czech Academy of Sciences, Prague Jana Novovi?ov?, Institute of Information Theory and Automation of the Czech Academy of Sciences, Prague

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 11, pp. 1921-1939 , November 2010

Keywords: Feature selection, feature stability, stability measures, similarity measures, sequential search, individual ranking, feature subset-size optimization, high dimensionality, small sample size.

特徴選択方法の安定性(頑健性)は近年注目を集めている課題であるが、これは機械学習システムの信頼性に直接鉄器影響を与えることを考えると、充分に重要性が認識されているとは言い難い。サイズ可変のサブセットを生成するための特徴選択過程の安定性の評価における問題について検討を行う。新しい特徴選択安定性尺度を導入し、この安定性問題に対して様々な知見を与える統一フレームワークにおいて既存尺度の調整も行う。検討対象となる尺度の特徴を詳細に検討し、様々な例において、どの類の特徴選択過程に関する情報が得られるかについて例証する。2つの特徴選択過程の類似性を比較することが可能な尺度の形態をとった、特徴選択評価のための代替アプローチについても紹介する。これらの尺度により、2つの特徴選択法の出力や、2つの異なるパラメタを同じ方法に与えた場合の出力の差異などを比較することが可能となる。ターゲットとなる安定性及び類似性尺度を用いて得られる情報は、特徴選択法の比較のための手段として適当であることが示される。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔の動き認識とその時系列モデルのための動的テクスチャに基づいたアプローチ
A Dynamic Texture-Based Approach to Recognition of Facial Actions and Their Temporal Models

Sander Koelstra, Queen Mary University of London, London Maja Pantic, Imperial College, London Ioannis (Yiannis) Patras, Queen Mary University of London, London

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 11, pp. 1940-1954 , November 2010

Keywords: Facial image analysis, facial expression, dynamic texture, motion.

本稿では、近距離撮影された前面顔画像映像情報における、顔の動き単位(Action Units: AUs:顔のジェスチャーの単位)の認識及びその時系列モデル(temporal model:これは即ちneutral, onset, apex, and offsetの時間分割系列)のための動的テクスチャに基づいたアプローチを提案する。前記の動的性質及び入力映像における顔領域の外観をモデル化するための2つのアプローチを比較する。すなわち、動き履歴画像の拡張版と、自由形態変形(Free-Form Deformation: FFD)を用いた非剛体位置合わせの新しい方法である。抽出された動き表現を用いて、時間領域および空間領域両方における動き方位履歴記述子を導出する。各AUに対して、識別型のフレームベースのGentleBoostの集合学習器と、生成的隠れマルコフモデルの組み合わせにより、ターゲットAUの出現を検出し、入力映像系列における出現時間帯を同定する。27の下部及び上部AU全ての認識試験を行ったところ、MMI顔表現データベースからの264の映像系列を単独もしくは組み合わせで用いた場合、提案手法をMHI法と共に用いた方式では89.2%、FFD法と組み合わせた場合には94.3%の平均イベント認識精度を達成した。FFD法の汎化性能をCohn-Kanadeデータベースを用いて試験した。最後にSensitive Artificial Listenerデータベースにおける自然な表情に対する性能を調査した。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔画像を利用した加齢画像合成及び年齢推定:サーベイ
Age Synthesis and Estimation via Faces: A Survey

Yun Fu, University at Buffalo (SUNY), Buffalo Guodong Guo, West Virginia University, Morgantown Thomas S. Huang, University of Illinois at Urbana-Champaign, Urbana

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 11, pp. 1955-1976 , November 2010

Keywords: Face aging, age estimation, age synthesis, age progression, survey.

ヒトの年齢は各個人の重要な特徴であり、これは、顔の外観に生じる明確なパターンにより直接推定できる。コンピュータグラフィックス及びマシンビジョンの急速な発展により、コンピュータによる顔情報を用いた加齢画像合成と年齢推定は特に一般的なものとなっている。これは、科学捜査、電子顧客関係管理、セキュリティ管理、監視モニタリング、生体認証、エンターテイメント、コスメティクスなど、これらの技術の実世界アプリケーションが広く利用価値のあるものであるためである。加齢顔画像合成は、各人の顔画像に対する自然な加齢効果と若返り効果を考慮し、顔画像を再レンダリングする過程として定義される。顔画像からの年齢推定は、顔画像を解析し、自動的に年齢もしくは年齢グループ(年齢帯)を推定する過程として定義される。顔画像の個別性と問題の複雑性により、上記2つの課題は、コンピュータシステム設計者にとって、未だ困難な課題である。過去数十年にわたり、学術界、産業界両方での多くの研究開発がなされてきた。本稿では、顔画像に基づいた加齢合成及び年齢推定のトピックに対する完全な最新技術サーベイを行う。既存モデル、一般的なアルゴリズム、システムの性能、技術的課題、一般的な顔画像データベース、評価方法及び、有望な将来の研究の方向性について、体系的な検討を元に議論する。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


衛星画像のサブピクセルレベルでの変化を検出するためのA-Contrarioアプローチ
An A-Contrario Approach for Subpixel Change Detection in Satellite Imagery

Amandine Robin, University of the Witwatersrand, South Africa Lionel Moisan, Universite Paris-Descartes (MAP5), Paris Sylvie Le H?garat-Mascle, Universite Paris Sud Orsay, Orsay

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 11, pp. 1977-1993 , November 2010

Keywords: Change detection, a-contrario modeling, significance test, subpixel, mixture model, image series.

本稿では、画像系列を利用した、サブピクセルレベルでの変化の検出のための新しい教師なし手法を紹介する。本手法は、ある画像系列の、より高解像度なリファレンス識別に対するコヒーレンスレベルを評価する能力のある、確率論的指標の定義に基づいたものである。この種のデータのアプリオリモデルに基づいたアプローチとは対照的に、本モデルは、構造化データの観測による、a-contrarioモデルと呼ばれる非構造化データを棄却することに基づいている。このコヒーレンス尺度は、画像のサブドメインを自動的に選択する統計的アルゴリズムの核となるものである。このサブドメインはもっともらしい変化を表現するものである。このモデルの論理的解析により、その性能を予測する。また、画像中の変化した画素の数や画像のコントラストレベルについても予測する。本手法の高い頑健性を示す数値シミュレーションの結果も併せて紹介する。平均的条件下でターゲット画素の25%以上に影響を与える変化を検出する能力を持つ。衛星画像の画像系列を利用した土地被覆の変化の検出のためのアプリケーションを例として与える。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像群の高精度な対応付けの計算
Computing Accurate Correspondences across Groups of Images

Timothy F. Cootes, University of Manchester, Manchester Carole J. Twining, University of Manchester, Manchester Vladimir S. Petrovi?, University of Manchester, Manchester Kolawole O. Babalola, University of Manchester, Manchester Christopher J. Taylor, University of Manchester, Manchester

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 11, pp. 1994-2005 , November 2010

Keywords: Nonrigid registration, correspondence problem, appearance models.

グループごとの画像位置決めアルゴリズムは、画像群中の画像間の密な対応を得ることを目的としたものである。典型的にはこの手法は、各画像の位置を反復的に更新することで、平均ずれ量を改善する手段を含む。目的関数の選択に従って、変形場(deformation field)の表現及び最適化手法が異なる様々な種類の方法が既に提案されている。本課題の複雑性が一定とすると、各コンポーネントに対して与えられた前記の事項の選択が、最終的な精度に決定的な影響を与えることが判る。本稿では、高精度のマッチングを実現するために、画像強度及び画像群中にある様々なオブジェクト形状の両方から得た統計量の利点をうまく使った、画像群位置決めアルゴリズムを紹介する。(2次元及び3次元の)大量の画像を利用した試験により、様々な画像表現及び統計的形状拘束条件を利用することの効果を探索する。このような表現を慎重に選択することで、システムの全体性能を顕著に向上させられることを示す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


n重確率的クラスタリングにおけるクラスタ数の検出
Detecting the Number of Clusters in n-Way Probabilistic Clustering

Zhaoshui He, RIKEN Brain Science Institute, Saitama and South China University of Technology, Guangzhou Andrzej Cichocki, RIKEN Brain Science Institute, Saitama, Polish Academy of Sciences, Warsaw and Warsaw University of Technology, Warsaw Shengli Xie, South China University of Technology, Guangzhou Kyuwan Choi, ATR Computational Neuroscience Laboratories, Kyoto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 11, pp. 2006-2021 , November 2010

Keywords: Multiway clustering, probabilistic clustering, hypergraph, parallel factor analysis (PARAFAC), model order selection, multiway array, higher order tensor, supersymmetric tensors, affinity arrays, enumeration of clusters, estimation of PARAFAC components, principal components enumeration.

近年多重確率的クラスタリングに対する関心が高まっている。この問題に対するいくつかの効率的なアルゴリズムが既に開発されている。しかし、一般的なn重クラスタリング(n¥ge 2)のためのクラスタ数の検出方法に関してはあまり注意が向けられてこなかった。このような問題意識に立って、本稿ではn重代数論理に基づいたアプローチでこの問題を検討する。実装が容易な固有値分解(eigenvalue decomposition: EVD)を利用した、単純だが効率的なクラスタ数検出方法を提案する。さらに合成データセット及び実データセットを利用した実験により、提案手法の効果を例証する。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴v.s.コンテキスト:顔画像と顔特徴の高精度且つ詳細な検出及び描写のためのアプローチ
Features versus Context: An Approach for Precise and Detailed Detection and Delineation of Faces and Facial Features

Liya Ding, The Ohio State University, Columbus Aleix M. Martinez, The Ohio State University, Columbus

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 11, pp. 2022-2038 , November 2010

Keywords: Face detection, facial feature detection, shape extraction, subclass learning, discriminant analysis, adaptive boosting, face recognition, American sign language, nonmanuals.

顔検出のための外観に基づいたアプローチは過去数年で大きな進展を遂げた。このアプローチでは、顔などの検出対象オブジェクトクラスのテクスチャパターン(外観)を記述する画像統計量を学習する。しかしこのアプローチは、目、眉、鼻、口などの内部顔特徴(internal facial features)高精度且つ詳細な記述を与えるという目的に対しては、限定的な成功を収めたにすぎない。一般的にこれは学習される統計モデルに含まれる情報の制約によるものである。顔テンプレートがテクスチャ情報を良く含むのに対して、顔特徴(目、鼻、そして口)は、可能性のある背景画像からの識別に充分な情報を持っていない。統計モデルの設計においてコンテキスト情報を各顔特徴に加えることで、この問題の解消を図る。提案アプローチにおいては、コンテキスト情報とは、目鼻などの顔部分それぞれの周囲と最適な対応を持つ画像統計量を定義するものである。これは、我々が顔もしくは顔特徴を探すとき、その特徴を最も良く表しつつ、その周囲のコンテキストに最も似ていないような場所を探すということを意味している。このように、非類似性とコンテキスト情報を組み合わせたものを利用することにより、検出器が顔特徴位置を正確に推定できるようになる。特徴テンプレートとコンテキストテンプレートの分離を学習処理で行うことは困難である。これは、顔特徴のコンテキスト及びテクスチャは表情や姿勢、照明の変化に従って大きく変わり、またそれぞれが類似する可能性もあることに起因する。サブクラス分割(subclass division)を利用することでこの問題を取り扱う。訓練画像の各顔特徴を、一群のサブクラスに自動的に分割するための2つのアルゴリズムを導出する。各サブクラスは、同一の顔部分(閉じた眼と開いた眼など)もしくは、コンテキスト(様々なヘアスタイルなど)を表す。最初のアルゴリズムは判別分析の定式化に基づくものであり、第二のアルゴリズムはAdaBoostアプローチの拡張である。合計3930画像の静止画及びビデオ画像系列を利用した大規模な実験結果を与える。提案手法が、手動による検出とそん色のない精度を持つことを示す。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所スプライン回帰による準教師付識別
Semi-Supervised Classification via Local Spline Regression

Shiming Xiang, Chinese Academy of Sciences, Beijing Feiping Nie, Tsinghua University, Beijing Changshui Zhang, Tsinghua University, Beijing

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 11, pp. 2039-2053 , November 2010

Keywords: Semi-supervised classification, local spline regression, interactive image segmentation.

本稿では、準教師付識別のための局所スプライン回帰を紹介する。我々のアプローチの中心となるアイディアは、データ点をクラスラベルに直接対応付けるためにSobelev空間で開発されたスプラインを導入することである。このスプラインは多項式とGreen関数により構成され、また、平滑かつ非線形であり、そして散乱データ点を高精度に補間可能である。特に、正規化最少自乗法により各隣接データ点に対して、最適なスプラインを推定する。このスプラインにより、各隣接データ点は、それぞれ単一のクラスラベルに対応付けられる。次に正規化損失(regularized loss)を評価し、クラスラベルベクトルに関してさらに定式化する。最後に、局所隣接データ点で評価される全ての損失を累積させることで、ラベル付き、およびラベル無しデータの大域整合性を計測する。この準教師付識別の目的を達成するために、大域損失と局所スプライン回帰、およびラベル付データのクラスラベルの自乗誤差を組み合わせた目的関数を構成する。このようにして、大域最適な識別が最終的には得られる転導性(transductive)識別アルゴリズムを開発する。この準教師付学習構成では、提案アルゴリズムはラプラシアン正規化フレームワークで解析される。一般に入手可能な多数のデータセットを利用した識別能力の比較実験およびインタラクティブな画像分割および画像マッチングへの応用により、提案手法の妥当性が示される。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


鏡面フロー(Specular Flow)からの形状復元
Shape from Specular Flow

Yair Adato, Ben-Gurion University of the Negev, Beer-Sheva Yuriy Vasilyev, Harvard University, Cambridge Todd Zickler, Harvard University, Cambridge Ohad Ben-Shahar, Ben-Gurion University of the Negev, Beer-Sheva

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 11, pp. 2054-2070 , November 2010

Keywords: Specular objects, specular flow, shape reconstruction, environment motion field, Gaussian curvature, parabolic points, specular curvature.

鏡面のような(鏡のように反射する)表面を持つ物体の画像とはすなわち、その物体周囲の歪んだ反射である。周囲の環境が未知のとき、このような画像から、同物体の表面形状を再構成することは、きわめて困難である。この再構成課題は、単一の画像ではなく、該反射物体と周囲の環境との相対的な運動が観測されるとき、より実現性が高くなる。この相対的な動きは、画像平面中の動き場(motion field)もしくは反射フロー(specular flow)として扱われる。本稿では、反射フローからの形状復元問題を取り扱う。また、観測可能な反射フローは非線形偏微分方程式を利用することで、直接表面形状に関連付けることができることも示す。この偏微分方程式は、本アプローチが画像内容に非依存でありつつ、前記の相対運動のみに依存性をもつための、鍵となる特性である。この偏微分方程式の理解と利用に向けた最初のステップとして、この方程式の形状幾何(shape geometry)に関連した定性的性質を検討する。表面形状が閉じた式(closed form:自由変項を含まない式)再構成可能である場合について解析を行い、特定の条件下では、前記の相対運動と環境の内容の両方が未知である場合においても、鏡面形状が再構成可能であることを示す。本稿で提案する表面再構成アルゴリズムの数値解法としての課題について議論し、また、実データおよび合成データを用いて上記の発見を検証する。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Mumford-Shah規則化及び隠蔽の取り扱いによる両眼画像マッチング
Stereo Matching with Mumford-Shah Regularization and Occlusion Handling

Rami Ben-Ari, Orbotech Ltd., Yavneh Nir Sochen, Tel-Aviv University, Ramat-Aviv

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 11, pp. 2071-2084 , November 2010

Keywords: Stereo matching, Mumford-Shah functional, variational stereo vision, occlusion handling, Total Variation.

本稿では、両眼画像の対応付け問題を取り扱う。変分法フレームワークに基づいた両眼画像マッチングのための新しい空間的に連続なアプローチを提案する。提案手法には画像中の不連続を保持するためのMumford-Shah汎関数に基づいたユニークな規則化項が含まれており、隠蔽を取り扱うための新しいエネルギー汎関数と組み合わせて用いる。提案手法の評価プロセスは、2つの結合されたエネルギー汎関数の同時最小化に基づいている。一方は領域分割(隠蔽と可視領域)のためのものであり、他方は視差評価のためのものである。密な視差マップに加え、我々の方法では半隠蔽領域の推測も与えることができ、不連続関数により、視差/奥行きの境界の位置も決めることができる。2つの新しい拘束条件を導入し、左記工程で作成された不連続性マップを更新する。Middlebury両眼立体視画像データベースからの広範な実データセットを含むデータを利用した実験を行った。実験結果により、提案手法がシャープな不連続性情報と隠蔽マップの復元能力の正確な視差関数の計算能力を持つことが示される。最近発表された変分法に基づくアプローチに比べて、本手法は顕著な性能向上がみられる。サブピクセル精度を持つMiddlebury両眼立体視ベンチマークを利用した比較により、現在我々の手法が最高性能を持つ両眼マッチングアルゴリズムであることが示される。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


離散積分可能性条件なしのグラディエントからの表面復元:ガウシアンカーネルアプローチ
Surface-from-Gradients without Discrete Integrability Enforcement: A Gaussian Kernel Approach

Heung-Sun Ng, Hong Kong University of Science and Technology, Hong Kong Tai-Pang Wu, Hong Kong University of Science and Technology, Hong Kong Chi-Keung Tang, Hong Kong University of Science and Technology, Hong Kong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 11, pp. 2085-2099 , November 2010

Keywords: Surface from gradients, integrability, kernel methods, basis functions.

グラディエント場を入力とした表面復元アルゴリズムのうち、代表的なものは、積分可能性拘束条件を離散的に適用している。積分可能性条件を付けることにより、表面高情報を生成することができるが、既存アルゴリズムは次に述べるようないくつかの欠点を持つ。これらのアルゴリズムは密な画素単位のグラディエント場だけを扱うことができ、部分積分可能な場合、シャープな特徴を滑らかにしてしまうか、結果に大きな歪みを持つことになる。本稿では、それぞれ密でも疎でもありうるグラディエント場、表面高場、もしくはこれらの組み合わせから、離散積分可能性条件を付けずに三次元連続表面を復元する方法を紹介する。我々のアプローチのカギとなるのはカーネルバイアス関数の利用であり、これにより、連続表面復元問題を、閉形式の解が存在する高次空間へ変換する。ガウシアンカーネルを利用することで、従来の手法よりも良い結果を与えることができる合理的な実装を得ることができる。一般的にいえば、我々のカーネルに基づく方法の利点は、この方法では離散化及び有限の近似の弊害を回避することができることである。これらの弊害は、これまでの手法で用いられるフーリエやウェーブレット基底などによる方法でよく起きる表面の歪みの原因となっている。ベンチマーク試験及び困難なデータセットを利用した試験により本手法と既存手法を比較し、提案手法が顕在特徴とシャープな特徴を保持したまま、高精度に表面情報を復元できることを示す。本システムのソースコードと実行可能ファイルをダウンロードすることができる。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


鏡面の視覚的な検査:一般的画像デジタル化と画像記述のためのアプローチ
Visually Inspecting Specular Surfaces: A Generalized Image Capture and Image Description Approach

Yannick Caulier, Fraunhofer Institute for Integrated Circuits, F?rth Salah Bourennane, ?cole Centrale Marseille, Instittut Fresnel, Marseille

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 11, pp. 2100-2105 , November 2010

Keywords: Deflectometry, specular surfaces, image capturing, image description, stripe pattern, feature selection.

画像取得(デジタル化)と画像コンテンツ記述は、コンピュータビジョンの処理における2つの主なステップとみなされている。従来の縞模様を利用した検査方法を、特定の縞模様照明手法に基づいた自由表面に一般化し、また、新しい論理的コンセプトによる一般の特徴に基づいた縞模様画像特徴付けアプローチをまとめることにより、本稿では鏡面検査における前記の2つのステップにフォーカスする。本稿の主な目的の一つは、3ステップからなる一般的縞模様画像解釈アプローチを提案することである。この3ステップとは即ち、1)様々な画像コンテンツ記述法の比較、2)最適な記述法の組み合わせ、及び3)最適特徴の選択、である。本手法の成果は以下の3点である。1)円筒型の鏡面を前提とした従来の手法を、より複雑な形状に一般化したこと、2)明暗の縞模様ための、従来手法と同数の特徴による、従来の画像記述法の一般化。3)識別率と計算コストの面で最適な縞模様特徴セットの定義

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔認識のための線形回帰
Linear Regression for Face Recognition

Imran Naseem, The University of Western Australia, Crawley Roberto Togneri, The University of Western Australia, Crawley Mohammed Bennamoun, The University of Western Australia, Crawley

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 11, pp. 2106-2112 , November 2010

Keywords: Face recognition, linear regression, nearest subspace classification.

本稿では、パターン認識問題の線形回帰として定式化による、顔同定のための新しいアプローチを紹介する。単一のオブジェクトクラスからのパターンは線形部分空間に投影されうるという基本的なコンセプトのもとに、テスト画像(probe image)をクラス特有のギャラリーの線形結合として表現する線形モデルを開発する。最少二乗法によりこの逆問題を解き、再構成誤差(reconstruction error)を最小化するクラスを選択する形で決定される。本稿で提案する線形回帰識別(Linear Regression Classification: LRC)アルゴリズムは、最近傍部分空間識別(nearest subspace classification)に分類される手法である。いくつかの標準的なデータベースを用いて、提案アルゴリズムの大規模な評価を行った。これは顔認識の文献で報告されている多数の評価方法を参考に行った。他の最新のアルゴリズムとの比較により、提案手法の効果が明確に示された。隣接隠蔽問題(contiguous occlusion)に対しては、モジュラーLRCアプローチを提案する。これには新しい、距離に基づいた根拠の融合(Distance-based Evidence Fusion: DEF)アルゴリズムが含まれる。本稿で提案する方法論は、スカーフによる顔領域の困難な隠蔽問題について、これまで報告されている中で最良の性能を達成している。

TS

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.32, No.12


データ系列中において交換可能性テストによって変化を検出するマーティンゲールの枠組み
A Martingale Framework for Detecting Changes in Data Streams by Testing Exchangeability

Shen-Shyang Ho, Univesity of Maryland Institute for Advanced Computer Studies, College Park Harry Wechsler, George Mason University, Fairfax

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2113-2127 , December 2010

Keywords: Change detection, data stream, exchangeability, hypothesis testing, martingale, classification, regression, clustering, support vector machine.

データの時系列集合において、データ点列は順次観察できる。このデータ系列作成時にデータ生成モデルが変化する可能性もある。本論文では、観察データの交換可能性特徴をテストすることで、変化点を検出することを提案する。我々の提案するマーティンゲール手法は、効率的で、非パラメトリックで、1回通過アルゴリズムであり、分類、クラスタリング、回帰データ生成モデルに効果的である。実験結果によれば、時間的変化を伴う時系列データ系列中の変化点の検出には、マーティンゲール法が有効であることが示された。さらに、1) マーティンゲール法を採用した適応的サポートベクトル法(SVM)は、窓をスライドさせる適応的サポートベクトル法(SVM)に比べて好ましい結果を出し、2) 多段マーティンゲール法によるビデオ画面の変化点検出法は、標準的なビデオ画面変化点検出アルゴリズムに比べて好ましい結果を出した。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


指紋特徴のシリンダー符号化:指紋認識のための新しい表現法とマッチング手法
Minutia Cylinder-Code: A New Representation and Matching Technique for Fingerprint Recognition

Raffaele Cappelli, University of Bologna, Cesena Matteo Ferrara, University of Bologna, Cesena Davide Maltoni, University of Bologna, Cesena

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2128-2141 , December 2010

Keywords: Bit-oriented, cylinder-code, fingerprint, ISO/IEC 19794-2, local minutiae matching.

本論文では指紋特徴(マイニューシャ)シリンダー符号化(MCC)を紹介する:これは新規な3Dデータ構造(シリンダーと呼ぶ)に基づき、指紋特徴距離と角度の表現から成る。これは標準的なISO/IEC 19794-2 (2005)のような必須の特徴量(マイニューシャの位置と角度)の部分集合からから始まって作られるシリンダーである。固定長、ビットによる符号化と言ったシリンダーの不変性のお陰で単純で有効なマトリックスが定義でき、局所的類似性が計算可能でこれをグローバルなスコアに統合することができる。データベースFVC2006における大規模な実験の結果MCCが有名な既存の手法より優れていることが実証でき、機構の軽い、極めて有効で相互運用可能な指紋照合環境を実装化できた。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き認識?そのレビュー
Script Recognition—A Review

Debashis Ghosh, Indian Institute of Technology Roorkee, Roorkee Tulika Dube, Indian Institute of Management Ahmedabad, Ahmedabad Adamane P. Shivaprasad, Sambhram Institute of Technology, Bangalore

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2142-2161 , December 2010

Keywords: Document analysis, optical character recognition, script identification, multiscript document.

世界中で言語記述のために多様で異なる手書き文字が利用されている。多様な手書き文字、多様な言語の環境において、文書に書かれている適切な文字認識や文書解析のアルゴリズムが選択される前に、どのような文字で記述されているかを知ることは基本的なことである。その立場から、自動的手書き文字同定のいくつかの手法が開発されてきた。これらは大きく分けて2つの広いカテゴリーに属す。その1つは構造に基づくものと、別の1つは見かけ画像に基づく手法である。この調査報告は、これら各々のカテゴリーにおける異なる手書き文字同定手法の概観を与える。オンラインデータとビデオテキストに関する手書き文字同定の手法も示してある。本分野に関する研究、特に、手書き文書に関しては未だ比較的少なく、もっと調査すべきである。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


等測地線を利用した3D顔認識
3D Face Recognition Using Isogeodesic Stripes

Stefano Berretti, Universit? degli Studi di Firenze, Firenze Alberto Del Bimbo, Universit? degli Studi di Firenze, Firenze Pietro Pala, Universit? degli Studi di Firenze, Firenze

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2162-2177 , December 2010

Keywords: 3D face recognition, 3D face model, isogeodesic stripe partitioning, 3D weighted walkthroughs, 3D face matching, performance evaluation.

本論文では高効率で、個々人間における同一人物の非中立な顔の表情の違いを認識できる3D顔マッチングの新規な手法を紹介する。この手法には3D顔の幾何学的情報を考慮し、グラフ形式で得られる情報をコンパクトな表現に符号化する。グラフ表現のノードの幅は等測地線による顔の縞模様に等しい。ノード間の弧は、3D重み付きウォークスルー(通り抜け) (3DWWs)と呼ばれており、対応する弧の間の空間的変位を表している。顔の等測地線と3DWWsによる分割を一緒にして、顔の局所形体の近似表現によって顔表情の滑らかな変化を示す。このグラフに基づく表現によって顔の効率的認識を可能にし、適当な指標構造で支えられた非常に大きなデータ集合の認識に採用されるのに適している。本手法は、3D顔認識のためのSHREC 2008認識コンテストにおける最高ランクを達成した。FRGC v2.0 と SHREC08のデータ集合に対する効率の広範な比較評価を示す。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ対象物の要約の階層的視覚モデル
A Hierarchical Visual Model for Video Object Summarization

David Liu, Siemens Corporate Research, Princeton Gang Hua, Nokia Research Center Hollywood, Santa Monica Tsuhan Chen, Cornell University, Ithaca

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2178-2190 , December 2010

Keywords: Topic model, probabilistic graphical model, Multiple Instance Learning, semi-supervised learning, object detection, video object summarization.

非常に少数のフレームによってユーザーが与えるフレームレベルのラベルを使って、ビデオ中の無関係なフレームを除去するための新規な手法を提案する。まず、興味のある対象物を含むと思われるウィンドウを仮定し、次に、どのウィンドウが本当に興味の対象を含んでいるかを決定する。この方法はいくつかの好ましい特徴を備えている。第1に、一つの記述子によって全フレームを表現する方法に比べ、各ウィンドウの特徴記述が真の表現をしている場合がある;この場合、背景のノイズに影響される確率は小さい。第2に各フレームを独立に扱う場合に比べ、ビデオ画面を時間連続的に扱っているので、注目ウィンドウをもっと正確に同定できる可能性がある。第3に、先験知識をパッチレベルのモデルに融合することで、注目対象物の軌跡を正確に追跡することが可能となる。これによって探索すべきウィンドウの数を減らせ、学習時にデータの過剰学習の可能性を減らせる。我々は他の準教師付き学習法と比較することによって、困難なビデオクリップに対する本手法の優秀性を実証する。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3次元顕微鏡のための機械学習を利用したブラインド画像デコンボリューション法
Blind Image Deconvolution Using Machine Learning for Three-Dimensional Microscopy

Tal Kenig, Technion - Insitute of Technology, Haifa Zvi Kam, Weizmann Institute of Science, Rehovot Arie Feuer, Technion - Insitute of Technology, Haifa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2191-2204 , December 2010

Keywords: Blind deconvolution, deblurring, machine learning, PCA, kernel PCA, microscopy.

本研究において、ブラインド・デコンボリューションアルゴリズムの新規な正則化を提案する。本提案手法は、点広がり関数の空間モデル化のために事例ベースの機械学習法を利用する。反復ブラインド・デコンボリューション法適用の間、先験項は既学習点での点広がり関数空間における推定広がり関数を利用する。この正則化有用性をベイズ法に基づくブラインド・デコンボリューションの枠内で実証し、更にノイズ除去法を追加統合し、これによって完全なブラインド・デコンボリューション法を示す。本提案法の応用として、広角の蛍光顕微鏡画像の人工的、および、実撮影の3D画像に適用するが、このような用途ではブラインド・デコンボリューションアルゴリズムが不可欠であり、素晴らしい結果を伴っていることを示す。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的な上位形態(high order)のマッチング
Efficient High Order Matching

Michael Chertok, Bar-Ilan University, Ramat Gan Yosi Keller, Bar-Ilan University, Ramat Gan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2205-2215 , December 2010

Keywords: High-order assignment, probabilistic matching, spectral relaxation.

ここではd次元実空間において、データ集合間の高次のマッチング演算法について紹介する。本手法は、同時に2対以上の点集合をマッチングさせるもので、データの類似性尺度に基づいている。高次の類似性はテンソルで表現され、それゆえ、マッチングは類似性テンソルと離散的対応点のランク1近似で与えられる。本手法は、Zass and Shashua'sのハイパーグラフ(連結要素)マッチングであるCHECK END OF SENTENCEを、厳密に高次分布に拡張したものである。このため、計算効率に優れた双対周辺分布マッチング法(dual-marginalization spectral matching scheme:つまり、対応点列の帯状領域のマッチング)へと導かれる。さらに、ランダムなマトリックス分布のマッチングであることから類似テンソルはマッチング精度を維持しながら任意に疎粒化できる。我々の寄与した部分は、人工的データ集合や実データ集合に適用した場合の、本方式の実験的妥当性を示した点にある。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ブースティングアルゴリズムの2重定式化について
On the Dual Formulation of Boosting Algorithms

Chunhua Shen, NICTA, Canberra Research Laboratory and Australian National University, Canberra Hanxi Li, NICTA, Canberra Research Laboratory and Australian National University, Canberra

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2216-2231 , December 2010

Keywords: AdaBoost, LogitBoost, LPBoost, Lagrange duality, linear programming, entropy maximization.

我々は新たな視点からブースティングアルゴリズムを研究する。L1ノルム正規化AdaBoost, LogitBoost, および soft-margin LPBoost を一般化ヒンジ損失で解くLagrangeの双対問題は、すべてエントロピー最大化問題に帰着することを示す。これらのブースティングアルゴリズムの双対問題を眺めると、ブースティングアルゴリズムが成功するためには、マージンを最大化してより良いマージンを保持し、同時にマージンの分散を制御することであることと理解される。また理論的に、L1ノルム正規化AdaBoostは、最小マージンではなく、平均マージンを近似的に最大化することを証明する。双対の定式化によって列生成による最適化アルゴリズムの開発が可能となり、全面的な矯正手段となる。その結果、標準的な段階的加算のブースティングアルゴリズムとほとんど同じ識別結果を得るが、収束速度はずっと速い。従って、本提案の最適手法を利用すれば、集合識別器を構成するための弱識別器の数が少なくて済む。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時系列画像の実時間セグメンテーションにおける多項式最小二乗近似
Online Segmentation of Time Series Based on Polynomial Least-Squares Approximations

Erich Fuchs, University of Passau, Passau Thiemo Gruber, Univerisity of Applied Sciences, Deggendorf Jiri Nitschke, University of Passau, Passau Bernhard Sick, Univerisity of Applied Sciences, Deggendorf

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2232-2245 , December 2010

Keywords: Time series, orthogonal polynomials, least-squares approximation, online segmentation, piecewise polynomial representation, SwiftSeg.

本論文は、オンラインでの新規な時系列画像のセグメンテーションと、分割処理多項式表現法であるSwiftSegを紹介する。セグメンテーション法はスライドするウィンドウと、成長するウィンドウを利用した直行多項式による最小二乗法を利用したものである。これによって、高速に更新・定義できる近似多項式が利用でき、演算量は時間ウィンドウの長さには依存せず、多項式の演算近似の次数のみに依存する。近似多項式の直交展開の係数は更新ステップによって得られるが、最小二乗の意味で、ウィンドウの信号の平均値、勾配、曲率、などの最適値と解釈することができる。これらの係数は近似誤差も含め、セグメンテーション基準を定義する非常に直感的な方法に利用されるであろう。人工的画像列や実画像列によってSwiftSegは評価された。この手法の精度と演算時間を評価するため、他の3つのオフラインとオンラインの手法と比較した。多くのデータ列に対する用途に適したSwiftSeg法は、非常に低い演算コストにおいても高精度の結果を示した。

Ej

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


PADS:ビデオのデータ向けの確率論的な行動探査のフレームワーク
PADS: A Probabilistic Activity Detection Framework for Video Data

Massimiliano Albanese, University of Maryland, College Park Rama Chellappa, University of Maryland, College Park Naresh Cuntoor, Kitware Inc., Clifton Park Vincenzo Moscato, Universit? di Napoli "Federico II", Napoli Antonio Picariello, Universit? di Napoli "Federico II", Napoli V.S. Subrahmanian, University of Maryland, College Park Octavian Udrea, IBM T.J. Watson Research Center, Hawthorne

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2246-2261 , December 2010

Keywords: Applications and expert knowledge-intensive systems, computer vision, vision and scene understanding, video analysis, image processing and computer vision, applications.

現在、テレビ映像で発生する様々な種類の活動を同定する必要が増加している。この論文では、我々は最初にユーザーが重要な活動を指定することができる確率論的行動記述言語(Probabilistic Activity Description Language :PADL)と呼ばれる論理的言語を提示する。我々は、それからそれは与えられた連続した映像のどんな部分映像へも確率を割り当てる有望なフレームワークを開発する。それは部分映像が与えられた活動を含むという可能性と、我々が最終的にこのフレームワークの中で活動を見つけるための2つの速いアルゴリズムを開発する確率論的フレームワークである。OffPadは、与えられた閾値を上回っている可能性で、与えられた活動を含む映像の全ての最小の部分を見つける。対照的に、OnPadアルゴリズムは、再生中(OffPadがするよりはむしろ後で)の映像を調べて、与えられた活動が起こっている(たとえ活動が部分的に終了しているだけであるとしても)という確率を計算する。我々のプロトタイプである確率論的な行動探索システム(Probabilistic Activity Detection System :PADS)はフレームワークと2つのアルゴリズムを実装する。これらは既存の画像処理アルゴリズムの基盤の上に構築されている。我々は、詳細な実験を実施して、我々のこれまでに論文等で提示された4つの異なるアプローチと比較した。我々は、複雑な活動を指定するための我々のアプローチが全ての他のアプローチより優れていることを明らかにする。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


点集合の位置決め:整合的な点のドリフト
Point Set Registration: Coherent Point Drift

Andriy Myronenko, Oregon Health and Science University, Beaverton Xubo Song, Oregon Health and Science University, Beaverton

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2262-2275 , December 2010

Keywords: Registration, correspondence, matching, alignment, rigid, nonrigid, point sets, Coherent Point Drift (CPD), Gaussian mixture model (GMM), coherence, regularization, EM algorithm.

点集合の位置決めは、多くのコンピュータビジョンの作業の中の重要な構成要素である。点集合の位置決めのゴールは点の2つの集合の一致を割り当てることと、そして1つの点集合から他の集合への変換情報を復元することである。未知の非剛体の空間の変換や、点集合の構成要素である各データ点が多次元であること、ノイズとはずれ値を含む、複数の要因は点集合の位置決めを困難な問題にしている。我々は剛体、非剛体の両方の位置決めのためのCoherent Point Drift(CPD)アルゴリズムと呼ばれる有望な方法を紹介する。我々は、確率密度評価問題として、2つの点集合の整列を考慮する。我々は、尤度を最大にすることによってGaussian混合モデル(Gaussian mixture model :GMM)重心(決められる最初の点集合を表現すること)をデータ(決められる第二の点)にフィッティングした。点集合の位相数学的構造を保存するように、我々はGMM重心が一つのグループとして整合的に動くようにした。剛体のケースには、我々は剛体のパラメータによるGMM重心場所の再パラメータ化による整合的な拘束条件を強制して、任意の次元においてEMアルゴリズムの最大化ステップの閉じた形式の解を導出する。非剛体のケースには、我々は位置ずれ場を規則化して、最適変換を導出するために変分法を使うことによって整合的な拘束条件を与える。我々はまた、計算の複雑さを線形に減らす速いアルゴリズムを紹介する。我々は雑音、分離点となくした点の面前でCPDアルゴリズムを剛体点変換または非剛体点変換用に試験する、そこで、CPDは正確な結果を示して、現在の最新技術の方法に優る性能を示す。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ぼかしと露出の較正や補正
Vignette and Exposure Calibration and Compensation

Dan B Goldman, Adobe Systems, Inc., Seattle

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2276-2288 , December 2010

Keywords: Camera calibration, photometry.

我々は、画像系列から較正と「ぼかし」の(放射状の減少)除去と露光(取得)バリエーションを論議する。反応曲線が知られているときでも、空間的に変化する曖昧さにより、ぼかし、露光、及びシーン発光を復元するのが妨げられる。しかし、ぼかしと露光変化は、これらの曖昧さ、または既知のスケールに関するあいまいさと、ガンマ(第3)級の曖昧さを解決しなくても、それでも画像から削除することができる。この技術の応用には、パノラマの画像のモザイクや物体再構築のための光度測定、画像に基づくレンダリングや相関に基づく展望アルゴリズムのために前処理することが含まれる。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


消失点抽出による等距離の魚眼(レンズ)の校正と修正
Equidistant Fish-Eye Calibration and Rectification by Vanishing Point Extraction

Ciar?n Hughes, Valeo Vision Systems, Tuam, Co. Galway, Ireland Patrick Denny, Valeo Vision Systems, Tuam, Co. Galway, Ireland Martin Glavin, National University of Ireland, Galway Edward Jones, National University of Ireland, Galway

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2289-2296 , December 2010

Keywords: Fish-eye, calibration, perspective.

この論文では、我々は光学的にアプリケーションを見る場面のために修正された画像を提供するための方法を述べる。そして等距離に見通せて、特に消失点を推定する特性を使った魚眼レンズのカメラの固有な、または付随的なパラメータを推定するための方法を述べる。推定される固有のパラメータは光学的に中央で魚眼レンズ化しているパラメータである。そして、付随的なパラメータはチェッカー盤較正図と関係がある世界軸についての回転である。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非楕円形に線を描く状態密度の隠れマルコフ・モデル
Hidden Markov Models with Nonelliptically Contoured State Densities

Sotirios P. Chatzis, Imperial College London, London

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 12, pp. 2297-2304 , December 2010

Keywords: Hidden Markov models, multivariate normal inverse Gaussian (MNIG) distribution, expectation-maximization, sequential data modeling.

隠れマルコフ・モデル(HMMs)は、連続の属性を含んでいる連続したデータをモデル化するための一般的なアプローチである。そのようなアプリケーションでは、HMMの隠れ状態の観察放出密度が典型的に楕円形にモデル化される。これは通常多変量の正規分布またはStudentのt分布の確率密度と等しい線を描く。しかし、楕円形に線を描く分布は、多くの分野、例えば経済や、通信信号を生成する領域では典型的であるように、曲がって重く尾を引く分布を十分にモデル化することができない。HMM状態密度をモデル化するために、そのような楕円形に線を描く分布の有限数の混合を使用することは、これらの問題の改良のための共通のアプローチである。それにもかかわらず、モデル化されたデータの性質は各HMM状態のためにたびたび多数の混合構成要素の仮定を必要とする。そして、この仮定はモデル効率とトレーニング・データセットのサイズ両方に対してマイナス効果を持つかもしれない。この論文において、これらの問題を解決するために、我々はHMMsの観察密度をモデル化するための非楕円形に線を描く分布(多変量の通常の逆正規分布(MNIG))の利用を唱える。我々が実験的に示すように、我々の選択法は、単純で計算効率の高い方法で、偏りのある重い尾を引く分布のより効果的なモデル化が可能となる。

MN

Copyright (c) 2010 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[インデックス] [前の年] [次の年]