MISC

基本情報

氏名 中藤 哲也
氏名(カナ) ナカトウ テツヤ
氏名(英語) NAKATOU TETSUYA
所属 中村学園大学 栄養科学部 栄養科学科
職名 准教授

題名

不一致を許す文字列照合のためのFFTを用いた確率的アルゴリズムの精度評価

単著・共著の別

 

著者

中藤 哲也
馬場 謙介
池田 大輔
森 雅生
廣川 佐千男

担当区分

 

概要

テキスト中から与えられたパターンを見つけ出す文字列照合問題は,Webの情報検索やDNA配列の特定パターンの検索に用いられるなど,幅広い応用範囲を持つ.パターンの編集に置換のみを許した近似文字列照合は,不一致を許す文字列照合と呼ばれ,テキスト全域での一致スコアを求めるために,正確な一致場所を求める文字列照合よりも計算量が大きい.この問題の解法として,高速フーリエ変換(FFT)を利用した高速な確率的アルゴリズムがいくつか提案されており,それらは文字から数値への写像の生成方法により,写像の総数と,得られる推定値の精度が異なる.我々の提案するアルゴリズム10)は写像の総数が理論上での最小であり,精度も提案されているアルゴリズム中で最も高い.本稿では,Atallah らのアルゴリズム1)による推定値の精度と実験的な比較を行い,提案アルゴリズムの推定値の精度がより高いことを確認した.String matching is the problem of finding all occurrences of a given pattern string in a given text string. It is applicable to a wide range of fields, such as Web information retrieval and pattern discovery of DNA sequences. The string matching with mismatches allows inexact match with substitution and has high complexity. In order to solve the problem several fast randomized algorithms have been proposed. They use the fast Fourier transformation (FFT). All of these algorithms introduce a certain number of mappings that convert symbols into numbers. The total number of such mappings and variance of estimates depends on the method to generate the mappings. This paper proposes an algorithm that achieves the theoretically minimum number of mappings and yields accurate estimates. Empirical evaluation is conducted to compare the accuracy of estimates of the proposed algorithm with that of Atallah et al. It is confirmed that the accuracy of the proposed algorithm is better.

発表雑誌等の名称

情報処理学会論文誌データベース(TOD)

出版者

情報処理学会

2

4

開始ページ

24

終了ページ

31

発行又は発表の年月

2009-12-24

査読の有無

無し

依頼の有無

無し

記述言語

日本語

掲載種別

 

国際・国内誌

 

国際共著

 

ISSN

 

eISSN

 

DOI

 

Cinii Articles ID

 

Cinii Books ID

 

Pubmed ID

 

PubMed Central 記事ID

 

形式

無償ダウンロード

JGlobalID

 

arXiv ID

 

ORCIDのPut Code

 

DBLP ID