共同研究・競争的資金等の研究課題

基本情報

氏名 中藤 哲也
氏名(カナ) ナカトウ テツヤ
氏名(英語) NAKATOU TETSUYA
所属 中村学園大学 栄養科学部 栄養科学科
職名 准教授

タイトル

リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

提供機関

文部科学省

制度名

科学研究費補助金(特定領域研究)

研究機関

九州大学

研究期間(From)

2004

研究期間(To)

2005

担当区分

連携研究者

担当研究者

廣川佐千男
伊東栄典
池田大輔
中藤哲也

研究種目

特定領域研究

形式

URL

研究概要

Webには膨大な数のページが存在し、各ページは様々な記述形式で記述されている。多量な同系統文書群は高品質であるというヒューリスティックに基づき、Web上の高品質文書群を効率良く発見・統合するための研究を行なった。本研究では、発見、選集、抽出、統合、の四段階に分けて研究を進めた。「発見」については、トピックに関するページを広大なWeb空間から発見する研究と、特定トピックに関する同系統文書群の持つ、文書の構造を発見する研究を行なった。前者については、自己学習型トピッククローラー、後者については、与えられた文書群に頻出する文字列を発見する「頻出パタン発見問題」とアルゴリズム開発の研究を行なった。「選集」については、トピッククローラーの実装を行なった。実装の中で、トピックに関するキーワードを自己学習するアルゴリズム、トピックページへ早く辿り着くためのリンク選定戦略についての研究を行なった。実装したクローラーは、与えられたトピックキーワードを用いて、そのトピックに関するページを効果的に収集することができる。抽出については、収集したWebページ群から「レコード」となる部分を抽出する手法について研究してきた。まず、集めた同系統文書群から、レコードの「属性名」と「属性値」となる部分を特定する手法について開発した。ここでは、頻出パタンの発見手法を援用している。なお、対象とする同系統文書群は、シ...

資金種別

競争的資金

国際共著