二つの重要そうな技術を語ります

ひとつはWebサービス。

2000年頃のWebサービスの不幸は、

その技術が目指すべき目標、
その技術が背景とすべき理論
それを実現しようという実装

の区分がはっきりしていなかったことだと思う。だから、あいまいな目標のもと、なんら理論だってない中途半端な実装屋駆動の標準が乱造されて、今に至っているのだと思う。それが間違い。というか自分自身の反省。
最近だが、目標についてはどうもクラウドというBuzzWordで表現できそうという認識が徐々に高まってきている。
そして、その目標に必要な理論は何かを示す課題設定が徐々に明確になってきていると思う（陳腐な言葉で申し訳ないが、やはり「疎結合」が重要であるようだ）。そして、しっかりとした理論を背景とした実装がでれば、徐々に利用されていくようになると思われる。それは、RDBが、背景に集合論という理論基盤があるからこそ、メジャーであり続けていることからもわかる。mixiで見れる方はこのエントリでアフォードされてください。最近ようやくこの人のエントリの言いたいことが何となくわかってきた。
俺の考えるClosure指向アーキテクチャ設計手法も絶対この領域で議論できるものになるだろう。

Mextractr

そして、今注目すべきと思うのが、この技術。文書から5W1H。これは欲しい。今やっているリエンジニアリングのキーになりえる技術と思う。この技術で、雑多な文書から5W1Hを抽出。この技術で5W1Hを取得できること自身も重要だが、さらに重要なのは2点。

ひとつは語彙辞書。個々の文書から5W1Hを取得して、それぞれの文書で現れる語彙を意味的な観点で結びつければ、異なる言葉の意味が整理できるわけで、そこで語彙辞書を作成することができると思う。
次は、文書の優先付け、傾向情報。要するに、5W1Hが「どの文書形式やどの物理フォルダやどの時間の文書から、より欲しい情報が取得できたか」という傾向情報を取得し、そこから、どの文書をみっちり調査すべきかがわかるというもの

二つの観点をみてわかるように、この技術で非構造的なすべて文書を構造化できるとは思っていない。むしろ、「機械的にはで構造化できなかった情報が何かを抽出」できることがこの技術の利用可能性だと思う。
ぜひ使ってみたい。