HTMLアダプタは、既存のWebアプリケーションからHTMLを取得します。取得したHTMLは、HTMLフィルタ機能を利用して正規化し、XML情報としてマッシュアッププロキシに返却します。また、スクレイピング機能を利用して、データを切り出すこともできます。
HTMLアダプタの機能
HTMLアダプタでは、以下の機能を提供します。
HTMLフィルタ機能
HTMLフィルタ機能は、HTMLをXHTMLに変換する機能です。HTMLフィルタ機能を利用して、各サービスから取得したHTMLを正規化することができます。
以下の表に、タグを正規化する例を示します。
変換前 | 変換後 |
---|---|
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> | <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> |
<img src="/pwimage/logon.gif" > | <img src="/pwimage/logon.gif" /> |
閉じられていないtable | </table>を補完する |
なお、スクリプトとして動作する以下のタグは、すべて削除されます。
script
style
object
embed
link
applet
iframe
frame
frameset
layer
ilayer
meta
また、タグに以下の属性を含む場合、属性だけが削除されます。
onで始まる属性
id
class
tabindex
スクレイピング機能
スクレイピング機能は、HTMLフィルタ機能で変換したXHTMLを、XSLTプロセッサを使用して、XMLとして部分切り出しする機能です。スクレイピング機能を利用して、各サービスから取得したデータのうち、実際に必要なデータだけを切り出すことができます。
アダプタ管理では、スクレイピング機能をユーティリティ(スクレイピングツール)として提供します。スクレイピングツールの使用方法については、“付録G スクレイピングツール”を参照してください。
パラメタの設定
HTMLアダプタには、以下のパラメタが設定できます。
キー | 値 | 省略 | 記述例 |
---|---|---|---|
URL | HTMLを返却するWebサービスのURLを指定します。 | × | http://jp.fujitsu.com |
XSL | スクレイピングツールで作成したXSLファイル名を指定します。(注) | ○ | rss.xsl |
○: 可能、×: 不可能
注) XSLファイルは[コンテキストルート]/WEB-INF/xslフォルダ配下に格納してください。
パラメタは、マッシュアップ定義ファイルに設定します。設定方法については“5.9.11 マッシュアップ定義ファイルの編集(Eclipse)”を、設定内容については“B.4 サービスの定義(muf_services)”を参照してください。