解析和遍歷一個HTML文檔

如何解析一個HTML文檔:

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

(更詳細內容可查看 解析一個HTML字符串.)

其解析器能夠盡最大可能從你提供的HTML文檔來創見一個干凈的解析結果,無論HTML的格式是否完整。比如它可以處理:

  • 沒有關閉的標簽 (比如: <p>Lorem <p>Ipsum parses to <p>Lorem</p> <p>Ipsum</p>)
  • 隱式標簽 (比如. 它可以自動將 <td>Table data</td>包裝成<table><tr><td>?)
  • 創建可靠的文檔結構(html標簽包含head 和 body,在head只出現恰當的元素)

一個文檔的對象模型

  • 文檔由多個Elements和TextNodes組成 (以及其它輔助nodes:詳細可查看:nodes package tree).
  • 其繼承結構如下:Document繼承Element繼承Node. TextNode繼承 Node.
  • 一個Element包含一個子節點集合,并擁有一個父Element。他們還提供了一個唯一的子元素過濾列表。

參見

?

?twovs.com 晉ICP備11001649號

本文由 好 twovs.com open-open.com/jsoup 提供的鏡像文件

四川快乐12开奖时间