用 PHP 讀取和編寫 XML DOM

有許多技術可用於用 PHP 讀取和編寫 XML。本文提供了三種方法讀取 XML：使用 DOM 庫、使用 SAX 解析器和使用正則表達式。還介紹了使用 DOM 和 PHP 文本模板編寫 XML。

用 PHP 讀取和編寫可擴展標記語言（XML）看起來可能有點恐怖。實際上，XML 和它的所有相關技術可能是恐怖的，但是用 PHP 讀取和編寫 XML 不一定是項恐怖的任務。首先，需要學習一點關於 XML 的知識 —— 它是什麼，用它做什麼。然後，需要學習如何用 PHP 讀取和編寫 XML，而有許多種方式可以做這件事。
本文提供了 XML 的簡短入門，然後解釋如何用 PHP 讀取和編寫 XML。
什麼是 XML？
XML 是一種數據存儲格式。它沒有定義保存什麼數據，也沒有定義數據的格式。XML 只是定義了標記和這些標記的屬性。格式良好的 XML 標記看起來像這樣：
Jack Herrington
這個標記包含一些文本：Jack Herrington。
不包含文本的 XML 標記看起來像這樣：

用 XML 對某件事進行編寫的方式不止一種。例如，這個標記形成的輸出與前一個標記相同：

也可以向 XML 標記添加屬性。例如，這個標記包含 first 和 last 屬性：

也可以用 XML 對特殊字符進行編碼。例如，& 符號可以像這樣編碼：
&
包含標記和屬性的 XML 文件如果像示例一樣格式化，就是格式良好的，這意味著標記是對稱的，字符的編碼正確。清單 1 是一份格式良好的 XML 的示例。

清單 1. XML 圖書列表示例

  

Jack Herrington
PHP Hacks
O'Reilly

Jack Herrington
Podcasting Hacks
O'Reilly

清單 1 中的 XML 包含一個圖書列表。父標記包含一組標記，每個標記又包含、

</code> 和 <code><publisher></code> 標記。</p> <p>當 XML 文檔的標記結構和內容得到外部模式文件的驗證後，XML 文檔就是正確的。模式文件可以用不同的格式指定。對於本文來說，所需要的只是格式良好的 XML。</p> <p>如果覺得 XML 看起來很像超文本標記語言（HTML），那麼就對了。XML 和 HTML 都是基於標記的語言，它們有許多相似之處。但是，要著重指出的是：雖然 XML 文檔可能是格式良好的 HTML，但不是所有的 HTML 文檔都是格式良好的 XML。換行標記（<code>br</code>）是 XML 和 HTML 之間區別的一個好例子。這個換行標記是格式良好的 HTML，但不是格式良好的 XML：</p> <code><p>This is a paragraph<br /><br />  With a line break</p> </code>   <p>這個換行標記是格式良好的 XML 和 HTML：</p> <code><p>This is a paragraph<br /><br />  With a line break</p> </code>     <p>如果要把 HTML 編寫成同樣是格式良好的 XML，請遵循 W3C 委員會的可擴展超文本標記語言（XHTML）標準（參見 <a href="http://www.ibm.com/developerworks/cn/opensource/os-xmldomphp/#resources">參考資料</a>）。所有現代的瀏覽器都能呈現 XHTML。而且，還可以用 XML 工具讀取 XHTML 並找出文檔中的數據，這比解析 HTML 容易得多。</p><br /><table border="0" cellpadding="0" cellspacing="0" width="100%"><tbody><tr><td><img src="http://www.ibm.com/i/v14/rules/blue_rule.gif" alt="" height="1" width="100%" /><br /><img alt="" src="http://www.ibm.com/i/c.gif" border="0" height="6" width="8" /></td></tr></tbody></table><table class="no-print" align="right" cellpadding="0" cellspacing="0"><tbody><tr align="right"><td><img src="http://www.ibm.com/i/c.gif" alt="" height="4" width="100%" /><br /><table border="0" cellpadding="0" cellspacing="0"><tbody><tr><td valign="middle"><br /></td><td align="right" valign="top"><br /></td></tr></tbody></table></td></tr></tbody></table><br /><br /><p><a name="N100E0"><span class="atitle">使用 DOM 庫讀取 XML</span></a></p> <p>讀取格式良好的 XML 文件最容易的方式是使用編譯成某些 PHP 安裝的文檔對象模型 （DOM）庫。DOM 庫把整個 XML 文檔讀入內存，並用節點樹表示它，如圖 1 所示。</p>    <br /><br /><a name="N100EB"><b>圖 1. 圖書 XML 的 XML DOM 樹</b></a><br /><img alt="圖書 XML 的 XML DOM 樹" src="http://www.ibm.com/developerworks/cn/opensource/os-xmldomphp/figure1.gif" height="227" width="392" /><br /><p>樹頂部的 <code>books</code> 節點有兩個 <code>book</code> 子標記。在每本書中，有 <code>author</code>、<code>publisher</code> 和 <code>title</code> 幾個節點。<code>author</code>、<code>publisher</code> 和 <code>title</code> 節點分別有包含文本的文本子節點。</p> <p>讀取圖書 XML 文件並用 DOM 顯示內容的代碼如清單 2 所示。</p>   <br /><br /><a name="N10122"><b>清單 2. 用 DOM 讀取圖書 XML</b></a><br /><table border="0" cellpadding="0" cellspacing="0" width="100%"><tbody><tr><td class="code-outline"><pre class="displaycode">  <?php  $doc = new DOMDocument();  $doc->load( 'books.xml' );<br /><br /> $books = $doc->getElementsByTagName( "book" );<br /> foreach( $books as $book )<br /> {<br /> $authors = $book->getElementsByTagName( "author" );<br /> $author = $authors->item(0)->nodeValue;<br /><br /> $publishers = $book->getElementsByTagName( "publisher" );<br /> $publisher = $publishers->item(0)->nodeValue;<br /><br /> $titles = $book->getElementsByTagName( "title" );<br /> $title = $titles->item(0)->nodeValue;<br /><br /> echo "$title - $author - $publisher\n";<br /> }<br /> ?><br /> </pre></td></tr></tbody></table><br /><p>腳本首先創建一個 <code>new DOMdocument</code> 對象，用 <code>load</code> 方法把圖書 XML 裝入這個對象。之後，腳本用 <code>getElementsByName</code> 方法得到指定名稱下的所有元素的列表。</p> <p>在 <code>book</code> 節點的循環中，腳本用 <code>getElementsByName</code> 方法獲得 <code>author</code>、<code>publisher</code> 和 <code>title</code> 標記的 <code>nodeValue</code>。<code>nodeValue</code> 是節點中的文本。腳本然後顯示這些值。</p> <p>可以在命令行上像這樣運行 PHP 腳本：</p> <code>% php e1.php<br />PHP Hacks - Jack Herrington - O'Reilly<br />Podcasting Hacks - Jack Herrington - O'Reilly<br />%</code> <p>可以看到，每個圖書塊輸出一行。這是一個良好的開始。但是，如果不能訪問 XML DOM 庫該怎麼辦？</p><br /><table border="0" cellpadding="0" cellspacing="0" width="100%"><tbody><tr><td><img src="http://www.ibm.com/i/v14/rules/blue_rule.gif" alt="" height="1" width="100%" /><br /><img alt="" src="http://www.ibm.com/i/c.gif" border="0" height="6" width="8" /></td></tr></tbody></table><table class="no-print" align="right" cellpadding="0" cellspacing="0"><tbody><tr align="right"><td><img src="http://www.ibm.com/i/c.gif" alt="" height="4" width="100%" /><br /><table border="0" cellpadding="0" cellspacing="0"><tbody><tr><td valign="middle"><br /></td><td align="right" valign="top"><br /></td></tr></tbody></table></td></tr></tbody></table><br /><br /><p><a name="N10167"><span class="atitle">用 SAX 解析器讀取 XML </span></a></p> <p>讀取 XML 的另一種方法是使用 XML Simple API（SAX）解析器。PHP 的大多數安裝都包含 SAX 解析器。SAX 解析器運行在回調模型上。每次打開或關閉一個標記時，或者每次解析器看到文本時，就用節點或文本的信息回調用戶定義的函數。</p> <p>SAX 解析器的優點是，它是真正輕量級的。解析器不會在內存中長期保持內容，所以可以用於非常巨大的文件。缺點是編寫 SAX 解析器回調是件非常麻煩的事。清單 3 顯示了使用 SAX 讀取圖書 XML 文件並顯示內容的代碼。</p>   <br /><br /><a name="N10177"><b>清單 3. 用 SAX 解析器讀取圖書 XML </b></a><br /><table border="0" cellpadding="0" cellspacing="0" width="100%"><tbody><tr><td class="code-outline"><pre class="displaycode">  <?php  $g_books = array();  $g_elem = null;   function startElement( $parser, $name, $attrs )  {  global $g_books, $g_elem;  if ( $name == 'BOOK' ) $g_books []= array();  $g_elem = $name;  }   function endElement( $parser, $name )  {  global $g_elem;  $g_elem = null;  }   function textData( $parser, $text )  {  global $g_books, $g_elem;  if ( $g_elem == 'AUTHOR' ||  $g_elem == 'PUBLISHER' ||  $g_elem == 'TITLE' )  {  $g_books[ count( $g_books ) - 1 ][ $g_elem ] = $text;  }  }   $parser = xml_parser_create();   xml_set_element_handler( $parser, "startElement", "endElement" );  xml_set_character_data_handler( $parser, "textData" );   $f = fopen( 'books.xml', 'r' );   while( $data = fread( $f, 4096 ) )  {  xml_parse( $parser, $data );  }   xml_parser_free( $parser );   foreach( $g_books as $book )  {  echo $book['TITLE']." - ".$book['AUTHOR']." - ";  echo $book['PUBLISHER']."\n";  }  ?><br /> </pre></td></tr></tbody></table><br /><p>腳本首先設置 <code>g_books</code> 數組，它在內存中容納所有圖書和圖書信息，<code>g_elem</code> 變量保存腳本目前正在處理的標記的名稱。然後腳本定義回調函數。在這個示例中，回調函數是 <code>startElement</code>、<code>endElement</code> 和 <code>textData</code>。在打開和關閉標記的時候，分別調用 <code>startElement</code> 和 <code>endElement</code> 函數。在開始和結束標記之間的文本上面，調用 <code>textData</code>。</p> <p>在這個示例中，<code>startElement</code> 標記查找 <code>book</code> 標記，在 <code>book</code> 數組中開始一個新元素。然後，<code>textData</code> 函數查看當前元素，看它是不是 <code>publisher</code>、<code>title</code> 或 <code>author</code> 標記。如果是，函數就把當前文本放入當前圖書。</p> <p>為了讓解析繼續，腳本用 <code>xml_parser_create</code> 函數創建解析器。然後，設置回調句柄。之後，腳本讀取文件並把文件的大塊內容發送到解析器。在文件讀取之後，<code>xml_parser_free</code> 函數刪除解析器。腳本的末尾輸出 <code>g_books</code> 數組的內容。</p> <p>可以看到，這比編寫 DOM 的同樣功能要困難得多。如果沒有 DOM 庫也沒有 SAX 庫該怎麼辦？還有替代方案麼？</p><br /><table border="0" cellpadding="0" cellspacing="0" width="100%"><tbody><tr><td><img src="http://www.ibm.com/i/v14/rules/blue_rule.gif" alt="" height="1" width="100%" /><br /><img alt="" src="http://www.ibm.com/i/c.gif" border="0" height="6" width="8" /></td></tr></tbody></table><table class="no-print" align="right" cellpadding="0" cellspacing="0"><tbody><tr align="right"><td><img src="http://www.ibm.com/i/c.gif" alt="" height="4" width="100%" /><br /><table border="0" cellpadding="0" cellspacing="0"><tbody><tr><td valign="middle"><br /></td><td align="right" valign="top"><br /></td></tr></tbody></table></td></tr></tbody></table><br /><br /><p><a name="N101D2"><span class="atitle">用正則表達式解析 XML</span></a></p> <p>可以肯定，即使提到這個方法，有些工程師也會批評我，但是確實可以用正則表達式解析 XML。清單 4 顯示了使用 <code>preg_</code> 函數讀取圖書文件的示例。</p><br /><br /><a name="N101E3"><b>清單 4. 用正則表達式讀取 XML</b></a><br /><table border="0" cellpadding="0" cellspacing="0" width="100%"><tbody><tr><td class="code-outline"><pre class="displaycode">  <?php  $xml = "";  $f = fopen( 'books.xml', 'r' );  while( $data = fread( $f, 4096 ) ) { $xml .= $data; }  fclose( $f );   preg_match_all( "/\<book\>(.*?)\<\/book\>/s",<br /> $xml, $bookblocks );<br /><br /> foreach( $bookblocks[1] as $block )<br /> {<br /> preg_match_all( "/\<author\>(.*?)\<\/author\>/",<br /> $block, $author );<br /> preg_match_all( "/\<title\>(.*?)\<\/title\>/",<br /> $block, $title );<br /> preg_match_all( "/\<publisher\>(.*?)\<\/publisher\>/",<br /> $block, $publisher );<br /> echo( $title[1][0]." - ".$author[1][0]." - ".<br /> $publisher[1][0]."\n" );<br /> }<br /> ?><br /></pre></td></tr></tbody></table><br /><p>請注意這個代碼有多短。開始時，它把文件讀進一個大的字符串。然後用一個 <code>regex</code> 函數讀取每個圖書項目。最後用 <code>foreach</code> 循環，在每個圖書塊間循環，並提取出 author、title 和 publisher。</p> <p>那麼，缺陷在哪呢？使用正則表達式代碼讀取 XML 的問題是，它並沒先進行檢查，確保 XML 的格式良好。這意味著在讀取之前，無法知道 XML 是否格式良好。而且，有些格式正確的 XML 可能與正則表達式不匹配，所以日後必須修改它們。</p> <p>我從不建議使用正則表達式讀取 XML，但是有時它是兼容性最好的方式，因為正則表達式函數總是可用的。不要用正則表達式讀取直接來自用戶的 XML，因為無法控制這類 XML 的格式或結構。應當一直用 DOM 庫或 SAX 解析器讀取來自用戶的 XML。</p>   <br /><table border="0" cellpadding="0" cellspacing="0" width="100%"><tbody><tr><td><img src="http://www.ibm.com/i/v14/rules/blue_rule.gif" alt="" height="1" width="100%" /><br /><img alt="" src="http://www.ibm.com/i/c.gif" border="0" height="6" width="8" /></td></tr></tbody></table><table class="no-print" align="right" cellpadding="0" cellspacing="0"><tbody><tr align="right"><td><img src="http://www.ibm.com/i/c.gif" alt="" height="4" width="100%" /><br /><table border="0" cellpadding="0" cellspacing="0"><tbody><tr><td valign="middle"><br /></td><td align="right" valign="top"><br /></td></tr></tbody></table></td></tr></tbody></table><br /><br /><p><a name="N101FB"><span class="atitle">用 DOM 編寫 XML</span></a></p> <p>讀取 XML 只是公式的一部分。該怎樣編寫 XML 呢？編寫 XML 最好的方式就是用 DOM。清單 5 顯示了 DOM 構建圖書 XML 文件的方式。</p><br /><br /><a name="N10208"><b>清單 5. 用 DOM 編寫圖書 XML</b></a><br /><table border="0" cellpadding="0" cellspacing="0" width="100%"><tbody><tr><td class="code-outline"><pre class="displaycode">  <?php  $books = array();  $books [] = array(  'title' => 'PHP Hacks',<br /> 'author' => 'Jack Herrington',<br /> 'publisher' => "O'Reilly"<br /> );<br /> $books [] = array(<br /> 'title' => 'Podcasting Hacks',<br /> 'author' => 'Jack Herrington',<br /> 'publisher' => "O'Reilly"<br /> );<br /><br /> $doc = new DOMDocument();<br /> $doc->formatOutput = true;<br /><br /> $r = $doc->createElement( "books" );<br /> $doc->appendChild( $r );<br /><br /> foreach( $books as $book )<br /> {<br /> $b = $doc->createElement( "book" );<br /><br /> $author = $doc->createElement( "author" );<br /> $author->appendChild(<br /> $doc->createTextNode( $book['author'] )<br /> );<br /> $b->appendChild( $author );<br /><br /> $title = $doc->createElement( "title" );<br /> $title->appendChild(<br /> $doc->createTextNode( $book['title'] )<br /> );<br /> $b->appendChild( $title );<br /><br /> $publisher = $doc->createElement( "publisher" );<br /> $publisher->appendChild(<br /> $doc->createTextNode( $book['publisher'] )<br /> );<br /> $b->appendChild( $publisher );<br /><br /> $r->appendChild( $b );<br /> }<br /><br /> echo $doc->saveXML();<br /> ?><br /></pre></td></tr></tbody></table><br /><p>在腳本的頂部，用一些示例圖書裝入了 <code>books</code> 數組。這個數據可以來自用戶也可以來自數據庫。</p> <p>示例圖書裝入之後，腳本創建一個 <code>new DOMDocument</code>，並把根節點 <code>books</code> 添加到它。然後腳本為每本書的 author、title 和 publisher 創建節點，並為每個節點添加文本節點。每個 <code>book</code> 節點的最後一步是重新把它添加到根節點 <code>books</code>。</p> <p>腳本的末尾用 <code>saveXML</code> 方法把 XML 輸出到控制台。（也可以用 <code>save</code> 方法創建一個 XML 文件。）腳本的輸出如清單 6 所示。</p>   <br /><br /><a name="N10238"><b>清單 6. DOM 構建腳本的輸出</b></a><br /><table border="0" cellpadding="0" cellspacing="0" width="100%"><tbody><tr><td class="code-outline"><pre class="displaycode">  % php e4.php<br /> <?xml version="1.0"?><br /> <books><br /> <book><br /> <author>Jack Herrington</author><br /> <title>PHP Hacks
O'Reilly


Jack Herrington
Podcasting Hacks
O'Reilly

%

使用 DOM 的真正價值在於它創建的 XML 總是格式正確的。但是如果不能用 DOM 創建 XML 時該怎麼辦？

用 PHP 編寫 XML
如果 DOM 不可用，可以用 PHP 的文本模板編寫 XML。清單 7 顯示了 PHP 如何構建圖書 XML 文件。

清單 7. 用 PHP 編寫圖書 XML

   'PHP Hacks',
'author' => 'Jack Herrington',
'publisher' => "O'Reilly"
);
$books [] = array(
'title' => 'Podcasting Hacks',
'author' => 'Jack Herrington',
'publisher' => "O'Reilly"
);
?>



<?php echo( $book['title'] ); ?>

腳本的頂部與 DOM 腳本類似。腳本的底部打開 books 標記，然後在每個圖書中迭代，創建 book 標記和所有的內部 title、author 和 publisher 標記。
這種方法的問題是對實體進行編碼。為了確保實體編碼正確，必須在每個項目上調用 htmlentities 函數，如清單 8 所示。

清單 8. 使用 htmlentities 函數對實體編碼




<?php echo( $title ); ?>

這就是用基本的 PHP 編寫 XML 的煩人之處。您以為自己創建了完美的 XML，但是在試圖使用數據的時候，馬上就會發現某些元素的編碼不正確。

結束語
XML 周圍總有許多誇大之處和混淆之處。但是，並不像您想像的那麼難 —— 特別是在 PHP 這樣優秀的語言中。在理解並正確地實現了 XML 之後，就會發現有許多強大的工具可以使用。XPath 和 XSLT 就是這樣兩個值得研究的工具。

參考資料
學習

您可以參閱本文在 developerWorks 全球站點上的英文原文。
在 XHTML 1.0 The Extensible HyperText Markup Language 上學習 XHTML 的標準。
找到 standards for XML。
瞭解 XML Path (XPath) language。
瞭解 XSL Transformations，這是用於轉換 XML 的語言。
請閱讀用來定義 XML 文檔結構的標準 XML Schema。
在 developerWorks 的 XML 專區找到面向 XML 開發人員的更多資源。
請訪問 developerWorks 的開放源碼專區獲得全面的 how-to 信息、工具和項目更新，幫助您用開放源碼技術開發並把它們用於 IBM 產品。

出處:http://www.ibm.com/developerworks/cn/opensource/os-xmldomphp/

PHP 程式學習筆記本

2011年9月8日星期四