如何解析300M+的XML文件?
背景:
1、手上有几个大的xml文件,基本都在300M至600M之间;
2、XML内容包括title,co-author,abstract,Affiliation等;
3、用的是xmlreader进行解析;
遇到的问题:
如果解析所有内容,经常只能把XML文件的一部分解析出来,似乎是内存不够的迹象;
如果只把title或Affiliation单独解析出来,就能全部解析XML文件;
附上代码:
<code>set_time_limit(0); header("Content-Type: text/html;charset=utf-8"); $num=0; $reader = new XMLReader(); $reader->open("JACS.xml"); while ($reader->read()) { if($reader->nodeType==XMLREADER::ELEMENT) { if ($reader->localName == "PubmedArticle") { $num++; echo 'Number:'.$num; while ($reader->read()) { if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "PubDate") { while ($reader->read()){ if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "Year") { $reader->read(); echo 'PublicationDate:'.$reader->value.' '; break; } } } while ($reader->read()){ if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "Month") { $reader->read(); echo $reader->value.' '; break; } } } while ($reader->read()){ if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "Day") { $reader->read(); echo $reader->value; break; } } } echo '<br>'; break; } } } while ($reader->read()) { if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "Title") { $reader->read(); echo 'JournalName:'.$reader->value.'<br>'; break; } } } while ($reader->read()) { if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "ArticleTitle") { $reader->read(); echo 'ArticleTitle:'.$reader->value.'<br>'; break; } } } while ($reader->read()) { if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "AbstractText") { $reader->read(); echo 'Abstract:'.$reader->value.'<br><br>'; break; } } } while ($reader->read()) { if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "Affiliation") { $reader->read(); echo 'Affiliation:'.$reader->value.'<br><br>'; break; } } } } } } $reader->close(); } </code>
回复内容:
背景:
1、手上有几个大的xml文件,基本都在300M至600M之间;
2、XML内容包括title,co-author,abstract,Affiliation等;
3、用的是xmlreader进行解析;
遇到的问题:
如果解析所有内容,经常只能把XML文件的一部分解析出来,似乎是内存不够的迹象;
如果只把title或Affiliation单独解析出来,就能全部解析XML文件;
附上代码:
<code>set_time_limit(0); header("Content-Type: text/html;charset=utf-8"); $num=0; $reader = new XMLReader(); $reader->open("JACS.xml"); while ($reader->read()) { if($reader->nodeType==XMLREADER::ELEMENT) { if ($reader->localName == "PubmedArticle") { $num++; echo 'Number:'.$num; while ($reader->read()) { if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "PubDate") { while ($reader->read()){ if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "Year") { $reader->read(); echo 'PublicationDate:'.$reader->value.' '; break; } } } while ($reader->read()){ if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "Month") { $reader->read(); echo $reader->value.' '; break; } } } while ($reader->read()){ if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "Day") { $reader->read(); echo $reader->value; break; } } } echo '<br>'; break; } } } while ($reader->read()) { if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "Title") { $reader->read(); echo 'JournalName:'.$reader->value.'<br>'; break; } } } while ($reader->read()) { if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "ArticleTitle") { $reader->read(); echo 'ArticleTitle:'.$reader->value.'<br>'; break; } } } while ($reader->read()) { if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "AbstractText") { $reader->read(); echo 'Abstract:'.$reader->value.'<br><br>'; break; } } } while ($reader->read()) { if ($reader->nodeType == XMLREADER::ELEMENT) { if ($reader->localName == "Affiliation") { $reader->read(); echo 'Affiliation:'.$reader->value.'<br><br>'; break; } } } } } } $reader->close(); } </code>
可以参考一下 这个 PHP处理比较大的XML文件
为啥要装那么大 txt打开那么大也死机了 多分几个文件吧

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

PHP和Python各有優勢,選擇依據項目需求。 1.PHP適合web開發,尤其快速開發和維護網站。 2.Python適用於數據科學、機器學習和人工智能,語法簡潔,適合初學者。

PHP在電子商務、內容管理系統和API開發中廣泛應用。 1)電子商務:用於購物車功能和支付處理。 2)內容管理系統:用於動態內容生成和用戶管理。 3)API開發:用於RESTfulAPI開發和API安全性。通過性能優化和最佳實踐,PHP應用的效率和可維護性得以提升。

PHP和Python各有優劣,選擇取決於項目需求和個人偏好。 1.PHP適合快速開發和維護大型Web應用。 2.Python在數據科學和機器學習領域佔據主導地位。

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。

PHP在數據庫操作和服務器端邏輯處理中使用MySQLi和PDO擴展進行數據庫交互,並通過會話管理等功能處理服務器端邏輯。 1)使用MySQLi或PDO連接數據庫,執行SQL查詢。 2)通過會話管理等功能處理HTTP請求和用戶狀態。 3)使用事務確保數據庫操作的原子性。 4)防止SQL注入,使用異常處理和關閉連接來調試。 5)通過索引和緩存優化性能,編寫可讀性高的代碼並進行錯誤處理。

PHP用於構建動態網站,其核心功能包括:1.生成動態內容,通過與數據庫對接實時生成網頁;2.處理用戶交互和表單提交,驗證輸入並響應操作;3.管理會話和用戶認證,提供個性化體驗;4.優化性能和遵循最佳實踐,提升網站效率和安全性。

PHP適合網頁開發和快速原型開發,Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發,語法簡單,適合快速開發。 2.Python語法簡潔,適用於多領域,庫生態系統強大。

PHP起源於1994年,由RasmusLerdorf開發,最初用於跟踪網站訪問者,逐漸演變為服務器端腳本語言,廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發,1991年首次發布,強調代碼可讀性和簡潔性,適用於科學計算、數據分析等領域。
