Jadual Kandungan
回复内容:
Rumah pembangunan bahagian belakang tutorial php 如何解析300M+的XML文件?

如何解析300M+的XML文件?

Jun 06, 2016 pm 08:35 PM
php xml

背景:
1、手上有几个大的xml文件,基本都在300M至600M之间;
2、XML内容包括title,co-author,abstract,Affiliation等;
3、用的是xmlreader进行解析;

遇到的问题:
如果解析所有内容,经常只能把XML文件的一部分解析出来,似乎是内存不够的迹象;
如果只把title或Affiliation单独解析出来,就能全部解析XML文件;

附上代码:

<code>set_time_limit(0);
header("Content-Type: text/html;charset=utf-8");
$num=0;
$reader = new XMLReader();
$reader-&gt;open("JACS.xml");
while ($reader-&gt;read()) {

    if($reader-&gt;nodeType==XMLREADER::ELEMENT) {
             if ($reader-&gt;localName == "PubmedArticle") {
                  $num++;
                  echo 'Number:'.$num;
                    while ($reader-&gt;read()) {
                       if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                if ($reader-&gt;localName == "PubDate") {
                                     while ($reader-&gt;read()){
                                         if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                               if ($reader-&gt;localName == "Year") {
                                                   $reader-&gt;read();
                                                   echo 'PublicationDate:'.$reader-&gt;value.' ';
                                                   break;
                                               }

                                         }
                                     }
                                     while ($reader-&gt;read()){
                                         if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                               if ($reader-&gt;localName == "Month") {
                                                   $reader-&gt;read();
                                                   echo $reader-&gt;value.' ';
                                                   break;
                                               }

                                         }
                                     }
                                     while ($reader-&gt;read()){
                                         if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                               if ($reader-&gt;localName == "Day") {
                                                   $reader-&gt;read();
                                                   echo $reader-&gt;value;
                                                   break;
                                               }

                                         }
                                     }
                                     echo '<br>';
                                     break;
                                   }

                            }
                        }

                    while ($reader-&gt;read()) {
                       if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                if ($reader-&gt;localName == "Title") {
                                    $reader-&gt;read();
                                    echo 'JournalName:'.$reader-&gt;value.'<br>';
                                    break;
                                }

                       }
                    }

                    while ($reader-&gt;read()) {
                       if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                if ($reader-&gt;localName == "ArticleTitle") {
                                    $reader-&gt;read();
                                    echo 'ArticleTitle:'.$reader-&gt;value.'<br>';
                                    break;
                                }

                       }
                    }

                    while ($reader-&gt;read()) {
                       if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                if ($reader-&gt;localName == "AbstractText") {
                                    $reader-&gt;read();
                                    echo 'Abstract:'.$reader-&gt;value.'<br><br>';
                                    break;
                                }

                       }
                    }




                    while ($reader-&gt;read()) {
                       if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                if ($reader-&gt;localName == "Affiliation") {
                                    $reader-&gt;read();
                                    echo 'Affiliation:'.$reader-&gt;value.'<br><br>';
                                    break;
                                }

                       }
                    }

                  }
                }
            }
    $reader-&gt;close();
}
</code>
Salin selepas log masuk
Salin selepas log masuk

回复内容:

背景:
1、手上有几个大的xml文件,基本都在300M至600M之间;
2、XML内容包括title,co-author,abstract,Affiliation等;
3、用的是xmlreader进行解析;

遇到的问题:
如果解析所有内容,经常只能把XML文件的一部分解析出来,似乎是内存不够的迹象;
如果只把title或Affiliation单独解析出来,就能全部解析XML文件;

附上代码:

<code>set_time_limit(0);
header("Content-Type: text/html;charset=utf-8");
$num=0;
$reader = new XMLReader();
$reader-&gt;open("JACS.xml");
while ($reader-&gt;read()) {

    if($reader-&gt;nodeType==XMLREADER::ELEMENT) {
             if ($reader-&gt;localName == "PubmedArticle") {
                  $num++;
                  echo 'Number:'.$num;
                    while ($reader-&gt;read()) {
                       if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                if ($reader-&gt;localName == "PubDate") {
                                     while ($reader-&gt;read()){
                                         if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                               if ($reader-&gt;localName == "Year") {
                                                   $reader-&gt;read();
                                                   echo 'PublicationDate:'.$reader-&gt;value.' ';
                                                   break;
                                               }

                                         }
                                     }
                                     while ($reader-&gt;read()){
                                         if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                               if ($reader-&gt;localName == "Month") {
                                                   $reader-&gt;read();
                                                   echo $reader-&gt;value.' ';
                                                   break;
                                               }

                                         }
                                     }
                                     while ($reader-&gt;read()){
                                         if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                               if ($reader-&gt;localName == "Day") {
                                                   $reader-&gt;read();
                                                   echo $reader-&gt;value;
                                                   break;
                                               }

                                         }
                                     }
                                     echo '<br>';
                                     break;
                                   }

                            }
                        }

                    while ($reader-&gt;read()) {
                       if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                if ($reader-&gt;localName == "Title") {
                                    $reader-&gt;read();
                                    echo 'JournalName:'.$reader-&gt;value.'<br>';
                                    break;
                                }

                       }
                    }

                    while ($reader-&gt;read()) {
                       if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                if ($reader-&gt;localName == "ArticleTitle") {
                                    $reader-&gt;read();
                                    echo 'ArticleTitle:'.$reader-&gt;value.'<br>';
                                    break;
                                }

                       }
                    }

                    while ($reader-&gt;read()) {
                       if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                if ($reader-&gt;localName == "AbstractText") {
                                    $reader-&gt;read();
                                    echo 'Abstract:'.$reader-&gt;value.'<br><br>';
                                    break;
                                }

                       }
                    }




                    while ($reader-&gt;read()) {
                       if ($reader-&gt;nodeType == XMLREADER::ELEMENT) {
                                if ($reader-&gt;localName == "Affiliation") {
                                    $reader-&gt;read();
                                    echo 'Affiliation:'.$reader-&gt;value.'<br><br>';
                                    break;
                                }

                       }
                    }

                  }
                }
            }
    $reader-&gt;close();
}
</code>
Salin selepas log masuk
Salin selepas log masuk

可以参考一下 这个 PHP处理比较大的XML文件

为啥要装那么大 txt打开那么大也死机了 多分几个文件吧

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Tag artikel panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tarikh dan Masa CakePHP Tarikh dan Masa CakePHP Sep 10, 2024 pm 05:27 PM

Tarikh dan Masa CakePHP

Panduan Pemasangan dan Naik Taraf PHP 8.4 untuk Ubuntu dan Debian Panduan Pemasangan dan Naik Taraf PHP 8.4 untuk Ubuntu dan Debian Dec 24, 2024 pm 04:42 PM

Panduan Pemasangan dan Naik Taraf PHP 8.4 untuk Ubuntu dan Debian

Muat naik Fail CakePHP Muat naik Fail CakePHP Sep 10, 2024 pm 05:27 PM

Muat naik Fail CakePHP

Penghalaan CakePHP Penghalaan CakePHP Sep 10, 2024 pm 05:25 PM

Penghalaan CakePHP

Bincangkan CakePHP Bincangkan CakePHP Sep 10, 2024 pm 05:28 PM

Bincangkan CakePHP

Konfigurasi Projek CakePHP Konfigurasi Projek CakePHP Sep 10, 2024 pm 05:25 PM

Konfigurasi Projek CakePHP

Panduan Ringkas CakePHP Panduan Ringkas CakePHP Sep 10, 2024 pm 05:27 PM

Panduan Ringkas CakePHP

Cara Menyediakan Kod Visual Studio (Kod VS) untuk Pembangunan PHP Cara Menyediakan Kod Visual Studio (Kod VS) untuk Pembangunan PHP Dec 20, 2024 am 11:31 AM

Cara Menyediakan Kod Visual Studio (Kod VS) untuk Pembangunan PHP

See all articles