正则表达式 - python Regex:匹配XML标签中内容

Question

总结 Parser具有通用性,处理良性的xml,解析完后你可以得到xml文档任何位置的信息.优先选择 Regex具有针对性,处理非良性的xml,当你预先知道需要匹配的信息位置,尝试Regex 在Update3中给出了一个实例。 我现在有这...

天蓬老师 · Answer

高洛峰 · Answer

說了幾次…我都嫌煩了…
XML的有自己的函式庫lxml，BS4

正規就應該用來幹它合適的活，而不是費那種腦子整XML

ringa_lee · Answer

天蓬老师 · Answer

補充3：

這裡把直接面對問題的正面回答，從補充2裡單獨提出來。

對於這個配對問題本身，我的建議是：

如果A和B是配對的，那最好能夠觀察是否存在斷行、父標籤等，能用來區分每個組的明確依據。例如有這樣的資料來源那是最好：

如果沒有，那就只好想其他辦法了。中心思想仍然是「盡量別被坑」。

主要坑人的地方在於：可能會出現連續的或。例如ABABAAABAB，那麼中間的3個A中前兩個最好是丟棄。
所以穩妥起見，最好不要一次到位的(?P.*).*(?P.*)。

我推薦的用法是：(?:<(?Pa)>(?P.*))|(?:<(?Pb)>(?P.*))，一次把所有的標籤不論是A或B全部拿到。

然後掃描一遍，只把相鄰的A和B看作一組有效資料。

注意以上程式碼全部空手寫的，沒做測試甚至沒詳細看，僅供表意參考。

補充2：

XML不標準是一個合理的理由。應對這一實際情況，我的建議是：

盡量選用支援混合/容忍模式的XML解釋器。容忍一些XML的毛病其實是許多HTML分析器的底層基礎。

不做一步到位的事情。先把每筆記錄斷開，再在每筆記錄的範圍內，去分析各個欄位的詳情。這樣至少可以把所有的問題控制在1筆記錄之內，免於「牽一發而動全身」。（參考這個答案）

永遠把Regex當作最後選擇。

另外我必須非常嚴肅的批評樓主：你又是一個XY PROBLEM的反面教材。

最開始只拿出一個非常簡單且規範的XML片段，結果兩次Update才把最後「XML可能不規範」這麼重要的內情說出口。

你這是故意留著什麼王牌，用於被批評的時候維護你脆弱的自尊嗎？！

你還能不能再脆弱一點！！！

補充1：

不能同意問題正文的Update 2。

用正規匹配正規XML，就表示只要在XML的規則之內挖幾個小坑，偷懶的程式設計師就會掉進去。

Regex解析XML我認為就是“絕對不適合實際應用”，不該是有什麼疑問的事情。如果硬要做，那就意味著實際做出的程序只能適應一些特定情況。而且如果資料來源有絲毫的改動（例如：程式設計師把少量標籤暫時註解掉了）也可能需要人類來做hotfix。結果就是把摩天大樓蓋在散沙之上，程式設計師辛苦寫出的程序不久就不能用了。這將是一場永無止境的循環。

“只要是事情，就都沒有絕對”，這個判斷本身難道不是“絕對”的？我認為原則就是原則，部分問題有明確的是非之分，有些渾水是不能攪的。如果在原則問題上這裡可以退後一點，那裡可以放過一些，那這樣寫出的程序，恐怕只能陷入一種神出鬼沒、不可捉摸的結局。

SOF上有其他說法太正常了，難道見到了就非得認可？！

唯一能肯定的就是如果用XML當作學習正規的例子，倒是做做無妨。

我寧願把這個問題徹底掀翻。

怎麼總是有人喜歡用正規表示式解析XML/HTML啊？！

啥時候用Parser還是Regex解析XML居然能夠“各有所長”，還成了個能夠商量、可以討論的問題了啊？？！！

這是需要討論的問題嗎？？？！！！

永遠不要用正規取代XML解釋器

鐵的原則！

一步不退！

再簡單的XML也不行！

因為你不能用一個簡單的正規表示式，覆蓋XML所有的複雜結構。 XML的情況之多，什麼地方雖然怪異但正確，什麼地方只是可以容忍，什麼地方應該乾脆報錯，這不是正則覆蓋的了的。

例如以下幾種情況，捫心自問：如果用正規來做，會條條都考慮到嗎？

註：

無解析文字段：「CDATA Section」 should be ignored too ]]>

對實體的轉義：content of A < B is A < B instead of A < B

自封閉標籤： is an equivalent to , shouldn't be ignored

一個元素有多個屬性值時，屬性的順序可能是隨意的

所以正規和XML解釋器是完全不同複雜度的兩個東西。混用的結果就是：代價一定會在某一天連本帶利還給你。不要因為“這樣做能達到目的”，就放棄寫堅固的程式碼。這是用身體上看似的“勤快”，去掩蓋思想上絕對的懶惰。

曾參加中學資訊學奧賽，或大學ACM/ICPC的玩家都明白一個淺顯的道理：

範例資料能通過，和整題能夠Accepted是兩個完全不同的概念。

實際的程式設計也是如此。對於這個需求，考慮到XML是一個標準，所以涉及XML的程式碼必須要「保證」他對於符合標準的XML都能工作，而不是不斷的折騰讓程式碼「看起來」適用於你設定的片面的「範例資料」。

看看這篇文章《Linux 2.6.39-rc3的一個插曲》，記住Linus Torvalds的教導：

This kind of “I broke things, so now I will jiggle things randomly until they unbreak” is not acceptable.
這種「我把事搞砸了，就隨意地調整直到事情又工作」的方式是不可接受的。