ホームページ バックエンド開発 Python チュートリアル 在Python中使用SimpleParse模块进行解析的教程

在Python中使用SimpleParse模块进行解析的教程

Jun 06, 2016 am 11:24 AM
python

与大多数程序员一样,我经常需要标识存在于文本文档中的部件和结构,这些文档包括:日志文件、配置文件、分隔的数据以及格式更自由的(但还是半结构化的)报表格式。所有这些文档都拥有它们自己的“小语言”,用于规定什么能够出现在文档内。

我编写处理这些非正式解析任务的程序的方法总是有点象大杂烩,其中包括定制状态机、正则表达式以及上下文驱动的字符串测试。这些程序中的模式大概总是这样:“读一些文本,弄清是否可以用它来做些什么,然后可能再多读一些文本,一直尝试下去。”

各种形式的解析器将文档中部件和结构的描述提炼成简明、清晰和 说明性的规则,该规则规定了如何标识文档的组成部分。这里,说明性方面是最引人注目的。我所有的旧的特别的解析器都采用了这种风格:读一些字符、作决定、累加一些变量、清空、重复。正如本专栏关于函数型编程的部分文章中所评述的,程序流的方法风格相对来说容易出错并且难以维护。

正式解析器几乎总是使用扩展巴科斯范式(Extended Backus-Naur Form(EBNF))上的变体来描述它们所描述语言的“语法”。我们在这里研究的工具是这样做的,流行的编译器开发工具 YACC(及其变体)也是这样做的。基本上,EBNF 语法对您可能在文档中找到的 部件赋予名称;另外,经常将较小的部件组成较大的部件。由运算符 ― 通常和您在正则表达式中看到的符号相同 ― 来指定小部件在较大的部件中出现的频率和顺序。在解析器交谈(parser-talk)中,语法中每个命名的部件称为一个“产品(production)”。

可能读者甚至还不知道 EBNF,却已经看到过运行的 EBNF 描述了。例如,大家熟悉的 Python 语言参考大全(Python Language Reference)定义了浮点数在 Python 中是什么样子:
EBNF 样式的浮点数描述

floatnumber:    pointfloat | exponentfloat
pointfloat:     [intpart] fraction | intpart "."
exponentfloat:  (nonzerodigit digit* | pointfloat) exponent
intpart:        nonzerodigit digit* | "0"
fraction:       "." digit+
exponent:       ("e"|"E") ["+"|"-"] digit+

或者您可能见过以 EBNF 样式定义的 XML DTD 元素。例如,developerWorks 教程的

类似于:
developerWorks DTD 中 EBNF 样式的描述

代码如下:

拼写稍有不同,但是量化、交替和定序这些一般概念都存在于所有 EBNF 样式的语言语法中。
使用 SimpleParse 构建标记列表

SimpleParse 是一个有趣的工具。要使用这个模块,您需要底层模块 mxTextTools ,它用 C 实现了一个“标记引擎”。 mxTextTools (请参阅本文后面的 参考资料)的功能强大,但是相当难用。一旦在 mxTextTools 上放置了 SimpleParse 后,工作就简单多了。

使用 SimpleParse 确实很简单,因为不需要考虑 mxTextTools 的大部分复杂性。首先,应该创建一种 EBNF 样式的语法,用来描述要处理的语言。第二步是调用 mxTextTools 来创建一个 标记列表,当语法应用于文档时,该列表描述所有成功的产品。最后,使用 mxTextTools 返回的标记列表来进行实际操作。

对于本文,我们要解析的“语言”是“智能 ASCII”所使用的一组标记代码,这些代码用来表示诸如黑体、模块名以及书籍标题之类的内容。这就是先前使用 mxTextTools 来标识的同一种语言,在先前的部分中,使用正则表达式和状态机。该语言比完整的编程语言简单得多,但已经足够复杂而有代表性。

这里,我们可能需要回顾一下。 mxTextTools 提供给我们的“标记列表”是什么东西?这基本上是一个嵌套结构,它只是给出了每个产品在源文本中匹配的字符偏移量。 mxTextTools 快速遍历源文本,但是它不对源文本本身 做任何操作(至少当使用 SimpleParse 语法时不进行任何操作)。让我们研究一个简化的标记列表:
从 SimpleParse 语法生成的标记列表

(1,
 [('plain',
  0,
  15,
  [('word', 0, 4, [('alphanums', 0, 4, [])]),
  ('whitespace', 4, 5, []),
  ('word', 5, 10, [('alphanums', 5, 10, [])]),
  ('whitespace', 10, 11, []),
  ('word', 11, 14, [('alphanums', 11, 14, [])]),
  ('whitespace', 14, 15, [])]),
 ('markup',
  15,
  27,
 ...
 289)

ログイン後にコピー

中间的省略号表示了一批更多的匹配。但是我们看到的部分叙述了下列内容。根产品(“para”)取得成功并结束于偏移量 289 处(源文本的长度)。子产品“plain”的偏移量为 0 到 15。“plain”子产品本身由更小的产品组成。在“plain”产品之后,“markup”产品的偏移量为 15 到 27。这里省略了详细信息,但是第一个“markup”由组件组成,并且源文本中稍后还有另外的产品取得成功。

“智能 ASCII”的 EBNF 样式的语法

我们已经浏览了 SimpleParse + mxTextTools 所能提供的标记列表。但是我们确实需要研究用来生成这个标记列表的语法。实际工作在语法中发生。EBNF 语法读起来几乎不需加以说明(尽管 确实需要一点思考和测试来设计一个语法):
typographify.def

para      := (plain / markup)+
plain     := (word / whitespace / punctuation)+
whitespace   := [ \t\r\n]+
alphanums   := [a-zA-Z0-9]+
word      := alphanums, (wordpunct, alphanums)*, contraction?
wordpunct   := [-_]
contraction  := "'", ('am'/'clock'/'d'/'ll'/'m'/'re'/'s'/'t'/'ve')
markup     := emph / strong / module / code / title
emph      := '-', plain, '-'
strong     := '*', plain, '*'
module     := '[', plain, ']'
code      := "'", plain, "'"
title     := '_', plain, '_'
punctuation  := (safepunct / mdash)
mdash     := '--'
safepunct   := [!@#$%^&()+=|\{}:;<>,.&#63;/"]

ログイン後にコピー

这种语法和您口头描述“智能 ASCII”的方式几乎完全相同,非常清晰。段落由一些纯文本和一些标记文本组成。纯文本由某些字、空白和标点符号的集合组成。标记文本可能是强调文本、着重强调文本或模块名等等。着重强调文本由星号环绕。标记文本就是由诸如此类的部分组成的。需要考虑的是几个特性,类似于到底什么是“字”,或者可以用什么符号结束缩写,但是 EBNF 的句法不会成为障碍。

相比之下,使用正则表达式可以更精练地描述同类规则。“智能 ASCII”标记程序的第一个版本就是这样做的。但是编写这种精练难度大得多,并且以后调整也更为困难。下列代码表示了很大程度上(但不精确地)相同的规则集:
智能 ASCII 的 Python regexs

# [module] names
    
re_mods =  
    r""'([\(\s'/">]|^)\[(.*&#63;)\]([<\s\.\),:;'"&#63;!/-])"""
# *strongly emphasize* words
    
re_strong = 
    r""'([\(\s'/"]|^)\*(.*&#63;)\*([\s\.\),:;'"&#63;!/-])"""
# -emphasize- words
    
re_emph =  
    r""'([\(\s'/"]|^)-(.*&#63;)-([\s\.\),:;'"&#63;!/])"""
# _Book Title_ citations
    
re_title = 
    r""'([\(\s'/"]|^)_(.*&#63;)_([\s\.\),:;'"&#63;!/-])"""
# 'Function()" names
    
re_funcs = 
    r""'([\(\s/"]|^)'(.*&#63;)'([\s\.\),:;"&#63;!/-])"""

ログイン後にコピー

如果您发现或发明了该语言的某种经过微小更新的变体,将它和 EBNF 语法一起使用要比和那些正则表达式一起使用简单得多。此外,通常使用 mxTextTools 执行模式操作甚至更快些。

生成和使用标记列表

对于样本程序,我们将实际语法放置在一个单独的文件中。对于大多数用途而言,这种组织比较好,便于使用。通常,更改语法和更改应用程序逻辑是不同种类的任务;这些文件反映了这一点。但是我们对语法所做的全部处理就是将它作为一个字符串传递给 SimpleParse 函数,因此我们大体上可以将它包括到主应用程序中(或者甚至以某种方式动态生成它)。

让我们研究完整的(简化)标记应用程序:
typographify.py

import
     os
    from
     sys 
    import
     stdin, stdout, stderr
    from
     simpleparse 
    import
     generator
    from
     mx.TextTools 
    import
     TextTools
input = stdin.read()
decl = open(
    'typographify.def'
    ).read()
    from
     typo_html 
    import
     codes
parser = generator.buildParser(decl).parserbyname(
    'para'
    )
taglist = TextTools.tag(input, parser)
    for
     tag, beg, end, parts 
    in
     taglist[1]:
  
    if
     tag == 
    'plain'
    :
    stdout.write(input[beg:end])
  
    elif
     tag == 
    'markup'
    :
    markup = parts[0]
    mtag, mbeg, mend = markup[:3]
    start, stop = codes.get(mtag, (
    '<!-- unknown -->'
    ,
    '<!-- / -->'
    ))
    stdout.write(start + input[mbeg+1:mend-1] + stop)
stderr.write(
    'parsed %s chars of %s\n'
     % (taglist[-1], len(input)))

ログイン後にコピー

这就是它所做的。首先读入语法,然后根据语法创建一个 mxTextTools 解析器。接下来,我们将标记表/解析器应用于输入源来创建一个标记列表。最后,我们循环遍历标记列表,并且发出一些新的标记文本。当然,该循环可以对遇到的每个产品做我们所期望的任何其它事情。

由于智能 ASCII 所使用的特殊语法,源文本中的任何内容都可归类于“plain”产品或“markup”产品。因此,对于循环遍历标记列表中的单个级别,它已经足够了(除非我们正好寻找比特定标记产品级别低一级的级别,譬如“title”)。但是格式更自由的语法 ― 譬如出现在大多数编程语言中的语法 ― 可以轻松地在标记列表中向下递归,并在每个级别上寻找产品名称。例如,如果一种语法中允许嵌套标记代码,或许可以使用这种递归风格。您可能会喜欢弄清如何调整语法的练习(提示:请记住允许各产品彼此递归)。

转至输出的特殊标记代码还是存储到另一个文件中了,这是由于组织的原因而非本质原因。在这里我们使用了一个技巧,就是用一个字典作为一个 switch 语句(尽管示例中的 otherwise 情况还是太狭窄了)。这个想法就是:将来我们可能希望创建多种“输出格式”的文件,比如说 HTML、DocBook、LaTeX 或者其它格式。用于示例的特殊标记文件类似于:
typo_html.py

codes = \
{ 
    'emph'
      : (
    '<em>'
    , 
    '</em>'
    ),
 
    'strong'
     : (
    '<strong>'
    , 
    '</strong>'
    ),
 
    'module'
     : (
    '<em><code>'
    , 
    '</code></em>'
    ),
 
    'code'
      : (
    '<code>'
    , 
    '</code>'
    ),
 
    'title'
      : (
    '<cite>'
    , 
    '</cite>'
    ),
}

ログイン後にコピー

把这种格式扩展到其它输出格式很简单。

结束语

SimpleParse 为含义模糊的 mxTextTools C 模块的基本功能和速度提供了一种简明的并且十分易读的 EBNF 样式的封装器。此外,即使只是顺便学会的,许多程序员也已经相当熟悉 EBNF 语法了。关于什么更容易理解,我不能提供 证明 ― 这一点因各人的直觉而异 ― 但是我可以根据源代码长度给出量化评估。先前手工开发的 mxTypographify 模块的大小如下:

代码如下:

wc mxTypographify.py

199     776    7041 mxTypographify.py

这 199 行中,相当数量的行是注释。这些行中有 18 行是标记函数所包含的正则表达式版本,包含该标记函数是用于计时比较。但是该程序的功能基本上和上面列出的 typographify.py 的功能相同。相比之下,我们的 SimpleParse 程序,包括其支持文件在内,大小如下:

代码如下:

wc typo*.def typo*.py

19      79     645 typographify.def
20      79     721 typographify.py
 6      25     205 typo_html.py
45     183    1571 total

换句话说,行数大约只有前者的四分之一。这个版本的注释较少,但是那主要是因为 EBNF 语法的自我描述能力很强。我不希望太过强调代码行数 ― 显然,您可以通过最小化或最大化代码长度做手脚。但是通常对程序员的工作进行研究,少数实际经验结论之一是:“千行代码/人月”相当接近于常数,和语言以及库关系不大。当然,依次地,正则表达式版本是 SimpleParse 版本长度的三分之一 ― 但是我认为其表达式的密度使得它极难维护并且更难编写。总而言之,我认为 SimpleParse 是所考虑的方法中最好的。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

PHPおよびPython:さまざまなパラダイムが説明されています PHPおよびPython:さまざまなパラダイムが説明されています Apr 18, 2025 am 12:26 AM

PHPは主に手順プログラミングですが、オブジェクト指向プログラミング(OOP)もサポートしています。 Pythonは、OOP、機能、手続き上のプログラミングなど、さまざまなパラダイムをサポートしています。 PHPはWeb開発に適しており、Pythonはデータ分析や機械学習などのさまざまなアプリケーションに適しています。

PHPとPythonの選択:ガイド PHPとPythonの選択:ガイド Apr 18, 2025 am 12:24 AM

PHPはWeb開発と迅速なプロトタイピングに適しており、Pythonはデータサイエンスと機械学習に適しています。 1.PHPは、単純な構文と迅速な開発に適した動的なWeb開発に使用されます。 2。Pythonには簡潔な構文があり、複数のフィールドに適しており、強力なライブラリエコシステムがあります。

Visual StudioコードはPythonで使用できますか Visual StudioコードはPythonで使用できますか Apr 15, 2025 pm 08:18 PM

VSコードはPythonの書き込みに使用でき、Pythonアプリケーションを開発するための理想的なツールになる多くの機能を提供できます。ユーザーは以下を可能にします。Python拡張機能をインストールして、コードの完了、構文の強調表示、デバッグなどの関数を取得できます。デバッガーを使用して、コードを段階的に追跡し、エラーを見つけて修正します。バージョンコントロールのためにGitを統合します。コードフォーマットツールを使用して、コードの一貫性を維持します。糸くずツールを使用して、事前に潜在的な問題を発見します。

Windows 8でコードを実行できます Windows 8でコードを実行できます Apr 15, 2025 pm 07:24 PM

VSコードはWindows 8で実行できますが、エクスペリエンスは大きくない場合があります。まず、システムが最新のパッチに更新されていることを確認してから、システムアーキテクチャに一致するVSコードインストールパッケージをダウンロードして、プロンプトとしてインストールします。インストール後、一部の拡張機能はWindows 8と互換性があり、代替拡張機能を探すか、仮想マシンで新しいWindowsシステムを使用する必要があることに注意してください。必要な拡張機能をインストールして、適切に動作するかどうかを確認します。 Windows 8ではVSコードは実行可能ですが、開発エクスペリエンスとセキュリティを向上させるために、新しいWindowsシステムにアップグレードすることをお勧めします。

VSCODE拡張機能は悪意がありますか? VSCODE拡張機能は悪意がありますか? Apr 15, 2025 pm 07:57 PM

VSコード拡張機能は、悪意のあるコードの隠れ、脆弱性の活用、合法的な拡張機能としての自慰行為など、悪意のあるリスクを引き起こします。悪意のある拡張機能を識別する方法には、パブリッシャーのチェック、コメントの読み取り、コードのチェック、およびインストールに注意してください。セキュリティ対策には、セキュリティ認識、良好な習慣、定期的な更新、ウイルス対策ソフトウェアも含まれます。

Python vs. JavaScript:学習曲線と使いやすさ Python vs. JavaScript:学習曲線と使いやすさ Apr 16, 2025 am 12:12 AM

Pythonは、スムーズな学習曲線と簡潔な構文を備えた初心者により適しています。 JavaScriptは、急な学習曲線と柔軟な構文を備えたフロントエンド開発に適しています。 1。Python構文は直感的で、データサイエンスやバックエンド開発に適しています。 2。JavaScriptは柔軟で、フロントエンドおよびサーバー側のプログラミングで広く使用されています。

PHPとPython:彼らの歴史を深く掘り下げます PHPとPython:彼らの歴史を深く掘り下げます Apr 18, 2025 am 12:25 AM

PHPは1994年に発信され、Rasmuslerdorfによって開発されました。もともとはウェブサイトの訪問者を追跡するために使用され、サーバー側のスクリプト言語に徐々に進化し、Web開発で広く使用されていました。 Pythonは、1980年代後半にGuidovan Rossumによって開発され、1991年に最初にリリースされました。コードの読みやすさとシンプルさを強調し、科学的コンピューティング、データ分析、その他の分野に適しています。

ターミナルVSCODEでプログラムを実行する方法 ターミナルVSCODEでプログラムを実行する方法 Apr 15, 2025 pm 06:42 PM

VSコードでは、次の手順を通じて端末でプログラムを実行できます。コードを準備し、統合端子を開き、コードディレクトリが端末作業ディレクトリと一致していることを確認します。プログラミング言語(pythonのpython your_file_name.pyなど)に従って実行コマンドを選択して、それが正常に実行されるかどうかを確認し、エラーを解決します。デバッガーを使用して、デバッグ効率を向上させます。

See all articles