소개
이번 글에서는 사칙연산식을 범용 계산기처럼 파싱하고 계산하는 방법을 알려드리겠습니다. 작업이 끝나면 1+2*-(-3+2)/5.6+3과 같은 표현식을 처리할 수 있는 계산기를 갖게 됩니다. 물론 더 강력하게 확장할 수도 있습니다.
문법분석과 형식문법(편찬원리 내용)을 간단하고 흥미롭게 설명할 수 있는 강좌를 제공하고자 하는 것이 원래 의도였습니다. 동시에 제가 몇 년 동안 간헐적으로 개선해온 구문 분석 인터페이스인 PlyPlus를 소개하고 싶습니다. 이 과정의 추가 기능으로 eval()을 안전하게 대체할 수 있습니다.
이 기사에 제공된 예제를 자신의 컴퓨터에서 시도하려면 먼저 pip install plyplus 명령을 사용하여 PlyPlus를 설치해야 합니다. (번역자 주: pip는 Python으로 작성된 소프트웨어 패키지를 설치하는 데 사용되는 패키지 관리 시스템입니다. 구체적인 사용법은 Baidu 또는 Google에서 찾을 수 있으므로 자세히 설명하지 않겠습니다.)
이 기사에는 다음이 필요합니다. Python의 상속 사용을 이해합니다.
문법
파싱 및 형식적 문법의 작동 방식을 이해하지 못하는 분들을 위해 다음과 같은 간단한 개요를 제공합니다. 형식적 문법이 사용됩니다. 다양한 수준에서 텍스트를 구문 분석합니다. 각 규칙은 입력 텍스트의 해당 부분이 구성되는 방식을 설명합니다.
다음은 1+2+3+4를 구문 분석하는 방법을 보여주는 예입니다.
규칙 #1 - 추가는 추가 + 숫자로 이루어집니다 ;
파서는 매번 add+number 또는 number+number를 찾고, 찾으면 add로 변환합니다. 기본적으로 모든 파서의 목표는 가능한 최고 수준의 표현 추상화를 찾는 것입니다.
파서의 각 단계는 다음과 같습니다.
숫자 + 숫자 + 숫자 + 숫자
첫 번째 변환은 모든 숫자를 "숫자" 규칙으로 바꿉니다
[숫자 + 숫자] + 숫자 + 숫자
파서가 첫 번째로 일치하는 패턴을 찾았습니다!
[추가 + 숫자] + 숫자
패턴으로 변환한 후 다음
[추가 + 숫자]
추가
이 순서 기호는 레벨에서 숫자+숫자 및 더하기+숫자의 두 가지 간단한 규칙이 됩니다. 이렇게 하면 이 두 가지 문제를 해결했는지 컴퓨터에 알리기만 하면 전체 표현식을 구문 분석할 수 있습니다. 사실 덧셈 순서가 아무리 길어도 풀 수 있는 것이 바로 형식문법의 힘입니다! 연산자 우선순위산술 표현식은 기호의 선형적 증가가 아니라 연산자가 암시적 계층 구조를 생성하므로 형식 문법에 매우 적합합니다.
1 + 2 * 3 / 4 - 5 + 6
다음과 같습니다.
1 + (2 * 3 / 4) - 5 + 6
중첩된 규칙을 통해 이 문법의 구조를 표현할 수 있습니다:
| mul ;mul: mul'*'번호 | 숫자'*'번호 | > ;그러나 mul이 add가 될 수 있고 number가 mul이 될 수 있다면 일부 줄의 내용이 중복될 것입니다. 이를 버리면 다음과 같은 결과가 나옵니다. add: add'+'mul | mul ;mul: mul'*'number
| 숫자 ;이 새로운 구문을 사용하여 1+2*3*4를 시뮬레이션해 보겠습니다. 숫자 + 숫자 * 숫자 * 숫자
현재 숫자*숫자에 대한 규칙은 없지만 파서는 "창의력을 발휘"할 수 있습니다. 숫자 + [숫자] * 숫자 * 숫자
숫자 + [mul * 숫자] * 숫자숫자 + [물 * 숫자][숫자] + 물[물] + 물
[추가 + 물]
추가성공! ! !
이것이 놀랍다고 생각되면 다른 산술 표현식으로 시뮬레이션을 시도한 다음 해당 표현식이 어떻게 올바른 방식으로 문제를 단계별로 해결할 수 있는지 확인하세요. 아니면 기다렸다가 다음 섹션을 읽고 컴퓨터가 단계별로 어떻게 작동하는지 확인하세요!
파서 실행
이제 문법 작업을 수행하는 방법에 대한 꽤 좋은 아이디어를 얻었으므로 적용할 실제 문법을 작성해 보겠습니다.
start: 추가 ; d.]+'; // 십진수에 대한 정규 표현식
mul_symbol:'*'|'/';// * 일치 또는 /
add_symbol:'+'|'- ';// + 또는 - 일치
정규 표현식을 다시 살펴보고 싶을 수도 있지만, 이에 관계없이 구문은 매우 간단합니다. 다음 표현식으로 테스트해 보겠습니다.
>>>fromplyplusimportGrammar
>>> g=Grammar("""...""")
>>>printg .parse('1+2*3-5').pretty()
시작
추가
추가
추가
mul
숫자
1
add_symbol
+
mul
mul
숫자
2
mul_symbol
*
숫자
3
add_symbol
-
mul
number
5
잘했어요!
트리를 주의 깊게 연구하고 파서가 어떤 수준을 선택하는지 확인하세요. .
이 파서를 직접 실행하고 자신만의 표현식을 사용하려면 Python만 있으면 됩니다. Pip 및 PlyPlus를 설치한 후 위 명령을 Python에 붙여넣습니다('...'를 실제 구문으로 바꾸는 것을 기억하세요~).
나무 모양 만들기
Plyplus는 자동으로 나무를 생성하지만 반드시 최적은 아닙니다. mul에 숫자를 넣고 add에 mul을 넣는 것은 계층 구조를 만드는 데에는 좋지만 이제 계층 구조가 생겼으니 부담이 됩니다. 우리는 Plyplus에게 규칙 앞에 접두사를 붙여 규칙을 "확장"(즉, 삭제)하도록 지시합니다.
@는 항상 규칙을 확장하고, #은 규칙을 평면화하며, ?는 하위 노드가 있는 경우 규칙을 확장합니다. 이 경우에는 ?가 필요합니다.
start: add;
?add: add add_symbol mul | mul; // 단지 mul인 경우 add 확장
?mul: mul mul_symbol number | / 숫자일 경우 mul 확장
number:'[d.]+';
mul_symbol:'*'|'/';
add_symbol:'+ '|'-';
트리는 새로운 문법에서 다음과 같습니다:
>>> g=Grammar("""...""")
>>>printg.parse('1+2*3-5').pretty()
시작
추가
추가
번호
1
add_symbol
+
mul
숫자
2
mul_symbol
*
숫자
3
add_symbol
-
숫자
5
아, 이게 훨씬 더 간단하고, 감히 말씀드리자면, 정말 좋아요.
괄호 처리 및 기타 기능
지금까지는 대괄호, 단위 연산자(-(1+2 ))와 같은 몇 가지 필수 기능이 분명히 누락되었습니다. , 표현식 중간에는 null 문자가 허용됩니다. 실제로 이러한 기능은 구현하기가 매우 쉽습니다. 아래에서 시도해 보겠습니다. 먼저 중요한 개념인 원자를 소개해야 합니다. 원자 내에서 발생하는 모든 연산(괄호 및 단위 연산)은 모든 덧셈 또는 곱셈 연산(비트 연산 포함)보다 우선합니다. Atom은 우선 순위 생성자일 뿐이고 문법적 의미가 없으므로 컴파일 중에 확장될 수 있도록 "@" 기호를 추가하는 데 도움을 주세요.
표현식에 공백을 표시하는 가장 간단한 방법은 다음 설명을 사용하는 것입니다. add SPACE add_symbol SPACE mul | 그러나 이 설명은 장황하고 가독성이 떨어집니다. 따라서 Plyplus가 항상 공백을 무시하도록 해야 합니다.
다음은 위의 기능을 포함한 전체 구문입니다.
start: add;
?add: (add add_symbol)? mul;
?mul: (mul mul_symbol)?atom;
@atom: neg | 숫자 |'('add')';
neg:'-'atom;
번호:'[d.]+';
mul_symbol:'*'|'/';
add_symbol:'+'|'-';
WHITESPACE:'[ t]+'(%ignore);
다음 단계인 계산을 진행하기 전에 이 구문을 이해했는지 확인하세요!
작업
이제 표현식을 계층 트리로 변환할 수 있습니다. 분기별로만 스캔하면 됩니다. .
이제 코드 작성을 시작하겠습니다. 그 전에 이 트리에 대해 두 가지를 설명해야 합니다.
1. 각 브랜치는 다음 두 가지 속성을 포함하는 인스턴스입니다.
헤드: 규칙 이름(예: 추가 또는 번호)
테일: 일치하는 모든 하위 규칙을 포함하는 목록입니다.
2.Plyplus는 기본적으로 불필요한 태그를 삭제합니다. 이 예에서는 '( ' , ')' 및 '-'가 제거되었습니다. 그러나 add 및 mul에는 자체 규칙이 있으며 Plyplus는 해당 규칙이 필요하다는 것을 알고 삭제하지 않습니다. 이러한 태그를 유지해야 하는 경우 이 기능을 수동으로 해제할 수 있지만 내 경험으로는 이렇게 하지 않고 관련 구문을 수동으로 수정하여 더 나은 결과를 얻는 것이 좋습니다.
본업으로 돌아가서 이제 코드 작성을 시작합니다. 우리는 이 트리를 스캔하기 위해 매우 간단한 변환기를 사용할 것입니다. 루트 노드에 도달할 때까지 가장 바깥쪽 분기부터 스캔을 시작하며, 우리의 임무는 스캔 방법을 알려주는 것입니다. 모든 것이 순조롭게 진행되면 항상 가장 바깥쪽 레이어부터 스캔이 시작됩니다. 어떻게 작동하는지 살펴보겠습니다.
>>>importoperator as op
>>>fromplyplusimportSTransformer
classCalc(STransformer):
def_bin_operator(self, exp):
arg1, Operator_symbol, arg2=exp.tail
'*': OP.Mul,
'/': OP.DIV} [Operator_symbol]
마지막 단계: REPL
calc=Calc() whileTrue: try: s=raw_input('> ') ExceptEOFError: break ifs=='': break tree=calc_grammar.parse(s) printcalc.transform(tree )
전체 코드는 여기에서 확인할 수 있습니다:https://github.com/erezsh/plyplus/blob/master/examples/calc.py