지역 사회

배우다

도구 라이브러리

AI 도구

여가

한국어

집 > 백엔드 개발 > 파이썬 튜토리얼 > Python正则表达式匹配HTML页面编码

Python正则表达式匹配HTML页面编码

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

풀어 주다： 2016-06-06 11:24:04

원래의

1205명이 탐색했습니다.

html页面一般都会指定一个编码，如何获取到是处理html页面的第一步，因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个：

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']&#63;content-type["']&#63;[ ]+content=["']&#63;text/html;[ ]*charset=([0-9-a-zA-Z]+)["']&#63;"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'

로그인 후 복사

관련 라벨：

python 정규식

이전 기사：Python使用scrapy采集时伪装成HTTP/1.1的方法 다음 기사：使用IPython来操作Docker容器的入门指引

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

의미 적으로 텍스트를 압축하여 LLM 비용을 절약합니다

2025-02-25 19:29:11
선형주의

2025-02-25 19:10:11
선형화 라마

2025-02-25 18:38:08
서사시 “ 크로스 오버 ” Alphafold 3과 GPT-4O의 단백질 데이터 은행 항목에 대한 지식 사이

2025-02-25 18:16:09
llms.txt가 설명했습니다

2025-02-25 17:59:10
튜토리얼 : LLM 프롬프트가있는 사용자 메시지의 시맨틱 클러스터링

2025-02-25 17:12:10
CPU 노트북에서 LLM 및 신경망으로 로컬 음성 어시스턴트 구축

2025-02-25 17:10:11
AI 요원 과대 광고, 설명 – 시작하기 위해 정말로 알아야 할 것

2025-02-25 17:07:11
강화 래그 : 바닐라 접근을 넘어서

2025-02-25 16:38:09
Google Colab에서 언어 모델 교육

2025-02-25 15:26:10

최신 이슈

python - Python 웹 개발에 관한 관련 포럼이나 책이 있나요?

에서 1970-01-01 08:00:00

0

0

0

win10에서 Python 형식 텍스트를 만드는 방법

에서 1970-01-01 08:00:00

0

0

0

Python scrapy 크롤러 오류

에서 1970-01-01 08:00:00

0

0

0

python - Ubuntu16.04 lxml 오류 보고

에서 1970-01-01 08:00:00

0

0

0

기술 문서 게시를 위한 Python 카테고리가 없는 이유는 무엇입니까?

에서 1970-01-01 08:00:00

0

0

0

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿