タグ付けされた写真をPythonで抽出する例を詳しく解説
这篇文章主要介绍了用python找出那些被“标记”的照片的相关资料,需要的朋友可以参考下
源码传送门
环境准备
下面的两个第三方模块都可以直接通过pip快速安装,这里使用py36作为运行环境。
python3.6
requests
exifread
思路
遍历目录
拉取数据集合
遍历集合取得exif
exif信息整理,并获取实体地址
拷贝文件到结果样本目录
生成json报告文件
基础知识
下面是现今相片中会存在与GPS相关的关键字,大牛亦可一比带过~ [参考]
{ "GPSVersionID": "GPS版本", "GPSLatitudeRef": "南北纬", "GPSLatitude": "纬度", "GPSLongitudeRef": "东西经", "GPSLongitude": "经度", "GPSAltitudeRef": "海拔参照值", "GPSAltitude": "海拔", "GPSTimeStamp": "GPS时间戳", "GPSSatellites": "测量的卫星", "GPSStatus": "接收器状态", "GPSMeasureMode": "测量模式", "GPSDOP": "测量精度", "GPSSpeedRef": "速度单位", "GPSSpeed": "GPS接收器速度", "GPSTrackRef": "移动方位参照", "GPSTrack": "移动方位", "GPSImgDirectionRef": "图像方位参照", "GPSImgDirection": "图像方位", "GPSMapDatum": "地理测量资料", "GPSDestLatitudeRef": "目标纬度参照", "GPSDestLatitude": "目标纬度", "GPSDestLongitudeRef": "目标经度参照", "GPSDestLongitude": "目标经度", "GPSDestBearingRef": "目标方位参照", "GPSDestBearing": "目标方位", "GPSDestDistanceRef": "目标距离参照", "GPSDestDistance": "目标距离", "GPSProcessingMethod": "GPS处理方法名", "GPSAreaInformation": "GPS区功能变数名", "GPSDateStamp": "GPS日期", "GPSDifferential": "GPS修正" }
初始化
考虑到exifread的模块中有大量的logging输出,这里将它的level级别调到最高。 然后下边的KEY是某站在高德地图API的时候遗留下来的 我也很尴尬。。就当福利了
import os import time import json import random import logging import requests import exifread logging.basicConfig(level=logging.CRITICAL) KEY = "169d2dd7829fe45690fabec812d05bc3"
主逻辑函数
def main(): # 预设后缀列表 types = ["bmp", "jpg", "tiff", "gif", "png"] #结果数据集合 picex = [] # 文件存储路径 saves = "$" + input("| SavePath: ").strip() # 文件搜索路径 并遍历所有文件返回文件路径列表 pools = jpgwalk(input("| FindPath: "), types) #存储目录 savep = "%s/%s" % (os.getcwd().replace("\\", "/"), saves) if savep in pools: pools.remove(savep) # 遍历数据集并获取exif信息 for path in pools: res = getEXIF(path) if res: picex.append(res) # 结果报告 print("| Result %s" % len(picex)) # 如果存在结果 保存结果到json并讲相关图片复制到该目录下 if picex: #创建目录 if not os.path.exists(saves): os.mkdir(saves) #生成一个4格缩进的json文件 with open("%s/%s.json" % (saves, saves), "wb") as f: f.write(json.dumps(picex, ensure_ascii=False, indent=4).encode("utf8")) #copy图像到该目录 for item in picex: source_path = item["Filename"] with open("%s/%s" % (saves, source_path.split("/")[-1]), "wb") as f_in: with open(source_path, "rb") as f_out: f_in.write(f_out.read())
遍历方法
遍历指定及其所有下级目录,并返回全部的图片的路径集合,这里要注意的是每次扫描后的拷贝行为都会生成缓存,所以通过指定 $ 来避开。
# 获取指导目录全部的图片路径 def jpgwalk(path, types): _start = time.time() _pools = [] # 遍历该目录 并判断files后缀 如符合规则则拼接路径 for _root, _dirs, _files in os.walk(path): _pools.extend([_root.replace("\\", "/") + "/" + _item for _item in _files if _item.split(".")[-1].lower() in types and "$" not in _root]) #报告消耗时间 print("| Find %s \n| Time %.3fs" % (len(_pools), time.time() - _start)) return _pools
经纬度格式化
度分秒转浮点,方便api调用查询,因为存在一些诡异的数据比如 1/0,所以默认返回0
def cg(i): try: _ii = [float(eval(x)) for x in i[1:][:-1].split(', ')] _res = _ii[0] + _ii[1] / 60 + _ii[2] / 3600 return _res except ZeropisionError: return 0
EXIF信息整理
考虑到大部分的设备还未开始支持朝向、速度、测量依据等关键字,这里暂时只使用比较常见的,如有需要的朋友可以自行添加。毕竟得到的信息越多对社工有更大的帮助。
def getEXIF(filepath): #基础关键字 _showlist = [ 'GPS GPSDOP', 'GPS GPSMeasureMode', 'GPS GPSAltitudeRef', 'GPS GPSAltitude', 'Image Software', 'Image Model', 'Image Make' ] #GPS关键字 _XYlist = ["GPS GPSLatitude", "GPS GPSLongitude"] #时间关键字 _TimeList = ["EXIF DateTimeOrigina", "Image DateTime", "GPS GPSDate"] #初始化结果字典 _infos = { 'Filename': filepath } with open(filepath, "rb") as _files: _tags = None # 尝试去的EXIF信息 try: _tags = exifread.process_file(_files) except KeyError: return # 判断是否存在地理位置信息 _tagkeys = _tags.keys() if _tags and len(set(_tagkeys) & set(_XYlist)) == 2 and cg(str(_tags["GPS GPSLongitude"])) != 0.0: for _item in sorted(_tagkeys): if _item in _showlist: _infos[_item.split()[-1]] = str(_tags[_item]).strip() # 经纬度取值 _infos["GPS"] = (cg(str(_tags["GPS GPSLatitude"])) * float(1.0 if str(_tags.get("GPS GPSLatitudeRef", "N")) == "N" else -1.0), cg(str(_tags["GPS GPSLongitude"])) * float(1.0 if str(_tags.get("GPS GPSLongitudeRef", "E")) == "E" else -1.0)) # 获取实体地址 _infos["address"] = address(_infos["GPS"]) # 获取照片海拔高度 if "GPS GPSAltitudeRef" in _tagkeys: try: _infos["GPSAltitude"] = eval(_infos["GPSAltitude"]) except ZeropisionError: _infos["GPSAltitude"] = 0 _infos["GPSAltitude"] = "距%s%.2f米" % ("地面" if int( _infos["GPSAltitudeRef"]) == 1 else "海平面", _infos["GPSAltitude"]) del _infos["GPSAltitudeRef"] # 获取可用时间 _timeitem = list(set(_TimeList) & set(_tagkeys)) if _timeitem: _infos["Dates"] = str(_tags[_timeitem[0]]) return _infos
地址转换
一个简单的爬虫,调用高德地图api进行坐标转换,考虑到原本是跨域,这里添加基础的反防爬代码。这里有个小细节,海外的一律都取不到(包括台湾),可以通过更换googlemap的api来实现全球查询。
def address(gps): global KEY try: # 随机UA _ulist = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; 360SE)", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)", "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)", "Mozilla/5.0 (X11; U; Linux i686; rv:1.7.3) Gecko/20040913 Firefox/0.10", "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; ja) Presto/2.10.289 Version/12.00", "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36" ] # 伪造header _header = { "User-Agent": random.choice(_ulist), "Accept": "text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, */*; q=0.01", "Accept-Encoding": "gzip, deflate, sdch", "Accept-Language": "zh-CN,zh;q=0.8", "Referer": "http://www.gpsspg.com", } _res = requests.get( "http://restapi.amap.com/v3/geocode/regeo?key={2}&s=rsv3&location={1},{0}&platform=JS&logversion=2.0&sdkversion=1.3&appname=http%3A%2F%2Fwww.gpsspg.com%2Fiframe%2Fmaps%2Famap_161128.htm%3Fmapi%3D3&csid=945C5A2C-E67F-4362-B881-9608D9BC9913".format(gps[0], gps[1], KEY), headers=_header, timeout=(5, 5)) _json = _res.json() # 判断是否取得数据 if _json and _json["status"] == "1" and _json["info"] == "OK": # 返回对应地址 return _json.get("regeocode").get("formatted_address") except Exception as e: pass
实例
运行该代码 然后输入保存文件夹名和扫描位置即可
这边可以看到8019张中有396张存在有效的地理位置,打码的地方就不解释了,各位老司机~后期打算加入图像识别,和相似度识别。
下面给大家分享小编收集整理的python专题知识:
python基本语法
python多线程学习教程
python排序算法大全
以上がタグ付けされた写真をPythonで抽出する例を詳しく解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









MySQLには、無料のコミュニティバージョンと有料エンタープライズバージョンがあります。コミュニティバージョンは無料で使用および変更できますが、サポートは制限されており、安定性要件が低く、技術的な能力が強いアプリケーションに適しています。 Enterprise Editionは、安定した信頼性の高い高性能データベースを必要とするアプリケーションに対する包括的な商業サポートを提供し、サポートの支払いを喜んでいます。バージョンを選択する際に考慮される要因には、アプリケーションの重要性、予算編成、技術スキルが含まれます。完璧なオプションはなく、最も適切なオプションのみであり、特定の状況に応じて慎重に選択する必要があります。

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

MySQLは、基本的なデータストレージと管理のためにネットワーク接続なしで実行できます。ただし、他のシステムとのやり取り、リモートアクセス、または複製やクラスタリングなどの高度な機能を使用するには、ネットワーク接続が必要です。さらに、セキュリティ対策(ファイアウォールなど)、パフォーマンスの最適化(適切なネットワーク接続を選択)、およびデータバックアップは、インターネットに接続するために重要です。

MySQLデータベースパフォーマンス最適化ガイドリソース集約型アプリケーションでは、MySQLデータベースが重要な役割を果たし、大規模なトランザクションの管理を担当しています。ただし、アプリケーションのスケールが拡大すると、データベースパフォーマンスのボトルネックが制約になることがよくあります。この記事では、一連の効果的なMySQLパフォーマンス最適化戦略を検討して、アプリケーションが高負荷の下で効率的で応答性の高いままであることを保証します。実際のケースを組み合わせて、インデックス作成、クエリ最適化、データベース設計、キャッシュなどの詳細な主要なテクノロジーを説明します。 1.データベースアーキテクチャの設計と最適化されたデータベースアーキテクチャは、MySQLパフォーマンスの最適化の基礎です。いくつかのコア原則は次のとおりです。適切なデータ型を選択し、ニーズを満たす最小のデータ型を選択すると、ストレージスペースを節約するだけでなく、データ処理速度を向上させることもできます。

hadidb:軽量で高レベルのスケーラブルなPythonデータベースHadIDB(HadIDB)は、Pythonで記述された軽量データベースで、スケーラビリティが高くなっています。 PIPインストールを使用してHADIDBをインストールする:PIPINSTALLHADIDBユーザー管理CREATEユーザー:CREATEUSER()メソッド新しいユーザーを作成します。 Authentication()メソッドは、ユーザーのIDを認証します。 fromhadidb.operationimportuseruser_obj = user( "admin"、 "admin")user_obj。

Hash値として保存されているため、Navicatを介してMongoDBパスワードを直接表示することは不可能です。紛失したパスワードを取得する方法:1。パスワードのリセット。 2。構成ファイルを確認します(ハッシュ値が含まれる場合があります)。 3.コードを確認します(パスワードをハードコードできます)。

MySQLワークベンチは、構成が正しい場合、MariadBに接続できます。最初にコネクタタイプとして「mariadb」を選択します。接続構成では、ホスト、ポート、ユーザー、パスワード、およびデータベースを正しく設定します。接続をテストするときは、ユーザー名とパスワードが正しいかどうか、ポート番号が正しいかどうか、ファイアウォールが接続を許可するかどうか、データベースが存在するかどうか、MariadBサービスが開始されていることを確認してください。高度な使用法では、接続プーリングテクノロジーを使用してパフォーマンスを最適化します。一般的なエラーには、不十分な権限、ネットワーク接続の問題などが含まれます。エラーをデバッグするときは、エラー情報を慎重に分析し、デバッグツールを使用します。ネットワーク構成を最適化すると、パフォーマンスが向上する可能性があります

生産環境の場合、パフォーマンス、信頼性、セキュリティ、スケーラビリティなどの理由により、通常、MySQLを実行するためにサーバーが必要です。サーバーには通常、より強力なハードウェア、冗長構成、より厳しいセキュリティ対策があります。小規模で低負荷のアプリケーションの場合、MySQLはローカルマシンで実行できますが、リソースの消費、セキュリティリスク、メンテナンスコストを慎重に考慮する必要があります。信頼性とセキュリティを高めるには、MySQLをクラウドまたは他のサーバーに展開する必要があります。適切なサーバー構成を選択するには、アプリケーションの負荷とデータボリュームに基づいて評価が必要です。
