Wie extrahiere ich schnell Text aus PDF-Dateien mit PHP und Alibaba Cloud OCR?
Einführung:
Mit dem Aufkommen des digitalen Zeitalters werden immer mehr Dokumente im PDF-Format gespeichert. In einigen Szenarien müssen wir Text aus PDF-Dateien zur weiteren Verarbeitung und Analyse extrahieren, z. B. zur automatisierten Dokumentenverarbeitung, Informationsextraktion usw. In diesem Artikel wird erläutert, wie Sie mit PHP und dem Alibaba Cloud OCR-Dienst schnell Text aus PDF-Dateien extrahieren.
Schritt 1: Alibaba Cloud OCR-Dienst konfigurieren
Zuerst müssen wir den OCR-Dienst in Alibaba Cloud registrieren und aktivieren. Besorgen Sie sich die Zugriffsschlüssel-ID und das Zugriffsschlüsselgeheimnis und erstellen Sie eine OCR-Anwendung, um einen Schlüssel unter der Anwendung zu generieren. Diese Informationen werden im nachfolgenden Code verwendet.
Schritt 2: PHP-SDK installieren und konfigurieren
Alibaba Cloud stellt eine PHP-Version des SDK zur Verfügung. Wir können Composer verwenden, um das SDK schnell zu installieren und zu konfigurieren. Führen Sie den folgenden Befehl im Terminal aus:
composer require alibabacloud/ocr-sdk-php
Fügen Sie nach Abschluss der Installation den folgenden Code zum Projekt hinzu, führen Sie das SDK ein und konfigurieren Sie die Zugriffsschlüssel-ID und das Zugriffsschlüsselgeheimnis:
<?php use AlibabaCloudClientAlibabaCloud; use AlibabaCloudClientExceptionClientException; use AlibabaCloudClientExceptionServerException; AlibabaCloud::accessKeyClient('your-access-key-id', 'your-access-key-secret') ->regionId('cn-shanghai') ->asDefaultClient(); ?>
Ändern Sie „Ihren-Zugriffsschlüssel-“ id“ im obigen Code und „your-access-key-secret“ mit Ihren tatsächlichen Informationen.
Schritt 3: Verwenden Sie den OCR-Dienst, um PDF-Text zu extrahieren
Im PHP-Skript können wir die von Alibaba Cloud OCR bereitgestellte Schnittstelle „ocr_document_recognize“ verwenden, um die PDF-Datei zu identifizieren und den darin enthaltenen Text abzurufen.
Das Folgende ist ein Beispielcode:
try { $result = AlibabaCloud::rpc() ->product('ocr') ->scheme('https') ->version('2019-12-30') ->action('ocr_document_recognize') ->method('POST') ->host('ocr.cn-shanghai.aliyuncs.com') ->options([ 'query' => [ 'RegionId' => 'cn-shanghai', 'AccessKeyId' => 'your-access-key-id', 'AccessKeySecret' => 'your-access-key-secret', ], ]) ->request(); // 解析返回结果 $text = ''; foreach ($result['Data']['Regions'] as $region) { foreach ($region['Lines'] as $line) { $text .= $line['Text'] . " "; } } // 打印提取的文字 echo $text; } catch (ClientException $e) { echo $e->getErrorMessage() . PHP_EOL; } catch (ServerException $e) { echo $e->getErrorMessage() . PHP_EOL; }
Ersetzen Sie „Ihre-Zugriffsschlüssel-ID“ und „Ihr-Zugriffsschlüssel-Geheimnis“ im obigen Code durch Ihre tatsächlichen Informationen.
Durch die oben genannten Schritte können wir PHP und den Alibaba Cloud OCR-Dienst verwenden, um schnell Text aus PDF-Dateien zu extrahieren. Sie können den extrahierten Text entsprechend den tatsächlichen Anforderungen weiterverarbeiten und analysieren.
Zusammenfassung:
In diesem Artikel wird erläutert, wie Sie mit PHP und dem Alibaba Cloud OCR-Dienst schnell Text aus PDF-Dateien extrahieren. Durch die Konfiguration des Alibaba Cloud OCR-Dienstes und die Installation des PHP-SDK können wir die von Alibaba Cloud OCR bereitgestellte Schnittstelle verwenden, um PDF-Dateien zu identifizieren und darin Textinformationen zu extrahieren. Auf diese Weise können wir problemlos automatisierte Dokumentenverarbeitungs- und Informationsextraktionsvorgänge durchführen, um die Arbeitseffizienz zu verbessern.
Das obige ist der detaillierte Inhalt vonWie kann ich mit PHP und Alibaba Cloud OCR schnell Text aus PDF-Dateien extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!