30,000文字程度の大量のhtmlデータが取得できました。ただし、最初の数単語は役に立たず、最後の数千文字だけが役立つので、そこからデータを抽出したいと考えています。正規表現を直接使用して処理すると、多くのリソースが無駄になります。正規表現を文字列の末尾から開始し、特定の位置に到達したときに停止する方法はありますか。
最初は simple_html_dom クラスを使って処理しようとしましたが、途中で行き詰まってしまいました...
毎回取得するものは必ずしも長いか短いとは限らないため、固定数を直接横取りするのは良い方法ではありません文字の。
必要なコンテンツがどこから始まっているかを正確に知ることができないため、リソースを無駄にする問題はありません
HTMLを取得する
file_get_contents
curl
HTMLを定期的に解析する希望のテキストを取得できます。
定期的に一致させるか、使用するクラスを使用してデータをフィルタリングする必要があるため、良い方法はありません。