Web ページのテキスト情報は通常どこに保存されますか_html/css_WEB-ITnose

WBOY
リリース: 2016-06-24 12:10:26
オリジナル
1873 人が閲覧しました

卒業制作のテーマは、統計に基づいて Web ページのテキスト情報を抽出することです。そのため、一般的な Web ページがどのようなコンポーネントにテキスト情報を配置しているかを知る必要があります。これはとにかく体の中にあります

はは

はは
これを言うのは難しいですが、とにかく体の中にあります

はは

それは通常テーブルに置かれているという紙を見ました


テーブルは以前は、Web ページを作成する場合、テキストを配置するためにテーブルを使用するのが一般的でしたが、現在では多くの Web サイトが DIV+CSS の形式を使用しているため、テキストはテーブルではなく DIV に配置される場合があります。
データベースに配置することもできるので、更新や保守が簡単です

それは少し曖昧な気がします ..2 つの可能性があります: 1. 表示されるテキストであり、もちろんコンテンツを参照します。 と の間 2. Web ページを構成するすべてのコンテンツです。 の前のコードも同じだと思いますが? Web ページのコンテンツが抽出され、指定されたコンテンツが統計のために検索されるということです... つまり、これは 2 番目のケースになるはずです... 笑

これには、「特定の Web サイトの主要なデータ コンテンツ」が必要です。 Web サイトは In table 内にありますが、一部は div 内にある場合や、dl、ol、または ul 内にある場合もあります。 html hha、in< gt; 1階:
ははは

何とも言いにくいです、とにかく本文の中にあります

はは

通常はテーブルに置かれているという紙を見ました

一般的に、テキスト情報は段落

にあります、なぜなら< ;p> は標準の終端ブロック要素です。

現在の Web ページはレイアウトに div CSS を使用しています。

そのため、 に配置されるデータはすべて縦横のテーブル形式の関係を持つデータ情報です。

卒業制作のテーマは、統計に基づいて Web ページのテキスト情報を抽出することです。そのため、一般的な Web ページにテキスト情報が含まれているコンポーネントを知る必要があります。

あなたのテキスト抽出プログラムのコピーを送っていただけますか。参考になりましたか? !

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート