网页正文信息一般存储在哪里_html/css_WEB-ITnose

WBOY
Lepaskan: 2016-06-24 12:10:26
asal
1873 orang telah melayarinya

毕业设计的题目是基于统计的网页正文信息抽取,因次需要知道一般的网页都把正文信息放在什么组件里面啊


回复讨论(解决方案)

呵呵 
这个不好说 反正在body里面
哈哈

呵呵 
这个不好说 反正在body里面 
哈哈
看到一篇论文说一般是放在table里的

table是表格,以前做网页一般都是用表格来做排版和放置正文,现在很多网站都是用DIV+CSS的形式来,那么文字就可能是放在DIV中,而并非表格

也可以放在数据库里面,更新,维护容易

感觉说得比较模糊...有两种可能:1,是显示的正文,这里当然是指

和之间的内容,2,网页正文,即组成该网页的所以内容,也即和之间的内容(前面那句代码估计也是吧?不清楚),这好象是网络爬虫搜索的内容,根据你的题目(基于统计的网页正文信息抽取)估计是通过提取web页面内容然后搜索指定内容进行统计...所以应该上第二种情况...呵呵

这要“具体网站具体分析”了吧,有的网站主要数据内容是在table中,有的却可能在div,甚至dl、ol、ul中。

放在html里呵呵,

放在里




这不都扯淡的么

爱放哪儿就放哪儿

引用 1 楼 xming4321 的回复:
呵呵 
这个不好说 反正在body里面 
哈哈 
 
看到一篇论文说一般是放在table里的
一般正文信息在段落

中,因为

才是符合标准的终端块状元素,
现在的网页都用div css进行排版,
所以放在

中的都是些存在纵横表格式关系的数据信息。

毕业设计的题目是基于统计的网页正文信息抽取,因次需要知道一般的网页都把正文信息放在什么组件里面啊
请问楼主的正文抽取程序搞定了吗 能不能发我一份参考一下 非常感谢!!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan