首页 后端开发 php教程 PHP中将网页导出为Word文档的代码_php实例

PHP中将网页导出为Word文档的代码_php实例

May 17, 2016 am 09:11 AM
word 网页

一般,有2种方法可以导出doc文档,一种是使用com,并且作为php的一个扩展库安装到服务器上,然后创建一个com,调用它的方法。安装过office的服务器可以调用一个叫word.application的com,可以生成word文档,不过这种方式我不推荐,因为执行效率比较低(我测试了一下,在执行代码的时候,服务器会真的去打开一个word客户端)。理想的com应该是没有界面的,在后台进行数据转换,这样效果会比较好,但是这些扩展一般需要收费。

第2种方法,就是用PHP将我们的doc文档内容直接写入一个后缀为doc的文件中即可。使用这种方法不需要依赖第三方扩展,而且执行效率较高。

word本身的功能还是很强大的,它可以打开html格式的文件,并且能够保留格式,即使后缀为doc,它也能识别正常打开。这就为我们提供了方便。但是有一个问题,html格式的文件中的图片只有一个地址,真正的图片是保存在其他地方的,也就是说,如果将HTML格式写入doc中,那么doc中将不能包含图片。那我们如何创建包含图片的doc文档呢?我们可以使用和html很接近的mht格式。

mht格式和html很类似,只不过在mht格式中,外部链接进来的文件,比如图片、Javascript、CSS会被base64进行编码存储。因此,单个mht文件就可以保存一个网页中的所有资源,当然,相比html,它的尺寸也会比较大。

mht格式能被word识别吗?我将一个网页保存成mht,然后修改后缀名为doc,再用word打开,OK,word也可以识别mht文件,并且可以显示图片。

好了,既然doc可以识别mht,下面就是考虑如何将图片放入mht了。由于html代码中的图片的地址都是写在img标签的src属性中,因此,只要提取html代码中的src属性值,就可以获得图片地址。当然,有可能您获取到的是相对路径,没关系,加上URL的前缀,改成绝对路径就可以了。有了图片地址,我们就可以通过file_get_content函数获取到图片文件的具体内容,然后调用base64_encode函数将文件内容编码成base64编码,最后插入到mht文件的合适位置即可。

最后,我们有两种方法将文件发送给客户端,一种是先在服务器端生成一个doc文档,然后将这个doc文档的地址记录下来,最后,通过header("location:xx.doc");就可以让客户端下载这个doc。还有一种是直接发送html请求,修改HTML协议的header部分,将它的content-type设置为application/doc,将content-disposition设置为attachment,后面跟上文件名,发送完html协议以后,直接将文件内容发送给客户端,也可以让客户端下载到这个doc文档。

实现

通过以上的原理介绍,相信大家应该对实现的过程有个初步的了解了,下面我给出一个导出函数,这个函数可以将HTML代码导出成一个mht文档,参数有3个,其中后2个为可选参数
content:要转换的HTML代码
absolutePath: 如果HTML代码中的图片地址都是相对路径,那么这个参数就是HTML代码中缺少的绝对路径。
isEraseLink:是否去掉HTML代码中的超链接
返回值为mht的文件内容,您可以通过file_put_content将它保存成后缀名为doc的文件
这个函数的主要功能其实就是分析HTML代码中的所有图片地址,并且依次下载下来。获取到了图片的内容以后,调用MhtFileMaker类,将图片添加到mht文件中。具体的添加细节,封装在MhtFileMaker类中了。

复制代码 代码如下:

/**
* 根据HTML代码获取word文档内容
* 创建一个本质为mht的文档,该函数会分析文件内容并从远程下载页面中的图片资源
* 该函数依赖于类MhtFileMaker
* 该函数会分析img标签,提取src的属性值。但是,src的属性值必须被引号包围,否则不能提取
*
* @param string $content HTML内容
* @param string $absolutePath 网页的绝对路径。如果HTML内容里的图片路径为相对路径,那么就需要填写这个参数,来让该函数自动填补成绝对路径。这个参数最后需要以/结束
* @param bool $isEraseLink 是否去掉HTML内容中的链接
*/
function getWordDocument( $content , $absolutePath = "" , $isEraseLink = true )
{
$mht = new MhtFileMaker();
if ($isEraseLink)
$content = preg_replace('/(s*.*?s*)/i' , '$1' , $content); //去掉链接
$images = array();
$files = array();
$matches = array();
//这个算法要求src后的属性值必须使用引号括起来
if ( preg_match_all('//i',$content ,$matches ) )
{
$arrPath = $matches[1];
for ( $i=0;$i{
$path = $arrPath[$i];
$imgPath = trim( $path );
if ( $imgPath != "" )
{
$files[] = $imgPath;
if( substr($imgPath,0,7) == 'http://')
{
//绝对链接,不加前缀
}
else
{
$imgPath = $absolutePath.$imgPath;
}
$images[] = $imgPath;
}
}
}
$mht->AddContents("tmp.html",$mht->GetMimeType("tmp.html"),$content);
for ( $i=0;$i{
$image = $images[$i];
if ( @fopen($image , 'r') )
{
$imgcontent = @file_get_contents( $image );
if ( $content )
$mht->AddContents($files[$i],$mht->GetMimeType($image),$imgcontent);
}
else
{
echo "file:".$image." not exist!
";
}
}
return $mht->GetFile();
}

使用方法:
复制代码 代码如下:

$fileContent = getWordDocument($content,"http://www.yoursite.com/Music/etc/");
$fp = fopen("test.doc", 'w');
fwrite($fp, $fileContent);
fclose($fp);

其中,$content变量应该是HTML源代码,后面的链接应该是能填补HTML代码中图片相对路径的URL地址
注意,在使用这个函数之前,您需要先包含类MhtFileMaker,这个类可以帮助我们生成Mht文档。
复制代码 代码如下:

/******************************************************** ********************
类别:Mht File Maker
版本:1.2 beta
日期:02/11/2007
作者:Wudi
描述:该类可以制作.mht文件。
**************************************************** ***********************/
class MhtFileMaker{
var $config = array();
var $headers = array();
var $headers_exists = array();
var $files = array();
var $boundary;
var $dir_base;
var $page_first;
function MhtFile($config = array()){
}
function SetHeader($header){
$this->headers[] = $header;
$key = strtolower(substr($header, 0, strpos($header, ':')));
$this->headers_exists[$key] = TRUE;
}
function SetFrom($from){
$this->SetHeader("From: $from");
}
function SetSubject($subject){
$this->SetHeader("主题:$subject");
}
function SetDate($date = NULL, $istimestamp = FALSE){
if ($date == NULL) {
$date = time();
}
if ($istimestamp == TRUE) {
$date = date('D, d M Y H:i:s O', $date);
}
$this->SetHeader("日期:$date");
}
function SetBoundary($boundary = NULL){
if ($boundary == NULL) {
$this->boundary = '--' . strtoupper(md5(mt_rand())) 。 '_MULTIPART_MIXED';
} else {
$this->boundary = $boundary;
}
}
function SetBaseDir($dir){
$this->dir_base = str_replace("\", "/", realpath($dir));
}
function SetFirstPage($filename){
$this->page_first = str_replace("\", "/", realpath("{$this->dir_base}/$filename") );
}
function AutoAddFiles(){
if (!isset($this->page_first)) {
exit ('未设置第一页。');
}
$filepath = str_replace($this->dir_base, '', $this->page_first);
$filepath = 'http://mhtfile' 。 $文件路径;
$this->AddFile($this->page_first, $filepath, NULL);
$this->AddDir($this->dir_base);
}
function AddDir($dir){
$handle_dir = opendir($dir);
while ($filename = readdir($handle_dir)) {
if (($filename!='.') && ($filename!='..') && ("$dir/$filename"! =$this->page_first)) {
if (is_dir("$dir/$filename")) {
$this->AddDir("$dir/$filename");
} elseif (is_file("$dir/$filename")) {
$filepath = str_replace($this->dir_base, '', "$dir/$filename");
$filepath = 'http://mhtfile' 。 $文件路径;
$this->AddFile("$dir/$filename", $filepath, NULL);
}
}
}
closedir($handle_dir);
}
function AddFile($filename, $filepath = NULL, $encoding = NULL){
if ($filepath == NULL) {
$filepath = $filename;
}
$mimetype = $this->GetMimeType($filename);
$filecont = file_get_contents($filename);
$this->AddContents($filepath, $mimetype, $filecont, $encoding);
}
function AddContents($filepath, $mimetype, $filecont, $encoding = NULL){
if ($encoding == NULL) {
$filecont = chunk_split(base64_encode($filecont) ,76);
$encoding = 'base64';
}
$this->files[] = array('filepath' => $filepath,
'mimetype' => $mimetype,
'filecont' => $filecont ,
'编码' => $编码);
}
function CheckHeaders(){
if (!array_key_exists('date', $this->headers_exists)) {
$this->SetDate(NULL, TRUE);
}
if ($this->boundary == NULL) {
$this->SetBoundary();
}
}
function CheckFiles(){
if (count($this->files) == 0) {
return FALSE;
} else {
返回 TRUE;
}
}
function GetFile(){
$this->CheckHeaders();
if (!$this->CheckFiles()) {
exit ('未添加文件。');
}
$contents = implode("rn", $this->headers);
$contents .= "rn";
$contents .= "MIME 版本: 1.0rn";
$contents .= "内容类型:多部分/相关;rn";
$contents .= "tboundary="{$this->boundary}";rn";
$contents .= "ttype="" . $this->files[0]['mimetype'] . ""rn";
$contents .= "X-MimeOLE:由 Mht File Maker v1.0 betan 制作";
$contents .= "rn";
$contents .= "这是一条 MIME 格式的多部分消息.rn";
$contents .= "rn";
foreach ($this->files as $file) {
$contents .= "--{$this->boundary}rn";
$contents .= "内容类型:$file[mimetype]rn";
$contents .= "内容传输编码: $file[encoding]rn";
$contents .= "内容位置:$file[filepath]rn";
$contents .= "rn";
$contents .= $file['filecont'];
$contents .= "rn";
}
$contents .= "--{$this->边界}--rn";
返回$内容;
}
function MakeFile($filename){
$contents = $this->GetFile();
$fp = fopen($filename, 'w');
fwrite($fp, $contents);
fclose($fp);
}
function GetMimeType($filename){
$pathinfo = pathinfo($filename);
switch ($pathinfo['extension']) {
case 'htm': $mimetype = 'text/html';休息;
case 'html': $mimetype = 'text/html';休息;
case 'txt': $mimetype = 'text/plain';休息;
case 'cgi': $mimetype = 'text/plain';休息;
case 'php': $mimetype = 'text/plain';休息;
case 'css': $mimetype = 'text/css';休息;
case 'jpg': $mimetype = 'image/jpeg';休息;
case 'jpeg': $mimetype = 'image/jpeg';休息;
case 'jpe': $mimetype = 'image/jpeg';休息;
case 'gif': $mimetype = 'image/gif';休息;
case 'png': $mimetype = 'image/png';休息;
默认值:$mimetype = 'application/octet-stream';休息;
}
返回 $mimetype;
}
}
?>
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
2 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

word自动换行怎么取消 word自动换行怎么取消 Mar 19, 2024 pm 10:16 PM

在word文档中进行编辑内容时可能会自动换行,如果这时候不调整的话,对于我们的编辑会带来很大的影响,让人十分头疼,这是怎么回事呢?其实是标尺的问题,下面小编就介绍word自动换行怎么取消的解决方法,希望能帮助大家!打开Word文档,输入文字后,尝试复制并粘贴时可能会导致文本跳转到新行,这时需调整设置以解决该问题。2.要解决这个问题,我们首先要知道出现这个问题的原因。这时我们单击工具栏下的视图。3.然后再点击下面的“标尺”选项。4.这个时候我们会发现,文档的上方出现了一个标尺,标尺上面有几个锥形标

Word怎么显示标尺以及标尺的操作方法详解! Word怎么显示标尺以及标尺的操作方法详解! Mar 20, 2024 am 10:46 AM

我们在使用Word的时候,为了编辑内容更好美观,我们经常会使用标尺。要知道,在Word中的标尺包括水平标尺和垂直标尺,用于显示和调整文档的页边距、段落缩进、制表符等。那么,Word中的标尺怎么显示出来的呢?下面,我就来教大家设置标尺的显示方法。有需要的同学赶紧收藏起来吧!步骤如下:1、首先,我们需要把word标尺调出来,默认的word文档是不显示word标尺的,我们只需要点击word中的【视图】的按钮。2、然后,我们找到【标尺】的选项,勾选就可以了。这样一来,word标尺就被我们调出来了!是不是

word文档怎么加手写签名 word文档怎么加手写签名 Mar 20, 2024 pm 08:56 PM

Word文档由于功能的强大被大家广泛使用,word里不但可以插入各种格式,比如图片和表格等等,现在为了文件的完整性真实性,好多文件都需要在文档末尾加入手工签名,听起来这么复杂的问题怎么解决呢,今天小编就教大家word文档怎么加手写签名。使用扫描仪、相机或手机对手写签名进行扫描或拍摄,然后通过PS或其他图片编辑软件对图片进行必要的裁剪处理。2.在要插入手写签名的Word文档中选择“插入—图片—来自文件”,选择裁剪好的手写签名。3.鼠标双击手写签名图片(或右击图片选择“设置图片格式”),弹出“设置图

如何为Word设置页边距 如何为Word设置页边距 Mar 19, 2024 pm 10:00 PM

办公软件中Word是我们最常用的软件之一,我们制作的文字文档一般都会用Word进行操作,有些文档按要求还需要提交纸质版,在进行打印之前,一定要把布局设置好,才能呈现出更好的效果。那么问题来了,Word设置页边距的方法是什么呢?我们有具体的课程讲解为大家解决疑惑。1、打开或新建一个word文档,单击菜单栏上的“页面布局”菜单。2、单击“页面设置”选项的“页边距”按钮。3、在列表中选择常用的页边距。4、如果列表中没有合适的页边距,单击“自定义边距”。5、弹出“页面设置”对话框,在“页边距”选项分别输

word中底纹设置在哪 word中底纹设置在哪 Mar 20, 2024 am 08:16 AM

我们平时经常使用word来办公,但是你是否知道word中底纹设置在哪呢?今天我就来跟大家分享具体的操作步骤,小伙伴们快来看一看吧!1.首先,打开word文档,选中一段需要添加底纹的文字段落信息,然后点击工具栏上的【开始】按钮,找到段落区域,点击右侧的下拉按钮,(如下图红色圈出部分所示)。2.点击下拉框按钮之后,在弹出的菜单选项中,点击【边框和底纹】选项,(如下图红色圈出部分所示)。3.在弹出的【边框和底纹】对话框中,点击【底纹】的这个选项,(如下图红色圈出部分所示)。4.在填充的那一栏,选择颜色

word虚线怎么画 word虚线怎么画 Mar 19, 2024 pm 10:25 PM

word是我们办公经常会用到的软件,里边有很多功能,可以便捷我们的操作,例如:大篇文章的话,我们可以使用里边的查找功能,知道全文里边某个字错了,可以直接替换不用一个个去更改了;向上级交文档的时候可以把文档美化的更好看等等操作,下面小编就来给大家分享word虚线怎么画的步骤,大家一起来学习吧!1.首先,我们打开电脑上的word文档,如下图所示:2.然后,在文档里边输入一串文字,如下图红色圈出部分所示:3.接下来,按住【ctrl+A】选中全部文字,如下图红色圈出部分所示:4.点击菜单栏上边的【开始】

word序号如何自动排序 word序号如何自动排序 Mar 20, 2024 pm 09:20 PM

在word里边内容多的时候,会有很多章节,我们不可能一个章节一个的进行编写,其实我们可以使用word序号自动排序,操作简单方法还方便,不知道怎么操作的小伙伴们快来学习一下吧!1.首先,我们在电脑上打开要处理的文档,如下图所示:2.打开文档后,选择需要自动排序的文字,本示例选择【第1章】和【第2章】按住Ctrl键实现选择多个区域,选定后用鼠标点击Word的【开始】菜单,如下图红色圈出部分所示:3.点击【段落】工具栏上面的编号右边的小三角符号,在弹出菜单中点击需要选择的序号类型,如下图红色箭头指向所

你知道Word表格怎么求和吗 你知道Word表格怎么求和吗 Mar 21, 2024 pm 01:10 PM

有时候,我们在Word表格中会经常遇到计数的问题;一般遇到这样的问题,大部分同学都回把Word表格复制到Excel中来计算;还有一部分同学会默默地拿起计算器去算。那有没有快速的方法来计算呢?当然有啊,其实在Word中也是可以计算求和的。那么,你知道该怎么操作吗?今天,我们就来一起来看一下吧!废话不多说,有需要的小伙伴赶紧收藏起来吧!步骤详情:1、首先,我们打开电脑上的Word软件,打开需要处理的文档。(如图所示)2、接着,我们将光标定位在求和数值所在的单元格上(如图所示);然后,我们点击【菜单栏

See all articles