这个文档描述如何安全显示的有格式的用户输入。我们将讨论没有经过过滤的输出的危险,给出一个安全的显示格式化输出的方法。没有过滤输出的危险如果你仅仅获得用户的输入然后显示它,你可能会破坏你的输出页面,如一些人能恶意地在他们提交的输入框中嵌入javascript脚本:This is my comment. alert(\'Do something bad here!\')\">.<BR><BR>这样,即使用户不是恶意的,也会破坏你的一些HTML的语句,如一个表格突然中断,或是页面显示不完整。<BR><BR><BR>只显示无格式的文本<BR>这是一个最简单的解决方案,你只是将用户提交的信息显示为无格式的文本。使用htmlspecialchars()函数,将转化全部的字符为HTML的编码。<BR>如<b>将转变为<b>,这可以保证不会有意想不到的HTML标记在不适当的时候输出。<BR>这是一个好的解决方案,如果你的用户只关注没有格式的文本内容。但是,如果你给出一些可以格式化的能力,它将更好一些<BR><BR><BR>Formatting with Custom Markup Tags<BR>用户自己的标记作格式化<BR><BR>你可以提供特殊的标记给用户使用,例如,你可以允许使用<b>...加重显示,<i>...斜体显示,这样做简单的查找替换操作就可以了:<BR><BR>$output = str_replace(\"<b>\", \"<b>\", $output);<BR>$output = str_replace(\"<i>\", \"<i>\", $output);<BR><BR>再作的好一点,我们可以允许用户键入一些链接。例如,用户将允许输入[link=\"url\"]...[/link],我们将转换为<a href=\"\">...语句<BR><BR>这时,我们不能使用一个简单的查找替换,应该使用正则表达式进行替换:<BR>$output = ereg_replace(\'\[link=\"([[:graph:]]+)\"\]\', \'<a href=\"\\1\">\', $output);<BR><BR>ereg_replace()的执行就是:<BR>查找出现[link=\"...\"]的字符串,使用<a href=\"...\"> 替换它<BR>[[:graph:]]的含义是任何非空字符,有关正则表达式请看相关的文章。<BR><BR><BR>在outputlib.php的format_output()函数提供这些标记的转换,总体上的原则是:<BR>调用htmlspecialchars()将HTML标记转换成特殊编码,将不该显示的HTML标记过滤掉,<BR>然后,将一系列我们自定义的标记转换相应的HTML标记。<BR><BR><?php<BR><BR><BR>function format_output($output) {<BR>/****************************************************************************<BR>* Takes a raw string ($output) and formats it for output using a special<BR>* stripped down markup that is similar to HTML<BR>****************************************************************************/<BR><BR>$output = htmlspecialchars(stripslashes($output));<BR><BR>/* new paragraph */<BR>$output = str_replace(\'[p]\', \'<p>\', $output);<BR><BR>/* bold */<BR>$output = str_replace(\'[b]\', \'<b>\', $output);<BR>$output = str_replace(\'\', \'\', $output);<BR><BR>/* italics */<BR>$output = str_replace(\'[i]\', \'<i>\', $output);<BR>$output = str_replace(\'\', \'\', $output);<BR><BR>/* preformatted */<BR>$output = str_replace(\'[pre]\', \'<pre>\', $output);<BR>$output = str_replace(\'[/pre]\', \'\', $output);<BR><BR>/* indented blocks (blockquote) */<BR>$output = str_replace(\'[indent]\', \'<blockquote>\', $output);<BR>$output = str_replace(\'[/indent]\', \'\', $output);<BR><BR>/* anchors */<BR>$output = ereg_replace(\'\[anchor="([[:graph:]]+)"\]\', \'<a name=\"\\1\">\', $output);<BR><BR>/* links, note we try to prevent javascript in links */<BR>$output = str_replace(\'[link="javascript\', \'[link=" javascript\', $output);<BR>$output = ereg_replace(\'\[link="([[:graph:]]+)"\]\', \'<a href=\"\\1\">\', $output);<BR>$output = str_replace(\'[/link]\', \'\', $output); <BR><BR>return nl2br($output);<BR>}<BR><BR>?> <BR><BR>一些注意的地方:<BR><BR>记住替换自定义标记生成HTML标记字符串是在调用htmlspecialchars()函数之后,而不是在这个调用之前,<BR>否则你的艰苦的工作在调用htmlspecialchars()后将付之东流。<BR><BR>在经过转换之后,查找HTML代码将是替换过的,如双引号\"将成为"<BR><BR>nl2br()函数将回车换行符转换为<br>标记,也要在htmlspecialchars()之后。<BR><BR>当转换[links=\"\"] 到 <a href=\"\">, 你必须确认提交者不会插入javascript脚本,一个简单的方法去更改[link=\"javascript 到 [link=\" javascript, 这种方式将不替换,只是将原本的代码显示出来。<BR><BR>outputlib.php<BR>在浏览器中调用test.php,可以看到format_output() 的使用情况<BR><BR>正常的HTML标记不能被使用,用下列的特殊标记替换它:<BR><BR>- this is <b>bold<BR>- this is <i>italics<BR>- this is [link=\"http://www.phpbuilder.com\"]a link[/link]<BR>- this is [anchor=\"test\"]an anchor, and a [link=\"#test\"]link[/link] to the anchor<BR><BR>[p]段落<BR>[pre]预先格式化[/pre]<BR>[indent]交错文本[/indent]<BR><BR>这些只是很少的标记,当然,你可以根据你的需求随意加入更多的标记<BR><BR>Conclusion<BR>结论<BR><BR>这个讨论提供安全显示用户输入的方法,可以使用在下列程序中<BR>留言板<BR>用户建议<BR>系统公告<BR>BBS系统<BR><BR> <tr>