我觉得写的代码98%都是操作字符串的,关心的问题就是字符串从哪儿来,然后把它保存到哪儿去,然后怎么显示给用户,所以我问个数据保存的问题,在数据库中怎么保存呢?
现在的动态网站,“动态内容”已经离不开html了, 而html来自于用户又会不安全,给我们防护造成困难,而如果使用“不给用户提供富文本编辑器”那整个网站出来模板内容以外,其它的内容除了文本就是文本,文章中没有图片,没有样式,清一色的文本,所以我们还是要依赖于富文本。
可是现在我有一个疑问,比如一个文章表tb_article(id,name,content),我们允许用户发布带有图片视频等媒体的文章,那么现在我有一个疑问:
用户post过来的内容是什么我们不管,我们服务器怎么处理这些数据,然后在数据库中该怎么保存呢?
我们假定一篇文章名可以为:
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
保存的时候主要防注入,展示的时候才需要防XSS。
像标题这种铁定纯文本的东西你就直接
htmlentities或者htmlspecialchars过滤。正文如果要支持富文本你还需要过滤script等敏感标签。一般有白名单标签过滤和黑名单标签过滤两种。不过还存在别人用
\uxxxx字符串绕过htmlspecialchars过滤的问题。关于你关注的性能问题,很容易用Cache解决,不必太担心。尽量在数据库里保存原始数据,在展示的环节解决XSS问题,如果过滤代码升级了,直接Flush掉Cache就行了。
另外针对现代浏览器你还可以使用CSP声明信任的script等资源域名白名单。
编码呀同学~~
你的问题可以转换为:如何防御XSS攻击
用户看不到你是怎么存储他的消息的
你在给用户展示时, 只要你不要再过滤一遍html tags就可以让用户无感知的观察到& 而不是&
病从口入。
如果你系统足够强大,或者,你根本不在乎xss,你完全可以不用提这个问题的。
你需要htmlpurifier
数据库里存储的应该是用户输入的原始内容,否则用户重新编辑的时候怎么处理?
PHP输出页面时用htmlspecialchars把特殊字符(
&,",',<,>)替换为HTML实体(&"'<>).注意,前端JS用innerHTML往页面输出HTML时也要执行类似PHP的htmlspecialchars转换,因为经过JS赋值后,Unicode字符\u003c和\u003e被转换成<和>,而PHP的htmlspecialchars并没有处理\u003c和\u003e.关于HTML标签的支持,比如允许用户输入超链接:
[url=http://www.php.net]PHP[/url]页面输出时,先用htmlspecialchars过滤,然后用正则匹配拿到[url]这对标签,转换成:
<a href="http://www.php.net">PHP</a>然后经过HTMLPurifier过滤XSS后输出,因为
http://www.php.net这个地方存在XSS注入风险,比如填的是[url=javascript:alert(String.fromCharCode(88,83,83))]PHP[/url]如果不经HTMLPurifier过滤,就会产生XSS注入.
XSS测试