CML是严格基于XML语法规范构建的专用领域标记语言,专为精确表达化学信息而设计;它定义化学语义明确的标签体系,需通过Schema校验才能确保化学合法性,支持多维化学数据的结构化存储与FAIR管理。

lxml配合cml.xsd校验的Python脚本)才能正确解释“哪个是氧”、“order="2"代表双键”。
怎么写一个合法的CML分子结构?
核心是三要素:一个容器、若干声明原子、一组描述连接关系。所有原子必须有id,键通过atomRefs2引用两个原子ID。
-
elementType必须是标准元素符号(如"C"、"O"),不能写"carbon"或小写"c" -
x3/y3/z3是可选的三维坐标;若省略,只靠也能表示拓扑结构(即连接性),但失去几何信息 - 没有
定义却在atomRefs2里引用——XML解析会成功,但化学工具通常报“undefined atom reference”错误
为什么不用SMILES而选CML?
SMILES是紧凑字符串,适合数据库索引和快速比对;CML是结构化文档,适合承载多维化学数据。当你需要同时存下:分子结构 + NMR位移表 + 晶体空间群 + 反应条件注释 + 实验者签名——SMILES做不到,而CML用嵌套标签天然支持。
本文档主要讲述的是Python开发网站指南;HTML是网络的通用语言,一种简单、通用的全置标记语言。它允许网页制作人建立文本与图片相结合的复杂页面,这些页面可以被网上任何其他人浏览到,无论使用的是什么类型的电脑或浏览器 Python和其他程序语言一样,有自身的一套流程控制语句,而且这些语句的语法和其它程序语言类似,都有for, if ,while 类的关键字来表达程序流程。希望本文档会给有需要的朋友带来帮助;感兴趣的朋友可以过来看看
- SMILES无法表达立体化学细节(如R/S构型)或部分氢缺失的金属配合物;CML用
formalCharge、spinMultiplicity、isotopeNumber等属性直接建模 - CML可内嵌
或存光谱数据,甚至用加DC元数据(如dc:creator) - 浏览器直接打开CML文件不会渲染分子——它不是HTML;需配合XSLT转换或用JSmol等JS库解析后绘图
常见解析失败原因和对策
用Python的xml.etree.ElementTree能加载CML,但容易漏掉关键约束。真正校验是否“化学合法”,得靠Schema。
- 忘记声明命名空间:
xmlns="http://www.xml-cml.org/schema"必须出现在或根节点,否则会被当成无意义自定义标签 - 用
lxml时未加载cml.xsd校验,导致elementType="Xx"这种非法元素名被静默接受 - 某些老工具(如旧版MarvinSketch)导出的CML含
convention="cmlDict"等过时属性,新解析器可能忽略或报错 - 中文路径或含空格的文件名传给Java系工具(如Jmol)时,常因URL编码问题加载失败——改用绝对路径+URL编码(
file:///home/user/%E6%B0%B4.cml)









