流变测试数据的XML格式问题

1. 背景

在当今科技迅速发展的时代,数据的收集、分析及交换在科研和工业领域中扮演着至关重要的角色。然而,测量设备与电子表格程序(如Microsoft Excel、Sigmaplot或Origin)之间的数据交换过程,经常因为非标准文件格式的问题而变得复杂和低效。由于不同制造商生产的设备输出的数据文件格式各不相同,且有时所需的信息并未直接包含在数据文件中,研究人员和工程师经常需要通过手工操作来传输所有必要的数据,这无疑浪费了大量宝贵的时间和资源。此外,不同实验室之间的测量文件交换也面临着类似的问题,缺乏一个广泛接受的标准使得直接使用其他来源的文件成为一项挑战。

鉴于这些问题,有必要开发一种新的文件格式,以简化数据的交换过程,使研究人员能够专注于文件的内容而非其结构。这种新的文件格式不仅应适用于流变学和力学数据(这是委员会成员们主要关注的领域),也应广泛适用于如热分析、凝胶渗透色谱等其他类型的数据。

考虑到不同测量方法的规范要求和数据类型的多样性,采用固定的行列表格格式显然不是一个合适的解决方案。相反,XML(可扩展标记语言)格式在过去几年中逐渐受到更多关注,它提供了更大的灵活性和可能性。XML是在1996年由世界广泛网络联盟(W3C)下的一个工作组开发的,旨在成为一种通用的数据格式标准。值得一提的是,互联网上的标准HTML语言只是XML可能应用的众多例子中的一个,而且是一个极为成功的应用。XML的基本优势在于它的系统独立性和软件独立性,这意味着它不受特定操作系统或软件应用程序的限制。从Microsoft等公司在其新版Office程序中实现XML支持的事实中,我们可以看出XML对IT世界的深远影响。此外,市场上也存在许多免费工具,可以帮助用户创建或编辑XML文件,进一步提高了其实用性和普及率。

总之,通过采用XML作为数据交换的标准格式,我们可以极大地简化不同测量设备和电子表格程序之间的数据交换过程,从而节省时间、提高效率,并促进不同领域和实验室之间的协作。随着更多组织和个人认识到XML格式的优势,并开始采用这一标准,我们有理由相信,这将是科研和工业数据管理的一个重大进步。

2. 现状

关于制订流变学数据文件的XML规范的项目的信息,可见此网页。这里只列出一些值得注意的内容。

IUPAC最终的版本是2008年的,叫做RheoML。除此之外,TA公司的版本是随着TRIOS软件提供的。TRIOS软件同时支持这两个版本。在这个页面可以下载相关的XSD文件。其中,TRIOS提供的压缩包当中,RheoML.XSD是IUPAC的版本的schema定义文件,而Iupac-Schema.v3.xsd则是TRIOS软件版本的schema定义文件(其文件名有误导性)。TA公司之所以要再做一个自己的schema,表面上看是为了包括热分析测试,因为TA公司的热分析也用TRIOS软件。就算不讨论热分析,IUPAC版本的schema支持的测试模式也仍然很有限。比如,在旋转流变仪上采用更多不同形状的转子,或者进行轴向拉伸/压缩测试的情况,都尚未被IUPAC支持。无论哪种版本,目前的schema仍然很粗糙。从网页来看,这个项目早就停摆了。

3. 现实需求

然而,本人认为该议题依旧颇具深远意义。在平时的工作中,本人频繁接触来自其他实验室寻求流变测试咨询的情况,他们所使用的则是不同制造商生产的设备,搭载不同的软件系统。有时,本人必须详尽指出,除了数据之外,实验期间必须记录哪些额外条件,比如是否执行了种种校准、实验前的仪器平衡或是预剪切处理等。尽管如此,仍旧经常出现学生遗漏记录,或是本人未能详尽说明的情况,导致最终无法确切地确定并解决对方所遇到的问题。即使仅是数据的讨论,本人常常需要对方提供更多的物理量数据,但对于某些物理量是否支持导出,以及其在相应仪器软件中的称呼和相关设置的位置却常常一无所知。为了熟悉对方所用的仪器软件,本人通常需要亲自造访至少一次(有时甚至多次),仅有现场确认了以上问题之后,方能在随后的交流中对他们所提供的数据进行分析,并提供必要的协助。

而在制定流变数据XML标准化的过程中,将包含强制性规定导出所有必要的实验信息,此外会根据不同测试类型强制导出所有必需的物理量。只要此标准是由经验丰富的流变测量专家主导制定,效果预期将能消除以上提及的诸多不便。标准化的XML格式化文件所带来的益处,远不止此。

考虑到一个更加现实的案例。我个人经常为了教学目的编写一些数据分析程序供学生们使用。这些程序预设学生将完成特定设计的实验,并根据指定的要求导出相关的物理测量数据。因此,除了向学生提供已编写好的程序,我还需不断重申实验设计和数据导出的具体要求。若依据XML标准,确定性的测试模式将无疑导出特定的物理量,由此至少在一定程度上,我可以减少对学生的反复提醒,亦即减轻了编写用于读取文件后的错误处理机制的负担。

4. 倡议

当前仅有TA公司遵循XML标准的原则进行响应。本人渴望更多的流变仪制造商能参与进来,将XML格式的文件导出功能集成到其软件中。不限于流变仪,理应所有现代科学测量仪器的测量结果都能支持厂商间的标准化XML文件格式。必须认识到,仪器测试记录的信息远远超出数据本身之外。因此,仅有的通用数据文件格式(如CSV格式)并不能完全满足科学研究的全面需求。

概念史的“分段连续”看法

在科学理论发展的旅程中,概念的严格定义往往是成熟期的产物。过早聚焦于此,可能忽视了概念早期的丰富演进。然而,深究其前清晰时期的历史,意味着要在众多相互矛盾的观点中寻找和辨别,这一过程没有明确的界限,取决于个人对观点荒谬程度的容忍以及时间、精力和兴趣的投入。

比如,最近我正在看的一本书——M. Jammer (1957), Concepts of Force, Harvard University Press,里面就说到:

A serious difficulty in the study of the development of a scientific concept lies in the necessarily inherent vagueness of its definition. This complication arises from the fact that the concept in question finds its strict specification only through its exact definition in science. This definition, however, historically viewed, is a rather late and advanced stage in its development. To limit the discussion to the concept thus defined means to ignore a major part of its life history.

该书的一段书评所说:

The story is a long and complicated one, demanding great skill on the part of the writer in the choice of the relevant elements in an enormous body of more or less obscure material. He has to search for the origin of the idea in the groping attempts of our ancestors to give an explanation for motion in general, based on the analogy with human exertion and activity represented in such terms as effort, force, power, work. He must then proceed to note how these ideas were refined by abstract thinkers, given quantitative status, and made useful for the solution of practical problems…

R. Lindsay (1957), Science, 126 (3278):848

我想,要是我也面临这样的复杂任务,该怎么办呢?我认为,面对这一复杂任务,寻找不同观点间的共性成为一种有效策略。这包括识别这些观点的共同接受之处,或它们共同探索问题的方向。通过从关键资料中识别这些共性,再以此为标准筛选其他资料,可以有效避免在信息海洋中迷失方向。需要注意的是,这种“共性”往往只在特定的时间段内明显,随着时代的发展,共同关注的焦点也可能发生变化。因此,这种方法可以用“分段连续”的方式来描述,其任务就像是“用分段连续的函数去拟合散点数据”一样。

“命题作文”的思维模式

我发现有一种有中国特色的思维模式。很多“国人味儿”特别浓的言论,其实都来自这种思维模式。

比如,有人问,你最喜欢的物理学家是谁?大家纷纷回答,有回答费曼的,有回答爱因斯坦的,也有很多人根据自己的研究领域举出了一些专门的人。

这时,张三就来了一句:看了所有答案,没有一人提到中国人的,多可悲啊!数千年的文明古国,没有一个值得喜欢的物理学家吗?

这还没涉及到我所说的“命题作文”思维。

我说的这种思维出现的场景是,假设我们反驳一句:“有没有值得喜欢的物理学家,跟数千年的文明古国有啥关系?”并且心里十分自信,这根本没有关系。这时张三一定会滔滔不绝地说出一大堆官话套话,以中国特色的方式“论证”,我们伟大的祖国,有数千年智慧的积累,……等等。

值得关心的不是这些言论本身的荒谬性,而是这种模式的普遍性,以及之所以普遍的原因。因为我发现,懂这么说话的人,相当一部分并不是简单的鹦鹉学舌;他们是能够很灵活地“举一反三”地应用的。这一定是来自于某种思维模式。

有人会说,这种“胡扯自由”来自我们缺少“说理教育”。关于这一点,我在以前的文章中已经引用过,这里再次引用:

说国人缺乏理性思维,多形象思维,主要是从小养成的思维习惯。小学生从写作文开始就接受了非理性的逻辑思维:凡事只要能够举出一个例子,似乎就能够说明一个普遍存在的道理,而不管这个道理的普遍性、完备性与纯粹性是否存在。比如,中学作文课上一写论述“人言可畏”的话题,我们就会举出阮玲玉等人遭遇流言蜚语的悲剧作为例证;一写议论“人言不可畏”的文章,我们就会举出富尔顿、爱迪生、爱因斯坦等人不畏人言、坚持不懈、取得成功的事情作为例证,然后把从这些个案得到的结论不假思索地扩展到整个社会,得出了自己也不能完全相信的结论。大家在生活中感受到,一件事好像怎么说都是有道理的,这或许就是我们文化的特点。

学生到了本科、研究生阶段,乃至于当今一部分教授还是继续了这种思维模式,论证问题时没有注意到所讨论问题的逻辑起点、前提基础、概念的内涵与外延等问题,盲目找资料论证,其实就是想运用不完全归纳法得出完全的结论。例如,在讨论价格改革时,不去界定自己所研究的价格是狭义还是广义价格,就开始了论述。又如,在探讨亚当·斯密自由放任主张时,忽视了这个主张产生效果的前提。这种现象在国内出版的一些著作中屡见不鲜,有人快速地把一本书写完了,但没有界定清楚自己研究的问题究竟是什么!还有的人采用循环论证方式说明问题,真是可怜。可以说,当前内地的学术界多的是一些鸡毛蒜皮式的典故式论证,少的是前后一致的严谨理性论证。

但更深的问题是,脱离了说理逻辑之后,“国人式”的说话就是完全毫无章法的吗?显然,我们并不是什么都能说——远远不是。那么如果说有另一种章法,那它是怎样的?

以前的文章也有一段话可以回答:

中国人是对人不对事的。人好,说的话就对;人差劲,说同样的话就不对了。因为中国人没有那个脑筋光从一句话本身来判断?还是中国人太懂得联系关于人的信息来做判断?还是因为在中国人社会,人的因素确实比事的因素重要一百倍?因为反正“君要臣死臣不能不死”,在中国人社会生存需且只需搞清楚君臣关系,其他一切都是浮云。

一个不那么偏激的,或因此更普适的版本就是,国人式的思维模式是“命题作文”的思维模式。“因人而异”可以宽化为“因题而异”。不能直接质疑不准被质疑的人,则可以宽化为不能直接质疑既命之题,就好像考试时的命题作文那样。因此,无论本身多荒谬的命题,被命了之后,都要挖空心思地去为它找补回来。

这样的思维是自古就有的。这样的思维才是真正的“几千年文明古国智慧”。我们发展了这样的一个巨型的语库。许多人平时喜欢说的“中国语言博大精深”,就是自豪于这个语库在面临任何一种命题时的“万能性”。

科举制(从唐朝开始至今)可能是使这种思维在这片土地上继续发射其光辉的重要因素(“重要因素”一词就来自这个语库)。今天有一个新词形容科举制的平均产物,叫做题家。