Category Archives: 我的研究笔记

Leon B. Lucy

背景

在数值计算领域有一个比较知名的去卷积迭代算法——Lucy–Richardson算法,它被后世集中用于图像去噪。例如,MATLAB的Image Processing Toolbox有一个deconvlucy命令,声称就是用Lucy–Richardson算法对给定图片(像素矩阵)作给定点扩散函数的去噪。

但是,Lucy的原文[1]所针对的问题,比现在一般应用更广义。假定X是一个连续取值随机变量。它理应按照分布密度函数\phi\left(x\right)。我们想把\phi\left(x\right)视为某种简单分布P\left(x\middle|\xi\right)按权重谱\psi\left(\xi\right)的叠加结果:

(1)   \begin{equation*}\phi\left(x\right)=\int P\left(x\middle|\xi\right)\psi\left(\xi\right)\mathrm{d}\xi\end{equation*}

而我们想得知给定形式的核P\left(x\middle|\xi\right)所对应的权重谱\psi\left(\xi\right)。在这里,\xi是核函数P的参数。比如,我们关心高斯核函数的情况,那么P\left(x\middle|\xi\right)可能是以\xi为标准差的高斯函数

    \[P\left(x\middle|\xi\right)=\frac{1}{\sqrt{2\pi\xi^2}}\exp\left[-\frac{\left(x-\mu\right)^2}{2\xi^2}\right]\]

在图像去噪的上下文中,以deconvlucy为例,核函数P\left(x\right)是一个固定参数\xi的函数,且\xi的取值范围(即P\left(x\right)的“宽度”)远窄于x的范围(在图像语境中是图像的大小)。但在Lucy原文的语境中,\phi\left(x\right)P\left(x\middle|\xi\right)\psi\left(\xi\right)都是支撑为整个实数的分布密度函数。可以说,图像去噪应用,只是Lucy原文算法的其中一个很特殊的例子。

数值计算的设计艺术

在我的研究中,恰好需要解决Lucy原文意义的问题,因此我是认真阅读了Lucy的原文多次的,有些其他方面的感受。

原文的文字极其清晰和流畅,逻辑十分严密,记号仔细(既不滥用又不混用)。我觉得这是有成就的作者的共性。读到这样的文字就能说明作者是事实上的大师(尽管世俗名誉上未必)。

在论文发表的1970年代,电子计算机在科学计算中的应用已经比较普及。原文没有提及所报道的验证实验是在什么计算机上进行的,只在致谢中说到了NASA的Goddard Institute for Space Studies (GISS)提供了机时。我相信,这应该是一种需要申请节点的大型计算机,机时资源应该是比较昂贵的。

在今天,像我这种数值计算的外行,可以在MATLAB开发环境中重复运行多次来学习一个没有从原理上吃透的算法的行为,因为很多计算在今天的普通笔记本电脑上运行都毫无压力。但是在当年,这种“作弊”的做法是不提倡的。给定一个算法,你理应努力地在草稿纸上分析它的好处和坏处。这种功夫我没有,但从这篇论文中还是领教了它的优雅。

从算法的原理,就能看出它的结果只对长波长噪音敏感,而对短波(高频)噪音迟钝,它在头几个迭代就能快速收敛,它在样本数N太少时会有什么异常……等等,都通过分析,在不放到计算机中瞎试之前,就都清楚了。而我的做法,常常是边试边改算法。极度浪费计算资源来迁就我在分析上的懒惰。这在今天也许不是什么罪过,甚至作为一个数值计算的外行,这可以说是在聪明地节省时间,但我仍然对原文这种“数值计算的设计艺术”感到敬佩。

有那么一些论文,我是称之为“教学论文”的,就是它好到可以拿来作为典范,给研究生作为范文,去学习很多超出论文具体内容的东西,比如论文结构、学术英语写作、批判性逻辑、乃至科学精神。Lucy的这篇论文就可以称之为一篇“教学论文”。

该作者的全名是Leon Brian Lucy。关于他的详细信息,可见其一篇讣告[2]和纪念文章[3]

References

  1. L.B. Lucy, "An iterative technique for the rectification of observed distributions", The Astronomical Journal, vol. 79, pp. 745, 1974. http://dx.doi.org/10.1086/111605
  2. D. Baade, J. Danziger, R. Hook, and J. Walsh, "Leon B. Lucy (1938–2018)", Bulletin of the AAS, vol. 54, 2022. http://dx.doi.org/10.3847/25c2cfeb.88cfeeba

“高分子物理学中的标度概念”提出的背景

P. de Gennes的著作Scaling Concepts in Polymer Physics,正如他的其他经典著作,读者需要具备相当近世的物理学背景知识,才会理解他文中ansatz或cartoon是怎么来的。这本书在高分子领域十分著名,但提及这本书的人远多于看懂甚至看过这本书的人。我在这里简单地讲一下这其实是在干嘛。

上世纪六十年代,临界现象成了凝聚态物理的热点。从“二级相变”到“连续相变”再到“临界现象”,术语的改变反映了这一物理现象在凝聚态物质中的普遍性。焦点在于,临界点附近,空间涨落发散,朗道的理论处理方式失效了,怎么办?标度理论和重整化群理论是应此需求而发展出来的。所以,先要熟悉这些理论方法在其原本针对的问题中是怎么发挥作用的。

de Gennes的书,与其称作“高分子物理学中的标度概念”,从今天的视角来看,不如改为“软物质的准临界观念”(quasi-criticality views in soft matter)。因为,包括但不仅限于高分子的软物质体系的共同点就是其密度涨落远高于小分子尺度,还有复杂的波矢分布;所幸的是它们往往又能在随机分形的观念下找到自相似性。这种密度空间涨落的不可忽略性以及结构的自相似性,特别像一个正在发生临界转变的体系快到临界点时的样子——尽管这些软物质体系并不是正在发生临界转变。因此,在处理临界现象中获得成功的那些理论——包括但不仅限于标度理论和重整化群理论——就能用于软物质体系。所以,de Gennes观点的重要性不在于具体地、一次性地把历史上某一种理论用到了高分子物理学中,而是道穿了软物质和相变体系的等价性。未来如果有新的相变理论,就可以按同样的道理挪用到软物质中。也就是说,专心研究临界转变就行了,软物质理论只是个副产品。一个有意识的却懒惰的理论物理学家,可以盯着临界转变界的理论进展,到差不多挪用到软物质上,变得好像自己开创了一个软物质理论体系似的,四两拨千斤。

在那些只记得几条对称性或变分法原理就行遍天下的原始物理学家眼中,这些都属于“应用”。物理学的发展在于旧对称性的取消或新对称性的确认。就连新对称性下的变分法原理都属于第二位的。

流变测试数据的XML格式问题

1. 背景

在当今科技迅速发展的时代,数据的收集、分析及交换在科研和工业领域中扮演着至关重要的角色。然而,测量设备与电子表格程序(如Microsoft Excel、Sigmaplot或Origin)之间的数据交换过程,经常因为非标准文件格式的问题而变得复杂和低效。由于不同制造商生产的设备输出的数据文件格式各不相同,且有时所需的信息并未直接包含在数据文件中,研究人员和工程师经常需要通过手工操作来传输所有必要的数据,这无疑浪费了大量宝贵的时间和资源。此外,不同实验室之间的测量文件交换也面临着类似的问题,缺乏一个广泛接受的标准使得直接使用其他来源的文件成为一项挑战。

鉴于这些问题,有必要开发一种新的文件格式,以简化数据的交换过程,使研究人员能够专注于文件的内容而非其结构。这种新的文件格式不仅应适用于流变学和力学数据(这是委员会成员们主要关注的领域),也应广泛适用于如热分析、凝胶渗透色谱等其他类型的数据。

考虑到不同测量方法的规范要求和数据类型的多样性,采用固定的行列表格格式显然不是一个合适的解决方案。相反,XML(可扩展标记语言)格式在过去几年中逐渐受到更多关注,它提供了更大的灵活性和可能性。XML是在1996年由世界广泛网络联盟(W3C)下的一个工作组开发的,旨在成为一种通用的数据格式标准。值得一提的是,互联网上的标准HTML语言只是XML可能应用的众多例子中的一个,而且是一个极为成功的应用。XML的基本优势在于它的系统独立性和软件独立性,这意味着它不受特定操作系统或软件应用程序的限制。从Microsoft等公司在其新版Office程序中实现XML支持的事实中,我们可以看出XML对IT世界的深远影响。此外,市场上也存在许多免费工具,可以帮助用户创建或编辑XML文件,进一步提高了其实用性和普及率。

总之,通过采用XML作为数据交换的标准格式,我们可以极大地简化不同测量设备和电子表格程序之间的数据交换过程,从而节省时间、提高效率,并促进不同领域和实验室之间的协作。随着更多组织和个人认识到XML格式的优势,并开始采用这一标准,我们有理由相信,这将是科研和工业数据管理的一个重大进步。

2. 现状

关于制订流变学数据文件的XML规范的项目的信息,可见此网页。这里只列出一些值得注意的内容。

IUPAC最终的版本是2008年的,叫做RheoML。除此之外,TA公司的版本是随着TRIOS软件提供的。TRIOS软件同时支持这两个版本。在这个页面可以下载相关的XSD文件。其中,TRIOS提供的压缩包当中,RheoML.XSD是IUPAC的版本的schema定义文件,而Iupac-Schema.v3.xsd则是TRIOS软件版本的schema定义文件(其文件名有误导性)。TA公司之所以要再做一个自己的schema,表面上看是为了包括热分析测试,因为TA公司的热分析也用TRIOS软件。就算不讨论热分析,IUPAC版本的schema支持的测试模式也仍然很有限。比如,在旋转流变仪上采用更多不同形状的转子,或者进行轴向拉伸/压缩测试的情况,都尚未被IUPAC支持。无论哪种版本,目前的schema仍然很粗糙。从网页来看,这个项目早就停摆了。

3. 现实需求

然而,本人认为该议题依旧颇具深远意义。在平时的工作中,本人频繁接触来自其他实验室寻求流变测试咨询的情况,他们所使用的则是不同制造商生产的设备,搭载不同的软件系统。有时,本人必须详尽指出,除了数据之外,实验期间必须记录哪些额外条件,比如是否执行了种种校准、实验前的仪器平衡或是预剪切处理等。尽管如此,仍旧经常出现学生遗漏记录,或是本人未能详尽说明的情况,导致最终无法确切地确定并解决对方所遇到的问题。即使仅是数据的讨论,本人常常需要对方提供更多的物理量数据,但对于某些物理量是否支持导出,以及其在相应仪器软件中的称呼和相关设置的位置却常常一无所知。为了熟悉对方所用的仪器软件,本人通常需要亲自造访至少一次(有时甚至多次),仅有现场确认了以上问题之后,方能在随后的交流中对他们所提供的数据进行分析,并提供必要的协助。

而在制定流变数据XML标准化的过程中,将包含强制性规定导出所有必要的实验信息,此外会根据不同测试类型强制导出所有必需的物理量。只要此标准是由经验丰富的流变测量专家主导制定,效果预期将能消除以上提及的诸多不便。标准化的XML格式化文件所带来的益处,远不止此。

考虑到一个更加现实的案例。我个人经常为了教学目的编写一些数据分析程序供学生们使用。这些程序预设学生将完成特定设计的实验,并根据指定的要求导出相关的物理测量数据。因此,除了向学生提供已编写好的程序,我还需不断重申实验设计和数据导出的具体要求。若依据XML标准,确定性的测试模式将无疑导出特定的物理量,由此至少在一定程度上,我可以减少对学生的反复提醒,亦即减轻了编写用于读取文件后的错误处理机制的负担。

4. 倡议

当前仅有TA公司遵循XML标准的原则进行响应。本人渴望更多的流变仪制造商能参与进来,将XML格式的文件导出功能集成到其软件中。不限于流变仪,理应所有现代科学测量仪器的测量结果都能支持厂商间的标准化XML文件格式。必须认识到,仪器测试记录的信息远远超出数据本身之外。因此,仅有的通用数据文件格式(如CSV格式)并不能完全满足科学研究的全面需求。