Category Archives: 我的研究笔记

我是怎么看历史久远的论文的(不完全总结)

二十世纪之前的科学研究惯例跟今天不同。我们今天习惯的文献索取手段(就算不提互联网技术),在用于寻找历史久远的论文的时候,总有各种不适应的地方。

首先一定要尽可能找到一个论文的所有信息,确认这篇论文的存在。这些信息包括作者的全名(姓与名,拼写准确)、年份、标题、发表的期刊的全名、卷、期、页码等。历史上的很多期刊的卷、页经常被一些不小心的引用者搞错,但是年份是很少搞错的,更不用说加上标题和作者全名。用部分论文信息的关键词,在Google上搜索,可以搜到后续不同的论文引用这篇论文时的其他信息,如果你手头上的citation信息恰好有误,是很容易从Google上的搜索结果看到正确版本的(即大多数结果共同的版本)。

确定了信息,就要去翻阅相应的那本期刊,找到这篇论文。有些期刊,已经由我们熟悉的出版商做了电子存档,把里面的论文一篇一篇地独立出来,跟我们今天的论文一样放在这些出版商的网站上了,还有DOI号,因此不会造成很大的困难。例如Proc./Trans. R. Soc.、Phil. Mag.、Ann. Phys.等。所以一定要先看看会不会是这样的情况,不要走了弯路。但其中也有些问题例如Ann. Phys.的彩页问题,在我之前的文章已经讲过。但仍然有很多期刊,特别是曾经昙花一现,没有延续至今的期刊,并没有在这些出版商网站上像今天的论文那样提供下载。所幸的是很多图书馆或者国际组织都在对这些历史书籍进行扫描电子化工程(例如Google Books),所以这些期刊很可能都以一整本书的形式在相应的网站上提供下载。

要找到这些期刊,一定先要确定你想要找的那一年,这个期刊叫什么名字,是多少卷。在前互联网时期,人们往往不太注意这些标题、名称的恒定性,因为他们不担心别人通过关键词搜索会漏掉自己。在那个年代人们反正都是要亲自去图书馆查阅这些的,他们能保证被查到的关键只在于图书馆管理员是否尽职。所以他们在这些标题上的改变可能会根据当时的其他因素而变化,造成我们今天搜索的困难。同理,在前全球化时代,他们也不觉得一定要统一一种国际通行的惯例。例如卷号是每年都从1开始,还是从期刊的第一卷开始跨越年份地编号。如果是前者,卷号并不唯一对应一期。今天我们都习惯后者了。 我们所说的“卷”,英语为volume,常简写为vol.或v.;德语叫band,常简写为bd.;法语叫tomé,常简写为t。这些历史期刊在卷之上还有系列(series),法语是série。有时系列是不重要的,因为卷号唯一对应一本。但有时系列是重要的。不同期刊之间要小心。否则你手头上的citation信息明明年、卷都对了,也找到了这本期刊,但却发现相应的页码没有你要的这篇论文。

例如,Mémoires de l’Academie Imperiale des Sciences de Saint Petersbourg,这个期刊是法语标题的,但实际上是俄国的。里面常常同时有德、法、俄语的论文。对于这个期刊,除tomé号之外,“série号是重要的。写了t. 6(第6卷)的有三本:1818年的标题是“Mémories de L’Académie Impériale des Sciences de St. Pétersbourg. Tome VI. Avec L’Histoire de L’Académie pour L’Année 1813 et 1814”;1851年的标题是“Mémoires présentés a L’Académie Impériale des Sciences de St-Pétersbourg. par Divers Savants et lus dans ses Assemblées”;1857年的标题是“Mémoires présentés a L’Académie Impériale des Sciences de St-Pétersbourg. Sixième Série. Sciences Mathématiques et Physiques”;1863年的标题是“Mémoires présentés a L’Académie Impériale des Sciences de St-Pétersbourg. Sixième Série. VIIE Série”。但Citation一般期刊只缩写主标题,对于这个例子,对应年份是很关键的。

老的期刊的电子存档,首先可以在Google找找看。我现在知道的有Biodiversity Heritage LibraryGallica、Google Books、巴伐利亚州立图书馆。网上也有很多大学的图书馆网站总结了一些历史期刊的数字存档去哪里找,所以在Google上搜也会搜到这些网站。还有一个好的源头就是这些期刊的Wikipedia词条。注意要找这些期刊所在语种的词条,不要看英语的。因为这些期刊的国家的网友做的词条只会比英语词条更详细。用网页翻译就可以一键翻译成英语。

类似Gallica这种把一个期刊所有年份全部做了电子化的,一般也会按年份卷号给你查找。但Google Books对待这些期刊都当作独立的书(因为Google Books的计划是对图书进行电子化),所以很难定位到你要的那一期。但有时你还是很寄希望于能在Google Books上查到。所以在Google Books上搜索的时候最好加上这个期刊里印的卷号。例如你要第78卷,但期刊上会印的却是Band LXXVIII。罗马数字在那个年代很常用。你可以在网上找个罗马数字和阿拉伯数字在线转换工具解决。

另外还可以试试在Google搜期刊名再带上Wikisource,看Wikisource上有没有大总结。例如Annalen der Physik在Wikisource上的页面堪称一站解决所有问题。同理,在wikisource上要找你的期刊相应的语言的词条。通过Wikisource你也会了解很多期刊的标题延革、历史命名惯例,以及常见的电子存档网站,积累很多知识。而且Wikisource上除了有按期刊做的词条之外还有按人做的,例如F. Kohlrausch的词条(同理要找德语的)。

找到了你要的文章之后,就是要把它翻译成英语。第一步是对文件进行OCR。一般上述的这些电子存档网站都能下载整本期刊的PDF。可以用PDF编辑软件把你不要的页删掉,只剩下你要的论文那几页。然后去找个OCR工具把它的文本提出来。OCR的效果很依赖原图片的清洁和清晰度。所谓清洁就是页面上不要有一些小污点,否则会被OCR认为是句点,你事后清理的时候防不胜防,因为你又看不懂德语或法语。清晰就是字要清晰特别是德语法语有很多那些重音符号,不清晰的话OCR会认不对,或者认成其他字母,而你又看不懂德语或法语,认错了你也不知道的。所以,在上述查找电子存档的那步,不要找到一处就万事大吉了,要尽可能把全网你能找到有的版本都找到,选出一个扫描质量最好的来进行OCR。

OCR工具也有好有坏,特别是针对不同语言进行优化的。有的OCR根本处理不了德语和法语。我喜欢在线工具,因为在线工具一搜一打把,马上就能试用,不用下载到本地安装完了才知道不好。经过比较我发现这个OCR在线工具比较智能,它真的能根据语言本身的语法进行智能优化,识别的错误率很低,而且对不同的排版还有一定的处理能力。虽然要付费但也是值得的。

识别出来的文本,经常会有多余的换行符,同时也会有一些明显可能识别错误的地方,例如原文中一些inline公式、希腊字母等。因此这一步就是要把多余的换行符去掉,同时清理掉肉眼可见的错误,得到一个比较干净的文本。然后上传给Google Translate去翻译。

Google Translate翻译的效果还是可以的,至少能让你知道每句话说什么。此时你就要把一些图、表等OCR做不到的部分从原文截图塞到相应的位置,然后打印成PDF,变成一个英语版的论文。

这时就可以像读普通文献那样进行阅读了。

Annalen der Physik und Chemie的彩页

在19世纪的时候,Annalen der Physik und Chemie上论文的图是印在每期最后的。一整期的论文都在最后。通常在论文标题的目录之后会有这些图的目录,叫做“Nachweis zu den Kupfertafeln”,Nachweis是证据的意思,而这个Kupfertfeln(铜板),则只能找到德语的Wikipedier词条介绍,按这个介绍,原意应该就是铜板。然而从谷歌图片搜索的结果来看,一本书的Kupfertfeln也是普通纸,所以这个词后来可能仅指一本书的彩页,不是真的“铜板”。例如这个网站展示的一本书

Annalen der Physik und Chemie的论文DOI都是指向Wiley网站,但是Wiley只提供了论文在原书的那几页,凡是论文中引用到彩页的图的,Wiley上的论文pdf是没有附的。Wiley也没有为每一期最后另外附上这些彩页的独立PDF。 我所知道的网上提供下载的Annalen der Physik und Chemie的历史存档有几个来源。一是法国国家图书馆的数字图书馆Gallica(这个地方还有很多其他古老期刊的历史存档)。二是Google Books。Archive.org上的很多都是网友从Google Books上搬运过去的,所以不算一个独立来源了。再一个就是德国的巴伐利亚州立图书馆。这些来源上的扫描件原本是不一样的,但都是全书扫描。其中Google Books上的通常是美国某个图力量书馆的藏书。上述这些来源的历史存档也经常缺少彩页。Gallica的要碰运气,Google Books的多半没有。巴伐利亚州立图书馆的简直恶劣。它家的书都有彩页,可是当你翻到彩页的扫描使你会发现它没有展开!Annalen der Physik und Chemie的彩页都是比书的尺寸大的页,所以平时是折叠的。巴伐利亚州立图书馆的工作人员就直接无脑把折叠的状态扫描下来了。

我最近在整理粘弹性的认识和测量的历史。先是找了W. Weber的论文。很幸运的是Weber另外有文集,一共六卷,由Springer-Verlag出版的。在这些文集里当然也把原文相关的彩页也附过来了。然后我需要找F. Kohlausch的后续工作。我发现F. Kohlausch的1863年论文的仪器描述很难完全看懂。他基于的他爸R. Kohlausch设计的一个sinus-elektrometer,后者为这个仪器专门发表过一篇文章,在1953年的 Annalen der Physik und Chemie Bd. 88。然而这个论文引用的彩页包括仪器的示意图,不看彩页也是完全无法理解这个仪器的,但正如前面所说我在上述的基本源头都找不到含有彩页数字存档。正当我快有放弃之际,竟然还是让我找到了一个仅附当期目录和彩页的PDF!这是从Google Images上搜到的,从域名来看这是匈牙利国家数字存档网站上的。 有趣的是,这个网站上的Annalen der Physik und Chemie存档都是只有目录和彩页,没有正文的。正文不是问题,Wiley就有,所以这个匈牙利的网站倒是成了一个找这个期刊的彩页的很好的来源。

C. Truesdell文章选段赏读(三)

If a theory were not simpler than the phenomena it was designed to model, it would serve no purpose. Like a portrait, it can represent only a part of the subject it pictures. This part it exaggerates, if only because it leaves out the rest. Its simplicity is its virtue, provided the aspect it portrays be that which we wish to study. If, on the other hand, our concern is an aspect of nature which a particular theory leaves out of account, then that theory is for us not wrong but simply irrelevant. For example, if we would analyse the stagnation of traffic in the streets, to take into account the behavior of the elementary particles that make up the engine, the body, the tires, and the driver of each automobile, however “fundamental” the physicists like to call those particles, would be useless even if it were not insuperably difficult. The quantum theory of individual particles is not wrong in studies of the deformation of large samples of air; it is simply a model of something else, something irrelevant to matter in gross.

第1句用了虚拟语气表与事实不符的假设。这相当于同时道出了对事实的肯定,即“a theory is ALWAYS simpler than the phenomena it is designed to model”。如果又出个选择题,这一选项是符合原文意思的(尽管原文没有正面叙述),专门考你虑拟语气在条件从句中的应用了。

第3句是个啥结构呢?开头其实是个倒桩,正常语序是It exaggerates this part。碰到代词我们要先搞清楚它是谁:It是前面的a theory;this part是指前面的a part of the subject it (the portrait) can represent。后面if only那部分中的it还是指theory,而the rest是指the rest of the portrait。第4句继续一大堆代词,注意先对应好的话,其余的意思不难理解正确。大量代词的句群其实是组成了一个言简意赅的语文风格,能够突显逻辑骨架。但大量代词不能无穷延续;在一个合适的时候重新正面提及对象,也会有一种“找补回来”的平衡感。这种做法就发生在了第5句。而且第4句和第5句又有联系。因为第4句用了provided that,加了一个条件;而第5句就是恰好解释如果这个条件不满足的话会怎样。因此这两够句也要连起来翻译。

第6句开始是For example了。如果是做GRE阅读我们一般看到For example就可以跳过不看,因为它无非是讲一大堆故事来重复前文已经总结的观点,观点是啥你看懂了就不影响做题了,除非有的题目问题到了这个example的细节。但现在我们是来赏析Truesdell大神的文采,并学习他的物理学思想,那么在这个For example的部分中我们的任务就是找出这个example如何体现之前总结的观点。什么观点呢?那就是第4句中的”not wrong but simply irrelevant”这件事,即如果理论没被用在它本来意图描述的方面,那它与事实不符不是“错误”而只是与事实“无关”。后面的例子具体举的是,想要为交通堵塞建模,却从基本粒子出发,可想而知就算数学上搞得定,也是无用的。但这不能总结为“量子力学是错的”;只能说“量子力学的设计目的不是为宏观物质建模”。

事实上,到这里为止的文字,都是对上一段(第4段)第一句中的“keener appraisal of the role a theory is to play”的展开解释。那么如果文后出一道题问以下哪项是作者所说的“keener appraisal of the role a theory is to play”,然后从全文不同地方截一些似是而非的段落作答案选项,你都可以不用具体看这些选项,只需要对一下我是从全文哪些地方截的,只有从第5段截的才有可能是对的,快速排出一些连截的地方都不对的选项——阅读题就是这样快速做掉的。

而且我们可以看到,第6段开头的“With this sober and critical understanding of what a theory is”,其实就是重复第4段的“keener appraisal of the role a theory is to play”。这里,keener这个词其实是较为笼统的。所以如果我又出道题:以下选项与第4段中的keener一词意义相符的是,然后除了“sober and critical”这一项之外,再找几个文中出现过的形容词搞三个选项,你要意识到由于sober and critical这组恰好出在对原句的复述句上所以它就是(出题者认为的)正确答案,考你是否看得出文章的呼应结构。这种题都是阅读题中的难题,把那些只顾得上一个一个单词看懂,顾不上全文把握的考生给刷下去。

With this sober and critical understanding of what a theory is, we need not see any philosophical conflict between two theories, one of which represents a gas as a plenum, the other as a numerous assembly of punctual masses. According to the physicists, a real gas such as air or hydrogen is neither of these, nothing so simple. Models of either kind represent aspects of real gases; if they represent those properly, they should entail many of the same conclusions, though of course not all.

这一段总体是又举了一个例,重复前面的观点,但强调的角度不同,并暗暗引出了后文还会继续讲到的“不同的理论如何比较”的问题。