我是怎么看历史久远的论文的(不完全总结)

二十世纪之前的科学研究惯例跟今天不同。我们今天习惯的文献索取手段(就算不提互联网技术),在用于寻找历史久远的论文的时候,总有各种不适应的地方。

首先一定要尽可能找到一个论文的所有信息,确认这篇论文的存在。这些信息包括作者的全名(姓与名,拼写准确)、年份、标题、发表的期刊的全名、卷、期、页码等。历史上的很多期刊的卷、页经常被一些不小心的引用者搞错,但是年份是很少搞错的,更不用说加上标题和作者全名。用部分论文信息的关键词,在Google上搜索,可以搜到后续不同的论文引用这篇论文时的其他信息,如果你手头上的citation信息恰好有误,是很容易从Google上的搜索结果看到正确版本的(即大多数结果共同的版本)。

确定了信息,就要去翻阅相应的那本期刊,找到这篇论文。有些期刊,已经由我们熟悉的出版商做了电子存档,把里面的论文一篇一篇地独立出来,跟我们今天的论文一样放在这些出版商的网站上了,还有DOI号,因此不会造成很大的困难。例如Proc./Trans. R. Soc.、Phil. Mag.、Ann. Phys.等。所以一定要先看看会不会是这样的情况,不要走了弯路。但其中也有些问题例如Ann. Phys.的彩页问题,在我之前的文章已经讲过。但仍然有很多期刊,特别是曾经昙花一现,没有延续至今的期刊,并没有在这些出版商网站上像今天的论文那样提供下载。所幸的是很多图书馆或者国际组织都在对这些历史书籍进行扫描电子化工程(例如Google Books),所以这些期刊很可能都以一整本书的形式在相应的网站上提供下载。

要找到这些期刊,一定先要确定你想要找的那一年,这个期刊叫什么名字,是多少卷。在前互联网时期,人们往往不太注意这些标题、名称的恒定性,因为他们不担心别人通过关键词搜索会漏掉自己。在那个年代人们反正都是要亲自去图书馆查阅这些的,他们能保证被查到的关键只在于图书馆管理员是否尽职。所以他们在这些标题上的改变可能会根据当时的其他因素而变化,造成我们今天搜索的困难。同理,在前全球化时代,他们也不觉得一定要统一一种国际通行的惯例。例如卷号是每年都从1开始,还是从期刊的第一卷开始跨越年份地编号。如果是前者,卷号并不唯一对应一期。今天我们都习惯后者了。 我们所说的“卷”,英语为volume,常简写为vol.或v.;德语叫band,常简写为bd.;法语叫tomé,常简写为t。这些历史期刊在卷之上还有系列(series),法语是série。有时系列是不重要的,因为卷号唯一对应一本。但有时系列是重要的。不同期刊之间要小心。否则你手头上的citation信息明明年、卷都对了,也找到了这本期刊,但却发现相应的页码没有你要的这篇论文。

例如,Mémoires de l’Academie Imperiale des Sciences de Saint Petersbourg,这个期刊是法语标题的,但实际上是俄国的。里面常常同时有德、法、俄语的论文。对于这个期刊,除tomé号之外,“série号是重要的。写了t. 6(第6卷)的有三本:1818年的标题是“Mémories de L’Académie Impériale des Sciences de St. Pétersbourg. Tome VI. Avec L’Histoire de L’Académie pour L’Année 1813 et 1814”;1851年的标题是“Mémoires présentés a L’Académie Impériale des Sciences de St-Pétersbourg. par Divers Savants et lus dans ses Assemblées”;1857年的标题是“Mémoires présentés a L’Académie Impériale des Sciences de St-Pétersbourg. Sixième Série. Sciences Mathématiques et Physiques”;1863年的标题是“Mémoires présentés a L’Académie Impériale des Sciences de St-Pétersbourg. Sixième Série. VIIE Série”。但Citation一般期刊只缩写主标题,对于这个例子,对应年份是很关键的。

老的期刊的电子存档,首先可以在Google找找看。我现在知道的有Biodiversity Heritage LibraryGallica、Google Books、巴伐利亚州立图书馆。网上也有很多大学的图书馆网站总结了一些历史期刊的数字存档去哪里找,所以在Google上搜也会搜到这些网站。还有一个好的源头就是这些期刊的Wikipedia词条。注意要找这些期刊所在语种的词条,不要看英语的。因为这些期刊的国家的网友做的词条只会比英语词条更详细。用网页翻译就可以一键翻译成英语。

类似Gallica这种把一个期刊所有年份全部做了电子化的,一般也会按年份卷号给你查找。但Google Books对待这些期刊都当作独立的书(因为Google Books的计划是对图书进行电子化),所以很难定位到你要的那一期。但有时你还是很寄希望于能在Google Books上查到。所以在Google Books上搜索的时候最好加上这个期刊里印的卷号。例如你要第78卷,但期刊上会印的却是Band LXXVIII。罗马数字在那个年代很常用。你可以在网上找个罗马数字和阿拉伯数字在线转换工具解决。

另外还可以试试在Google搜期刊名再带上Wikisource,看Wikisource上有没有大总结。例如Annalen der Physik在Wikisource上的页面堪称一站解决所有问题。同理,在wikisource上要找你的期刊相应的语言的词条。通过Wikisource你也会了解很多期刊的标题延革、历史命名惯例,以及常见的电子存档网站,积累很多知识。而且Wikisource上除了有按期刊做的词条之外还有按人做的,例如F. Kohlrausch的词条(同理要找德语的)。

找到了你要的文章之后,就是要把它翻译成英语。第一步是对文件进行OCR。一般上述的这些电子存档网站都能下载整本期刊的PDF。可以用PDF编辑软件把你不要的页删掉,只剩下你要的论文那几页。然后去找个OCR工具把它的文本提出来。OCR的效果很依赖原图片的清洁和清晰度。所谓清洁就是页面上不要有一些小污点,否则会被OCR认为是句点,你事后清理的时候防不胜防,因为你又看不懂德语或法语。清晰就是字要清晰特别是德语法语有很多那些重音符号,不清晰的话OCR会认不对,或者认成其他字母,而你又看不懂德语或法语,认错了你也不知道的。所以,在上述查找电子存档的那步,不要找到一处就万事大吉了,要尽可能把全网你能找到有的版本都找到,选出一个扫描质量最好的来进行OCR。

OCR工具也有好有坏,特别是针对不同语言进行优化的。有的OCR根本处理不了德语和法语。我喜欢在线工具,因为在线工具一搜一打把,马上就能试用,不用下载到本地安装完了才知道不好。经过比较我发现这个OCR在线工具比较智能,它真的能根据语言本身的语法进行智能优化,识别的错误率很低,而且对不同的排版还有一定的处理能力。虽然要付费但也是值得的。

识别出来的文本,经常会有多余的换行符,同时也会有一些明显可能识别错误的地方,例如原文中一些inline公式、希腊字母等。因此这一步就是要把多余的换行符去掉,同时清理掉肉眼可见的错误,得到一个比较干净的文本。然后上传给Google Translate去翻译。

Google Translate翻译的效果还是可以的,至少能让你知道每句话说什么。此时你就要把一些图、表等OCR做不到的部分从原文截图塞到相应的位置,然后打印成PDF,变成一个英语版的论文。

这时就可以像读普通文献那样进行阅读了。

转:关于怒气

读经:
箴15:1
回答柔和,使怒消退;言语暴戾,触动怒气。
人的性情一般说来是容易发怒的,这是由于人的骄傲、愚昧。另一方面也因为缺乏谦和、智慧和爱心,由于发怒会进一步形成争吵,打斗,甚至凶杀。所以发怒对人对己都有害无益,我们不应当发怒,最少是不轻易发怒和慢慢动怒。因为不轻易发怒,可以减少许多怨愤,本来以为应当发的,其实都是不该的和不必发的怒,觉得人家不对或不合理,似乎为义而发怒也当慢慢地(雅1:9)。恐怕自己发的怒,不但不成就神的义,反而更增加自己的不义。
再一方面就是不要惹人发怒,并竭力使人的怒气消散。如果人已经对你发怒了,不要以怒对怒,而是以柔和对待发怒,特别是言语方面,一柔和起来就能使对方的怒气消退,好像硬物碰在软的东西上,就无力发作一样。相反地,如果对方还没有发怒时,自己就言语暴戾也会触动人发起怒来,好像用刺刺人,用拳打人,必引起还击一样。
怎样使言语柔和不暴戾呢?这需要里面常有圣灵膏油的调和,充满,不随从肉体,天性冲动。所以说话不能太急、太快、太多。言语很容易点起生命的轮子,经上说:“舌头就是火,在我们百体中,舌头是个罪恶的世界,能污秽全身,也能把生命的轮子点起来,并且是从地狱里点着的。”(雅3:6)。

Annalen der Physik und Chemie的彩页

在19世纪的时候,Annalen der Physik und Chemie上论文的图是印在每期最后的。一整期的论文都在最后。通常在论文标题的目录之后会有这些图的目录,叫做“Nachweis zu den Kupfertafeln”,Nachweis是证据的意思,而这个Kupfertfeln(铜板),则只能找到德语的Wikipedier词条介绍,按这个介绍,原意应该就是铜板。然而从谷歌图片搜索的结果来看,一本书的Kupfertfeln也是普通纸,所以这个词后来可能仅指一本书的彩页,不是真的“铜板”。例如这个网站展示的一本书

Annalen der Physik und Chemie的论文DOI都是指向Wiley网站,但是Wiley只提供了论文在原书的那几页,凡是论文中引用到彩页的图的,Wiley上的论文pdf是没有附的。Wiley也没有为每一期最后另外附上这些彩页的独立PDF。 我所知道的网上提供下载的Annalen der Physik und Chemie的历史存档有几个来源。一是法国国家图书馆的数字图书馆Gallica(这个地方还有很多其他古老期刊的历史存档)。二是Google Books。Archive.org上的很多都是网友从Google Books上搬运过去的,所以不算一个独立来源了。再一个就是德国的巴伐利亚州立图书馆。这些来源上的扫描件原本是不一样的,但都是全书扫描。其中Google Books上的通常是美国某个图力量书馆的藏书。上述这些来源的历史存档也经常缺少彩页。Gallica的要碰运气,Google Books的多半没有。巴伐利亚州立图书馆的简直恶劣。它家的书都有彩页,可是当你翻到彩页的扫描使你会发现它没有展开!Annalen der Physik und Chemie的彩页都是比书的尺寸大的页,所以平时是折叠的。巴伐利亚州立图书馆的工作人员就直接无脑把折叠的状态扫描下来了。

我最近在整理粘弹性的认识和测量的历史。先是找了W. Weber的论文。很幸运的是Weber另外有文集,一共六卷,由Springer-Verlag出版的。在这些文集里当然也把原文相关的彩页也附过来了。然后我需要找F. Kohlausch的后续工作。我发现F. Kohlausch的1863年论文的仪器描述很难完全看懂。他基于的他爸R. Kohlausch设计的一个sinus-elektrometer,后者为这个仪器专门发表过一篇文章,在1953年的 Annalen der Physik und Chemie Bd. 88。然而这个论文引用的彩页包括仪器的示意图,不看彩页也是完全无法理解这个仪器的,但正如前面所说我在上述的基本源头都找不到含有彩页数字存档。正当我快有放弃之际,竟然还是让我找到了一个仅附当期目录和彩页的PDF!这是从Google Images上搜到的,从域名来看这是匈牙利国家数字存档网站上的。 有趣的是,这个网站上的Annalen der Physik und Chemie存档都是只有目录和彩页,没有正文的。正文不是问题,Wiley就有,所以这个匈牙利的网站倒是成了一个找这个期刊的彩页的很好的来源。