Tag Archives: journal

给一个老“民科”审稿

我在Qeios上给一个前苏联老“民科”的preprint写了审稿意见。跟大部分其他审稿意见相反,我给的是偏正面的意见。

作者确实很像一个民科:他这是1990年代,在Karpov Institute读博时期的想法了。当年发表不利,他与不同的期刊的审稿人多回合硬刚,甚至骂了脏话,好像他的观点一定对似的,最终没有发表。2023年,他不死心还把这个几十年前的小idea发到互联网平台上,没有literature review,没有实验结果。少数几篇参考文献全是俄文的,好多还是他本人的。每一个发表了审稿意见的用户,他都在后面回复捍卫,只是语气可能没有当年这么猛了。很多审稿意见确实是觉得这根本无法comment,就是篇啥也不是的东西。所以说他很像一个民科。一般考虑下,一个不被认可的小想法,就算自己觉得对,那也最好move on,在学术道路上往下走,追求下一个也许发表过程更顺利的科学问题。老在某一个其实并不fundamental的事情上面纠结几十年,多多少少是有点偏执的。

但是仅作为审稿,我认为去说这篇论文在各类指标上达不到当下市场“可发表”标准,是很non-scientific的意见。我不首先不屑于只提这种意见,不然好像我对作者稿子真正的学术问题一点儿没看懂似的。作者显然也不屑于考虑这种意见。我一向有一种品味,就是不在大部分人都能批评的层面上批评。至少,我不屑于,基于一个人没说到什么,而给差评。因为这是很简单的批评。世界上好东西多了,你知道几个人家不知道的事情,就鸡贼地说人家没讲到,面相上就很丑。人家说了的你又懂透了吗?人家说的东西有什么问题你提得出吗?

我认为我看懂了作者想说的事情,所以基于他说的东西来提了三个问题,从作者的回复来看,我真的看懂了他想说的东西。而且作者的回复很合理。我提的问题他都承认。只是现在他已经退休了。他把几十年前的东西拿来发一下,当然是懒得再基于这二十年以来的新进展作出修改的了。很多审稿人可能认为自己的任务就是决定这个论文该不该发表。但我觉得Qeios平台不必这样玩。既然让审稿人和作者能在线评论区battle,那这个平台就是以交流为主,不是以发表为主。关于发不发表,你Qeios平台发表不发表又算什么呢?能像发了Nature一样严重?哪怕能发表在最烂的传统期刊上,还会放你这儿?所以重点应该在交流。

那既然是交流,你说一些明显作者早就放弃的点,就是铁定交流不上的。你应该看作者本身感兴趣的重点是什么,在这些点上提出你的问题。这也就是我第一篇审稿意见所做的。结果也确实是与作者达成了良好的沟通。

我又写了第二篇审稿(Qeios平台就是可以重复发的,就像发贴一样)。因为在这个稿子的话题上,我恰好比其他人都更专业:玻璃化、异质性、DSC、……等等。看到大部分人根据对这稿子的第一印象给出的差评,我觉得我有义务解释我对这篇稿子与当前什么研究紧密相关。我觉得作为领域内的小同行我也需要展示,我认为比起这些审稿人提的其他问题枝端末节,这篇工作真正值得提出的科学疑问是什么。

我很高兴请各位仔细看一下这件事,说说作者是不是一个民科,我的审稿意见又怎样。

稿子正文:​链接 (文末评论区就是所有的“审稿意见”,以及作者的回复)

作者对这个工作历史的描述:​链接

我的第一次审稿意见及作者回复:​链接

我的第二次审稿意见(作者还未回复):​链接

我是怎么看历史久远的论文的(不完全总结)

二十世纪之前的科学研究惯例跟今天不同。我们今天习惯的文献索取手段(就算不提互联网技术),在用于寻找历史久远的论文的时候,总有各种不适应的地方。

首先一定要尽可能找到一个论文的所有信息,确认这篇论文的存在。这些信息包括作者的全名(姓与名,拼写准确)、年份、标题、发表的期刊的全名、卷、期、页码等。历史上的很多期刊的卷、页经常被一些不小心的引用者搞错,但是年份是很少搞错的,更不用说加上标题和作者全名。用部分论文信息的关键词,在Google上搜索,可以搜到后续不同的论文引用这篇论文时的其他信息,如果你手头上的citation信息恰好有误,是很容易从Google上的搜索结果看到正确版本的(即大多数结果共同的版本)。

确定了信息,就要去翻阅相应的那本期刊,找到这篇论文。有些期刊,已经由我们熟悉的出版商做了电子存档,把里面的论文一篇一篇地独立出来,跟我们今天的论文一样放在这些出版商的网站上了,还有DOI号,因此不会造成很大的困难。例如Proc./Trans. R. Soc.、Phil. Mag.、Ann. Phys.等。所以一定要先看看会不会是这样的情况,不要走了弯路。但其中也有些问题例如Ann. Phys.的彩页问题,在我之前的文章已经讲过。但仍然有很多期刊,特别是曾经昙花一现,没有延续至今的期刊,并没有在这些出版商网站上像今天的论文那样提供下载。所幸的是很多图书馆或者国际组织都在对这些历史书籍进行扫描电子化工程(例如Google Books),所以这些期刊很可能都以一整本书的形式在相应的网站上提供下载。

要找到这些期刊,一定先要确定你想要找的那一年,这个期刊叫什么名字,是多少卷。在前互联网时期,人们往往不太注意这些标题、名称的恒定性,因为他们不担心别人通过关键词搜索会漏掉自己。在那个年代人们反正都是要亲自去图书馆查阅这些的,他们能保证被查到的关键只在于图书馆管理员是否尽职。所以他们在这些标题上的改变可能会根据当时的其他因素而变化,造成我们今天搜索的困难。同理,在前全球化时代,他们也不觉得一定要统一一种国际通行的惯例。例如卷号是每年都从1开始,还是从期刊的第一卷开始跨越年份地编号。如果是前者,卷号并不唯一对应一期。今天我们都习惯后者了。 我们所说的“卷”,英语为volume,常简写为vol.或v.;德语叫band,常简写为bd.;法语叫tomé,常简写为t。这些历史期刊在卷之上还有系列(series),法语是série。有时系列是不重要的,因为卷号唯一对应一本。但有时系列是重要的。不同期刊之间要小心。否则你手头上的citation信息明明年、卷都对了,也找到了这本期刊,但却发现相应的页码没有你要的这篇论文。

例如,Mémoires de l’Academie Imperiale des Sciences de Saint Petersbourg,这个期刊是法语标题的,但实际上是俄国的。里面常常同时有德、法、俄语的论文。对于这个期刊,除tomé号之外,“série号是重要的。写了t. 6(第6卷)的有三本:1818年的标题是“Mémories de L’Académie Impériale des Sciences de St. Pétersbourg. Tome VI. Avec L’Histoire de L’Académie pour L’Année 1813 et 1814”;1851年的标题是“Mémoires présentés a L’Académie Impériale des Sciences de St-Pétersbourg. par Divers Savants et lus dans ses Assemblées”;1857年的标题是“Mémoires présentés a L’Académie Impériale des Sciences de St-Pétersbourg. Sixième Série. Sciences Mathématiques et Physiques”;1863年的标题是“Mémoires présentés a L’Académie Impériale des Sciences de St-Pétersbourg. Sixième Série. VIIE Série”。但Citation一般期刊只缩写主标题,对于这个例子,对应年份是很关键的。

老的期刊的电子存档,首先可以在Google找找看。我现在知道的有Biodiversity Heritage LibraryGallica、Google Books、巴伐利亚州立图书馆。网上也有很多大学的图书馆网站总结了一些历史期刊的数字存档去哪里找,所以在Google上搜也会搜到这些网站。还有一个好的源头就是这些期刊的Wikipedia词条。注意要找这些期刊所在语种的词条,不要看英语的。因为这些期刊的国家的网友做的词条只会比英语词条更详细。用网页翻译就可以一键翻译成英语。

类似Gallica这种把一个期刊所有年份全部做了电子化的,一般也会按年份卷号给你查找。但Google Books对待这些期刊都当作独立的书(因为Google Books的计划是对图书进行电子化),所以很难定位到你要的那一期。但有时你还是很寄希望于能在Google Books上查到。所以在Google Books上搜索的时候最好加上这个期刊里印的卷号。例如你要第78卷,但期刊上会印的却是Band LXXVIII。罗马数字在那个年代很常用。你可以在网上找个罗马数字和阿拉伯数字在线转换工具解决。

另外还可以试试在Google搜期刊名再带上Wikisource,看Wikisource上有没有大总结。例如Annalen der Physik在Wikisource上的页面堪称一站解决所有问题。同理,在wikisource上要找你的期刊相应的语言的词条。通过Wikisource你也会了解很多期刊的标题延革、历史命名惯例,以及常见的电子存档网站,积累很多知识。而且Wikisource上除了有按期刊做的词条之外还有按人做的,例如F. Kohlrausch的词条(同理要找德语的)。

找到了你要的文章之后,就是要把它翻译成英语。第一步是对文件进行OCR。一般上述的这些电子存档网站都能下载整本期刊的PDF。可以用PDF编辑软件把你不要的页删掉,只剩下你要的论文那几页。然后去找个OCR工具把它的文本提出来。OCR的效果很依赖原图片的清洁和清晰度。所谓清洁就是页面上不要有一些小污点,否则会被OCR认为是句点,你事后清理的时候防不胜防,因为你又看不懂德语或法语。清晰就是字要清晰特别是德语法语有很多那些重音符号,不清晰的话OCR会认不对,或者认成其他字母,而你又看不懂德语或法语,认错了你也不知道的。所以,在上述查找电子存档的那步,不要找到一处就万事大吉了,要尽可能把全网你能找到有的版本都找到,选出一个扫描质量最好的来进行OCR。

OCR工具也有好有坏,特别是针对不同语言进行优化的。有的OCR根本处理不了德语和法语。我喜欢在线工具,因为在线工具一搜一打把,马上就能试用,不用下载到本地安装完了才知道不好。经过比较我发现这个OCR在线工具比较智能,它真的能根据语言本身的语法进行智能优化,识别的错误率很低,而且对不同的排版还有一定的处理能力。虽然要付费但也是值得的。

识别出来的文本,经常会有多余的换行符,同时也会有一些明显可能识别错误的地方,例如原文中一些inline公式、希腊字母等。因此这一步就是要把多余的换行符去掉,同时清理掉肉眼可见的错误,得到一个比较干净的文本。然后上传给Google Translate去翻译。

Google Translate翻译的效果还是可以的,至少能让你知道每句话说什么。此时你就要把一些图、表等OCR做不到的部分从原文截图塞到相应的位置,然后打印成PDF,变成一个英语版的论文。

这时就可以像读普通文献那样进行阅读了。

关于Sci-Hub网站

最近,Sci-Hub这个网站被越来越公开地讨论了。去年,Elsevier告了这个网站法院判了初步禁令,因此Elsevier可以要求域名提供商停止对Sci-Hub系列网站提供服务。所以从去年年底到今年,几个常用的域名陆续关闭。上个月底的Science专门为这个网站做了一个专题。最震憾的是一个可视化的统计结果:一幅标来自不同地方访问量的地图,可见不止是发展中国家,发达国家也大量使用这个网站。这个网站不只是一个违反版权的非法网站,它还在一个方面影响了全世界。

事情会怎么发展呢?我联想到十几年前的情况。现在我们已经进入了移动互联网时代,听音乐直接stream就可以了。我们只关心多少钱的月费能买多高的bitrate。但是在互联网从56.6kbps的MODEM跳到IDSL/ADSL宽带的那个年代,新的听歌模式才从Walkman、Discman变成MP3 player。免费MP3几乎是一夜之间流行全世界,同时推起了Winamp等mp3时代的播放器软件以及RIO实体播放器。最终,唱片商不满意了,RIAA告MP3.com网站的事情,当年闹得很大。但是现在,我们已经习惯了下载音乐需要付费,一是费用不高,二是在线付费已经十分方便。但这是一个博弈的结局。没有免费mp3的流行,我们现在听音乐也许没有这么廉价;但如果没有版权商的反弹,也许我们现在根本听不到好的原创了。让消费者通过掏钱的方式投票,一个行业才能分出好与坏。当然,前提是这个市场不是一家独大,没有垄断。

科学期刊的情况跟mp3当然有很大的区别,不能简单类比。现时出版商之所以完全强势,我觉得主要原因是现代科研行为的职业化,评价科研成果质量也趋于量化。这个量化标准往往就是已发表成果的“受欢迎程度”,例如是否发表在高影响期刊,是否获得高引用。这种评价对一个研究者职业生涯的影响大到像那句话说的,publish or perish。高影响期刊、高引用论文之“高”,当然首先来自其学术水平。但是在互联网时代,出版商深谙媒体传播手段,并且不断推陈出新,在推高期刊影响因子上越来越有办法,因此除了期刊本身水平因素外,出版商也对影响因子有控制力,进而对科研评价标准有影响力,于是这个看不见的触手就深入到科研体制的核心了。出版商把旗下期刊影响因子冲高,大学为了本校研究水平,就不能完全不订购。此时出版商就可以做高价捆绑套餐,以至于哈佛大学图书馆都买不起了。

科研职业化之后的评价体系也建立了特殊的伦理守则。例如作者不能一稿多投。其实,为什么不能一稿多投呢?这不是更加快地传播自己的工作吗?只是因为科研已职业化,发表论文的数量与人员报酬职位的升降挂钩了,若允许一稿多投就会造成无从进行评价。本来一稿多投没什么,但科研职业化之后一稿多投就变成作弊,被严格禁止。于是,期刊的内容绝对是“独家”的。这种绝对的独家性又给了出版商一种垄断的力量。

因占据优质资源而获得比较自由的定价权本来是常见的,例如有线电视台往往有付费的电影频道,广告里说有多少大片可以看,这些大片是会播放,但所有的其余时间就会播放烂片老片。但这毕竟是娱乐,你不高兴可以不购买。科研成果是有重要的社会价值,甚至可能是急着用来救命的(例如最新的医学发现),至少对所有研究价来说,能够随时访问所有人类科研成果是科研人员群体的刚需。这么“贪心”的需求竟变成了刚需,出版商当然随便占据一小部分就能赚大钱了,而且还能卖乖说自己经很克制

总之,在这样一种完全不对等的势力对比下,也只能用用sci-hub了,难怪全球人都在用。但是解决出版商绝对强大的办法,是改变现时的科研评价方式,削弱出版商作为媒体的操纵空间。