Vesuvius Challenge🌋 教授、富翁和选手的解谜挑战【更新 番外篇1:意大利人的跟进:柏拉图的墓地?】【已完结】

Vesuvius Challenge(维苏威挑战)是一个机器学习在线比赛,目标是在已经碳化的 Herculaneum Scroll(赫库兰尼姆卷轴) 上读出文字。

自去年10月以来,纸媒陆续报道了 Vesuvius Challenge 的成果。首先,23年10月,Luke Farritor 成功找到了第一个希腊单词"ΠΟΡΦΥΡΑϹ",即希腊的"purple":

随后在24年2月份,比赛公布了获奖名单,其中包括70万美元的 grand prize。3月16日,比赛一周年之际,Vesuvius Challenge 在洛杉矶的 Getty Villa 举行了庆祝活动,宣布比赛圆满成功。

在比赛中,Youssef Nader、Luke Farritor 和 Julian Schilliger 三人破译出了共计2000多字的15段文字,远远超过了比赛规定的4段每段140词的要求,分享了grand prize。

新闻报道的关键词大多集中在以下几方面:

  • 本科生:拿到大奖的 Luke Farritor 今年21岁,是 University of Nebraska–Lincoln 的大四学生。
  • 总奖金100万,其中Grand Prize70万美元,其余的小奖总额为30万美元。
  • AI:机器学习在识别文字过程中发挥了关键作用。
  • 2000年历史:被破译的 Herculaneum Scroll 是在2000年前维苏威火山爆发后,被熔岩掩埋碳化的。由于卷轴非常脆弱,任何物理打开的尝试都会导致其立即损毁。自1752年首次发现以来,大部分卷轴一直静静地躺在那不勒斯的博物馆中。这些卷轴是未经中世纪书记员和穆斯林传抄的经典文献原本。

两周前,我了解到这一新闻,搜寻了相关报道和资料,逐渐被这个故事深深吸引,

即使是Bloomgberg的详细报道也没有完全反应出精彩之处。
Google搜索发现中文的报道更少,且大部分都是英文报道的拙劣翻译。

既然已经花时间读了,我决定自己写一篇Vesuvius Challenge的人物故事。有太多可写,难度超出我想象。我又花了一周的空闲时间 :sweat_smile:

在这篇文章中,我将分享这些故事和人物。以下长文请欣赏。

目录:

1. 究竟如何读取文字?机器学习可靠吗?

第一步:X光扫描和CT图像构建
第二步:层展(Segmentation and Flattening)
第三步:墨水识别(Ink Detection)

2. 教授的野望

接触Herculaneum Scrolls
意大利人不讲武德?
不服不行
教授的野望

3. 富豪的游戏 (上)

从精罗到卷轴
Fanboy starts a competition
Frediman开始游戏

4. 富豪的游戏 (下)

Frediman的钱和朋友们
裁判下场踢球
Friedman的野望

5. 为什么X射线足以读出Herculaneum?

电镜实验
Carbon ink phantom
Omega!

6. Grand Prize通关攻略

Casey Handman
Luke Farrior
Youssef Nader, Julian Schilliger
年轻人与学术体系

7. 公元、转码与美签

B.C., A.D. vs C.E., B.C.E.
转码
美签

番外篇 1. 意大利人的跟进:柏拉图的墓地?

他竟然是这么死的
研究方法是什么,有用到AI吗
具体做了什么研究?
社媒讨论

词汇表:

Papyrus:古埃及人广泛采用的书写材料,也是英文“paper”的来源。
Papyri:Papyrus 的复数形式。
Papyrologist:研究莎草纸的古典学学者(classicist)。
Herculaneum:位于意大利那不勒斯(Naples)的古罗马城市,于公元79年维苏威火山喷发时被熔岩掩埋。
Scroll:用莎草纸制成的长卷,卷起来保存。
Naples:意大利城市。

资料来源:

Vesuvius Challenge Official Site
Vesuvius Challenge First letters prize 2023/10/12
60 mins 2018/04/01
Brent Seales 2019 Getty Villa Presentation
Brent Seales 2024 Getty Villa Presentation
Nat Friedman 2024 Getty Villa Presentation
Bloomberg: Can AI Unlock the Secrets of the Ancient World?
Casey Handmer blog
Nature: First passages of rolled-up Herculaneum scroll revealed
WSJ: The World’s Smartest Young Minds Just Cracked a 2,000-Year-Old Mystery
Curiosity: Herculaneum Scrolls: Unraveling History
BigThink: How three students wrote history by winning the Vesuvius Challenge
SFGate: Rich Bay Area donors funding $1M contest to solve ancient puzzle
Steven Parsons Thesis

33 个赞

1. 究竟如何读取文字?机器学习可靠吗?

我的第一个疑问是,AI可靠吗?最近两年,大语言模型的发展展示了AI的强大泛化能力,但我们也发现它们时常会产生幻觉(hallucination),有时甚至会编造事实。

所以我先读了Vesuvius Challenge 官方教程中识别文字的基本原理和三个步骤
image

第一步:X光扫描和CT图像构建

image

使用X光扫描卷轴,获取CT图像。CT是computed tomography。与医院使用的CT扫描类似,但这里的分辨率更高。Brent Seales团队利用牛津的Diamond Light同步加速器生成光源,获得了分辨率为8微米、总共18TB的数据。他们还完成了从原始数据到卷轴三维数据的转换(数据大小120MB),并对参赛人员开源。

这一阶段的工作由Seales团队完成,参赛人员不必担心。

第二步:层展(Segmentation and Flattening)

image

Brent Seales团队开发了虚拟展开(virtual unwrapping)技术。简单来说,这项技术先将莎草纸所在的二维平面分割出来,再通过计算展平成二维纸面。

Seales团队的这一分割程序早先应用于En-Gedi Scroll,这是在以色列Ein Gedi发现的希伯来语卷轴。因墨水含有金属,通过Seales团队的虚拟展开技术,卷轴上的文字在通过检测密度后可以肉眼直接辨认。En-Gedi Scroll的巨大成功让Seales团队获得了测试Herculaneum Scroll的机会。

然而,Segmentation的自动化仍然是瓶颈,许多地方需要手动操作。Grand Prize获得者Julian Schilliger开发了自动分割程序,将效率提升了10000倍。这一程序为Youssef Nader和Luke Farritor发现整段文字提供了基础材料。

Herculaneum Scroll的特殊之处在于其墨水也是碳,和碳化的莎草纸材质在密度和颜色上没有区别,因此需要第三个步骤来识别墨水,这是比赛的重点。

第三步:墨水识别(Ink Detection)

机器学习在这里发挥了关键作用。人眼无法直接识别碳化莎草纸表面的文字,CT图像显示的也是一片黑色。然而,Seales团队通过对碳墨水和卷轴碎片的研究,证明机器学习可以从黑暗中还原出有墨水的像素,依稀可以辨认出希腊字母。

尽管他们的算法在fragment(碎片)上效果良好,但对卷轴本身的CT图像效果欠佳,仍需进一步优化。本次比赛悬赏的目标就是找到一种稳定、可靠地识别墨水的算法。

显然,Brent Seales团队已经完成了卷轴的数字化,并提供了分割工具,参赛人员可以参与优化分割工具,或直接用现成的分割工具进行第三步的机器学习。

机器学习的训练材料是碎片。这些碎片是之前用物理方式打开损坏的卷轴,打开后用红外波段可以看到文字,但X光波段无法看到,因此它们成了绝佳的训练材料。也许读者会问,为什么不用红外波段做虚拟展开?原因很简单,红外光的穿透性不够,无法在不打开的前提下拍摄卷轴。

最后一步称为墨水识别(ink detection)而不是文字识别(text detection),部分原因是为了排除古典学、希腊语等领域知识对训练的影响。这一步只关注墨水,文字识别是之后古典学家的任务。主办方通过多种架构、不同的输入/输出窗口大小和标签平滑处理来检查提交结果,未发现问题。获奖者的代码已在Github上开源,具有可重复性并接受历史的检验。

这些消除了我的疑问:我认为结果在方法论上是可靠的,因为开源也接受历史的质疑。

补充:关于Halluciation

不可言说的规律

读了这一段,我对机器学习的能力有了新的认识。AI在图像识别中的应用,典型的例子是人脸识别。虽然人类也能识别,但AI的效率更高。然而,在这个例子中,人眼完全无法在这些黑乎乎的像素格点中识别出任何规律,而AI却能从中学习出“不可言说的某种规律”,以高准确率识别出墨水像素点。

这是AI一直以来在颠覆的自然科学研究范式,即AI不需要理解或用人类语言表达出这些规律,它们是“不可言说的”,但却可以被AI掌握并作用于现实。

工程人员自然不会抵触这种范式,自然科学工作者会怎么想?

12 个赞

很好奇蛤哥到底是干啥的,泥潭税务问题第一把座椅(但是自己又不是CPA),这种问题也有研究

11 个赞

那么问题来了,AI是否能把识别出的Pattern用人类可以理解的方式描述出来呢

这个应该还比较容易实现,在机器的内联表达层后面再套一层decoder就行了,至于具体怎么做我自己没做过,但是理论应该是这样的

进来前以为是综艺

这个也是可以用人做的,只是机器快点罢了。

CT image 显然是可以看出来的,因为density 有区别。大哥把CT 理解成可见光optical imaging了,所谓都黑因为有一样的absorption ,但是X光下density 是有区别的,就有contrast。x光波长越短,分辨率越高,所以需要同步加速器。

通过contrast 来extract pattern as in Greek alphabet ,机器和人都可以做。

5 个赞

lol 前几天也看到这个介绍了,好像是返朴公众号

对于这个问题,部分pattern人眼是可以识别出来的。

我先剧透一下,后面有专门一节。大奖的两个途径之一,是Casey Handerman最先用肉眼识别出墨水的pattern,他称之为crackle,再由Luke Farriator的机器学习扩大战果识别出单词。但是大概只有1%-2%的文字有肉眼可见的crackle,可用于作为训练样本,机器学习还是扩展到了目前“不可言说”的规律中去。

感兴趣的可以先去读Casey Handerman的博客文章

对神经网络的逆向工程也是ink detection的难点:

The main challenges for ink detection are:

  • Model performance, getting more letters to be legible.
  • Applying these models to the full scrolls.
  • Reverse engineering the models to better understand the kind of patterns they are using to detect ink.
  • Creating more ground truth data (e.g. “campfire scrolls” or synthetic data).

关于同步辐射高分辨率的部分同意。但黑色是通过软件将CT的数据可是化后展示的,我并没有理解成optical imaging。不要说强度,15-16年有意大利组做了phase contrast,即利用x光的相位信息增强都只能模模糊糊看到墨水。人眼是识别不了的,下面是一个样本,能看出什么规律吗?

Google Photos

即使是Casey Handerman看出来的pattern,也是整整盯了一天时间才猜测这里有墨水:

你要知道Brent Seales组从19年拿到X光样本一直到22年10月上了机器学习算法都只能看到墨水,却辨认不出字母,Vesuvius challenge从3月到10月也一直卡在同样的问题上。

1 个赞

那gold standard 是什么?我们怎么verify 机器解读的不是无中生有?

确实,这也是我的一个疑问

如果机器解读的pattern不可言说,那这么确定这种pattern是不是瞎扯:flushed:

当然了可能因为我确实外行看不懂这个

1 个赞

我算内行,虽然不是microscopic CT专家,也有这个问题。

我还真碰巧认识microscopic CT 的专家

两位,这是我第一节想回答的问题

我的第一个疑问是,AI可靠吗?最近两年,大语言模型的发展展示了AI的强大泛化能力,但我们也发现它们时常会产生幻觉(hallucination),有时甚至会编造事实。

我找到的答案是

最后一步称为墨水识别(ink detection)而不是文字识别(text detection),部分原因是为了排除古典学、希腊语等领域知识对训练的影响。这一步只关注墨水,文字识别是之后古典学家的任务。主办方通过多种架构、不同的输入/输出窗口大小和标签平滑处理来检查提交结果,未发现问题。获奖者的代码已在Github上开源,具有可重复性并接受历史的检验。

看来我写得不够清楚,再补充一下。

Machine learning如果最后的结果无法用ground truth检验,那么就只剩下一致性检验,这是此种情况下能做到的极限。以下是团队为避免hallucination所做的检验:

The submission contains results from three different model architectures, each supporting the findings of the others, with the strongest images often coming from a TimeSformer-based model. Multiple measures prevent overfitting and hallucination, including results from multiple architectures, a study across input/output window sizes, label smoothing, and varying validation folds. Like with all our prizes, this ink detection code has been made public as open source (on GitHub), leveling up everyone in the community.

  • 首先,大奖的团队的结果是用了三种不同的机器学习架构
  • 同时这个结果也不是微调出来的,不同的输入/输出窗口大小和标签平滑对结果没有影响
  • 更重要的是,机器学习部分只是一个是否有墨水的分类器,程序不具有古典学知识,甚至连希腊字母的知识都不具备。训练过程知识通过人工识别crackle标记有墨水区域。但是得到的结果
    • 是完整的希腊单词连成的文章
    • 文章通过独立的papyrologist审阅,发现是历史上从未出现过的,且与考古认知中这个书房属于伊壁鸠鲁学派的文献相符

都听说过猴子在打字机上随即打出圣经的故事吧。这个问题中概率没有那么小,但是有独立性检验,我认为是可靠的。

引用Seales的话

I would also like to add to that we’ve done extremely thorough technical review on the on our side on the prize side, uh, and we have a team of six uh, parpyrologist including, uh, Feder uh, who have unanimously um, come to the conclusion that these letters are indeed what we think they are, independently.

所以我认为他们的结果虽然未必是真理,但方法是系统的、一致的、可重复的,也是接受外界检验的。这已经符合科学标准了。

2 个赞

I believe there should be some ways to interpret the results. The pixels should contain certain characteristics to be recognized as ink pixels by the model. It is just that they haven’t figured out yet. All the information is inside the density data itself, hence I believe it is interpretable to human eventually.

The image you have shown is rather inclusive without further acquisition/reconstruction parameters. Each piece should generate multiple slices depending on the imaging thickness. I have zero idea whether it is displayed in MIP way or other ways to combine slices.

1 个赞

2. 教授的野望

了解了这个比赛的原理,我对Brent Seales这个人产生了兴趣。Vesuvius Challenge主站有他2019年10月在Getty Villa的报告

Reading the Herculaneum Papyri: Yesterday, Today, and Tomorrow,主要讲述了破译Herculaneum Scroll的技术难度。比赛的投资人Nat Friedman对这个报告赞不绝口,声称前后看了不下4遍。

Brent的研究品味以及人格魅力是他赢得投资的关键,我也推荐这个报告,听了会被他的风采折服的。

我听了Brent的其他采访,越发觉得这个人有意思。

接触Herculaneum Scrolls

Brent从Wisconsin Madison博士毕业后一直在University of Kentucky做教授,主攻方向是计算机视觉,先是在医学上的应用,后来逐渐过渡到文化保存。

image

2005年,他在同事的介绍下接触到Herculaneum scroll,从此便开始了20年攻克这个难题的研究。

image

2009年,他第一次对Herculaneum scroll做CT扫描,当时是在小型机上进行的,精度为25微米。样品由Institut de France提供。那么,为什么法国人也有Herculaneum Scrolls呢?这要从Herculaneum的发现说起。意大利于1871年统一,但发掘工作从1752年就开始了。当时的那不勒斯国王曾将6卷送给拿破仑,18卷送给乔治四世。因此,除了意大利那不勒斯保存约1800卷以外,Institut de France有6卷,牛津的Bodleian Library有4卷,British Museum有14卷。

Source wiki: In 1802, King Ferdinand IV of Naples offered six rolls to Napoleon Bonaparte in a diplomatic move. In 1803, along with other treasures, the scrolls were transported by Francesco Carelli. Upon receiving the gift, Bonaparte then gave the scrolls to Institut de France under charge of Gaspard Monge and Vivant Denon.

In 1810, eighteen unrolled papyri were given to George IV, four of which he presented to the Bodleian Library; the rest are now mainly in the British Library.

这些卷轴并不完整,因为历代物理化学方式打开的尝试导致很多卷轴损坏变成碎片。法国的Institut de France虽然有6卷,但只有2卷是完整的。

意大利人不讲武德?

Brent和意大利人的关系并铁。2018年,2018年,CBS的60 mins rewind报道了他和两位意大利学者的龃龉。

2009年CT扫描后,Brent意识到精度不够,不足以辨认墨水。因此,他提出使用来自粒子加速器的X光做CT。同步加速器光源能量更高,但价格不菲,样品也需在指定的时间窗口运送到同步加速器进行试验。意大利人没有同意。

同时,两位意大利学者——那不勒斯的物理学家Vito Mocella和莎草纸专家Graziano Ranica——也提出用同步辐射扫描卷轴,并且他们通过关系拿到了那不勒斯的卷轴样品。

But the two Italian rivals used their European connections and convinced curators to let each of them, and only them, have limited access to a few scrolls to scan with the synchrotron. They leapfrogged over American Brent Seales and raced to this one in Grenoble, France.

Mocella的文章先发表在Nature Communications

V. Mocella, E. Brun, C. Ferrero, and D. Delattre, “Revealing letters in rolled Herculaneum papyri by X-ray phase-contrast imaging,” Nature communications, vol. 6, 2015.

Ranocchia也贴到arxiv

I. Bukreeva, M. Alessandrelli, V. Formoso, G. Ranocchia, and A. Cedola, “Investigating Herculaneum papyri: An innovative 3D approach for the virtual unfolding of the rolls,” arXiv preprint arXiv:1706.09883, 2017.

这两人都使用相位信息增强图像,声称看到了希腊字母。但Brent Seales不认可他们的方法:

Brent Seales: Hey, I engage in wishful thinking all the time, but at the end of the day, I’m a scientist, and wishful thinking is not what science is based on. I was unable to replicate their results, and so far I’ve not heard from anyone who’s been able to replicate them.

在2023年10月12日First Letters prize的颁奖典礼上,主持人问及了一些同行的工作,显然是指Mocella与Ranocchia凭借私人关系抢发的文章

So, Dr. Steels, I have a question for you. Um, a few years ago, 2015, 2016, there were a couple of other papers that came out with some text from within a Herculaneum Papyrus scroll. So, so tell me how this is different from what those discoveries suggested.

Brent的回答隐晦地批评了这两个人的工作,认为这些通过不系统,说白了这两人就是干一票走人,而不是像他们组一门心思干这个

Yeah, that was a really interesting moment because we, uh, we were able to see other groups uh, saying that they were reading Herculaneum, which was, um, something that I always believed was possible. The 60 Minutes piece that, uh, gave the project a lot of visibility kind of highlighted that moment, and in that piece, I said that, you know, the writing should be systematic, things should line up, you should be able to read it. I wasn’t seeing that in the work of those colleagues at the time. But what I know to be true about this work is that is it is extremely systematic, and um, Steven’s PhD thesis uh, elaborates on the system that we are using to ensure that this is technically correct and that the papyrologists have no choice but to accept it as a legitimate and authentic text because it is well, okay. I would also like to add to that we’ve done extremely thorough technical review on the on our side on the prize side, uh, and we have a team of six uh, parpyrologist including, uh, Feder uh, who have unanimously um, come to the conclusion that these letters are indeed what we think they are, independently.

Vesurius Challenge评委通过多方检验,确保结果严谨。Brent本人对科研的认真态度,虽然不能说绝对正确,但多重检验和开源接受质询应是科研本色。

不服不行

2015年,Brent拿不到Herculaneum papyrus的样本,于是先用他的技术对以色列的En-Gedi scroll进行了研究。这个成果连Ranocchia都“直呼内行”:

Following his breakthrough in Jerusalem, even Graziano Ranica admits Brent Seales’ software is brilliant.

2018年,60 mins播出后,意大利人开始考虑Brent的方案:

Now the Naples library, which wouldn’t let Seales get his hands on the scrolls, is considering granting him access.

image

2019年,意大利人终于同意。8月,他们将样品送到洛杉矶的Getty Villa,由UCLA医学部进行CT扫描。10月,Brent在Getty Villa的报告展示了CT扫描的初步图像。

2019年10月,Institut de France再次与Brent合作,他们将两卷保存完好的卷轴交给Brent,在牛津的Diamond Light同步加速器进行X光扫描,这就是Vesuvius challenge提供的两卷卷轴。这次的扫描精度达到了8微米,Brent认为这个精度足以包含所需的所有信息。

2023年,在Nat Fridman的组织下,Vesuvius Challenge正是启动。9月30日,Brent拿着那不勒斯博物馆的两卷完整样品,再次去牛津Diamond light扫描CT。这是Vesuvius Challenge 2024新增的两卷。

Brent用成果说服了同行和合作的文物管理机构,也折服了投资人Nat Friedman。

教授的野望

Nat不仅提供资金和人脉帮助,还投入人力组织了比赛。

Vesuvius Challange来自于Nat Friedman的一问"What if we put together a public competition?"

这可能是Brent Seales学术生涯迄今为止最重要的一问。

读者朋友们,你可以想象一下,一个教授花了将近20年的时间进行技术铺路,最终拿到了样品,只需要解决一系列工程问题就可以在270年来第一个揭开Herculaneum scroll的秘密。虽然这个荣誉不完全是Brent Seales的,但一定是属于他的团队的。现在,如果富翁Nat Friedman启动比赛,可能一个本科生就能解决这个世纪难题。作为学者,最重要的荣耀可能就永远失去了。

事实上,后来大部分媒体都津津乐道于本科生用AI技术在2000年来第一次打开了Herculaneum papyrus,但很少有人注意到University of Kentucky的一位老教授对此倾注了二十年的心血,也很少有人注意到Brent有前后4-5个学生在这个问题上度过了博士生涯。只有Bloomberg的长文写到了此种纠结:

Seales says he was mindful of the trade-offs. The Herculaneum papyri had turned into his life’s work, and he wanted to be the one to decode them. More than a few of his students had also poured time and energy into the project and planned to publish papers about their efforts. Now, suddenly, a couple of rich guys from Silicon Valley were barging into their territory and suggesting that internet randos could deliver the breakthroughs that had eluded the experts.

但是根据Nat Fridmann的说法, Brent 15分钟就做出了决定。

And literally within 10 or 15 minutes I saw Brent’s eyes light up and he said, “You know, I think it’s a great idea, let me think about it, but I think we could do something.”

2022年,Brent已经58岁。2019年底获得的Diamond Light扫描样品已经过去了3年。也许他有把握在剩余的学术生涯里,再花1-2个博士的时间不断尝试,完整破译这两卷内容,但可能不能更多了。要scale up,必须解决效率问题以及扫描更多卷轴的资金问题。Bloomberg的说法是相比名誉,他更想打开卷轴:

More than glory, though, Seales really just hoped the scrolls would be read, and he agreed to hear Friedman out and help design the AI contest.

这个Yes给Brent带来了难以想象的效率:

  • 三个月时间,Brent估算比赛大约带来了10 person years的劳力投入,以及2年的机时。

  • 2023年年底,仅仅9个月不到,grant prize的三位成员破译出了15段超过2000字的文字,远超他们当初设定了4段每段140字的目标。

  • 2023年,在Nat的协调下,他终于拿到了意大利的两卷样本,在牛津进行同步辐射扫描。

  • 2024年,Nat预定了Diamond Light 12天的机时,准备扫描上百卷新样品。Segementaion设单独的奖优化,扫描也考虑尝试更低精度,在博物馆里直接扫描的低成本方法。

2024年3月16日,在宣布大奖的报告中,Brent说

Enter the amazing Nat Friedman and the concept that he pitched to me in a strange reversal of fortune, “Hey, why don’t we do a contest?” And I’m so glad that I said yes because being a part of this has precipitated the next step in the story.

我想他大概的确是“so glad”。

资料来源:
60 mins rewind
Vesuvius Challenge First letters prize 2023/10/12
Curiosity: Herculaneum Scrolls: Unraveling History
Brent Seales 2024 Getty Villa Presentation

9 个赞

很好啊zs

你读了这篇吗?figure 4 seems obvious to me

我觉得Mocella做出了一些结果,但是我也认可Seales对他的评价:不系统。

这个是Fig. 4,首先你要明白,你看到的第三行效果最好,但是line 3是来自于已经打开的碎片

Line 3 reproduces the corresponding letters extracted from infrared images of a Herculaneum papyrus (PHerc. 1471) opened previously and preserved in the National Library in Naples, Italy

这些碎片的红外图像上的字体是可以肉眼直接辨认的,

甚至在可见光也可以用肉眼看到墨水。这点我在帖子提到了。这些碎片在Seales组是机器学习的训练材料,他们只不过是用机器总结fragment的规律,然后应用到scroll上面

Mocella是用人脑在做机器学习。但他方法存在问题,

  • 人做这个分类器一样会出现争议,前两行文字很模糊,不同的papyrologist可能会有不同的看法,

这是Mocella的图3。参照Vesivuis Challenge的标准

Multiple measures prevent overfitting and hallucination, including results from multiple architectures, a study across input/output window sizes, label smoothing, and varying validation folds.

这个数据质量,我不觉得他做到了可重复性。比如我把这个图转60度,有没有可能更像其他希腊字母?

  • 最大的问题是他的分析结合了古典学知识

We would then have the sequence ‘APN’, which can either come from a single word like αρν-εĩσθαι ‘to deny’ or be divided into the two-letter sequence ‘AΡ’ and the single letter ‘N’, giving, for example, the particle [γ]αρ, ‘for’ (which is always in second position in a clause or sentence) and preceding a word starting with N.

这是有可能掩盖新知的。打个比方几百万年后外星人研究了地球上留存的英文文献。假设绝大部分是美式拼法,比如realize。但假如有一天外星人用某种手段恢复了一张从今天的不列颠出土的文献,里面有一个单词,很像realize,但字母z不确定。如果他们使用已知的美式拼法复原,他们的模型就有了错误的知识,会认为z也可以写得模模糊糊像s,而意识不到其实是英式拼法realise。

我们的古典学是中世纪抄本中学到的知识,不一定是罗马时代的准则。用古典学去研究目前从未出现过的文献是有偏的。我们可能因为古典学分析而错过文献中与今天的古典学不同的地方,可以是一个单词的拼法,也可以是某一种习惯。

最后,就算Mocella识别的完全没有问题,他在这海量的数据中只找到了这几个字母,也就是说大部分pattern还是人眼是无法辨认的。那如何推广到全卷?如何推广到现存的800卷文献呢?还是要回到机器学习。

我认为Mocella这个实验用相位增强是值得考虑的,我不确定为什么Seales的数据没有做。我猜是因为原始数据已经有18T了,而且没必要,后面我会写为什么Seales认为5 micron的扫描精度已经包含了足够信息。

1 个赞

富豪的游戏 (上)

Github前CEO Nat Friedman是Vesuvius Challenge的主要发起者和组织者。他的主业是投资人和经理人,和罗马卷轴毫无关系。他是一步一步陷入这个游戏的。

从精罗到卷轴

image

在多处报道和演讲中(Bloomberg, SFGate, Getty Villa Presentation),Nat Friedman叙述疫情刚开始时读了一本小人书24 hours in Ancient Rome,从此成为了一名精罗。

兴许是搜索引擎记录了偏好,之后他就读到了维苏威火山的爆发,掩埋了庞贝城,也掩埋了旁边的Herculaneum。与庞贝不同的是,Herculaneum有一座庄园保存了炭化的莎草纸,庄园也被命名为villa de papyri,其主人可能是凯撒的岳父。

今日美国洛杉矶的Malibu海边的Getty Villa museum,即为villa de papyri的复刻。火山灰虽然掩埋保存了莎草纸卷轴,但高温炭化使得卷轴变得脆弱。在卷轴被发现的之后的一百多年里,人们发明多种物理和化学方式尝试打开。成功的有Abbot Piaggio发明的每天展开几毫米的机械转置,Humphry Davy尝试的化学方法等等。虽然部分卷轴因此重见天日,随后被破译,但也有卷轴因此损坏,永远消失在历史的记忆中。

相信Herculanem scrolls传奇而神秘的故事一定给Nat留下了深刻的影响,以至于有一天他在Youtube上搜到并观看了Brent Seales 2019年在Getty Villa的报告Reading the Herculaneum Papyri: Yesterday, Today, and Tomorrow。原来也不是没有办法无损打开Herculanem scrolls,但首先用粒子加速器产生的高能x射线扫描,然后用最前沿的机器学习技术解密扫描出来的图像,听起来非常cool!

And I’m like, this is designed to nerd snipe me

You’ve got mysterious unopenable boxes of ancient knowledge. It may be an anti-authority impulse, but --if people say you can’t open them, well, you have to find a way to open them. And then you get to use a particle accelerator and machine learning.

他的第一反应是惊叹,第二反应是生气——为什么这么好玩的项目没有人告诉他?

And then I became very angry because why had no one ever told me about this project?

Fanboy starts a competition

Nat的参与始终带着一种游戏的心态。此时的他还是一个fanboy,并不打算直接插手,只是设置了google alert。

两年后的2022年,当他再次查看项目进展时,发现没有任何新消息。于是他决定邀请Brent Seales来,参加一个户外camp活动,见见投资人。然而,Brent似乎对此并不感兴趣,或许是将邀请视为垃圾邮件,没有理会。直到Nat的助理打电话到系里,并同意了邀请。然而加州之行并没有带来好运,Brent做了关于scroll工作的报告,听众觉得Brent的工作非常有趣,但没有人投资。

image

Nat感到愧疚

I felt like I was letting Brent down and California was failing.

为了挽尊,他在Brent离开前邀请他与自己的合伙人Daniel Gross喝威士忌。喝着喝着,他提出了自己的想法

What if we put together a public competition?

Nat从90年代开始就参与开源软件运动,他是Github的前CEO,GONOME fundation的前主席。遇到问题组织一个开源比赛简直是他最本能的反应了。Brent略微考虑表示同意。Nat当场投入$125k,小伙伴Daniel Gross跟投。

Vesuvius Challenge,启动!

Blend competition and collaboration

Vesuvius Challenge对于Nat Friedman来说是一个真实世界的游戏。Nat在那场户外运动之前一直是fanboy,从他投钱那一刻起,他再也不可能置身事外了。下水以后,他感受了通关的难度。

Nat Frediman有钱,有兴趣,但是不懂揭开Herculamne scroll的技术细节和项目难度。一个在线比赛真的能成功吗?

朋友们,不妨想一想你是这个科研项目/游戏的投资人,作为一个技术领域的外行,你会怎么了解这个项目,如何提高通关概率,怎么砸钱最有效率?

Nat为了这个比赛发愁,他咨询请教了很多朋友。其中一位“睿智的朋友”的评价最为肯綮。他说这个项目前后已经消耗了4-5个Ph.D.,虽然到了最后一英里的阶段,其技术难点绝不是靠个人热情一下子能解决的。虽然他也咨询了XPRIZE、Kaggle等在线竞赛平台,但是没有得到什么有效的方法。我想根本原因在于Vesuvius Challenge有别于传统的data science竞赛

  • 比赛的组织者重视的是解决问题,而非测试筛选data science人才

  • 比赛问题来自于实际科研,没有固定套路,解法未知

  • 可能需要可能需要攻克数个技术难点,单一团队完全攻克的概率小

大奖虽然激励了参与者,却阻碍团队之间的交流。于是一些incremental progress被藏匿在各个团队内部,阻碍整个社区攻克Vesuvius Challenge。

Nat最终拿出了他们自己的方案,这也是多篇新闻报道中反复提到的Blend competition with cooroperation

image

Vesuvius Challenge设立了总奖金为70万美元的grand prize,旨在吸引全球数据科学领域的人才投入到这个项目中。同时,还设置了多个progress prize(阶段性奖励),金额从几千到几万美元不等,虽然数额看似不大,但影响深远

  • 获得阶段性奖励后必须开源。这样阶段性成果会定期扩散到所有参赛人员,提高整个社区的水平和进展。

  • 阶段性奖数额虽小,但数量众多,每一到两个月发放一次。持续不断的鸡血,让参赛人员最初对卷轴的感兴趣,到后期的狂热状态,不断投入大量的时间和精力。

  • 阶段性奖励可以让参赛者投资更好的计算设备,或者暂时从他们现有的工作中解放出来,从而为项目投入更多时间。

  • 对于那些时间有限的业余爱好者来说,他们也可以稍微尝试一下,拿到阶段性奖励后再离开。然而,他们的成果却可以积累到更大的社区当中,为整个项目贡献力量。

事实证明,Vesuvius Challenge在9个月内成功攻克了大奖目标,Nat的这个赛制设计非常关键。

Grand Prize的三位成员都曾获得过阶段性奖励,甚至有的获得了多次。其中,Luke Farrior的技术路线源自Casey Handman发现的墨水crackle pattern。当Casey在6月份公布了这一发现后,Luke才开始专注于训练识别这种crackle pattern。他最终在10月份新出的segement上成功识别出第一个单词“purple”,并获得了“First Letters Prize”。从头到尾,Julian Schilliger一直在致力于优化segmentation,为整个社区提供更多的识别素材。这些阶段性奖励提升了他们的知名度,才使得Grand Prize的三位成员能够在23年下半年联合起来,一直坚持工作直到12月31日的截止日期。据说,Julian Schilliger的auto segmentation程序最终是在12月25日完成的,可见为了争取大奖,他们甚至在圣诞节期间都在努力工作。

11 个赞