Студентам удалось расшифровать фрагмент древнего свитка, обугленного 2000 лет назад при извержении Везувия, с помощью машинного обучения

Содержание

1.Начало проекта
2.Не трещины, а чернила
3.Модель Люка Фарритора
4.Модель Юссефа Надера

Двум студентам, участникам конкурса «Первые письма» проекта Vesuvius Challenge, удалось независимо друг от друга расшифровать фрагмент из геркуланумского папируса. Этому предшествовали работа и открытия других участников проекта.

Начало проекта

Геркуланумские папирусы — древние свитки, хранившиеся в библиотеке частной виллы вблизи Помпеи, — были погребены в пепле и лаве в результате извержения Везувия в 79 году нашей эры. Почти две тысячи лет эта единственная сохранившаяся библиотека античности оставалась под 20-метровым слоем вулканической грязи. В 1700-х годах их раскопали, но, хотя они в какой-то мере сохранились благодаря извержению, открыть и прочитать их невозможно: при неправильном обращении свитки превратились бы в пыль.

В 2019 году профессор Брент Силз из лаборатории EduceLab Университета Кентукки получил 3D-изображение геркуланумских свитков, создав трехмерные томограммы с разрешением до 4 мкм. Аспирант профессора Силса, Стивен Парсонс, работал над обнаружением чернил на КТ-сканах с помощью моделей машинного обучения и добился успеха в работе с отдельными фрагментами.

Это привлекло внимание технологических предпринимателей Ната Фридмана и Дэниела Гросса, которые организовали проект Vesuvius Challenge с конкурсом для ускорения этого прогресса. Они объявили открытый конкурс в марте 2023 году и наряду с главным призом в $700 тысяч объявили, что дадут несколько призов за разработку инструментов и методов с открытым исходным кодом.

В начале лета к команде изучавших свиток присоединились несколько аннотаторов. Они начали картировать трехмерную структуру свитка и к июлю сегментировали и виртуально «сплющили» сотни квадратных сантиметров папируса.

Не трещины, а чернила

В начале августа участник конкурса Кейси Хэндмер, архитектор ПО в Лаборатории реактивного движения NASA, сообщил в блоге о своем открытии «узора из трещин», похожего на следы чернил. Он обнаружил этот узор, глядя на сегментированные томограммы свитка в течение нескольких часов подряд. Стивен Парсонс и раньше видел прямые свидетельства наличия чернил в отделившихся кусочках папируса, но внутри свитка их еще не наблюдали. Кейси стал первым человеком за последние две тысячи лет, обнаружившим чернила и текст внутри нераспечатанного свитка.

Модель Люка Фарритора

После находки Хэндмера участники конкурса стали активно искать похожие трещины, но это оказалось сложной задачей. Студент колледжа и стажер SpaceX Люк Фарритор узнал о конкурсе «Везувий» из подкаста. Он увидел, что модель трещин Кейси обсуждается в Discord, и начал тренировать модель машинного обучения на изучение трещин. С каждой новой найденной трещинкой модель улучшалась. Фарритор нашел несколько десятков чернильных штрихов и несколько целых букв, которые можно было пометить и использовать в качестве обучающих данных.

Вскоре очертания начали складываться в буквы и стали похожи на настоящие слова. Тогда Фарритор подал заявку на участие в конкурсе «Первые письма», в рамках которого участники должны были найти не менее десяти букв на площади 4 кв. см. Вот поданная им работа:

Профессор Силс показал это изображение группе папирологов проекта Vesuvius Challenge — ученых, специализирующихся на дешифровке древних текстов, — и те сразу же смогли прочитать слово porphyras (πορφyραс), несмотря на то что буквы были нечеткими. Оно означает «пурпурный» и встречается в древних текстах довольно редко.

Каждый квадрат обозначает одно мнение специалиста. Зеленый: более 80% уверенности в том, какая это буква, желтый — 50–80% уверенности, красный — менее 50% уверенности

Модель Юссефа Надера

Тем временем другой участник конкурса, Юссеф Надер, египетский аспирант, изучающий биоробототехнику в Берлине, использовал другой подход. Вдохновленный результатами Хэндмера и Фарритора, он проанализировал работы победителей одного из конкурсов Kaggle по распознаванию чернил, в частности, изучил совершенствование подхода Стивена Парсонса (упомянутого выше) к машинному обучению на отдельных фрагментах. Юссеф также подал свою заявку на премию «Первые письма». Он увидел первые результаты Люка, которыми тот делился в Twitter и Discord, и решил сфокусироваться на той же области в рамках свитка. Он нашел похожие на буквы символы, присвоил им метки.

Модели, обученные на этих метках, были способны обнаруживать чернила внутри свитка. В итоге Юссефу удалось получить изображение, представленное ниже.

Папирологи пришли к выводу, что их догадки были верны, а также начали строить предположения о возможных словах выше (ανυοντα / ANYONTA, «достижение») и ниже (ομοιων / OMOIωN, «подобный»). Юссеф Надер получили приз в $10 тысяч.

Кроме того, модель Юссефа создала новое изображение свитка — значительное по размеру и четкости. На этом изображении хорошо видны четыре с половиной колонки текста, разделенные полями. Теперь видно гораздо больше букв, хотя не все из них можно сразу разобрать. Сейчас их изучают папирологи.

Расследования

Репортажи

Аналитика