Các nhà lưu trữ chuyển sang LLM để giải mã chữ viết tay ở quy…

Khi tôi ngồi xem nhật ký cá nhân của Bell Hooks tại kho lưu trữ tại Đại học Berea ở Kentucky, tôi đã mong đợi một cái nhìn sâu sắc về những suy nghĩ riêng tư, giọng nói của cô ấy trước khi biên tập. Thay vào đó, những gì tôi nhận được là sự thất vọng. Chữ viết tay của cô ấy là nét chữ thảo dày đặc, tất cả các vòng đều trông giống hệt mắt tôi, và phải mất hàng năm trời để đọc nhật ký. Tôi thấy mình đang chụp ảnh các trang và đưa chúng vào ChatGPT chỉ để đọc những gì cô ấy đã viết. Công cụ tôi chọn đã hoạt động tốt và hóa ra tôi không phải là người đầu tiên trong kho lưu trữ đã phát hiện ra điều này. Việc làm cho máy tính có thể đọc được chữ viết tay của con người một cách đáng tin cậy, ở mọi biến thể, đã thách thức các nhà nghiên cứu AI kể từ những ngày đầu tiên của lĩnh vực này. Các nhà nghiên cứu vào những năm 1960 đã dự đoán máy móc sẽ sớm đọc được văn bản viết tay; thay vào đó, vấn đề đã tạo ra hàng thập kỷ nghiên cứu chuyên sâu và toàn bộ ngành công nghiệp thương mại. Yann LeCun, người sau này đã giành được Giải thưởng Turing vì những đóng góp của mình cho lĩnh vực học sâu, đã xuất bản công trình mang tính bước ngoặt về nhận dạng chữ số viết tay vào những năm 1980 cho thấy những gì có thể làm được trong môi trường hẹp, được kiểm soát. Lưu trữ thực sự là một vấn đề khác. Bây giờ ranh giới đó đang di chuyển. Các mô hình AI đa năng không phải là những trình đọc hoàn hảo cho mọi trang viết tay, nhưng giờ đây chúng đột nhiên đủ tốt để thay đổi những gì các kho lưu trữ có thể làm. Các trang từng yêu cầu đào tạo về cổ điển học, phần mềm tùy chỉnh hoặc mất nhiều tuần xem xét có thể tạo ra các bản ghi có thể sử dụng được trong vài giây. Các bộ sưu tập được bảo tồn nhưng bị ẩn về mặt chức năng đang trở nên có thể tìm kiếm được, mở ra khả năng cho các học giả và gia đình đặt câu hỏi mà trước đây họ hiếm khi có thời gian hoặc tiền bạc để hỏi. Mở rộng quy mô AI để giải mã chữ viết tay lưu trữ Mark Humphries đã dành cả thập kỷ vật lộn với quy mô. Một giáo sư lịch sử và điều phối viên chương trình AI tạo sinh ứng dụng tại Đại học Wilfrid Laurier ở Waterloo, Ontario, đã số hóa 10 triệu trang hồ sơ lương hưu trong Thế chiến thứ nhất ở Canada. Nhưng không có chỉ mục và không có tiêu chuẩn hóa, việc tìm kiếm một người hưu trí có nghĩa là phải xem xét các hồ sơ một cách ngẫu nhiên. Hồ sơ được viết bởi hàng trăm thư ký, cán bộ và quản trị viên khác nhau, điều này loại trừ cách giải quyết tiêu chuẩn là đào tạo một mô hình chuyên biệt để nhận dạng chữ viết tay của một người. Khi GPT-4 của OpenAI ra mắt vào năm 2023, Humphries bắt đầu cung cấp chữ viết tay cho nó. Kết quả tuy khó khăn nhưng tốt hơn bất kỳ công cụ thông thường nào mà anh đã thử trước đây và anh muốn biết liệu thủ thuật này có giữ được hay không. Humphries và các đồng nghiệp của ông tại Wilfrid Laurier đã dành hai năm để thử nghiệm một cách có hệ thống những gì những mô hình này thực sự có thể làm được. Kết quả của họ, được công bố vào tháng 5 năm 2025 trên tạp chí Phương pháp lịch sử, đã củng cố bằng chứng giai thoại của ông. Trên một kho văn bản gồm 50 bức thư, hồ sơ pháp lý và nhật ký bằng tiếng Anh có niên đại từ thế kỷ 18 và 19, các mô hình ngôn ngữ lớn (LLM) vượt trội hơn Transkribus, phần mềm nhận dạng chữ viết tay chuyên dụng được hơn 150 trường đại học và cơ quan lưu trữ lớn sử dụng, về độ chính xác, tốc độ và chi phí. Trên các tài liệu chưa được đào tạo, Transkribus có tỷ lệ lỗi ký tự khoảng 8%. Cách tiếp cận dựa trên LLM tốt nhất của Humphries đã đẩy tỷ lệ đó xuống dưới 2%, đồng thời hoàn thành công việc nhanh gấp 50 lần và chi phí chỉ bằng 1/50. Về phần mình, Transkribus đã thông báo rằng họ đang tích hợp LLM trực tiếp vào nền tảng riêng của mình. Humphries nói: “Ước mơ là có được thứ gì đó giống như những gì chúng tôi có bây giờ”. Humphries có một lý thuyết về lý do tại sao. Nhà nghiên cứu AI Richard Sutton đã lập luận vào năm 2019 rằng các phương pháp chung tận dụng tính toán cuối cùng sẽ luôn hoạt động tốt hơn các phương pháp chuyên biệt. Humphries cho rằng đó chính xác là những gì đang xảy ra ở đây. Các mô hình chung đã được đào tạo trên một phạm vi dữ liệu rộng lớn đến mức ở đâu đó trong đống dữ liệu đó, chúng tiếp thu mối quan hệ giữa các tài liệu viết tay và bản ghi âm của chúng mà không cần ai dạy chúng một cách rõ ràng. Những hậu quả thực tế đã và đang diễn ra. Lianne Leddy, phó giáo sư lịch sử và Chủ tịch nghiên cứu Canada về Lịch sử bản địa và thực hành lịch sử, một trong những đồng tác giả của Humphries, theo dõi trải nghiệm của phụ nữ bản địa trên khắp Bắc Mỹ thông qua các tạp chí đăng tải về buôn bán lông thú, hồ sơ rửa tội và đăng ký kết hôn rải rác khắp các kho lưu trữ trên khắp Canada. Hầu hết các hồ sơ đều được viết bởi những người đàn ông làm thư ký, linh mục và nhân viên bưu điện, những người hiếm khi tập trung vào phụ nữ bản địa xung quanh họ. Việc lướt qua những câu chuyện này đòi hỏi phải đọc hàng nghìn tài liệu để tìm ra một số chi tiết có liên quan. Th Tên của phụ nữ thường được đánh vần theo phiên âm - khác nhau bởi các nhà văn Pháp, Anh và Scotland - hoặc chỉ được ghi là vợ của ai đó. Leddy nói: “Để xây dựng những câu chuyện đó sẽ cần nhiều sự nghiệp làm những việc theo cách truyền thống”. “Điều này thực sự thay đổi quy mô của những gì có thể xảy ra.” Phiên âm AI trong kho lưu trữ lịch sử Những tác động đã lan rộng khắp các thể chế. Tại Đại học Bắc Carolina ở Đồi Chapel, các thủ thư đang thử nghiệm phiên âm AI trên các tài liệu trong bộ sưu tập đặc biệt của họ, vốn được những người truy tìm tổ tiên nô lệ sử dụng nhiều. Nhóm nghiên cứu nhận thấy các mô hình xử lý tốt các bức thư và nhật ký và tạo ra bước đột phá đặc biệt với sổ cái, vốn có xu hướng có cấu trúc dạng bảng chuyển từ trang này sang trang khác và từ lâu rất khó xử lý. Jackie Dean, một trong những nhà lưu trữ dẫn đầu dự án cho biết: “Gemini có thể làm bàn rất rất tốt. “Đối với trường hợp sử dụng của chúng tôi, đó là một bước tiến lớn.” Không chỉ các trường đại học mới chú ý. Ngân hàng Dự trữ Liên bang Philadelphia đã và đang sử dụng LLM để trích xuất dữ liệu từ việc đăng ký phương tiện và chứng thư tài sản trong quá khứ, vốn trước đây quá đắt và tốn thời gian để xử lý trên quy mô lớn, mở ra các câu hỏi nghiên cứu kinh tế mới. Archive Pearl là một công cụ AI được các nhà nghiên cứu ở Canada phát triển để sao chép hàng loạt tài liệu viết tay. Ở đây nó hiển thị bản sao của tài liệu cho thuê từ kho lưu trữ ở Quebec.Mark Humphries, Lianne C. Leddy, et al. Benjamin

Các nhà lưu trữ chuyển sang LLM để giải mã chữ viết tay ở quy mô lớn