Kho dữ liệu khoa học luôn có tính tập trung với truy cập được kiểm soát, song tốc độ phát triển nhanh chóng của chúng đã vượt xa khả năng duy trì của các dịch vụ tập trung. Những phát triển gần đây trong công nghệ ngang hàng (P2P) đã tạo ra một kho lưu trữ hồ sơ khoa học lâu dài cho tất cả mọi người. Trong bài viết này, chúng ta sẽ đi sâu vào các công nghệ tiên tiến của mạng lưu trữ dữ liệu phi tập trung và cung cấp lộ trình phát triển tiềm năng cho một hệ sinh thái khoa học phi tập trung cộng tác.
Ai nên có tri thức?
Trong lịch sử, khả năng tiếp nhận tri thức của con người bị giới hạn bởi các công cụ quan sát và dữ liệu chất lượng cao. Những gì chúng ta có ngày nay, sức mạnh nhằm tạo ra những bước nhảy vọt trong tri thức về tất cả các lĩnh vực của thế giới tự nhiên, trước đây là đặc quyền cho nhóm thiểu số.
Ptolemy đã dùng những quả cầu hình vòng cung và giấy cói để ghi lại ranh giới của Trái đất mà hiểu biết của con người "chạm tới", vốn chưa bị thách thức trong hàng nghìn năm qua. Galileo đã sử dụng thấu kính lồi và giấy da, với hình cầu giống như một vị thần bị nhốt trong vũ trụ, để giải thích làn ranh của vũ trụ. Trong khi đó, Hubble lấy sức mạnh của kính viễn vọng Hooke để phác họa chân trời mở rộng vô hạn cho tất cả kiến thức của nhân loại.
Ngay cả thời bây giờ, chỉ tầng lớp học giả cao quý nhất mới có quyền truy cập vào kho công cụ và dữ liệu cần thiết để giải quyết những thách thức lớn trong khoa học. Các hoạt động hợp tác mở và chia sẻ dữ liệu ngày nay có thể tạo thêm nhiều kịch bản ứng dụng trong tương lai, đặc biệt là đối với thiên văn học và vật lý học. Các vấn đề quá vĩ mô, cùng hàng tá mô hình phức tạp và những thách thức kỹ thuật quá khó để những người dù là thông minh nhất có thể giải quyết một mình. Kho tàng kiến thức của chúng ta về phạm vi vũ trụ sẽ mở rộng và những bộ công cụ dữ liệu kèm theo đó sẽ trở nên dễ tiếp cận hơn tất cả chúng ta.
Giàu dữ liệu, nghèo trí tuệ
Trong khi cộng đồng thiên văn học đã đặt ra các tiêu chuẩn cho hợp tác thực hành khoa học, nhiều lĩnh vực vẫn nương theo quan niệm truyền thống "dựa trên danh tiếng và sự phát triển nghề nghiệp của bản thân." Đối với nhiều người, thật khó có thể tìm ra cách vượt qua tư tưởng học thuật cố thủ này. Tuy nhiên, những thách thức thực tế mà khoa học hiện đại phải đối mặt ngày nay chắc chắn sẽ kích thích một cuộc cách mạng văn hóa vốn từng xảy ra với sự ra đời của chia sẻ dữ liệu khoa học mở, tạp chí khoa học và software miễn phí ngày nay. Lượng dữ liệu mà chúng ta hiện có về thế giới tự nhiên đang bùng nổ khỏi phạm vi mà cơ sở hạ tầng thể chế truyền thống có khả năng duy trì, lưu trữ và sàng lọc.
Hàng nghìn petabyte dữ liệu và nghiên cứu có giá trị về sức khỏe con người, hoạt động kinh tế, động lực xã hội và vũ trụ cùng với tác động của chúng lên những lĩnh vực này được lưu lại trong các hệ thống lỗi thời. Dữ liệu này chỉ có thể truy cập bởi một số ít công cụ nhất định và do đó phần lớn không bao giờ được dùng tới. Người ta ước tính rằng hơn 80% dữ liệu khoa học gốc được thu thập trong những năm 1990 bị mất vĩnh viễn do công nghệ lạc hậu và cơ sở hạ tầng lưu trữ kém hoàn thiện. Ngay cả ngày nay, khi ta tiến tới ba năm sau lúc một bài báo được xuất bản, xác suất tìm thấy một tập dữ liệu giảm 17% hàng năm. Việc cố tình hạn chế quyền truy cập vào dữ liệu khoa học đã đặt rào cản lên tốc độ đổi mới trong xã hội chúng ta.
Các giao thức lưu trữ tệp phi tập trung cung cấp giải pháp cho vấn đề này thông qua công cụ truy xuất dữ liệu theo nội dung. Những biện pháp này có thể lập trình để lưu trữ dữ liệu, truy nguồn, chống kiểm duyệt và mở rộng băng thông lên quy mô toàn cầu. Dữ liệu khoa học P2P được thúc đẩy bởi các tính năng này có thể cung cấp một kết cấu kỹ thuật số linh hoạt, cho phép những cộng đồng phi tập trung lan tỏa tầm hiểu biết xung quanh các vấn đề quan trọng và khó khăn nhất hiện nay.
Lược sử về mạng lưới nội dung P2P
Chia sẻ thông tin P2P vốn xuất hiện gần như đồng thời với Internet. Trên thực tế, ARPANET, tiền thân của Internet mà ta biết ngày nay, hoàn toàn là một mạng P2P khi được ra mắt lần đầu tiên vào năm 1969. Khả năng chống suy thoái mạng, băng thông hai chiều cao, thông tin dự phòng, tổng hợp tài nguyên và bản chất tham gia cố hữu là những đặc điểm chính làm cho các mạng P2P phân tán trở thành lựa chọn lý tưởng của các nhà thiết kế và kỹ sư Internet thời kỳ đầu.
Sự ra đời của public key mã hóa vào năm 1973 đã đánh dấu bước khởi đầu của định dạng giao thức và nội dung có thể xác định được thông qua một hệ thống khóa ký tự thông minh. Lần đầu tiên, người dùng website có thể tin tưởng một gói thông tin được mã hóa bằng khóa, với điều kiện đó là public key duy nhất được phát hành công khai bởi các bên uy tín. Sau đó, Ralph Merkle đã phát minh ra cây Merkle vào năm 1979 để theo dõi bản gốc của các gói thông tin, mở đường cho các phiên bản kiểm tra phần mềm như git và svn. Việc tích hợp public key mã hóa với cấu trúc dữ liệu Merkle đã thúc đẩy hàng loạt phát minh mới như blockchain, thuật toán phân tán và cơ chế đồng thuận, giúp tăng cường khả năng chống chịu trước những cuộc tấn công và giảm thiểu vấn đề phân mảnh thông tin trong mạng lưới.
Một ví dụ điển hình về mạng phân tán là Napster. Napster kết nối nhiều máy P2P thông qua một máy chủ tập trung, dù sau đó đã bị đóng cửa do bị Metallica kiện vi phạm bản quyền năm 2021. Sự ra đời của Distributed Hash Tables (DHT) đã cách mạng hóa thiết kế của mạng P2P, tối ưu hóa tính phi tập trung và độ linh hoạt của mạng lưới trong kiểm duyệt nội dung. DHT ban đầu được sử dụng để hỗ trợ bộ nhớ chung về vị trí của các node trên mạng P2P. Trong thời kỳ đầu của Internet, cách tiếp cận này cho phép các mạng P2P mở rộng quy mô theo hướng phi tập trung, bởi vì chúng ta không cần phải dựa vào máy chủ trung tâm như Napster. Mạng P2P BitTorrent nổi tiếng là một trong những mạng đầu tiên sử dụng công nghệ DHT.
IPFS là một giao thức chia sẻ tệp P2P hội tụ những tiến bộ quan trọng của thuật toán phi tập trung (ví dụ: DHT và cây Merkle) và các bằng chứng mã hóa để cung cấp lớp nền tảng lưu trữ thông tin vĩnh viễn trên Internet. IPFS giúp thông tin thực sự thuộc về tài nguyên công cộng của mạng. IPFS giúp mạng lưới duy trì khả năng vượt qua kiểm duyệt địa lý thông qua các bản sửa đổi nội dung, sửa chữa các cuộc tấn công dữ liệu và khắc phục tắc nghẽn băng thông gây bởi các nhà cung cấp dịch vụ tập trung.
Trạng thái lưu trữ đám mây
Đầu thế kỷ 21, các nhà cung cấp dịch vụ đám mây tập trung đã xuất hiện và trở thành người gác cổng cho nội dung trên Internet. Ngày nay, thị trường lưu trữ đám mây được thống trị bởi rất ít người chơi. Theo ước tính của Canalysis (2020), Amazon, Microsoft và Google kiểm soát hơn một nửa thị trường, trong đó chỉ tính riêng Amazon đã nắm giữ một phần ba. Amazon đã đạt được vị thế gần như độc quyền bằng cách giải quyết các vấn đề quan trọng về khả năng mở rộng của Internet sơ khai, song cũng từ đó, Amazon tạo ra một loạt vấn đề mới, tất cả đều bắt nguồn từ tập trung hóa. Các thách thức chính là phân bổ tài nguyên không hiệu quả, phân mảnh dữ liệu trong kho lưu trữ, thiếu quyền riêng tư và bảo mật, chi phí cao không cần thiết. Nhìn chung, các nhà cung cấp dịch vụ đám mây kiểm soát tất cả dữ liệu được lưu trữ mà họ quản lý, khiến họ trở thành người phán xử trong truy cập kiến thức.
Triển vọng mở rộng mạng lưới
IPFS đã tạo điều kiện khởi lập nhiều cải tiến công nghệ khác để làm vững mạnh mạng lưới phi tập trung. Trong quá khứ, những cơ chế và ứng dụng phổ biến đằng sau IPFS đã thúc đẩy nhiều phương tiện thông tin khác phát triển. Trong tương lai, chúng ta chắc chắn có thể mong đợi vào những cuộc cách mạng tiếp theo của mạng phi tập trung.