Dữ liệu tối (Dark Data) là một khái niệm đã có từ lâu nhưng rất ít người biết đến. Dark Data đang là gánh nặng của môi trường với lượng khí thải carbon nhiều hơn ngành hàng không tạo ra.
Dữ liệu tối (Dark Data) là gì?
Dữ liệu tối là dữ liệu riêng tư của người dùng hoặc doanh nghiệp mà không công khai trên internet. Chỉ một ít số người có thể truy cập được nó và thường nó không được sử dụng đến trong thời gian dài. Ví dụ như những hình ảnh hao hao nhau được lưu giữ trên Google Photos hoặc iCloud, hoặc các file Excel đã quá lâu không bao giờ được sử dụng lại hoặc dữ liệu từ các cảm biến của internet vạn vật (internet of things) không có mục đích cụ thể nào.
Loại “dữ liệu tối” (dark data) này vẫn còn tồn tại là nhờ vào năng lượng. Ngay cả những dữ liệu được lưu trữ và không bao giờ được sử dụng nữa vẫn chiếm dung lượng lớn trên các máy chủ – điển hình là các trung tâm dữ liệu lớn. Những trung tâm này đó sử dụng rất nhiều điện. Đây là một chi phí năng lượng đáng kể mà hầu hết các tổ chức không muốn nhắc đến.
Dark Data đang ảnh hưởng đến môi trường như thế nào?
Vào năm 2020, quá trình số hóa được cho đã tạo ra 4% lượng khí thải nhà kính toàn cầu. Hơn nữa, hiện tại, dữ liệu số đang được tạo ra với tốc độ rất nhanh – năm nay thế giới dự kiến sẽ tạo ra 97 zettabyte (97 nghìn tỷ gigabyte) dữ liệu. Đến năm 2025, con số này có thể tăng gấp đôi, lên 181 zettabyte. Do đó, điều ngạc nhiên là có rất ít sự quan tâm về mặt chính sách đối với việc giảm lượng khí thải carbon kỹ thuật số. Nhiều người vẫn cho rằng dữ liệu số, và quá trình số hóa, là trung tính carbon (carbon neutral). Nhưng sự việc không phải như vậy.
Để giúp giảm thiểu dấu chân carbon từ dữ liệu số và quá trình số hóa, ý tưởng “khử cacbon kỹ thuật số” (digital decarbonisaton) đã được nêu ra, theo đó chìa khóa quan trọng của quá trình này là ở cách dữ liệu được sử dụng và tái sử dụng bởi nhân viên của tổ chức trong hoạt động hằng ngày của họ. Điều quan trọng là phải nhận ra rằng bản thân số hóa không phải là một vấn đề môi trường, nhưng có những tác động môi trường rất lớn phụ thuộc vào cách chúng ta sử dụng các quy trình kỹ thuật số trong các hoạt động tại nơi làm việc. Dấu chân carbon (carbon footprint) (đơn vị thường được dùng là km, kg hoặc tấn), được định nghĩa là tổng lượng phát thải khí nhà kính của một sản phẩm hay dịch vụ tính từ lúc nó được sản xuất, sử dụng cho đến cuối vòng đời của nó. Các khí nhà kính này chủ yếu bao gồm carbon dioxide (CO2), khí metan (CH4).
Hiện tại, các trung tâm dữ liệu (chiếm 2,5% tổng lượng carbon dioxide do con người tạo ra) có lượng khí thải carbon lớn hơn ngành hàng không (2,1%). Để những con số này dễ hình dung hơn, có một công cụ để tính toán chi phí carbon của dữ liệu được tạo ra từ các nhân viên của một tổ chức. Chẳng hạn, một doanh nghiệp hoạt động dựa trên dữ liệu như bảo hiểm, bán lẻ hoặc ngân hàng, với 100 nhân viên, có thể tạo ra 2.983 gigabyte dữ liệu tối mỗi ngày. Nếu họ giữ dữ liệu đó trong một năm, dữ liệu đó sẽ có lượng khí thải carbon tương đương sáu lần bay từ London đến New York. Hiện tại, các công ty tạo ra 1.300.000.000 gigabyte dữ liệu tối mỗi ngày – tương đương 3.023.255 chuyến bay từ London đến New York.
Theo Digitaldicarb, Tinhte