Tạo web, chatbot ‘soi’ 12.000 trang sao kê ủng hộ thiệt hại do bão Yagi

Nhiều trang web, chatbot được lập ra để hỗ trợ tra cứu thông tin sao kê ủng hộ đồng bào chịu thiệt hại do bão lụt, do MTTQ Việt Nam vừa công bố.

Với lượng dữ liệu lớn, trải dài nhiều ngày cùng hàng trăm nghìn lượt ủng hộ, việc tra cứu chuyển khoản trong sao kê của Ủy ban Trung ương Mặt trận Tổ quốc Việt Nam (MTTQ) không dễ dàng. Định dạng PDF cũng gây khó khăn cho các công cụ tìm kiếm. Do vậy, nhiều website, chatbot được lập để hỗ trợ người có nhu cầu.

Chatbot hỗ trợ tra cứu dữ liệu sao kê. Ảnh: Xuân Sang.
Chatbot hỗ trợ tra cứu dữ liệu sao kê.

Tối 12/9, MTTQ Việt Nam đăng tải công khai bản sao kê khoản ủng hộ đồng bào miền Bắc, chịu thiệt hại trong đợt thiên tai vừa qua. Dữ liệu gồm toàn bộ thông tin đóng góp từ ngày 1/9 đến ngày 10/9. Tập tin được cung cấp là một file PDF, gồm hơn 12.000 trang, trên 200.000 lượt đóng góp.

Từ dữ liệu được cơ quan chức năng cung cấp, người dùng mạng xã hội truy lại thông tin chuyển khoản được công bố trước đó của các cá nhân, tổ chức để đối soát, kiểm chứng. Nhiều trường hợp gian dối, giả mạo thông tin chuyển khoản, đóng góp ít hơn con số công bố trên mạng bị phát hiện.

Tập tin dữ liệu sao kê của MTTQ Việt Nam hiện không thể tải xuống do quá số lượng tương tác của nền tảng.
Tập tin dữ liệu sao kê của MTTQ Việt Nam hiện không thể tải xuống do quá số lượng tương tác của nền tảng.

Tuy nhiên, vì tập tin lớn, gồm lượng dữ liệu phức tạp, nên việc tra cứu thông tin của người dùng trở nên khó khăn. Đồng thời, định dạng file PDF cũng kém thân thiện để tìm kiếm, trích xuất. Đến 13h ngày 13/9, đường dẫn tải bảng sao kê của MTTQ Việt Nam không còn khả dụng để tải về theo dõi, vì giới hạn của nền tảng Google Drive.

Vì vậy, các công cụ trích xuất dữ liệu, hỗ trợ tìm kiếm nhanh chóng được tạo ra để cá nhân có nhu cầu có thể sử dụng. Các ứng dụng được cung cấp miễn phí, người dùng có thể truy cập bằng trình duyệt, điền phần dữ liệu ký tự muốn tra cứu và nhanh chóng nhận được kết quả. Cách này giúp giải quyết được nhiều thao tác, tiết kiệm thời gian.

Về mặt công nghệ, bước đầu tiên của quá trình trích xuất 12.000 trang sao kê là OCR (Chuyển đổi ký tự từ hình ảnh). Có nhiều công cụ AI có thể giúp đưa thông tin trên tập tin PDF (vốn là hình ảnh) thành dạng ký tự. Tuy nhiên, thời gian để xử lý hơn 200.000 miền thông tin đóng góp là không nhỏ.

Trang web được người dùng lập ra để tra cứu dữ liệu sao kê từ MTTQ VN.
Trang web được người dùng lập ra để tra cứu dữ liệu sao kê từ MTTQ VN.

Một số tài khoản cũng cung cấp tập tin dạng thô, là các dữ liệu trích xuất thành công, thành một file bảng tính. Người có nhu cầu có thể tải về để tra cứu. Một cá nhân khác lại đưa các thông tin này cho một chatbot ở ứng dụng nhắn tin, bằng cách nhập lệnh, kết quả thông tin chuyển khoản cũng được cung cấp.

Đồng thời, có chuyên gia trong mảng khoa học dữ liệu, phân tích lại toàn bộ sao kê, để cho thấy cái nhìn tổng quát về số tiền được đóng góp thời gian qua. Cụ thể, tài khoản @vietthao930 tính được có hơn 200.000 lượt chuyển về tài khoản của MTTQ Việt Nam trong 10 ngày qua. Số tiền trung bình được đóng góp là hơn 600.000 đồng.

Tuy nhiên, người dùng nên cẩn trọng khi khai thác dữ liệu từ sao kê nói trên. Công nghệ OCR không đảm bảo việc trích xuất dữ liệu chính xác hoàn toàn, nhất là với tiếng Việt. Mặt khác, việc chuyển khoản, ghi lời nhắn có thể được thực hiện bởi bất cứ ai, khó xác minh có phải chính chủ cá nhân, tổ chức.

(Znews)