Nghiên cứu ứng dụng mô hình ngôn ngữ thị giác (VLM) trong quản lý đất đai thông minh
Research on application of visual language model (VLM) in smart land management

Tóm tắt
Quản lý đất đai tại Việt Nam đòi hỏi độ chính xác và hiệu quả cao trong xử lý hồ sơ, đặc biệt với sổ đỏ (Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất). Công nghệ nhận dạng Ký tự Quang học (OCR) truyền thống gặp nhiều hạn chế, như chi phí gán nhãn thủ công và tính linh hoạt thấp. Mô hình Ngôn ngữ-Thị giác (VLM) nổi lên như một giải pháp mới, hứa hẹn giảm công sức gán nhãn và tăng khả năng hiểu ngữ cảnh. Bài báo này khám phá tiềm năng của VLM trong nhận diện thông tin sổ đỏ, so sánh ưu nhược điểm với OCR, và đề xuất định hướng phát triển. Kết quả thực nghiệm ban đầu cho thấy VLM giảm 70% thời gian gán nhãn, nhưng độ chính xác chỉ đạt 88% so với 95% của OCR trên văn bản in rõ. Các kiến nghị tập trung vào tinh chỉnh mô hình, xây dựng giải pháp lai, và triển khai thí điểm tại Việt Nam.

Tệp toàn văn

Tài liệu tham khảo:
1. Nguyen, T., et al. (2022). Digital Transformation in Vietnam's Land Management. *Journal of Land Administration*, 15(3), 45-60.
2. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. https://arxiv.org/pdf/2103.00020
3. Bo Zhang &Shuo Li &Runhe Tian &Yang Yang &Jixin Tang &Jinhao Zhou &Lin Ma
Meituan(2025). Flash-VL 2B: Optimizing Vision-Language Model Performance for Ultra-Low Latency and High Throughput. https://arxiv.org/html/2505.09498v1
4. Yeshwanth Reddy (2024).Fine-Tuning Vision Language Models (VLMs) for Data Extraction.https://nanonets.com/blog/fine-tuning-vision-language-models-vlms-for-data-extraction/

  Ý kiến bạn đọc

Tin xem nhiều

Liên kết

thuvien.qui.edu.vn
 
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây