Tổng quan dự án

Chúng tôi xây dựng một mô hình ngôn ngữ lớn (LLM) 7 tỷ tham số, được tinh chỉnh chuyên sâu trên kho văn bản pháp luật và nghiệp vụ Bảo hiểm xã hội Việt Nam. Mô hình có thể hoạt động hoàn toàn trên hạ tầng nội bộ, đảm bảo an toàn dữ liệu tuyệt đối và tiết kiệm chi phí vận hành dài hạn.

Tên mô hình: T-VisStar-7B-BHXH-fp16-v1.0

Tại sao chọn mô hình 7B?

Đủ nhẹ để triển khai nội bộ

Có thể chạy trên máy chủ có card đồ họa thông thường (24GB bộ nhớ) mà không cần hạ tầng quá đắt đỏ. Phù hợp với ngân sách và khả năng vận hành của tổ chức trong nước.

🔧

Đủ mạnh cho ứng dụng phức tạp

Có khả năng suy luận tốt để xử lý việc gọi công cụ bên ngoài, thực thi các hàm và quy trình làm việc phức tạp. Vừa đủ để tích hợp vào hệ thống trợ lý thông minh trong tương lai.

⚖️

Điểm cân bằng giữa chất lượng & chi phí

Cân bằng tối ưu: không quá nhỏ dẫn đến kết quả kém chất lượng, không quá lớn gây lãng phí tài nguyên. Kích thước 7 tỷ tham số là lựa chọn đã được chứng minh hiệu quả cho các tác vụ chuyên ngành.

Mục tiêu hướng đến

Độ chính xác nghiệp vụ

  • Trả lời chính xác các câu hỏi về BHXH, dựa trên căn cứ pháp lý rõ ràng
  • Phục vụ đa dạng đối tượng: người lao động, người hưu trí, doanh nghiệp và công chúng

Bảo mật & Hiệu quả chi phí

  • Vận hành 100% trên máy chủ nội bộ, không phụ thuộc dịch vụ bên ngoài
  • Không mất phí API, tối ưu hóa nguồn lực phần cứng hiện có

Khả năng mở rộng

  • Cân bằng tối ưu giữa hiệu suất và yêu cầu tài nguyên với quy mô 7B
  • Sẵn sàng tích hợp RAG và tool calling trong tương lai

Phương pháp đánh giá

Xây dựng dữ liệu kiểm thử và kiểm tra thực tế

Bộ bài kiểm tra bao gồm các tình huống nghiệp vụ thực tế: điều kiện hưởng, mức chi trả, thủ tục hành chính, hồ sơ yêu cầu và các trường hợp đặc biệt.

Theo dõi quá trình training

Giám sát mức độ sai lệch, độ phức tạp và các chỉ số khác qua từng điểm lưu. Chọn phiên bản có độ hội tụ tốt nhất thông qua kiểm thử thủ công.

Pipeline xử lý dữ liệu

Đây là thành phần cốt lõi của dự án - hệ thống tự động hóa việc thu thập, làm sạch và chuẩn hóa dữ liệu từ văn bản pháp luật.

Nguồn dữ liệu đầu vào

  • Văn bản pháp luật BHXH: PDF, DOC, DOCX, TXT
  • Bao gồm: Luật, Nghị định, Thông tư, Quyết định, Công văn hướng dẫn và tài liệu giải thích chính sách

Quy trình xử lý

1

Trích xuất văn bản

Chuyển đổi các định dạng file về văn bản thuần, xử lý mã hóa ký tự để đảm bảo không lỗi phông chữ tiếng Việt

2

Làm sạch dữ liệu

Loại bỏ header/footer, số trang, watermark. Chuẩn hóa khoảng trắng, dấu xuống dòng và ký tự đặc biệt

3

Phân tách cấu trúc

Chia nhỏ văn bản theo đơn vị pháp lý: Chương → Mục → Điều → Khoản → Điểm, giữ nguyên hierarchy

Sinh dataset huấn luyện

Từ văn bản đã xử lý, chúng tôi tạo các cặp câu hỏi-trả lời (instruction tuning). Mỗi câu trả lời phải:

  • Giải đáp trực tiếp tình huống người dùng đưa ra
  • Bắt buộc có trích dẫn: Điểm X, Khoản Y, Điều Z của Luật/Nghị định ABC

Kiểm soát chất lượng nghiêm ngặt

Quy tắc vàng: Không trích dẫn = Không được training
  • Auto-validation: Mọi mẫu dữ liệu đều được quét tự động để phát hiện thiếu trích dẫn
  • Reject & Retry: Mẫu không đạt chuẩn sẽ bị loại bỏ khỏi dataset và phải được tái tạo

Cấu trúc Dataset

Dữ liệu được thiết kế theo format instruction-tuning, mỗi record đều traceable về văn bản pháp luật gốc.

Các trường dữ liệu

instruction
Câu hỏi của người dùng, được diễn đạt tự nhiên như trong cuộc hội thoại thực tế
input
Context bổ sung (optional, có thể để trống)
output
Câu trả lời chuẩn, có căn cứ pháp lý. PHẢI có trích dẫn cụ thể
source
File nguồn gốc (VD: "41_2024_QH15_557190.pdf")
type
Loại câu hỏi (để phân loại và filter)
perspective
Phân loại người hỏi theo 4 nhóm đối tượng:
worker

Người lao động đang đi làm - quan tâm về mức đóng, quyền lợi, điều kiện hưởng BHXH

retiree

Người đã nghỉ hưu - quan tâm về lương hưu, trợ cấp, điều chỉnh mức hưởng

employer

Doanh nghiệp - quan tâm về nghĩa vụ đóng BHXH, thủ tục cho nhân viên

general

Câu hỏi mang tính chung chung, không thuộc nhóm đối tượng cụ thể

api_source
Nguồn tạo dữ liệu (Ví dụ: "openai", "thủ_công", "claude")

Kết quả

Mô hình T-VisStar-7B-BHXH-fp16-v1.0 đã hoàn thành quá trình training và sẵn sàng triển khai cho các use case: Q&A, tra cứu, tóm tắt văn bản.

Testing nội bộ cho thấy mô hình trả lời chính xác, dùng đúng thuật ngữ chuyên ngành, có trích dẫn pháp lý rõ ràng. Cải thiện vượt trội so với base model chưa fine-tune.

Yêu cầu để test mô hình

Để chạy thử T-VisStar-7B-BHXH-fp16-v1.0, bạn cần:

Google Colab Pro (để có access GPU)
GPU VRAM cao (recommend: A100 hoặc V100 để load model 7B fp16)
Inference time tùy vào độ dài prompt và complexity của câu hỏi

Ứng dụng thực tế

Triển khai ngay

Chatbot tư vấn

Tích hợp vào website, app, Zalo OA để phục vụ người dân và doanh nghiệp 24/7

Trợ lý nội bộ

Hỗ trợ cán bộ BHXH tra cứu nhanh điều luật, soạn thảo văn bản, giải đáp case phức tạp

Semantic search

Tìm kiếm theo ngữ nghĩa, tự động gợi ý điều khoản liên quan với context đầy đủ

Roadmap mở rộng

  • RAG integration: Retrieval văn bản real-time trước khi generate answer
  • Call center AI: Gợi ý câu trả lời cho nhân viên tổng đài ngay trong cuộc gọi
  • Agentic workflow: Tool calling để check hồ sơ, tính mức hưởng, query database

Chiến lược duy trì

1. Re-training định kỳ

Khi có thay đổi pháp luật lớn, tiến hành fine-tune lại để model "học" sâu vào weights

2. RAG cho updates nhỏ

Các thay đổi nhỏ hoặc công văn mới được update qua RAG pipeline, không cần retrain ngay

Kết luận chính: Pipeline xử lý dữ liệu - đặc biệt là khâu validation (đánh giá lại dữ liệu) bắt buộc trích dẫn pháp luật - kết hợp với dataset được gắn nhãn perspective (worker/retiree/employer/general) chính là nền móng quyết định độ tin cậy và khả năng scale của toàn bộ hệ thống.