Tổng quan dự án
Chúng tôi xây dựng một mô hình ngôn ngữ lớn (LLM) 7 tỷ tham số, được tinh chỉnh chuyên sâu trên kho văn bản pháp luật và nghiệp vụ Bảo hiểm xã hội Việt Nam. Mô hình có thể hoạt động hoàn toàn trên hạ tầng nội bộ, đảm bảo an toàn dữ liệu tuyệt đối và tiết kiệm chi phí vận hành dài hạn.
Tại sao chọn mô hình 7B?
Đủ nhẹ để triển khai nội bộ
Có thể chạy trên máy chủ có card đồ họa thông thường (24GB bộ nhớ) mà không cần hạ tầng quá đắt đỏ. Phù hợp với ngân sách và khả năng vận hành của tổ chức trong nước.
Đủ mạnh cho ứng dụng phức tạp
Có khả năng suy luận tốt để xử lý việc gọi công cụ bên ngoài, thực thi các hàm và quy trình làm việc phức tạp. Vừa đủ để tích hợp vào hệ thống trợ lý thông minh trong tương lai.
Điểm cân bằng giữa chất lượng & chi phí
Cân bằng tối ưu: không quá nhỏ dẫn đến kết quả kém chất lượng, không quá lớn gây lãng phí tài nguyên. Kích thước 7 tỷ tham số là lựa chọn đã được chứng minh hiệu quả cho các tác vụ chuyên ngành.
Mục tiêu hướng đến
Độ chính xác nghiệp vụ
- Trả lời chính xác các câu hỏi về BHXH, dựa trên căn cứ pháp lý rõ ràng
- Phục vụ đa dạng đối tượng: người lao động, người hưu trí, doanh nghiệp và công chúng
Bảo mật & Hiệu quả chi phí
- Vận hành 100% trên máy chủ nội bộ, không phụ thuộc dịch vụ bên ngoài
- Không mất phí API, tối ưu hóa nguồn lực phần cứng hiện có
Khả năng mở rộng
- Cân bằng tối ưu giữa hiệu suất và yêu cầu tài nguyên với quy mô 7B
- Sẵn sàng tích hợp RAG và tool calling trong tương lai
Phương pháp đánh giá
Xây dựng dữ liệu kiểm thử và kiểm tra thực tế
Bộ bài kiểm tra bao gồm các tình huống nghiệp vụ thực tế: điều kiện hưởng, mức chi trả, thủ tục hành chính, hồ sơ yêu cầu và các trường hợp đặc biệt.
Theo dõi quá trình training
Giám sát mức độ sai lệch, độ phức tạp và các chỉ số khác qua từng điểm lưu. Chọn phiên bản có độ hội tụ tốt nhất thông qua kiểm thử thủ công.
Pipeline xử lý dữ liệu
Đây là thành phần cốt lõi của dự án - hệ thống tự động hóa việc thu thập, làm sạch và chuẩn hóa dữ liệu từ văn bản pháp luật.
Nguồn dữ liệu đầu vào
- Văn bản pháp luật BHXH: PDF, DOC, DOCX, TXT
- Bao gồm: Luật, Nghị định, Thông tư, Quyết định, Công văn hướng dẫn và tài liệu giải thích chính sách
Quy trình xử lý
Trích xuất văn bản
Chuyển đổi các định dạng file về văn bản thuần, xử lý mã hóa ký tự để đảm bảo không lỗi phông chữ tiếng Việt
Làm sạch dữ liệu
Loại bỏ header/footer, số trang, watermark. Chuẩn hóa khoảng trắng, dấu xuống dòng và ký tự đặc biệt
Phân tách cấu trúc
Chia nhỏ văn bản theo đơn vị pháp lý: Chương → Mục → Điều → Khoản → Điểm, giữ nguyên hierarchy
Sinh dataset huấn luyện
Từ văn bản đã xử lý, chúng tôi tạo các cặp câu hỏi-trả lời (instruction tuning). Mỗi câu trả lời phải:
- Giải đáp trực tiếp tình huống người dùng đưa ra
- Bắt buộc có trích dẫn: Điểm X, Khoản Y, Điều Z của Luật/Nghị định ABC
Kiểm soát chất lượng nghiêm ngặt
- Auto-validation: Mọi mẫu dữ liệu đều được quét tự động để phát hiện thiếu trích dẫn
- Reject & Retry: Mẫu không đạt chuẩn sẽ bị loại bỏ khỏi dataset và phải được tái tạo
Cấu trúc Dataset
Dữ liệu được thiết kế theo format instruction-tuning, mỗi record đều traceable về văn bản pháp luật gốc.
Các trường dữ liệu
Người lao động đang đi làm - quan tâm về mức đóng, quyền lợi, điều kiện hưởng BHXH
Người đã nghỉ hưu - quan tâm về lương hưu, trợ cấp, điều chỉnh mức hưởng
Doanh nghiệp - quan tâm về nghĩa vụ đóng BHXH, thủ tục cho nhân viên
Câu hỏi mang tính chung chung, không thuộc nhóm đối tượng cụ thể
Kết quả
Mô hình T-VisStar-7B-BHXH-fp16-v1.0 đã hoàn thành quá trình training và sẵn sàng triển khai cho các use case: Q&A, tra cứu, tóm tắt văn bản.
Testing nội bộ cho thấy mô hình trả lời chính xác, dùng đúng thuật ngữ chuyên ngành, có trích dẫn pháp lý rõ ràng. Cải thiện vượt trội so với base model chưa fine-tune.
Đường dẫn tham khảo:
Yêu cầu để test mô hình
Để chạy thử T-VisStar-7B-BHXH-fp16-v1.0, bạn cần:
Ứng dụng thực tế
Triển khai ngay
Chatbot tư vấn
Tích hợp vào website, app, Zalo OA để phục vụ người dân và doanh nghiệp 24/7
Trợ lý nội bộ
Hỗ trợ cán bộ BHXH tra cứu nhanh điều luật, soạn thảo văn bản, giải đáp case phức tạp
Semantic search
Tìm kiếm theo ngữ nghĩa, tự động gợi ý điều khoản liên quan với context đầy đủ
Roadmap mở rộng
- RAG integration: Retrieval văn bản real-time trước khi generate answer
- Call center AI: Gợi ý câu trả lời cho nhân viên tổng đài ngay trong cuộc gọi
- Agentic workflow: Tool calling để check hồ sơ, tính mức hưởng, query database
Chiến lược duy trì
Khi có thay đổi pháp luật lớn, tiến hành fine-tune lại để model "học" sâu vào weights
Các thay đổi nhỏ hoặc công văn mới được update qua RAG pipeline, không cần retrain ngay
Kết luận chính: Pipeline xử lý dữ liệu - đặc biệt là khâu validation (đánh giá lại dữ liệu) bắt buộc trích dẫn pháp luật - kết hợp với dataset được gắn nhãn perspective (worker/retiree/employer/general) chính là nền móng quyết định độ tin cậy và khả năng scale của toàn bộ hệ thống.