JA

Jayavarshini-Jayakumaran/legal-docs-importance-ml

Machine learning model to predict importance scores for legal documents using NLP features.

catboost document-analysis feature-engineering machine-learning model-training natural-language-processing python regression sbert

Legal Document Importance Prediction

This project predicts the importance score of legal documents using
textual, structural, and semantic features.

Project Structure

data/raw/ – Original datasets
data/processed/ – Cleaned & feature-engineered data
notebooks/ – Exploratory and experimental notebooks
src/ – Production-ready pipeline scripts
models/ – Trained CatBoost models
outputs/ – Prediction outputs

Pipeline Steps

Data cleaning & normalization
Feature engineering (text, metadata, semantic)
Model training using CatBoost
Prediction

How to Run

python main.py

Model

Algorithm: CatBoost Regressor
Objective: RMSE
Text features handled natively

Output

outputs/submission.csv contains predicted importance scores

On this page

Languages

Jupyter Notebook73.0%Python27.0%

Contributors

MIT License

Created January 7, 2026

Updated January 12, 2026

Jayavarshini-Jayakumaran/legal-docs-importance-ml | GitHunt