تقطیع و برچسب دهی نحوی – معنایی داده های نوشتاری یکی از فعالیتهای اصلی در طراحی و ساخت هر دادگان زبانی برای استخراج مدل زبانی است . در این مقاله مشکلاتی که نگارند ه در انجام این فعالیت برای طرح امکان سنجی برای طرح مدل سازی زبان فارسی داشته ‘ توضیح داده
شد ه‘همچنین برای حل مشکلات از معیارهای زبان شناختی و مهندسی استفاده شده است . در نهایت برای استخراج مدل زبان فارسی یک بسته نرم افزاری نوشته شده ‘ که در چارچوب فرآیند مارکف صفر تا سه مرحله ای ‘ توزیع احتمال مشروط کلمات فارسی را در چهار حالت به طور مستقل ازو وابسته به مقوله نحوی معنایی به دست می دهد .