Giới thiệu về Kho ngữ liệu ngôn ngữ trung gian tiếng Hán của người Việt Nam

Th5 18, 2018 in Hệ thống đề tài

Thu thập trên 3.000 bài viết của sinh viên Việt Nam, với trên 200 bài viết đã được chẩn đoán và chú thích lỗi sai, Kho ngữ liệu ngôn ngữ trung gian tiếng Hán của người Việt Nam là nguồn ngữ liệu giá trị cho những ai mong muốn tìm hiểu, nghiên cứu về những biểu hiện ngôn ngữ chân thực của người Việt Nam khi học tiếng Hán.

Kho ngữ liệu ngôn ngữ trung gian (interlanguage) tiếng Hán của người Việt Nam nằm trong đề tài nghiên cứu khoa học nhóm B cấp ĐHQGHN (Mã số: QG.13.15) thuộc chuyên ngành Lý luận và phương pháp giảng dạy tiếng Trung Quốc do PGS. TS. Hà Lê Kim Anh là Chủ nhiệm cùng nhóm giảng viên Khoa Ngôn ngữ và văn hóa Trung Quốc, trường ĐHNN-ĐHQGHN hoàn thiện năm 2016. Nghiên cứu này được tiến hành xuất phát từ việc nhóm nghiên cứu nhận thấy kho ngữ liệu ngôn ngữ trung gian (dù là khẩu ngữ hay bút ngữ) giữ một vai trò rất quan trọng đối với việc nghiên cứu quá trình thụ đắc ngôn ngữ, giảng dạy ngôn ngữ và biên soạn giáo trình v.v…

Nhìn lại lịch sử, từ kho ngữ liệu ngôn ngữ trung gian tiếng Hán đầu tiên do giáo sư Trữ Thành Trí (储诚志) xây dựng vào năm 1995 thì cho đến nay, đã có nhiều kho ngữ liệu khác tương tự được thực hiện, đến mức có thể nói rằng xây dựng kho ngữ liệu ngôn ngữ trung gian tiếng Hán đang là một trào lưu hiện nay. Trong đó phải kể đến “Kho ngữ liệu bài thi viết HSK” do giáo sư Thôi Hi Lượng (崔希亮), nguyên Hiệu trưởng trường Đại học Ngôn ngữ Bắc Kinh chủ trì năm 2003, một Kho ngữ liệu mà bất cứ nhà nghiên cứu về giảng dạy tiếng Hán như một ngôn ngữ thứ hai nào cũng biết đến. Kho ngữ liệu này đã thu thập 10.740 bài viết ở trình độ cao cấp trong các kì thi HSK từ năm 1999 đến năm 2005, và liên tục có những bổ sung. Hiện nay, giáo sư Thôi Hi Lượng và đồng nghiệp đang tiến hành xây dựng Kho ngữ liệu ngôn ngữ trung gian tiếng Hán toàn cầu, thu thập một lượng lớn ngữ liệu bút ngữ của sinh viên quốc tế trên toàn thế giới.

Việc xây dựng kho ngữ liệu ngôn ngữ trung gian tiếng Hán của người Việt Nam có một ý nghĩa hết sức quan trọng trong công tác nghiên cứu và giảng dạy tiếng Trung Quốc ở giai đoạn hiện nay. Kho ngữ liệu do nhóm tác giả thực hiện được định hướng xây dựng bằng cách thu thập ngữ liệu bút ngữ chân thực của người Việt Nam trong quá trình học tiếng Hán, tiến hành chẩn đoán và phân loại ngữ liệu, tạo các chức năng tìm kiếm cơ bản để giúp người dùng có thể tiếp cận tới những thông tin cần thiết và nguồn ngữ liệu tự nhiên, chân thực.

Kho ngữ liệu ngôn ngữ trung gian tiếng Hán của người học Việt Nam được lưu trữ tại địa chỉ: http://chinese-ulis.edu.vn/

Kho ngữ liệu ngôn ngữ trung gian tiếng Hán của người học Việt Nam đã được nhóm dày công sưu tập, được lưu trữ tại địa chỉ: http://chinese-ulis.edu.vn/. Kho bao gồm những nội dung sau:

Một là kho bài viết nguyên bản của người học: Kho lưu giữ nhiều bài viết chủ yếu là bài thi môn Viết, bài thi môn Dịch, môn Văn hóa văn minh của sinh viên khoa Ngôn ngữ và văn hóa Trung Quốc, trường Đại học Ngoại ngữ, Đại học Quốc gia Hà Nội. Ngoài ra còn có các bài viết của sinh viên một số trường đại học khác như Đại học Hải Phòng, Đại học Ngoại thương v.v… Số lượng bài viết được thu thập là trên 3000 bài, chủ yếu là bài gồm bài viết của sinh viên các khóa từ QH.2007 đến QH.2012, trong đó các khóa QH.2009 đến QH.2012 chiếm đa số. Các bài viết được thu thập trải dọc theo thời gian học tập của sinh viên, từ năm thứ nhất đến năm thứ tư, tức là từ trình độ sơ cấp đến trung cấp và cao cấp. Trên 3000 bài viết nguyên bản đã được scan và đưa lên website dưới dạng file ảnh, người sử dụng có thể xem trực tiếp hoặc tải về. Mỗi file ảnh đều có mã hóa số hiệu bài viết, giúp kết nối thông tin với kho thông tin người học. Có tổng số khoảng 4400 file ảnh do có những bài viết được thể hiện trên 2 hoặc thậm chí 3 trang. Với những bài viết này, nhóm đều mã hóa số hiệu có chú thích số trang để người dùng tiện theo dõi.

Hai là kho bài viết đã được chẩn đoán và chú thích: Trong số trên 3000 bài viết đã được thu thập, nhóm nghiên cứu đã tiến hành xử lý trên 200 bài viết. Các bài viết này được nhập dưới dạng word, chẩn đoán và mã hóa lỗi sai theo hướng dẫn chẩn đoán và mã hóa lỗi sai của kho ngữ liệu bài viết trình độ tiếng Hán HSK của Đại học Ngôn ngữ Bắc Kinh. Việc chẩn đoán và mã hóa lỗi sai của nhóm ngữ liệu này sẽ giúp người dùng dễ dàng nhận ra những lỗi sai trong ngữ liệu, thuận tiện trong việc nghiên cứu. Bên cạnh đó, sau khi đưa vào hệ thống phần mềm của Kho ngữ liệu ngôn ngữ trung gian tiếng Hán toàn cầu, nhóm ngữ liệu đã được chẩn đoán và mã hóa lỗi sai sẽ giúp cho việc thống kê được thuận tiện, dễ dàng hơn.

Ba là danh mục thông tin ngữ liệu và thông tin người viết: Bên cạnh kho bài viết nguyên bản và kho bài viết đã qua xử lý, đề tài còn cung cấp danh mục thông tin về ngữ liệu và thông tin người viết. Danh mục thông tin về ngữ liệu bao gồm: tên bài viết; thể loại bài viết, ví dụ như bài viết văn, bài dịch, viết thư, bài về văn hóa v..v.; điểm số của bài viết; thời gian của bài viết. Danh mục thông tin về người học bao gồm họ tên, giới tính, mã số sinh viên, thời gian học tiếng Hán, khóa học, thời gian của bài viết. Những thông tin này có thể hỗ trợ người dùng tìm kiếm bài viết của một hoặc một nhóm sinh viên từ học kỳ đầu tiên cho tới học kỳ cuối cùng, phục vụ cho nghiên cứu quá trình thụ đắc tiếng Hán của người học Việt Nam. Sau khi đi vào sử dụng, Nhà trường có thể đầu tư để mở rộng kho ngữ liệu, tiến tới cung cấp ngữ liệu có thu phí. Đồng thời, có thể đầu tư nghiên cứu chuyên sâu để kho ngữ liệu có thêm một số tính năng thống kê như: Thông tin về chữ Hán, Thông tin về từ v.v…

Kho ngữ liệu ngôn ngữ trung gian tiếng Hán của người Việt Nam có thể được ứng dụng vào các nghiên cứu ở các lĩnh vực như: phân tích lỗi sai, quá trình thụ đắc tiếng Hán của người Việt Nam chia theo các yếu tố ngôn ngữ như chữ Hán, từ vựng, ngữ pháp, hay những nghiên cứu về đặc điểm của người Việt Nam khi học tiếng Hán v.v…

Trong thời gian tới, nếu có cơ hội phát triển và mở rộng kho ngữ liệu ngôn ngữ trung gian tiếng Hán của người Việt Nam, nhóm nghiên cứu sẽ tiếp tục thu thập và phát triển kho ngữ liệu bút ngữ, đồng thời xây dựng kho ngữ liệu khẩu ngữ, nhằm phục vụ hiệu quả cho việc nghiên cứu quá trình thụ đắc tiếng Hán của người Việt Nam cũng như nghiên cứu giảng dạy tiếng Hán như ngôn ngữ thứ hai tại Việt Nam.

Nhóm nghiên cứu thực hiện đề tài:

Hà Lê Kim Anh, Trần Thị Kim Loan, Đinh Thị Hồng Thu, Nguyễn Hồng Quý, Nguyễn Minh Tuấn