AI và
Số mục từ trong các từ điển
Phạm Vũ
Thịnh
Phần 1: ChatGPT về Số mục
từ trong các từ điển
1.1
Thử t́m hiểu
về độ lớn của kho ngữ vựng tiếng Anh Mỹ hiện nay,
dùng tiện ích
ChatGPT để ước lượng qua số mục từ (hạng
mục từ ngữ)
xuất hiện trong các cuốn từ điển đă xuất bản và đang được sử
dụng.
ChatGPT:
"It's difficult to give a precise number for the current
American vocabulary, as there are many different factors that
can influence how you define and measure vocabulary size.
However, I can provide some general information on the number of
entries in some commonly used dictionaries.
The Oxford English
Dictionary (OED) is one of the most comprehensive dictionaries
of the English language, and it currently contains over 600,000
words and phrases, with around 1,000 new entries added every
quarter. However, it's worth noting that many of these entries
are obsolete or rare words that are not commonly used in modern
English.
Merriam-Webster's
Collegiate Dictionary, which is one of the most popular
dictionaries in the United States, contains around 225,000
entries. However, this figure includes many compounds and
derivatives, so the actual number of distinct words is somewhat
lower.
Other popular dictionaries,
such as the American Heritage Dictionary and the Random House
Dictionary, have similar numbers of entries, ranging from around
200,000 to 250,000.
It's important to note that
these figures only represent the number of entries in a given
dictionary, and do not necessarily reflect the full range of
words used by English speakers in America. Many words are used
in informal or specialized contexts that may not be included in
standard dictionaries, and new words and usages are constantly
being added to the language."
1.2 Trường hợp tiếng
Pháp:
ChatGPT:
"Similarly to English dictionaries, there are many different
French dictionaries available, and the number of entries they
contain can vary widely. However, here are some general figures
for popular French dictionaries:
● The Larousse
dictionary is one of the most comprehensive French dictionaries,
and its most recent edition contains around 135,000 entries.
This includes words from a wide range of sources, including
technical and specialized vocabulary.
● The Le Robert
dictionary is another popular French dictionary, and it contains
around 100,000 entries. Like the Larousse, it includes technical
and specialized vocabulary, as well as regional variations and
slang.
● The Petit Robert
dictionary is a smaller version of the Le Robert, and contains
around 60,000 entries. It is designed for more general use and
does not include as much specialized vocabulary as the larger Le
Robert.
It's important to note that
these figures are just rough estimates, and the actual number of
entries in a given dictionary can depend on a variety of
factors, including how words are defined and whether they
include different forms of a word (such as conjugations or
plural forms). Additionally, there are many different dialects
and regional variations of French, and different dictionaries
may include different words or spellings depending on the
intended audience."
1.3 Trường hợp tiếng
Nhật:
ChatGPT:
"As with Chinese, French, and English dictionaries, there are
many different Japanese dictionaries available, and the number
of entries they contain can vary widely. Here are some general
figures for popular Japanese dictionaries:
●
The Daijisen (大辞泉)
is one of the most comprehensive Japanese dictionaries, and its
most recent edition contains over 240,000 entries. It includes
words from a wide range of sources, including classical
Japanese, technical and specialized vocabulary, and slang.
●
The Daijirin (大辞林)
is another popular Japanese dictionary, and it contains around
230,000 entries. Like the Daijisen, it includes technical and
specialized vocabulary as well as more general language.
●
The Nihongo Daijiten (日本語大辞典),
or Great Japanese Dictionary, is a larger and more comprehensive
dictionary than either the Daijisen or the Daijirin. Its most
recent edition contains over 500,000 entries, including a wide
range of technical and specialized vocabulary.
●
The Kojien (広辞苑)
is a popular Japanese dictionary that focuses on the classical
Japanese language, and it contains around 240,000 entries. It
includes many words and phrases from classical literature, as
well as more modern usages.
It's worth noting that
Japanese has several writing systems, including kanji (Chinese
characters), hiragana, and katakana, and different dictionaries
may include different forms of words depending on the intended
audience. Additionally, like Chinese, Japanese words can have
multiple meanings and pronunciations depending on the context."
1.4 Trường hợp tiếng
Việt:
ChatGPT:
"Similar to other languages, there are many different Vietnamese
dictionaries available, and the number of entries they contain
can vary widely. Here are some general figures for popular
Vietnamese dictionaries:
● The Từ điển Việt
Nam (Vietnamese Dictionary), published by the Vietnam Academy of
Social Sciences, is one of the most comprehensive Vietnamese
dictionaries. Its most recent edition contains over 70,000
entries, including technical and specialized vocabulary, as well
as regional variations and slang.
It's important to note that
Vietnamese is a tonal language, which means that different tones
can change the meaning of a word, even if the pronunciation is
otherwise the same. This can make dictionary look-up more
complex. Additionally, there are many regional variations and
dialects of Vietnamese, which can have different words or
pronunciations depending on the region."
1.4.1 Tiếng Việt đối ứng
với các thứ tiếng khác:
ChatGPT:
"Sure, here are some approximate numbers of entries for popular
dictionaries in the respective language pairs:
●
Vietnamese-English dictionaries: The Vietnamese-English
Dictionary by Nguyen-Khac-Huyen contains around 35,000 entries.
Other popular Vietnamese-English dictionaries include the
Vietnamese-English Dictionary by Nguyen-Huu-Xuan (about 30,000
entries), the Vietnamese-English Dictionary by Nguyen-Van-Giau
(about 25,000 entries), and the Tuttle Vietnamese-English
Dictionary (about 25,000 entries).
● Vietnamese-French
dictionaries: The Từ điển Việt-Pháp (Vietnamese-French
Dictionary) by Trần Văn Giàu contains around 70,000 entries.
Other popular Vietnamese-French dictionaries include the Tự-điển
Việt-Pháp by Lê Văn Tốt (about 45,000 entries), the Dictionnaire
Vietnamien-Français by Nguyễn Văn Vien (about 35,000 entries),
and the Dictionnaire français-vietnamien by Trần Văn Giàu (about
30,000 entries).
●
Vietnamese-Japanese dictionaries: The Vietnamese-Japanese
Dictionary (Từ điển Việt-Nhật) by Nguyễn Tấn Phát contains
around 35,000 entries. Other popular Vietnamese-Japanese
dictionaries include the Từ điển Việt-Nhật by Bùi Văn Hạnh
(about 35,000 entries), the Từ điển Việt-Nhật by Đinh Thiện Tuấn
(about 25,000 entries), and the Từ điển Việt-Nhật by Nguyễn
Thành Dũng (about 30,000 entries)."
1.4.2 Các thứ tiếng
khác đối ứng với tiếng Việt:
ChatGPT:
"Sure! Here are some approximate numbers of entries for popular
dictionaries in the respective language pairs:
●
English-Vietnamese dictionaries: The Oxford Picture Dictionary
English-Vietnamese Edition contains over 4,000 entries. Other
popular English-Vietnamese dictionaries include the Tuttle
English-Vietnamese Dictionary (about 25,000 entries), the
Bilingual Vietnamese-English Dictionary by Nguyen-Dinh Hoa
(about 20,000 entries), and the Vietnamese-English Dictionary by
Nguyen-Khac-Huyen (about 35,000 entries).
● French-Vietnamese
dictionaries: The Từ điển Pháp-Việt (French-Vietnamese
Dictionary) contains around 70,000 entries. Other popular
French-Vietnamese dictionaries include the Dictionnaire
français-vietnamien by Trần Văn Giàu (about 30,000 entries), the
Tự-điển Pháp-Việt by Nguyen Van Thoai (about 45,000 entries),
and the Dictionnaire vietnamien-français by Nguyen-Van-Vien
(about 35,000 entries).
●
Japanese-Vietnamese dictionaries: The Japanese-Vietnamese
Dictionary (Từ điển Nhật Việt) by Nguyen Tien Nghia contains
around 50,000 entries. Other popular Japanese-Vietnamese
dictionaries include the Từ điển Nhật-Việt by Phạm Quang Đạo
(about 50,000 entries), the Từ điển Nhật-Việt by Đào Trung Kiên
(about 40,000 entries), and the Từ điển Nhật-Việt by Nguyễn
Thành Dũng (about 35,000 entries)."
Phần 2: Tóm tắt thông tin
về số mục từ
Tóm tắt các thông tin đă
được ChatGPT cho biết trên đây:
- Số mục từ trong Từ điển
Việt Nam (Vietnamese Dictionary), do Vietnam Academy of Social
Sciences xuất bản, là từ điển lớn nhất trong các từ điển giải
thích tiếng Việt, phiên bản mới đây có khoảng 70 ngàn mục
từ, kể cả các thuật ngữ khoa học kỹ thuật, phương ngữ (từ ngữ
đặc biệt của từng địa phương), và tiếng lóng.
- Số mục từ trong các từ
điển tiếng Việt dịch sang các ngôn ngữ khác, thường vào khoảng
từ 20 đến 45 ngàn, nhiều nhất là Từ điển Việt-Pháp
(Vietnamese-French Dictionary) - Trần Văn Giàu có khoảng 70
ngàn mục từ.
- Số mục từ trong các từ
điển các ngôn ngữ khác dịch sang tiếng Việt, thường vào khoảng
từ 4 đến 50 ngàn, nhiều nhất là Từ điển Pháp-Việt
(French-Vietnamese Dictionary), và Từ điển Anh Việt
(English-Vietnamese Dictionary) có khoảng 70 ngàn mục từ.
- Số mục từ trong các từ
điển lớn, tiếng Anh Mỹ, thường vào khoảng từ 200 đến 250 ngàn,
nhiều nhất là Oxford English Dictionary có khoảng 600 ngàn mục
từ và thành ngữ, mỗi ba tháng lại có thêm khoảng 1,000 từ ngữ
mới.
- Số mục từ trong các từ
điển lớn, tiếng Pháp, thường vào khoảng từ 60 đến 135 ngàn
mục từ.
- Số mục
từ trong các từ điển lớn, tiếng Nhật, thường vào khoảng từ
230 đến 240 ngàn, nhiều nhất là Nihongo Daijiten (日本語大辞典
–
Nhật Bản ngữ Đại Từ điển) có khoảng 500 ngàn mục từ.
Phần 3: Một vấn đề ngôn
ngữ trong thời đại AI
Xin nêu lên vài nhận xét và
hệ luận:
Các thông
tin này từ ChatGPT tạo được ấn tượng khả tín và đầy đủ chi tiết.
Không thấy có lư do ǵ để phải nghi ngờ rằng ChatGPT thiên vị
đối với ngôn ngữ nào, v́ mục đích hay động cơ ǵ. Bản thân người
viết cũng dùng vài cuốn từ điển có số mục từ đúng như ChatGPT
cho biết, chẳng hạn cuốn Từ điển Việt Anh của Viện Ngôn Ngữ Học
xuất bản năm 1987 có 45 ngàn từ, cuốn Daijirin (大辞林
-
Đại Từ Lâm) của Sanseido xuất bản năm 1995 có trên 230 ngàn từ.
Nh́n vào các thông tin ấy
th́ thấy kho ngữ vựng tiếng Việt chỉ kể ra được chừng 70 ngàn
mục từ, khoảng 30% so với tiếng Anh Mỹ có kho ngữ vựng
thường đếm ra được từ 200 đến 250 ngàn mục từ, nhiều nhất
đến 600 ngàn, và mỗi ba tháng lại có thêm khoảng 1 ngàn từ ngữ
mới.
Như đă đề cập trong bài
viết trước đây (Một thí nghiệm dùng ChatGPT), ngôn ngữ là
nền tảng của văn minh. Và văn minh hiện đại bắt đầu có phần cống
hiến chủ yếu là từ AI (trí tuệ nhân tạo). Bối cảnh
như thế làm nổi rơ thêm vấn đề "thiệt tḥi của người chỉ biết
tiếng Việt" trong thời đại này, khi tiếng Anh là nền tảng để
thực hiện kho dữ liệu, thuật toán,... của AI, và lâu nay vẫn là
ngôn ngữ chính trong hầu hết mọi hoạt động giao dịch đa quốc gia
trên thế giới.
Quan trọng nhất trong AI là
kho dữ liệu; các yếu tố khác như tốc độ xử lư và
thuật toán đều nhắm vào mục đích sử dụng lượng dữ liệu
khổng lồ ấy. Và máy học tập (machine learning)
càng tăng tiến, càng đạt hiệu quả tốt hơn, tùy thuộc vào kích
thước của lượng dữ liệu được dùng để huấn luyện máy. Kho dữ
liệu đối với AI được ví như đất ruộng đối với nhà nông. Đất
ruộng càng rộng lớn và mầu mỡ th́ thu hoạch càng nhiều và phẩm
chất cao. Năm 2021, công ty Google có khoảng 15 trung tâm dữ
liệu từ California cho đến Finland và Singapore, mỗi trung tâm
cần cỡ vài trăm triệu Mỹ kim để xây dựng kho dữ liệu. Các đại
công ty AI khác như Microsoft, Meta (Facebook), Amazon,
Baidu,... cũng có những trung tâm dữ liệu khổng lồ tương tự.
Kho ngữ vựng
của các ngôn ngữ là nền tảng từ đó nảy sinh các sách, báo, luận
văn, văn kiện,... rồi từ đó lại nảy sinh thêm loạt mới những
sách, báo, luận văn, văn kiện,... để tán đồng hay phản luận,
triển khai và ứng dụng,... cứ thế liên tiếp mạch sinh. Do đó, độ
chênh lệch từ đầu về kho ngữ vựng sẽ tăng theo cấp số nhân, trở
thành chênh lệch gấp nhiều lần về số lượng dữ liệu AI được sử
dụng cho các ngôn ngữ chuyên biệt. Chênh lệch ban đầu giữa kho
ngữ vựng tiếng Việt so với tiếng Anh, trở thành chênh lệch rất
lớn giữa hai kho dữ liệu dùng trong AI, và từ đó giữa
năng lực hay hiệu quả của các ứng dụng AI sẽ khác hẳn nhau giữa
hai ngôn ngữ.
Và khó có thể kỳ vọng vào
tiến bộ về các bộ máy dịch thuật Anh Việt và Việt Anh sẽ
bù đắp được cho thiệt tḥi này, bởi tiếng Việt c̣n đi sau rất xa
so với các ngôn ngữ như Pháp, Nhật,... về mức độ đầu tư, năng
lực lẫn quan tâm của quần chúng. T́nh trạng thực tế là máy dịch
Việt Anh - Anh Việt không đạt được tới tŕnh độ của máy dịch
Pháp Anh - Anh Pháp, hay của máy dịch Nhật Anh - Anh Nhật, chẳng
hạn.
Lại nữa, nhiều ứng dụng AI
chỉ có thể dùng được cho những ngôn ngữ nhiều người dùng hơn
tiếng Việt, như English, French, Japanese, German, Spanish,
Russian, Dutch, Italian, Portuguese, Polish, và Arabic, mà thôi.
AI đă nhanh chóng được dùng
càng ngày càng nhiều thêm trong hầu hết sinh hoạt của con người
hiện đại. Trong lănh vực y tế, AI giúp chẩn đoán từ xa nhiều
chứng bệnh kể cả ung thư. Thử so sánh trường hợp người bệnh dùng
tiếng Việt so với người bệnh dùng tiếng Anh khi chẩn đoán bằng
AI, hẳn hiểu được sự thiệt tḥi của người chỉ biết tiếng Việt,
có thể đến mức sinh tử, v́ khả-năng-tính chẩn đoán sai lầm do
mức độ tiến bộ khác nhau giữa các ngôn ngữ. Với AI trong lănh
vực tài chánh hay kinh doanh, sự thiệt tḥi này của người chỉ
biết tiếng Việt có thể đưa đến thiệt hại lớn về tiền bạc, tài
sản.
Con người suy nghĩ bằng
ngôn ngữ, một khi đă vượt qua thời kỳ thơ ấu chưa biết nói.
Nhiều nghiên cứu khoa học và xă hội cho biết khả năng song ngữ ở
tuổi học sinh không chỉ hữu dụng trong lănh vực ngôn ngữ, mà c̣n
có thể giúp tăng tiến tŕnh độ lănh hội, nhận thức, suy luận, cả
trí nhớ nữa; và người song ngữ có lợi thế hơn hẳn trong chuyện
dễ t́m được nhiều việc làm, hay được mức lương cao hơn.
Tổ chức "ilanguages.org"
cho biết khoảng 43% toàn nhân khẩu thế giới là người song
ngữ (3,3 tỷ), thêm với 17% là người dùng được hơn
2 ngôn ngữ. Nghĩa là khoảng 60% người trên thế giới hiện
nay dùng được 2 hay nhiều ngôn ngữ trong đời sống; và người chỉ
dùng một ngôn ngữ đă là thiểu số 40%. Chênh lệch này c̣n
tiếp tục tăng theo mức độ toàn cầu hóa.
Tiếng Anh hiện là ngôn ngữ
được sử dụng rộng răi nhất trên thế giới, khoảng 1,5 tỷ
người dùng. Và cũng là ngôn ngữ của học thuật, kinh doanh quốc
tế, và ngoại giao. Nhiều quốc gia sử dụng tiếng Anh như ngôn ngữ
thứ hai hoặc thậm chí là ngôn ngữ thứ nhất, khiến Anh ngữ đă
thực chất trở thành ngôn ngữ toàn cầu.
Trong bối cảnh như thế,
thiệt tḥi của người chỉ biết tiếng Việt nổi cộm lên, đ̣i hỏi sự
quan tâm đúng mức và thảo luận nghiêm túc, hướng đến một đối
sách hữu hiệu và khả thi. Và yêu cầu ấy càng ngày càng cấp bách
thêm, theo với mức độ phổ cập càng ngày càng rộng lớn nhanh
chóng của AI.
Cần cấp thiết đào tạo
con người song ngữ Việt Anh. Đặc biệt cần có giáo dục song
ngữ triệt để ngay từ khóa tŕnh Tiểu học, chú trọng dùng sách
giáo khoa tiếng Anh, và thầy cô có bằng cấp thực sự từ các nước
dùng Anh ngữ chính thức. Có thể tham khảo những mô h́nh đào tạo
thành công như ở Singapore hay ở các nước Âu châu: Đức,
Finland,... Con người song ngữ Việt Anh dùng tiếng Việt trong
nhà và trong các sinh hoạt t́nh cảm hay nghệ thuật, đồng thời
dùng tiếng Anh trong học tập, công việc hay giao tế.
Ở trong nước th́ hiện tại,
chỉ có con cháu nhà giàu mới có cơ hội được đào tạo song ngữ ở
các trường tư, do đó số người song ngữ không được bao nhiêu.
T́nh trạng này cần gấp rút cải thiện bằng chế độ giáo dục
song ngữ.
Theo kịp được tŕnh
độ văn minh của thế giới hay không tùy thuộc vào thành công (hay
không) của chế độ giáo dục, đặc biệt về ngôn ngữ.
Phạm Vũ Thịnh
Sydney, 06/04/2023
