Định nghĩa Tokenization là gì?
Tokenization là Tokenization. Đây là nghĩa tiếng Việt của thuật ngữ Tokenization - một thuật ngữ thuộc nhóm Technology Terms - Công nghệ thông tin.
Độ phổ biến(Factor rating): 5/10
Tokenization là hành vi phá vỡ một chuỗi các chuỗi thành từng miếng như lời nói, từ khóa, cụm từ, biểu tượng và các yếu tố khác gọi là thẻ. Tokens có thể từ riêng lẻ, cụm từ hoặc thậm chí toàn bộ câu. Trong quá trình tokenization, một số nhân vật như dấu chấm câu sẽ bị loại bỏ. Các thẻ trở thành đầu vào cho quá trình khác như phân tích và khai thác văn bản.
Xem thêm: Thuật ngữ công nghệ A-Z
Giải thích ý nghĩa
Tokenization dựa chủ yếu vào công nghệ tự động đơn giản để thẻ riêng biệt bằng cách làm theo một vài bước sau:
What is the Tokenization? - Definition
Tokenization is the act of breaking up a sequence of strings into pieces such as words, keywords, phrases, symbols and other elements called tokens. Tokens can be individual words, phrases or even whole sentences. In the process of tokenization, some characters like punctuation marks are discarded. The tokens become the input for another process like parsing and text mining.
Understanding the Tokenization
Tokenization relies mostly on simple heuristics in order to separate tokens by following a few steps:
Thuật ngữ liên quan
- Lexical Analysis
- Operator
- Keyword
- Compiler
- Text Data Mining
- Parser
- Commit
- Access Modifiers
- Acyclic
- Appending Virus
Source: Tokenization là gì? Technology Dictionary - Filegi - Techtopedia - Techterm