欢迎来到代码驿站!

当前位置:首页 >

Lua中获取utf8字符串长度的方法和自定义函数

时间:2021-03-03 10:05:53|栏目:|点击:

复制代码 代码如下:

--- 获取utf8编码字符串正确长度的方法
-- @param str
-- @return number
function utfstrlen(str)
local len = #str;
local left = len;
local cnt = 0;
local arr={0,0xc0,0xe0,0xf0,0xf8,0xfc};
while left ~= 0 do
local tmp=string.byte(str,-left);
local i=#arr;
while arr[i] do
if tmp>=arr[i] then left=left-i;break;end
i=i-1;
end
cnt=cnt+1;
end
return cnt;
end

lua 的string库不支持处理utf-8编码的汉字。用lua要处理汉字还是很费劲的。

UTF8的编码规则:

1. 字符的第一个字节范围: 0x00―0x7F(0-127),或者 0xC2―0xF4(194-244); UTF8 是兼容 ascii 的,所以 0~127 就和 ascii 完全一致
2. 0xC0, 0xC1,0xF5―0xFF(192, 193 和 245-255)不会出现在UTF8编码中
3. 0x80―0xBF(128-191)只会出现在第二个及随后的编码中(针对多字节编码,如汉字)
 
 这样我们可以利用lua强大的模式匹配,来实现我们要的效果,关键的处理有这么两个:
1. local _, count = string.gsub(str, "[^\128-\193]", ""),用来得到str中的字符数
2. for uchar in string.gfind(str, "[%z\1-\127\194-\244][\128-\191]*") do tab[#tab+1] = uchar end,用来把str中的每个字符映射到tab中

上一篇:07神奇四侠2 清晰TS-R(带中文字幕) 迅雷下载地址

栏    目:

下一篇:Powershell小技巧之通过EventLog查看近期电脑开机和关机时间

本文标题:Lua中获取utf8字符串长度的方法和自定义函数

本文地址:http://www.codeinn.net/misctech/73201.html

推荐教程

广告投放 | 联系我们 | 版权申明

重要申明:本站所有的文章、图片、评论等,均由网友发表或上传并维护或收集自网络,属个人行为,与本站立场无关。

如果侵犯了您的权利,请与我们联系,我们将在24小时内进行处理、任何非本站因素导致的法律后果,本站均不负任何责任。

联系QQ:914707363 | 邮箱:codeinn#126.com(#换成@)

Copyright © 2020 代码驿站 版权所有