对输入文本进行校对,校对包括拼写、语法、搭配、实体纠错、标点、领导人职称、政治用语及数字纠错等。
示例demo请点击 这里 下载。
demo 覆盖部分语言,其他语言参照下方接口文档进行开发。
欢迎热心的开发者到“讯飞开放平台社区” 分享你们的demo。
集成文本纠错API时,需按照以下要求。
内容 | 说明 |
---|---|
传输方式 | http[s] (为提高安全性,强烈推荐https) |
请求地址 | http[s]: //api.xf-yun.com/v1/private/s9a87e3ec 注:服务器IP不固定,为保证您的接口稳定,请勿通过指定IP的方式调用接口,使用域名方式调用 |
请求行 | POST /v1/private/s9a87e3ec HTTP/1.1 |
接口鉴权 | 签名机制,详情请参照下方鉴权认证 |
字符编码 | UTF-8 |
响应格式 | 统一采用JSON格式 |
开发语言 | 任意,只要可以向讯飞云服务发起HTTP请求的均可 |
适用范围 | 任意操作系统,但因不支持跨域不适用于浏览器 |
文本大小 | 不得超过2000个字符,汉字、英文字母、标点都算做一个字符 |
· 通过接口密钥基于hmac-sha256计算签名,将签名以及其他参数加在请求地址后面。详见下方 鉴权认证 。
· 将请求参数以及图片数据放在Http Request Body中,以POST表单的形式提交,详见下方 请求参数 。
· 向服务器端发送Http请求后,接收服务器端的返回结果。
在调用业务接口时,请求方需要对请求进行签名,服务端通过签名来校验请求的合法性。
通过在请求地址后面加上鉴权相关参数的方式,参数具体如下:
http示例url:
https://api.xf-yun.com/v1/private/s9a87e3ec?authorization=YXBpX2tleT0iYXBpa2V5WFhYWFhYWFhYWFhYWFhYWFhYWFhYWFhYWFgiLCBhbGdvcml0aG09ImhtYWMtc2hhMjU2IiwgaGVhZGVycz0iaG9zdCBkYXRlIHJlcXVlc3QtbGluZSIsIHNpZ25hdHVyZT0idXc2RCtnMFdyd3lPeUhXOGdBRUNTQXJlZmswbjFJRUJabm5QWjY3R3pBQT0i&host=api.xf-yun.com&date=Wed%2C+11+Nov+2020+06%3A24%3A43+GMT
鉴权参数:
参数 | 类型 | 必须 | 说明 | 示例 |
---|---|---|---|---|
host | string | 是 | 请求主机 | api.xf-yun.com |
date | string | 是 | 当前时间戳,RFC1123格式("EEE, dd MMM yyyy HH:mm:ss z") | Wed, 11 Nov 2020 06:24:43 GMT |
authorization | string | 是 | 使用base64编码的签名相关信息(签名基于hamc-sha256计算) | 参考下方详细生成规则 |
date必须是UTC+0或GMT时区,RFC1123格式(Wed, 11 Nov 2020 06:24:43 GMT)。
服务端会对date进行时钟偏移检查,最大允许300秒的偏差,超出偏差的请求都将被拒绝。
· authorization参数生成格式:
1)获取接口密钥APIKey 和 APISecret。
在讯飞开放平台控制台,创建一个应用后打开文本纠错页面可以获取,均为32位字符串。
2)参数authorization base64编码前(authorization_origin)的格式如下。
api_key="$api_key",algorithm="hmac-sha256",headers="host date request-line",signature="$signature"
其中 api_key 是在控制台获取的APIKey,algorithm 是加密算法(仅支持hmac-sha256),headers 是参与签名的参数(见下方注释)。
signature 是使用加密算法对参与签名的参数签名后并使用base64编码的字符串,详见下方。
注: headers是参与签名的参数,请注意是固定的参数名("host date request-line"),而非这些参数的值。
3)signature的原始字段(signature_origin)规则如下。
signature原始字段由 host,date,request-line三个参数按照格式拼接成,
拼接的格式为(\n为换行符,’:’后面有一个空格):
host: $host\ndate: $date\n$request-line
假设
请求url = api.xf-yun.com
date = Wed, 11 Nov 2020 06:24:43 GMT
那么 signature原始字段(signature_origin)则为:
host: api.xf-yun.com
date: Wed, 11 Nov 2020 06:24:43 GMT
POST /v1/private/s9a87e3ec HTTP/1.1
4)使用hmac-sha256算法结合apiSecret对signature_origin签名,获得签名后的摘要signature_sha。
signature_sha=hmac-sha256(signature_origin,$apiSecret)
其中 apiSecret 是在控制台获取的APISecret
5)使用base64编码对signature_sha进行编码获得最终的signature。
signature=base64(signature_sha)
假设
APISecret = apisecretXXXXXXXXXXXXXXXXXXXXXXX
date = Wed, 11 Nov 2020 06:24:43 GMT
则signature为
signature=uw6D+g0WrwyOyHW8gAECSArefk0n1IEBZnnPZ67GzAA=
6)根据以上信息拼接authorization base64编码前(authorization_origin)的字符串,示例如下。
api_key=api_key="apikeyXXXXXXXXXXXXXXXXXXXXXXXXXX", algorithm="hmac-sha256", headers="host date request-line", signature="uw6D+g0WrwyOyHW8gAECSArefk0n1IEBZnnPZ67GzAA="
注: headers是参与签名的参数,请注意是固定的参数名("host date request-line"),而非这些参数的值。
7)最后再对authorization_origin进行base64编码获得最终的authorization参数。
authorization = base64(authorization_origin)
示例:
authorization=YXBpX2tleT0iYXBpa2V5WFhYWFhYWFhYWFhYWFhYWFhYWFhYWFhYWFgiLCBhbGdvcml0aG09ImhtYWMtc2hhMjU2IiwgaGVhZGVycz0iaG9zdCBkYXRlIHJlcXVlc3QtbGluZSIsIHNpZ25hdHVyZT0idXc2RCtnMFdyd3lPeUhXOGdBRUNTQXJlZmswbjFJRUJabm5QWjY3R3pBQT0i
如果鉴权失败,则根据不同错误类型返回不同HTTP Code状态码,同时携带错误描述信息,详细错误说明如下:
HTTP Code | 说明 | 错误描述信息 | 解决方法 |
---|---|---|---|
401 | 缺少authorization参数 | {"message":"Unauthorized"} | 检查是否有authorization参数,详情见authorization参数详细生成规则 |
401 | 签名参数解析失败 | {“message”:”HMAC signature cannot be verified”} | 检查签名的各个参数是否有缺失是否正确,特别确认下复制的api_key是否正确 |
401 | 签名校验失败 | {“message”:”HMAC signature does not match”} | 签名验证失败,可能原因有很多。 1. 检查api_key,api_secret 是否正确。 2.检查计算签名的参数host,date,request-line是否按照协议要求拼接。 3. 检查signature签名的base64长度是否正常(正常44个字节)。 |
403 | 时钟偏移校验失败 | {“message”:”HMAC signature cannot be verified, a valid date or x-date header is required for HMAC Authentication”} | 检查服务器时间是否标准,相差5分钟以上会报此错误 |
认证失败返回示例:
HTTP/1.1 403 Forbidden
Date: Thu, 06 Dec 2018 07:55:16 GMT
Content-Length: 116
Content-Type: text/plain; charset=utf-8
{
"message": "HMAC signature does not match"
}
在调用业务接口时,都需要在 Http Request Body 中配置以下参数,请求数据均为json字符串。
参数名 | 类型 | 必传 | 描述 |
---|---|---|---|
header | object | 是 | 用于上传平台参数 |
header.app_id | string | 是 | 在平台申请的appid信息 |
header.status | string | 是 | 请求状态,取值范围为:3(一次传完) |
parameter | object | 是 | 用于上传服务特性参数 |
parameter.s9a87e3ec | object | 是 | 用于上传功能参数 |
parameter.s9a87e3ec.result | object | 是 | 用于上传响应数据参数 |
parameter.s9a87e3ec.result.encoding | string | 否 | 文本编码,可选值:utf8(默认值) |
parameter.s9a87e3ec.result.compress | string | 否 | 文本压缩格式,可选值:raw(默认值) |
parameter.s9a87e3ec.result.format | string | 否 | 文本格式,可选值:json(默认值) |
payload | object | 是 | 用于上传请求数据 |
payload.input | object | 是 | 用于上传文本数据 |
payload.input.encoding | string | 否 | 文本编码,可选值:utf8(默认值) |
payload.input.compress | string | 否 | 文本压缩格式,可选值:raw(默认值) |
payload.input.encoding | string | 否 | 文本格式,可选值:json(默认值) |
payload.input.text | string | 是 | 文本数据,base64编码,最大支持7000字节,请注意中文要控制在2000个字符 |
payload.input.status | int | 否 | 上传数据状态,取值范围为:3(一次传完) |
请求参数示例:
{
"header": {
"app_id": "XXXXXXXX",
"status": 3
},
"parameter": {
"s9a87e3ec": {
"result": {
"encoding": "utf8",
"compress": "raw",
"format": "json"
}
}
},
"payload": {
"input": {
"encoding": "utf8",
"compress": "raw",
"format": "json",
"status": 3,
"text": "5aSq6Ziz5b2T56m654Wn77yM6Iqx5YS/5a+55oiR56yR77yM5bCP6bif6K+05pep5LiK5aW95ZWK77yM55yf5piv55S76JuH5aSp6Laz"
}
}
}
参数名 | 类型 | 描述 |
---|---|---|
header | object | 协议头部,用于描述平台特性的参数 |
header.sid | string | 本次会话id |
header.code | int | 返回码 0表示会话调用成功(并不一定表示服务调用成功,服务是否调用成功以text字段中的ret为准) 其它表示会话调用异常,详情请参考错误码。 |
header.message | string | 描述信息 |
payload | object | 数据段,用于携带响应的数据 |
payload.result | object | 文本纠错响应数据块 |
payload.result.compress | string | 文本压缩格式,仅在设置了parameter.s9a87e3ec.result.compress参数时返回 |
payload.result.encoding | string | 文本编码,仅在设置了parameter.s9a87e3ec.result.encoding参数时返回 |
payload.result.format | string | 文本格式,仅在设置了parameter.s9a87e3ec.result.format参数时返回 |
payload.result.text | string | 文本纠错返回结果,需要对其进行base64解码,解码后的返回字段如下 |
字段 | 含义 | 数据类型 | 说明 |
---|---|---|---|
char | 别字纠错 | array | 每个元素为[pos, cur, correct, description],元素内分别表示错误位置、错误文本、纠正文本、更详细的错误类型。 【示例】:[[0, ‘A’, ‘a’, ‘char’], [1, ‘B’, ‘b’, ‘char’]] --> [位置,原字,结果字,类型],其中【类型】中的char代表别字错误。 |
word | 别词纠错 | array | 每个元素为[pos, cur, correct, description],元素内分别表示错误位置、错误文本、纠正文本、更详细的错误类型。 【示例】:[[0, ‘AB’, ‘ab’, ‘word’], [2, ‘CD’, ‘cd’, ‘word’]] --> [位置,原词,结果词,类型] ,其中【类型】中的word代表别词错误。 |
redund | 语法纠错-冗余 | array | 每个元素为[pos, cur, correct, description],元素内分别表示错误位置、错误文本、纠正文本、更详细的错误类型。 【示例】:[[0, ‘AB’, ‘’, ‘redund’], [2, ‘CD’, ‘R’, ‘redund’]] --> [位置,原文本,纠错后文本,类型] ,其中【类型】中的redund代表冗余错误。 |
miss | 语法纠错-缺失 | array | 每个元素为[pos, cur, correct, description],元素内分别表示错误位置、错误文本、纠正文本、更详细的错误类型。 【示例】:[[0, ‘AB’, ‘AXB’, ‘miss’], [2, ‘CD’, ‘’, ‘miss’]] --> [位置,原文本,纠错后文本,类型] (纠错后为空表示当前无纠正结果),其中【类型】中的miss代表缺失错误。 |
order | 语法纠错-乱序 | array | 每个元素为[pos, cur, correct, description],元素内分别表示错误位置、错误文本、纠正文本、更详细的错误类型。 【示例】:[[0, ‘AB’, ‘BA’, ‘lx_word], [2, ‘CDE’, ‘ECD’, ‘lx_word]]--> [位置,原文本,纠错后文本,类型] (纠错后为空表示当前无纠正结果,其中【类型】中的lx_word代表词级别乱序纠错、lx_char代表字级别乱序纠错。 |
dapei | 搭配纠错 | array | 每个元素为[pos, cur, correct, description],元素内分别表示错误位置、错误文本、纠正文本、更详细的错误类型。 【示例】:[[0, ‘AB’, ‘ab’, ‘dapei‘]]--> [位置,原文本,纠错后文本,类型] (纠错后为空表示当前无纠正结果),其中【类型】中的dapei代表搭配纠错。 |
punc | 标点纠错 | array | 每个元素为[pos, cur, correct, description],元素内分别表示错误位置、错误文本、纠正文本、更详细的错误类型。 【示例】:[[0, ‘.’, ‘。’, ‘半角标点误用’]]--> [位置,原文本,纠错后文本,类型] (纠错后为空表示当前无纠正结果),其中【类型】包括: 半角标点误用成对符号不匹配 重复标点 连续使用标点 顿号使用不当 省略号使用不当 连接号使用不当 标示发文年号不规范 疑似省略号误用 书名号内顿号使用不当 疑似标点错误 |
idm | 成语纠错 | array | 每个元素为[pos, cur, correct, description],元素内分别表示错误位置、错误文本、纠正文本、更详细的错误类型。 【示例】:[[0, ‘ABCD’, ‘abcd’, ‘idm‘]]--> [位置,原文本,纠错后文本,类型] (纠错后为空表示当前无纠正结果),其中【类型】中的idm-成语纠错。 |
org | 机构名纠错 | array | 每个元素为[pos, cur, correct, description],元素内分别表示错误位置、错误文本、纠正文本、更详细的错误类型。 【示例】:[[0, ‘AB’, ‘ab’, ‘org_R‘]]--> [位置,原文本,纠错后文本,类型] (纠错后为空表示当前无纠正结果),其中【类型】可能的值如下: org_R:机构名字词冗余 org_M:机构名字词缺失 org_S:机构名字词错误 org_N:机构名称变更 org_P:机构名字词乱序 |
leader | 领导人职称纠错 | array | 每个元素为[pos, cur, correct, description],元素内分别表示错误位置、错误文本、纠正文本、更详细的错误类型。 【示例】:[[0, ‘AB’, ‘ab’, ‘lea‘]]--> [位置,原文本,纠错后文本,类型] (纠错后为空表示当前无纠正结果),其中【类型】中的lea代表领导人职称纠错。 |
number | 数字纠错 | array | 每个元素为[pos, cur, correct, description],元素内分别表示错误位置、错误文本、纠正文本、更详细的错误类型。 【示例】:[[0, ‘2020年2月30日’, ‘’, ‘date-d’]]--> [位置,原文本,纠错后文本,类型] (纠错后为空表示当前无纠正结果),其中【类型】可能的值如下: time:时间纠错 date-m:日期纠错(月份) date-d:日期纠错(日) |
返回参数示例:
{
"header": {
"code": 0,
"message": "success",
"sid": "ase00070abc@hu175b5e4b27a0212882"
},
"payload": {
"result": {
"compress": "raw",
"encoding": "utf8",
"format": "json",
"text": "eyJjaGFyIjogW10sICJ3b3JkIjogW10sICJyZWR1bmQiOiBbXSwgIm1pc3MiOiBbXSwgIm9yZGVyIjogW10sICJkYXBlaSI6IFtdLCAicHVuYyI6IFtdLCAiaWRtIjogW1syMiwgIueUu+ibh+Wkqei2syIsICLnlLvom4fmt7votrMiLCAiaWRtIl1dLCAib3JnIjogW10sICJsZWFkZXIiOiBbXSwgIm51bWJlciI6IFtdfQ=="
}
}
}
base64解码后的text示例:
{
"char": [
],
"word": [
],
"redund": [
],
"miss": [
],
"order": [
],
"dapei": [
],
"punc": [
],
"idm": [
[
0,
"画蛇天足",
"画蛇添足",
"idm"
],
[
5,
"足不初户",
"足不出户",
"idm"
],
[
10,
"狐假唬威",
"狐假虎威",
"idm"
],
[
15,
"威风凛领",
"威风凛凛",
"idm"
]
],
"org": [
],
"leader": [
],
"number": [
]
}
备注:如出现下述列表中没有的错误码,可到 这里 查询。
错误码 | 错误描述 | 说明 | 处理策略 |
---|---|---|---|
10009 | input invalid data | 输入数据非法 | 检查输入数据 |
10010 | service license not enough | 没有授权许可或授权数已满 | 请到控制台提交工单联系技术人员 |
10019 | service read buffer timeout, session timeout | session超时 | 检查是否数据发送完毕但未关闭连接 |
10139 | invalid param | 参数错误 | 检查参数是否正确 |
10160 | parse request json error | 请求数据格式非法 | 检查请求数据是否是合法的json |
10161 | parse base64 string error | base64解码失败 | 检查发送的数据是否使用base64编码了 |
10163 | param validate error:... | 参数校验失败 | 具体原因见详细的描述 |
10222 | context deadline exceeded | 上传的数据超过了接口上限 | 检查接口上传的文本是否超越了接口的最大限制 |
10223 | RemoteLB: can't find valued addr | lb 找不到节点 | 请到控制台提交工单联系技术人员 |
10313 | invalid appid | appid和apikey不匹配 | 检查appid是否合法 |
注: 其他开发语言请参照 接口调用流程 进行开发,也欢迎热心的开发者到 讯飞开放平台社区 分享你们的demo。
答:对输入文本进行校对,校对包括拼写、语法、搭配、实体纠错、标点、领导人职称、政治用语及数字纠错等。
答:目前支持Web API应用平台。
答:最大支持7000字节,请注意中文要控制在2000个字符之内。