印刷文字识别 API 文档

接口说明

通用文字识别(General words Recognition)基于深度神经网络模型的端到端文字识别系统，将图片（来源如扫描仪或数码相机）中的文字转化为计算机可编码的文字，支持中英文。
该能力是通过HTTP API的方式给开发者提供一个通用的接口，适用于一次性交互数据传输的AI服务场景，即将音频一次性发送至云端，块式传输。相较于SDK，API具有轻量、跨语言的特点，不过请注意该接口使用的HTTP API协议不支持跨域。

接口Demo

示例demo请点击这里下载。
目前仅提供部分开发语言的demo，其他语言请参照下方接口文档进行开发。
也欢迎热心的开发者到讯飞开放平台社区分享你们的demo。

接口要求

集成印刷文字识别API时，需按照以下要求。

内容	说明
请求协议	http[s] (为提高安全性，强烈推荐https)
请求地址	http[s]: //webapi.xfyun.cn/v1/service/v1/ocr/general 注：服务器IP不固定，为保证您的接口稳定，请勿通过指定IP的方式调用接口，使用域名方式调用
请求方式	POST
接口鉴权	签名机制，见授权认证
字符编码	UTF-8
响应格式	统一采用JSON格式
开发语言	任意，只要可以向讯飞云服务发起HTTP请求的均可
图片格式	jpg/png/bmp
图片属性	最短边至少15px，最长边最大4096px
图片大小	图像数据按要求编码后(base64编码后进行urlencode)大小不超过4M
文字语种	中英文

接口调用流程

注：若需配置IP白名单，请前往控制台。IP白名单规则请参照 IP白名单。

通过接口密钥基于MD5计算签名，将签名以及其他参数放在Http Request Header中，详见下方请求头。
将图片数据放在Http Request Body中，以POST表单的形式提交，详见下方请求体。
向服务器端发送Http请求后，接收服务器端的返回结果，返回结果详见各接口的详细说明。

接口地址示例：

	POST http[s]://webapi.xfyun.cn/v1/service/v1/ocr/general HTTP/1.1
	Content-Type:application/x-www-form-urlencoded; charset=utf-8

白名单

在调用该业务接口时

若关闭IP白名单，接口认为IP不限，不会校验IP。
若打开IP白名单，则服务端会检查调用方IP是否在讯飞开放平台配置的IP白名单中，对于没有配置到白名单中的IP发来的请求，服务端会拒绝服务。

IP白名单规则

IP白名单，在控制台-我的应用-相应服务的应用管理卡片上编辑，保存后五分钟左右生效；
不同Appid的不同服务都需要分别设置IP白名单；
IP白名单需设置为外网IP，请勿设置局域网IP；
如果服务器返回结果如下所示(illegal client_ip)，则表示由于未配置IP白名单或配置有误，服务端拒绝服务。

{
    "code":"10105",
    "desc":"illegal access|illegal client_ip",
    "data":"",
    "sid":"xxxxxx"
}

接口请求参数

请求头

在 Http Request Header 中配置以下参数。

授权认证

以下参数用于授权认证：

参数	格式	说明	必须
X-Appid	string	讯飞开放平台注册申请应用的应用ID(appid)	是
X-CurTime	string	当前UTC时间戳从1970年1月1日0点0 分0 秒开始到现在的秒数	是
X-Param	string	相关参数JSON串经Base64编码后的字符串，详见业务参数	是
X-CheckSum	string	令牌，计算方法：MD5(APIKey + X-CurTime + X-Param)，三个值拼接的字符串，进行MD5哈希计算（32位小写）	是

注：

APIKey：接口密钥，在讯飞开放平台控制台添加相应服务后即可获取，调用方注意保管，如泄露，可到控制台提交工单联系技术人员重置；
X-CheckSum 有效期：出于安全性考虑，每个 X-CheckSum 的有效期为 5 分钟(用 X-CurTime 计算)，同时 X-CurTime 要与标准时间同步，否则时间相差太大，服务端会直接认为 X-CurTime 无效；
BASE64 编码采用 MIME 格式，字符包括大小写字母各26个，加上10个数字，和加号 + ，斜杠 / ，一共64个字符。

*X-CheckSum *生成示例：

String APIKey="abcd1234"; 
String X-CurTime="1502607694";
String X-Param="eyAiYXVmIjogImF1ZGlvL0wxNjtyYXR...";
String X-CheckSum=MD5(apiKey + X-CurTime + X-Param);

业务参数

X-Param 为各配置参数组成的 JSON 串经 BASE64 编码之后的字符串，原始 JSON 串各字段说明如下：

参数	类型	必须	说明	示例
language	string	是	语言，可选值：en（英文），cn\|en（中文或中英混合）	en
location	string	否	是否返回文本位置信息，可选值：false（否），true（是），默认为false	true

X-Param生成示例：

	原始JSON串：
	{
	    "language": "en",
	    "location": "false"
	}
	BASE64编码（即X-Param）：
	eyJsYW5ndWFnZSI6ImVuIiwibG9jYXRpb24iOiJmYWxzZSJ9

请求体

以POST表单的形式提交以下参数：

参数	类型	必须	说明	示例
image	string	是	图像数据 base64编码后进行urlencode 要求base64编码和urlencode后大小不超过4M 最短边至少15px，最长边最大4096px 支持jpg/png/bmp格式	exSI6ICJ...

注： 1）一般基础类库会默认进行urlencode处理，请注意不要重复处理
2）base64编码后大小会增加约1/3

接口返回参数

返回值为json串，各字段如下：

参数	类型	说明
code	string	结果码(具体见SDK&API错误码查询)
data	json	详见data说明
desc	string	描述
sid	string	会话ID

其中sid字段主要用于追查问题，如果出现问题，可以提供sid给讯飞技术人员帮助确认问题。

data各字段说明如下：

参数	类型	说明
block	对象数组	区域块信息
type	string	区域块类型（text-文本，image-图片）
line	对象数组	行信息
word	对象数组	字（中文），单词（英文）
content	string	内容
confidence	float	后验概率
location	对象	位置信息
top_left	对象	左上角位置信息
right_bottom	对象	右下角位置信息
x	int	对应点的横坐标（像素）
y	int	对应点的纵坐标（像素）

示例如下：

失败：

    {
        "code": "10106",
        "desc": "invalid parameter|invalid X-Appid",
        "data": "",
        "sid": "wcr0000bb3f@ch3d5c059d83b3477200"
    }

成功

含位置信息

	{
	    "code": "0",
	    "data": {
	        "block": [
	            {
	                "line": [
	                    {
	                        "confidence": 1,
	                        "word": [
	                            {
	                                "content": "I'm",
	                                "location": {
	                                    "right_bottom": {
	                                        "y": 28,
	                                        "x": 18
	                                    },
	                                    "top_left": {
	                                        "y": 0,
	                                        "x": 0
	                                    }
	                                }
	                            }
	                        ],
	                        "location": {
	                            "right_bottom": {
	                                "y": 28,
	                                "x": 478
	                            },
	                            "top_left": {
	                                "y": 0,
	                                "x": 0
	                            }
	                        }
	                    }
	                ],
	                "type": "text"
	            }
	        ]
	    },
	    "sid": "wcr00000009@ch0fc40d9e4cdf000100",
	    "desc": "success"
	}

不含位置信息

	{
        "code":"0",
        "data":{
            "block":[
                {
                    "line":[
                        {
                            "confidence":1,
                            "word":[
                                {
                                    "content":"I'm"
                                }
                            ]
                        }
                    ],
                    "type":"text"
                }
            ]
        },
        "sid":"wcr00000008@ch0fc40d9e4c73000100",
        "desc":"success"
    }

调用示例

常见问题

印刷文字识别主要功能是什么？

答：印刷文字识别基于深度神经网络模型的端到端文字识别系统，将图片（来源如扫描仪或数码相机）中的印刷字体转化为计算机可编码的文字。

印刷文字识别是否支持英文。

答：支持英文，以及中英文混合模式。

印刷文字识别是否支持有旋转方向的文字

答：支持文字与水平轴小于±15°夹角偏转。

印刷文字识别对输入图片有什么要求？

答：（1）像素要求：最短边至少15px，最长边最大4096px；（2）大小要求：<4MB；（3）格式要求：JPEG，PNG，BMP。

印刷文字识别能否识别竖排版的文字？

答：文字识别首先是按行进行分好，然后分别识别；不建议识别竖排版的文字，因为识别出来的文字排序是乱的。

印刷文字识别的收费价格是多少？怎么购买？

答：每个账号免费领取一次3000服务量有效期90天，套餐一:1w次服务量/350元/年，套餐二:10w次服务量/3200元/年，套餐三:100w次服务量/30000元/年，可在控制台对应服务--->实时用量--->购买服务量，套餐详细说明页。

在这篇文章中：

# 印刷文字识别 API 文档

# 接口说明

# 接口Demo

# 接口要求

# 接口调用流程

# 白名单

# 接口请求参数

# 请求头

# 授权认证

# 业务参数

# 请求体

# 接口返回参数

# 调用示例

# 常见问题

# 印刷文字识别主要功能是什么？

# 印刷文字识别是否支持英文。

# 印刷文字识别是否支持有旋转方向的文字

# 印刷文字识别对输入图片有什么要求？

# 印刷文字识别能否识别竖排版的文字？

# 印刷文字识别的收费价格是多少？怎么购买？