文档PDF内容提取API OCR图片文本文字识别API

PHP代码的请求示例页面下载:  https://bbs.songma.com/song/img/test-api.zip

 

API 请求示例

请求头:
X-User-ID: 1
X-API-Key: xxxx

方式: 本地文件上传

  • 支持的文件类型:png, jpg, jpeg, pdf, txt, csv, doc, docx, xls, xlsx, ppt, pptx
  • 最大文件大小:10 MB
  • 文件路径包含空格时需要用引号括起来
  • cURL 示例:
curl -X POST \
  https://bbs.songma.com/wp-json/tika-ocr/v1/recognize \
  -H 'X-API-Key:xxxxx ' \
  -H 'X-User-ID: 1' \
  -F 'file=@/path/to/your/file.pdf'
  • PHP 示例:
$curl = curl_init();
curl_setopt_array($curl, array(
  CURLOPT_URL => 'https://bbs.songma.com/wp-json/tika-ocr/v1/recognize',
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_POST => true,
  CURLOPT_HTTPHEADER => array(
    'X-API-Key: XXXXXXXX',
    'X-User-ID: 1'
  ),
  CURLOPT_POSTFIELDS => array(
    'file' => new CURLFile('/path/to/your/file.pdf')
  )
));
$response = curl_exec($curl);
curl_close($curl);

响应格式:

{
    "success": true,
    "text": "识别出的文本内容"
}

 

Windows命令行使用示例:

curl -X POST -H "X-API-Key:xxxxx " -H "X-User-ID: 1" -F file=@"文件路径" https://bbs.songma.com/wp-json/tika-ocr/v1/recognize

注意事项:

  • 文件路径包含空格时需要保留双引号,例如:-F file=@"D:\My Files\测试文档.docx"
  • 不要在 file=@ 外面加额外的引号
  • 使用完整的文件路径